Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ của Xu Ruifeng
The Hong Kong Polytechnic University
Computing
Ẩn danh
Luận án tiến sĩ
Năm xuất bản
Số trang
214
Thời gian đọc
33 phút
Lượt xem
0
Lượt tải
0
Phí lưu trữ
50 Point
Mục lục chi tiết
Certificate of Originality
Publications Arising from the Thesis
List Of Figures
1. Chapter 1 Introduction
1.1. Basic Concepts and Thesis Scope
1.2. Motivation and Problem Statement
1.3. Research Objectives and Thesis Scope
2. Chapter 2: Literature Review
2.1. Review of Automatic Collocation Extraction Techniques
2.1.1. Window-based Statistical Collocation Extraction Approach
2.1.2. Syntax-based Collocation Extraction Approach
2.1.3. Collocation Extraction using Semantic Information
2.2. Review of Automatic Shallow Parsing
2.2.1. Statistic-based Shallow Parsing
2.2.2. Rule-based Shallow Parsing
3. Chapter 3 Collocation Extraction Based on Lexical Statistics
4. Chapter 4 Collocation Extraction Based on Lexical Statistics
4.1. Preparation of Training Corpus and Answer Set
4.2. Applying Xtract to Chinese Collocation Extraction: CXtract
4.3. Improving CXtract: CXtractII
4.4. A New Collocation Extraction System: CXtract2
4.4.1. The Framework Design
4.4.2. Construct a Word Co-occurrence Database for CXtract2
4.5. Evaluation Of CXtract2
4.6. Evaluations of Statistical Collocation Extraction Algorithms
5. Chapter 5 Multi-Stage Collocation Extraction
5.1. Categorization of Chinese Collocations
5.2. Characteristic Analysis of Typical Collocations
5.3. The Design of A Multi-Stage Collocation Extraction System
5.3.1. Additional Feature Selections
5.3.2. Applying the Heuristic Rules to Eliminate Pseudo Collocations
5.3.3. The New Multi-stage Extraction Algorithm
5.3.4. Parameter Optimization based on Perceptron Training Rule
5.4. Experimental Results and Evaluations
5.4.1. Experimental Data Preparation
5.4.2. Experiments on Type 1 and Type 2 Collocation Extraction in Stage 3
5.4.3. Experiments on Weight Parameter Optimization
5.4.4. Experiments on Multi-stage Collocation Extraction of Stage 1-3
5.4.5. Experiments on Pseudo collocation Filtering by Using Heuristic Rules
5.4.6. Experiments on Evaluating the Complete Collocation Extraction System
5.5. Chapter Summarization
6. Chapter 6 The Design and Development of Chinese Shallow Treebank and Automatic Chunkers
6.1. The Design and Development of PolyU Treebank
6.1.1. Basic Concepts and Background of Shallow Treebank
6.3. Annotation Guideline Design
6.4. Implementation of the PolyU Treebank
6.5. Quality Assurance and Annotation Process
6.6. Contributions of PolyU Treebank
6.7. The Design and Development of Automatic Chunkers
6.7.1. Chunking Scope and Representation
6.7.2. Chunking with POS Features
6.7.3. Chunking with Lexicalized Features
6.7.4. Experiments and Evaluations
7. Chapter 7 Collocation Extraction Using Chunking Information
7.1. Syntactic Representation and Collocation Patterns Extraction
7.1.1. Syntactic Representation
7.2. Support Collocation Patterns Extraction
7.3. Reject Collocation Patterns Extraction
7.4. Incorporating Syntactic Patterns into Collocation Extraction
7.5. Experimental Results and Evaluations
7.6. An Overall Comparison
8. Chapter 8 Applying Collocations for Handwritten Character Recognition
8.1. Post-processing Techniques for Improving HCCR Systems
8.2. Applying Collocation Database in Post-processing Systems
8.3. Experimental Results
8.4. Chapter Summarization
9. Chapter 9 Conclusion and Future Work
Appendix 1 The POS Tag Set
Appendix 2 The DTD (Document Type Definition) File Content
Appendix 3 Examples of An Shallow Annotated Text
Appendix 4 Examples of Collocations
Appendix 5 Examples of Heuristic Rules for Pseudo Collocation Filtering
Tóm tắt nội dung
I. Tổng Quan Trích Xuất Cụm Từ Tiếng Trung Tự Động
Trích xuất cụm từ tiếng Trung (Chinese collocation extraction) là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên tiếng Trung. Cụm từ (collocation) là hiện tượng từ vựng mà hai hoặc nhiều từ thường xuyên kết hợp theo cách quy ước. Thông tin cụm từ đóng vai trò thiết yếu trong nhiều tác vụ NLP Chinese text như phân giải nghĩa từ, dịch máy và trích xuất thông tin. Các phương pháp hiện tại chủ yếu dựa trên thống kê với độ chính xác và độ phủ hạn chế. Nguyên nhân là các thuật toán trích xuất cụm từ không phân biệt tốt giữa sự xuất hiện cùng nhau của từ (word co-occurrences) và cụm từ thực sự (true collocations). Luận án tiến sĩ của Xu Ruifeng tại Đại học Bách khoa Hồng Kông nghiên cứu phương pháp cải thiện hiệu suất thuật toán trích xuất cụm từ. Nghiên cứu phân loại các loại cụm từ khác nhau và thiết kế thuật toán nhắm vào từng loại cụm từ cụ thể. Ngoài cải tiến phương pháp thống kê, nghiên cứu còn tích hợp thông tin cú pháp và ngữ nghĩa để nâng cao hiệu suất phân tích văn bản tiếng Trung.
1.1. Bối Cảnh Nghiên Cứu Xử Lý Ngôn Ngữ Tự Nhiên
Xử lý ngôn ngữ tự nhiên tiếng Trung đối mặt với nhiều thách thức độc đáo. Tiếng Trung không có khoảng trắng giữa các từ, tạo khó khăn cho phân đoạn từ tiếng Trung. Cụm từ trong tiếng Trung có tính quy ước cao và mang ý nghĩa cú pháp hoặc ngữ nghĩa đặc biệt. Các phương pháp thống kê truyền thống như TF-IDF tiếng Trung chưa đủ để xác định cụm từ chính xác. Cần kết hợp nhiều đặc trưng ngôn ngữ học để cải thiện kết quả.
1.2. Mục Tiêu Nghiên Cứu Chính
Nghiên cứu nhằm cải thiện hiệu suất các thuật toán trích xuất cụm từ tiếng Trung. Mục tiêu cụ thể bao gồm phân loại các loại cụm từ khác nhau, thiết kế thuật toán riêng cho từng loại, và tích hợp thông tin cú pháp-ngữ nghĩa. Nghiên cứu xây dựng tập dữ liệu chuẩn để đánh giá khách quan các thuật toán. Kết quả được ứng dụng vào hệ thống nhận dạng chữ viết tay tiếng Trung để kiểm chứng tính thực tiễn.
1.3. Ý Nghĩa Thực Tiễn Của Nghiên Cứu
Trích xuất cụm từ cải thiện nhiều ứng dụng NLP Chinese text thực tế. Thông tin cụm từ giúp nâng cao độ chính xác dịch máy bằng cách nhận diện các tổ hợp từ cố định. Trong phân giải nghĩa từ, cụm từ cung cấp ngữ cảnh quan trọng. Hệ thống nhận dạng ký tự tiếng Trung sử dụng cụm từ để hiệu chỉnh kết quả. Các ứng dụng tìm kiếm thông tin và truy xuất văn bản cũng hưởng lợi từ việc xác định cụm từ chính xác.
II. Phương Pháp Thống Kê Trong Trích Xuất Cụm Từ
Các thuật toán trích xuất cụm từ dựa trên thống kê là nền tảng của nghiên cứu này. Nghiên cứu đề xuất thuật toán mới dựa trên bi-gram hai chiều (bi-directional word bi-grams) để xác định cụm từ có tần suất xuất hiện thấp nhưng sử dụng cố định. Phương pháp n-gram tiếng Trung truyền thống gặp khó khăn với các cụm từ hiếm gặp. Thuật toán mới phân tích mối quan hệ từ theo cả hai hướng để cải thiện độ nhạy. Nghiên cứu xây dựng tập dữ liệu câu trả lời chuẩn quy mô lớn cho cụm từ tiếng Trung. Tập dữ liệu này cho phép đánh giá và so sánh khách quan các thuật toán sử dụng cùng corpus tiếng Trung huấn luyện. Cụm từ được phân loại thành bốn loại dựa trên tính tổng hợp (compositionality), tính thay thế (substitutability), tính sửa đổi (modifiability) và liên kết nội bộ (internal association). Hệ thống trích xuất đa giai đoạn dựa trên cửa sổ (multi-stage window-based) được xây dựng để xử lý từng loại cụm từ riêng biệt.
2.1. Thuật Toán Bi gram Hai Chiều
Thuật toán bi-gram hai chiều là đóng góp quan trọng của nghiên cứu. Phương pháp truyền thống chỉ xét tần suất xuất hiện cùng nhau của hai từ. Thuật toán mới phân tích cả mối quan hệ từ trái sang phải và phải sang trái. Điều này giúp phát hiện cụm từ có tần suất thấp nhưng có tính cố định cao. TextRank algorithm và RAKE algorithm không hiệu quả với các cụm từ hiếm. Bi-gram hai chiều khắc phục hạn chế này bằng cách đánh giá độ mạnh liên kết theo cả hai hướng.
2.2. Xây Dựng Tập Dữ Liệu Chuẩn
Tập dữ liệu câu trả lời chuẩn quy mô lớn là công cụ đánh giá quan trọng. Trước đây, các nghiên cứu sử dụng corpus tiếng Trung và tiêu chí đánh giá khác nhau, khó so sánh kết quả. Nghiên cứu này xây dựng tập dữ liệu thống nhất với các cụm từ được gán nhãn thủ công. Tập dữ liệu bao gồm nhiều loại cụm từ với đặc điểm đa dạng. Các thuật toán có thể được đánh giá khách quan trên cùng một chuẩn.
2.3. Phân Loại Cụm Từ Theo Đặc Trưng
Cụm từ được phân thành bốn loại dựa trên bốn đặc trưng chính. Tính tổng hợp đo mức độ ý nghĩa của cụm từ có thể suy ra từ các thành phần. Tính thay thế đánh giá khả năng thay thế các thành phần trong cụm từ. Tính sửa đổi xem xét liệu cụm từ có thể được điều chỉnh bằng từ khác. Liên kết nội bộ đo độ mạnh mối quan hệ giữa các thành phần. Mỗi loại cụm từ yêu cầu chiến lược trích xuất riêng biệt.
III. Hệ Thống Trích Xuất Đa Giai Đoạn Dựa Cửa Sổ
Hệ thống trích xuất cụm từ đa giai đoạn dựa trên cửa sổ là kiến trúc cốt lõi của nghiên cứu. Hệ thống xử lý các cụm từ n-gram và bi-gram khác nhau trong các giai đoạn riêng biệt. Mỗi giai đoạn sử dụng chiến lược và đặc trưng phân biệt phù hợp với loại cụm từ cụ thể. Phương pháp cửa sổ trượt cho phép quét văn bản một cách có hệ thống. Kích thước cửa sổ được điều chỉnh theo độ dài cụm từ mục tiêu. Các đặc trưng thống kê như tần suất, độ đo liên kết và thông tin tương hỗ được tính toán trong từng cửa sổ. Hệ thống áp dụng ngưỡng khác nhau cho từng loại cụm từ dựa trên đặc điểm của chúng. Cách tiếp cận đa giai đoạn giúp tối ưu hóa hiệu suất cho từng nhóm cụm từ. Kết quả từ các giai đoạn được tổng hợp để tạo danh sách cụm từ cuối cùng. Phương pháp này cải thiện đáng kể độ chính xác và độ phủ so với các thuật toán một giai đoạn truyền thống.
3.1. Kiến Trúc Hệ Thống Đa Giai Đoạn
Hệ thống được chia thành nhiều giai đoạn xử lý tuần tự. Giai đoạn đầu xử lý cụm từ n-gram với n lớn hơn 2. Giai đoạn tiếp theo tập trung vào các loại bi-gram khác nhau. Mỗi giai đoạn có bộ lọc và tiêu chí riêng. Kiến trúc module cho phép dễ dàng điều chỉnh và mở rộng. Kết quả từ giai đoạn trước có thể được sử dụng làm đầu vào cho giai đoạn sau.
3.2. Chiến Lược Cửa Sổ Trượt
Phương pháp cửa sổ trượt quét văn bản một cách có hệ thống. Kích thước cửa sổ được điều chỉnh động theo loại cụm từ. Cửa sổ di chuyển từng từ hoặc từng đơn vị nhỏ hơn. Trong mỗi vị trí cửa sổ, các đặc trưng thống kê được tính toán. Phương pháp này đảm bảo không bỏ sót các ứng viên cụm từ tiềm năng. Tốc độ xử lý được tối ưu bằng kỹ thuật lưu trữ tạm.
3.3. Đặc Trưng Phân Biệt Cho Từng Loại
Mỗi loại cụm từ sử dụng tập đặc trưng phân biệt riêng. Cụm từ cố định tập trung vào tần suất xuất hiện cùng nhau. Cụm từ linh hoạt xem xét khả năng biến đổi. Đặc trưng ngữ nghĩa được sử dụng cho cụm từ thành ngữ. Trọng số các đặc trưng được học từ dữ liệu huấn luyện. Kết hợp đa đặc trưng cải thiện khả năng phân biệt.
IV. PolyU Treebank Và Phân Tích Cú Pháp Nông
PolyU Treebank là ngân hàng cây cú pháp nông tiếng Trung được gán nhãn thủ công trong nghiên cứu này. Treebank cung cấp kiến thức cú pháp và ngữ nghĩa để hỗ trợ trích xuất cụm từ. Dữ liệu được chú thích thủ công bởi các chuyên gia ngôn ngữ học. Treebank được sử dụng để huấn luyện bộ phân đoạn (chunker) dựa trên mô hình Markov ẩn từ vựng hóa (lexicalized Hidden Markov Model). Chunker cung cấp phương pháp xử lý văn bản chạy (running text) cho trích xuất cụm từ. Mô hình HMM từ vựng hóa kết hợp thông tin từ vựng cụ thể vào quá trình phân tích. Điều này cải thiện độ chính xác phân đoạn so với HMM truyền thống. Các mẫu cụm từ hỗ trợ (support collocation patterns) và mẫu từ chối (reject collocation patterns) được trích xuất từ treebank. Các mẫu này cung cấp đặc trưng cú pháp để lọc ứng viên cụm từ. Kết hợp thông tin cú pháp với đặc trưng thống kê nâng cao hiệu suất tổng thể.
4.1. Xây Dựng PolyU Treebank
PolyU Treebank là tài nguyên ngôn ngữ quan trọng cho tiếng Trung. Treebank được gán nhãn thủ công với cấu trúc cú pháp nông. Các chuyên gia ngôn ngữ học đảm bảo chất lượng chú thích. Treebank bao gồm nhiều thể loại văn bản đa dạng. Dữ liệu được cấu trúc theo chuẩn phân tích cú pháp chunk. Treebank này là nguồn huấn luyện cho các mô hình phân tích cú pháp.
4.2. Mô Hình HMM Từ Vựng Hóa
Mô hình Markov ẩn từ vựng hóa là cải tiến của HMM truyền thống. Mô hình kết hợp thông tin từ cụ thể vào tham số. Điều này cho phép mô hình học các mẫu từ vựng đặc trưng. Chunker dựa trên HMM từ vựng hóa phân đoạn văn bản thành các chunk. Độ chính xác phân đoạn cao hơn đáng kể so với phương pháp không từ vựng hóa. Chunker cung cấp đầu vào có cấu trúc cho trích xuất cụm từ.
4.3. Trích Xuất Mẫu Cụm Từ
Mẫu cụm từ hỗ trợ và từ chối được trích xuất từ treebank chú thích. Mẫu hỗ trợ chỉ ra cấu trúc cú pháp điển hình của cụm từ thực. Mẫu từ chối xác định cấu trúc không phải cụm từ. Các mẫu này được biểu diễn dưới dạng quy tắc cú pháp. Mẫu được áp dụng để lọc ứng viên cụm từ từ văn bản đã phân tích. Phương pháp này giảm đáng kể số lượng cụm từ giả.
V. Tích Hợp Đặc Trưng Cú Pháp Vào Trích Xuất
Đặc trưng cú pháp được tích hợp vào hệ thống trích xuất để cải thiện hiệu suất. Các mẫu cụm từ hỗ trợ và từ chối từ treebank được sử dụng làm bộ lọc. Văn bản chạy được phân tích bằng chunker trước khi trích xuất. Thông tin cấu trúc cú pháp giúp phân biệt cụm từ thực từ sự xuất hiện cùng nhau ngẫu nhiên. Kết quả thực nghiệm cho thấy việc sử dụng mẫu cú pháp cải thiện đáng kể hiệu suất. Độ chính xác tăng đặc biệt trong việc lọc cụm từ giả (pseudo collocations). Cụm từ giả là các tổ hợp từ có tần suất cao nhưng không phải cụm từ thực sự. Đặc trưng cú pháp cung cấp tiêu chí ngôn ngữ học để loại bỏ chúng. Kết hợp đặc trưng thống kê và cú pháp tạo ra hệ thống lai mạnh mẽ. Phương pháp này vượt trội hơn các phương pháp chỉ dựa trên thống kê hoặc chỉ dựa trên quy tắc.
5.1. Quy Trình Tích Hợp Đặc Trưng
Quy trình tích hợp bắt đầu với phân tích cú pháp văn bản đầu vào. Chunker xử lý văn bản và tạo cấu trúc chunk. Ứng viên cụm từ được trích xuất từ văn bản đã phân tích. Đặc trưng thống kê được tính toán cho mỗi ứng viên. Mẫu cú pháp hỗ trợ được áp dụng để xác nhận ứng viên. Mẫu từ chối được sử dụng để loại bỏ cụm từ giả.
5.2. Lọc Cụm Từ Giả Hiệu Quả
Cụm từ giả là vấn đề lớn trong trích xuất dựa thống kê. Các từ xuất hiện cùng nhau thường xuyên không nhất thiết là cụm từ. Đặc trưng cú pháp cung cấp tiêu chí ngôn ngữ học chặt chẽ. Mẫu từ chối xác định cấu trúc không hợp lệ cho cụm từ. Phương pháp này giảm tỷ lệ dương tính giả đáng kể. Độ chính xác hệ thống tăng mà không giảm độ phủ.
5.3. Kết Quả Thực Nghiệm Cải Thiện
Thực nghiệm được tiến hành trên corpus tiếng Trung chuẩn. Hệ thống tích hợp cú pháp vượt trội hơn hệ thống chỉ dùng thống kê. Độ chính xác tăng từ 10% đến 20% tùy loại cụm từ. Cải thiện đặc biệt rõ rệt trong lọc cụm từ giả. Độ phủ được duy trì ở mức cao nhờ phương pháp đa giai đoạn. Kết quả chứng minh hiệu quả của việc kết hợp nhiều nguồn tri thức.
VI. Ứng Dụng Trong Nhận Dạng Chữ Viết Tay Tiếng Trung
Cụm từ được trích xuất được áp dụng vào hệ thống nhận dạng chữ viết tay tiếng Trung. Ứng dụng này kiểm chứng giá trị thực tiễn của nghiên cứu. Thông tin cụm từ được sử dụng trong giai đoạn hậu xử lý (post-processing) của hệ thống nhận dạng. Hệ thống nhận dạng ký tự thường tạo ra nhiều ứng viên cho mỗi ký tự viết tay. Cụm từ giúp chọn ứng viên đúng bằng cách ưu tiên các tổ hợp từ hợp lệ. Thực nghiệm chỉ ra rằng thông tin cụm từ cải thiện độ chính xác nhận dạng. Tỷ lệ lỗi nhận dạng giảm khi sử dụng kiến thức cụm từ. Điều này chứng minh cụm từ có thể được sử dụng trong ứng dụng thực tế. Nghiên cứu mở ra hướng áp dụng cho nhiều tác vụ NLP khác. Kết quả khuyến khích nghiên cứu thêm về tích hợp cụm từ vào các hệ thống ngôn ngữ. Ứng dụng thành công xác nhận tầm quan trọng của trích xuất cụm từ chính xác.
6.1. Tích Hợp Vào Hệ Thống Nhận Dạng
Thông tin cụm từ được tích hợp vào giai đoạn hậu xử lý. Hệ thống nhận dạng tạo danh sách ứng viên cho mỗi ký tự. Mô-đun cụm từ đánh giá các tổ hợp ứng viên. Tổ hợp tạo thành cụm từ hợp lệ được ưu tiên. Điểm số nhận dạng được điều chỉnh dựa trên thông tin cụm từ. Phương pháp này cải thiện lựa chọn ứng viên cuối cùng.
6.2. Kết Quả Thực Nghiệm Ứng Dụng
Thực nghiệm được tiến hành trên tập dữ liệu chữ viết tay chuẩn. Hệ thống có cụm từ cho độ chính xác cao hơn hệ thống không có. Tỷ lệ lỗi nhận dạng giảm từ 5% đến 15%. Cải thiện đặc biệt rõ với các ký tự tương tự nhau. Cụm từ cung cấp ngữ cảnh để phân biệt các ký tự dễ nhầm. Kết quả xác nhận giá trị thực tiễn của nghiên cứu.
6.3. Tiềm Năng Ứng Dụng Rộng Hơn
Thông tin cụm từ có thể áp dụng cho nhiều tác vụ NLP. Dịch máy hưởng lợi từ việc nhận diện đơn vị dịch. Phân giải nghĩa từ sử dụng cụm từ làm đặc trưng ngữ cảnh. Tìm kiếm thông tin cải thiện bằng cách xử lý cụm từ như đơn vị. Trích xuất thông tin nhận diện quan hệ thực thể qua cụm từ. Nghiên cứu mở ra nhiều hướng ứng dụng tiềm năng.
Tải xuống file đầy đủ để xem toàn bộ nội dung
Tải đầy đủ (214 trang)Từ khóa và chủ đề nghiên cứu
Câu hỏi thường gặp
Luận án tiến sĩ về trích xuất cụm từ tiếng Trung tự động. Kết hợp thuật toán thống kê, cú pháp và ngữ nghĩa. Ứng dụng trong nhận dạng ký tự và xử lý ngôn ngữ tự nhiên.
Luận án này được bảo vệ tại The Hong Kong Polytechnic University. Năm bảo vệ: 2006.
Luận án "Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ" thuộc chuyên ngành Computing. Danh mục: Khoa Học Máy Tính.
Luận án "Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ" có 214 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.
Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.