Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ

Xu Ruifeng

Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ của Xu Ruifeng

Luận án tiến sĩ về trích xuất cụm từ tiếng Trung tự động. Kết hợp thuật toán thống kê, cú pháp và ngữ nghĩa. Ứng dụng trong nhận dạng ký tự và xử lý ngôn ngữ tự nhiên.

Trường ĐH

The Hong Kong Polytechnic University

Chuyên ngành

Computing

Tác giả

Luan An

Thể loại

Luận án tiến sĩ

Năm xuất bản

2006

Số trang

214

Thời gian đọc

33 phút

Lượt xem

0

Lượt tải

0

Phí lưu trữ

50 Point

Certificate of Originality

Publications Arising from the Thesis

List Of Figures

1. Chapter 1 Introduction

1.1. Basic Concepts and Thesis Scope

1.2. Motivation and Problem Statement

1.3. Research Objectives and Thesis Scope

2. Chapter 2: Literature Review

2.1. Review of Automatic Collocation Extraction Techniques

2.1.1. Window-based Statistical Collocation Extraction Approach

2.1.2. Syntax-based Collocation Extraction Approach

2.1.3. Collocation Extraction using Semantic Information

2.2. Review of Automatic Shallow Parsing

2.2.1. Statistic-based Shallow Parsing

2.2.2. Rule-based Shallow Parsing

3. Chapter 3 Collocation Extraction Based on Lexical Statistics

4. Chapter 4 Collocation Extraction Based on Lexical Statistics

4.1. Preparation of Training Corpus and Answer Set

4.2. Applying Xtract to Chinese Collocation Extraction: CXtract

4.3. Improving CXtract: CXtractII

4.4. A New Collocation Extraction System: CXtract2

4.4.1. The Framework Design

4.4.2. Construct a Word Co-occurrence Database for CXtract2

4.5. Evaluation Of CXtract2

4.6. Evaluations of Statistical Collocation Extraction Algorithms

5. Chapter 5 Multi-Stage Collocation Extraction

5.1. Categorization of Chinese Collocations

5.2. Characteristic Analysis of Typical Collocations

5.3. The Design of A Multi-Stage Collocation Extraction System

5.3.1. Additional Feature Selections

5.3.2. Applying the Heuristic Rules to Eliminate Pseudo Collocations

5.3.3. The New Multi-stage Extraction Algorithm

5.3.4. Parameter Optimization based on Perceptron Training Rule

5.4. Experimental Results and Evaluations

5.4.1. Experimental Data Preparation

5.4.2. Experiments on Type 1 and Type 2 Collocation Extraction in Stage 3

5.4.3. Experiments on Weight Parameter Optimization

5.4.4. Experiments on Multi-stage Collocation Extraction of Stage 1-3

5.4.5. Experiments on Pseudo collocation Filtering by Using Heuristic Rules

5.4.6. Experiments on Evaluating the Complete Collocation Extraction System

5.5. Chapter Summarization

6. Chapter 6 The Design and Development of Chinese Shallow Treebank and Automatic Chunkers

6.1. The Design and Development of PolyU Treebank

6.1.1. Basic Concepts and Background of Shallow Treebank

6.3. Annotation Guideline Design

6.4. Implementation of the PolyU Treebank

6.5. Quality Assurance and Annotation Process

6.6. Contributions of PolyU Treebank

6.7. The Design and Development of Automatic Chunkers

6.7.1. Chunking Scope and Representation

6.7.2. Chunking with POS Features

6.7.3. Chunking with Lexicalized Features

6.7.4. Experiments and Evaluations

7. Chapter 7 Collocation Extraction Using Chunking Information

7.1. Syntactic Representation and Collocation Patterns Extraction

7.1.1. Syntactic Representation

7.2. Support Collocation Patterns Extraction

7.3. Reject Collocation Patterns Extraction

7.4. Incorporating Syntactic Patterns into Collocation Extraction

7.5. Experimental Results and Evaluations

7.6. An Overall Comparison

8. Chapter 8 Applying Collocations for Handwritten Character Recognition

8.1. Post-processing Techniques for Improving HCCR Systems

8.2. Applying Collocation Database in Post-processing Systems

8.3. Experimental Results

8.4. Chapter Summarization

9. Chapter 9 Conclusion and Future Work

Appendix 1 The POS Tag Set

Appendix 2 The DTD (Document Type Definition) File Content

Appendix 3 Examples of An Shallow Annotated Text

Appendix 4 Examples of Collocations

Appendix 5 Examples of Heuristic Rules for Pseudo Collocation Filtering

I. Tổng Quan Trích Xuất Cụm Từ Tiếng Trung Tự Động

Trích xuất cụm từ tiếng Trung (Chinese collocation extraction) là một lĩnh vực quan trọng trong xử lý ngôn ngữ tự nhiên tiếng Trung. Cụm từ (collocation) là hiện tượng từ vựng mà hai hoặc nhiều từ thường xuyên kết hợp theo cách quy ước. Thông tin cụm từ đóng vai trò thiết yếu trong nhiều tác vụ NLP Chinese text như phân giải nghĩa từ, dịch máy và trích xuất thông tin. Các phương pháp hiện tại chủ yếu dựa trên thống kê với độ chính xác và độ phủ hạn chế. Nguyên nhân là các thuật toán trích xuất cụm từ không phân biệt tốt giữa sự xuất hiện cùng nhau của từ (word co-occurrences) và cụm từ thực sự (true collocations). Luận án tiến sĩ của Xu Ruifeng tại Đại học Bách khoa Hồng Kông nghiên cứu phương pháp cải thiện hiệu suất thuật toán trích xuất cụm từ. Nghiên cứu phân loại các loại cụm từ khác nhau và thiết kế thuật toán nhắm vào từng loại cụm từ cụ thể. Ngoài cải tiến phương pháp thống kê, nghiên cứu còn tích hợp thông tin cú pháp và ngữ nghĩa để nâng cao hiệu suất phân tích văn bản tiếng Trung.

1.1. Bối Cảnh Nghiên Cứu Xử Lý Ngôn Ngữ Tự Nhiên

Xử lý ngôn ngữ tự nhiên tiếng Trung đối mặt với nhiều thách thức độc đáo. Tiếng Trung không có khoảng trắng giữa các từ, tạo khó khăn cho phân đoạn từ tiếng Trung. Cụm từ trong tiếng Trung có tính quy ước cao và mang ý nghĩa cú pháp hoặc ngữ nghĩa đặc biệt. Các phương pháp thống kê truyền thống như TF-IDF tiếng Trung chưa đủ để xác định cụm từ chính xác. Cần kết hợp nhiều đặc trưng ngôn ngữ học để cải thiện kết quả.

1.2. Mục Tiêu Nghiên Cứu Chính

Nghiên cứu nhằm cải thiện hiệu suất các thuật toán trích xuất cụm từ tiếng Trung. Mục tiêu cụ thể bao gồm phân loại các loại cụm từ khác nhau, thiết kế thuật toán riêng cho từng loại, và tích hợp thông tin cú pháp-ngữ nghĩa. Nghiên cứu xây dựng tập dữ liệu chuẩn để đánh giá khách quan các thuật toán. Kết quả được ứng dụng vào hệ thống nhận dạng chữ viết tay tiếng Trung để kiểm chứng tính thực tiễn.

1.3. Ý Nghĩa Thực Tiễn Của Nghiên Cứu

Trích xuất cụm từ cải thiện nhiều ứng dụng NLP Chinese text thực tế. Thông tin cụm từ giúp nâng cao độ chính xác dịch máy bằng cách nhận diện các tổ hợp từ cố định. Trong phân giải nghĩa từ, cụm từ cung cấp ngữ cảnh quan trọng. Hệ thống nhận dạng ký tự tiếng Trung sử dụng cụm từ để hiệu chỉnh kết quả. Các ứng dụng tìm kiếm thông tin và truy xuất văn bản cũng hưởng lợi từ việc xác định cụm từ chính xác.

II. Phương Pháp Thống Kê Trong Trích Xuất Cụm Từ

Các thuật toán trích xuất cụm từ dựa trên thống kê là nền tảng của nghiên cứu này. Nghiên cứu đề xuất thuật toán mới dựa trên bi-gram hai chiều (bi-directional word bi-grams) để xác định cụm từ có tần suất xuất hiện thấp nhưng sử dụng cố định. Phương pháp n-gram tiếng Trung truyền thống gặp khó khăn với các cụm từ hiếm gặp. Thuật toán mới phân tích mối quan hệ từ theo cả hai hướng để cải thiện độ nhạy. Nghiên cứu xây dựng tập dữ liệu câu trả lời chuẩn quy mô lớn cho cụm từ tiếng Trung. Tập dữ liệu này cho phép đánh giá và so sánh khách quan các thuật toán sử dụng cùng corpus tiếng Trung huấn luyện. Cụm từ được phân loại thành bốn loại dựa trên tính tổng hợp (compositionality), tính thay thế (substitutability), tính sửa đổi (modifiability) và liên kết nội bộ (internal association). Hệ thống trích xuất đa giai đoạn dựa trên cửa sổ (multi-stage window-based) được xây dựng để xử lý từng loại cụm từ riêng biệt.

2.1. Thuật Toán Bi gram Hai Chiều

Thuật toán bi-gram hai chiều là đóng góp quan trọng của nghiên cứu. Phương pháp truyền thống chỉ xét tần suất xuất hiện cùng nhau của hai từ. Thuật toán mới phân tích cả mối quan hệ từ trái sang phải và phải sang trái. Điều này giúp phát hiện cụm từ có tần suất thấp nhưng có tính cố định cao. TextRank algorithm và RAKE algorithm không hiệu quả với các cụm từ hiếm. Bi-gram hai chiều khắc phục hạn chế này bằng cách đánh giá độ mạnh liên kết theo cả hai hướng.

2.2. Xây Dựng Tập Dữ Liệu Chuẩn

Tập dữ liệu câu trả lời chuẩn quy mô lớn là công cụ đánh giá quan trọng. Trước đây, các nghiên cứu sử dụng corpus tiếng Trung và tiêu chí đánh giá khác nhau, khó so sánh kết quả. Nghiên cứu này xây dựng tập dữ liệu thống nhất với các cụm từ được gán nhãn thủ công. Tập dữ liệu bao gồm nhiều loại cụm từ với đặc điểm đa dạng. Các thuật toán có thể được đánh giá khách quan trên cùng một chuẩn.

2.3. Phân Loại Cụm Từ Theo Đặc Trưng

Cụm từ được phân thành bốn loại dựa trên bốn đặc trưng chính. Tính tổng hợp đo mức độ ý nghĩa của cụm từ có thể suy ra từ các thành phần. Tính thay thế đánh giá khả năng thay thế các thành phần trong cụm từ. Tính sửa đổi xem xét liệu cụm từ có thể được điều chỉnh bằng từ khác. Liên kết nội bộ đo độ mạnh mối quan hệ giữa các thành phần. Mỗi loại cụm từ yêu cầu chiến lược trích xuất riêng biệt.

III. Hệ Thống Trích Xuất Đa Giai Đoạn Dựa Cửa Sổ

Hệ thống trích xuất cụm từ đa giai đoạn dựa trên cửa sổ là kiến trúc cốt lõi của nghiên cứu. Hệ thống xử lý các cụm từ n-gram và bi-gram khác nhau trong các giai đoạn riêng biệt. Mỗi giai đoạn sử dụng chiến lược và đặc trưng phân biệt phù hợp với loại cụm từ cụ thể. Phương pháp cửa sổ trượt cho phép quét văn bản một cách có hệ thống. Kích thước cửa sổ được điều chỉnh theo độ dài cụm từ mục tiêu. Các đặc trưng thống kê như tần suất, độ đo liên kết và thông tin tương hỗ được tính toán trong từng cửa sổ. Hệ thống áp dụng ngưỡng khác nhau cho từng loại cụm từ dựa trên đặc điểm của chúng. Cách tiếp cận đa giai đoạn giúp tối ưu hóa hiệu suất cho từng nhóm cụm từ. Kết quả từ các giai đoạn được tổng hợp để tạo danh sách cụm từ cuối cùng. Phương pháp này cải thiện đáng kể độ chính xác và độ phủ so với các thuật toán một giai đoạn truyền thống.

3.1. Kiến Trúc Hệ Thống Đa Giai Đoạn

Hệ thống được chia thành nhiều giai đoạn xử lý tuần tự. Giai đoạn đầu xử lý cụm từ n-gram với n lớn hơn 2. Giai đoạn tiếp theo tập trung vào các loại bi-gram khác nhau. Mỗi giai đoạn có bộ lọc và tiêu chí riêng. Kiến trúc module cho phép dễ dàng điều chỉnh và mở rộng. Kết quả từ giai đoạn trước có thể được sử dụng làm đầu vào cho giai đoạn sau.

3.2. Chiến Lược Cửa Sổ Trượt

Phương pháp cửa sổ trượt quét văn bản một cách có hệ thống. Kích thước cửa sổ được điều chỉnh động theo loại cụm từ. Cửa sổ di chuyển từng từ hoặc từng đơn vị nhỏ hơn. Trong mỗi vị trí cửa sổ, các đặc trưng thống kê được tính toán. Phương pháp này đảm bảo không bỏ sót các ứng viên cụm từ tiềm năng. Tốc độ xử lý được tối ưu bằng kỹ thuật lưu trữ tạm.

3.3. Đặc Trưng Phân Biệt Cho Từng Loại

Mỗi loại cụm từ sử dụng tập đặc trưng phân biệt riêng. Cụm từ cố định tập trung vào tần suất xuất hiện cùng nhau. Cụm từ linh hoạt xem xét khả năng biến đổi. Đặc trưng ngữ nghĩa được sử dụng cho cụm từ thành ngữ. Trọng số các đặc trưng được học từ dữ liệu huấn luyện. Kết hợp đa đặc trưng cải thiện khả năng phân biệt.

IV. PolyU Treebank Và Phân Tích Cú Pháp Nông

PolyU Treebank là ngân hàng cây cú pháp nông tiếng Trung được gán nhãn thủ công trong nghiên cứu này. Treebank cung cấp kiến thức cú pháp và ngữ nghĩa để hỗ trợ trích xuất cụm từ. Dữ liệu được chú thích thủ công bởi các chuyên gia ngôn ngữ học. Treebank được sử dụng để huấn luyện bộ phân đoạn (chunker) dựa trên mô hình Markov ẩn từ vựng hóa (lexicalized Hidden Markov Model). Chunker cung cấp phương pháp xử lý văn bản chạy (running text) cho trích xuất cụm từ. Mô hình HMM từ vựng hóa kết hợp thông tin từ vựng cụ thể vào quá trình phân tích. Điều này cải thiện độ chính xác phân đoạn so với HMM truyền thống. Các mẫu cụm từ hỗ trợ (support collocation patterns) và mẫu từ chối (reject collocation patterns) được trích xuất từ treebank. Các mẫu này cung cấp đặc trưng cú pháp để lọc ứng viên cụm từ. Kết hợp thông tin cú pháp với đặc trưng thống kê nâng cao hiệu suất tổng thể.

4.1. Xây Dựng PolyU Treebank

PolyU Treebank là tài nguyên ngôn ngữ quan trọng cho tiếng Trung. Treebank được gán nhãn thủ công với cấu trúc cú pháp nông. Các chuyên gia ngôn ngữ học đảm bảo chất lượng chú thích. Treebank bao gồm nhiều thể loại văn bản đa dạng. Dữ liệu được cấu trúc theo chuẩn phân tích cú pháp chunk. Treebank này là nguồn huấn luyện cho các mô hình phân tích cú pháp.

4.2. Mô Hình HMM Từ Vựng Hóa

Mô hình Markov ẩn từ vựng hóa là cải tiến của HMM truyền thống. Mô hình kết hợp thông tin từ cụ thể vào tham số. Điều này cho phép mô hình học các mẫu từ vựng đặc trưng. Chunker dựa trên HMM từ vựng hóa phân đoạn văn bản thành các chunk. Độ chính xác phân đoạn cao hơn đáng kể so với phương pháp không từ vựng hóa. Chunker cung cấp đầu vào có cấu trúc cho trích xuất cụm từ.

4.3. Trích Xuất Mẫu Cụm Từ

Mẫu cụm từ hỗ trợ và từ chối được trích xuất từ treebank chú thích. Mẫu hỗ trợ chỉ ra cấu trúc cú pháp điển hình của cụm từ thực. Mẫu từ chối xác định cấu trúc không phải cụm từ. Các mẫu này được biểu diễn dưới dạng quy tắc cú pháp. Mẫu được áp dụng để lọc ứng viên cụm từ từ văn bản đã phân tích. Phương pháp này giảm đáng kể số lượng cụm từ giả.

V. Tích Hợp Đặc Trưng Cú Pháp Vào Trích Xuất

Đặc trưng cú pháp được tích hợp vào hệ thống trích xuất để cải thiện hiệu suất. Các mẫu cụm từ hỗ trợ và từ chối từ treebank được sử dụng làm bộ lọc. Văn bản chạy được phân tích bằng chunker trước khi trích xuất. Thông tin cấu trúc cú pháp giúp phân biệt cụm từ thực từ sự xuất hiện cùng nhau ngẫu nhiên. Kết quả thực nghiệm cho thấy việc sử dụng mẫu cú pháp cải thiện đáng kể hiệu suất. Độ chính xác tăng đặc biệt trong việc lọc cụm từ giả (pseudo collocations). Cụm từ giả là các tổ hợp từ có tần suất cao nhưng không phải cụm từ thực sự. Đặc trưng cú pháp cung cấp tiêu chí ngôn ngữ học để loại bỏ chúng. Kết hợp đặc trưng thống kê và cú pháp tạo ra hệ thống lai mạnh mẽ. Phương pháp này vượt trội hơn các phương pháp chỉ dựa trên thống kê hoặc chỉ dựa trên quy tắc.

5.1. Quy Trình Tích Hợp Đặc Trưng

Quy trình tích hợp bắt đầu với phân tích cú pháp văn bản đầu vào. Chunker xử lý văn bản và tạo cấu trúc chunk. Ứng viên cụm từ được trích xuất từ văn bản đã phân tích. Đặc trưng thống kê được tính toán cho mỗi ứng viên. Mẫu cú pháp hỗ trợ được áp dụng để xác nhận ứng viên. Mẫu từ chối được sử dụng để loại bỏ cụm từ giả.

5.2. Lọc Cụm Từ Giả Hiệu Quả

Cụm từ giả là vấn đề lớn trong trích xuất dựa thống kê. Các từ xuất hiện cùng nhau thường xuyên không nhất thiết là cụm từ. Đặc trưng cú pháp cung cấp tiêu chí ngôn ngữ học chặt chẽ. Mẫu từ chối xác định cấu trúc không hợp lệ cho cụm từ. Phương pháp này giảm tỷ lệ dương tính giả đáng kể. Độ chính xác hệ thống tăng mà không giảm độ phủ.

5.3. Kết Quả Thực Nghiệm Cải Thiện

Thực nghiệm được tiến hành trên corpus tiếng Trung chuẩn. Hệ thống tích hợp cú pháp vượt trội hơn hệ thống chỉ dùng thống kê. Độ chính xác tăng từ 10% đến 20% tùy loại cụm từ. Cải thiện đặc biệt rõ rệt trong lọc cụm từ giả. Độ phủ được duy trì ở mức cao nhờ phương pháp đa giai đoạn. Kết quả chứng minh hiệu quả của việc kết hợp nhiều nguồn tri thức.

VI. Ứng Dụng Trong Nhận Dạng Chữ Viết Tay Tiếng Trung

Cụm từ được trích xuất được áp dụng vào hệ thống nhận dạng chữ viết tay tiếng Trung. Ứng dụng này kiểm chứng giá trị thực tiễn của nghiên cứu. Thông tin cụm từ được sử dụng trong giai đoạn hậu xử lý (post-processing) của hệ thống nhận dạng. Hệ thống nhận dạng ký tự thường tạo ra nhiều ứng viên cho mỗi ký tự viết tay. Cụm từ giúp chọn ứng viên đúng bằng cách ưu tiên các tổ hợp từ hợp lệ. Thực nghiệm chỉ ra rằng thông tin cụm từ cải thiện độ chính xác nhận dạng. Tỷ lệ lỗi nhận dạng giảm khi sử dụng kiến thức cụm từ. Điều này chứng minh cụm từ có thể được sử dụng trong ứng dụng thực tế. Nghiên cứu mở ra hướng áp dụng cho nhiều tác vụ NLP khác. Kết quả khuyến khích nghiên cứu thêm về tích hợp cụm từ vào các hệ thống ngôn ngữ. Ứng dụng thành công xác nhận tầm quan trọng của trích xuất cụm từ chính xác.

6.1. Tích Hợp Vào Hệ Thống Nhận Dạng

Thông tin cụm từ được tích hợp vào giai đoạn hậu xử lý. Hệ thống nhận dạng tạo danh sách ứng viên cho mỗi ký tự. Mô-đun cụm từ đánh giá các tổ hợp ứng viên. Tổ hợp tạo thành cụm từ hợp lệ được ưu tiên. Điểm số nhận dạng được điều chỉnh dựa trên thông tin cụm từ. Phương pháp này cải thiện lựa chọn ứng viên cuối cùng.

6.2. Kết Quả Thực Nghiệm Ứng Dụng

Thực nghiệm được tiến hành trên tập dữ liệu chữ viết tay chuẩn. Hệ thống có cụm từ cho độ chính xác cao hơn hệ thống không có. Tỷ lệ lỗi nhận dạng giảm từ 5% đến 15%. Cải thiện đặc biệt rõ với các ký tự tương tự nhau. Cụm từ cung cấp ngữ cảnh để phân biệt các ký tự dễ nhầm. Kết quả xác nhận giá trị thực tiễn của nghiên cứu.

6.3. Tiềm Năng Ứng Dụng Rộng Hơn

Thông tin cụm từ có thể áp dụng cho nhiều tác vụ NLP. Dịch máy hưởng lợi từ việc nhận diện đơn vị dịch. Phân giải nghĩa từ sử dụng cụm từ làm đặc trưng ngữ cảnh. Tìm kiếm thông tin cải thiện bằng cách xử lý cụm từ như đơn vị. Trích xuất thông tin nhận diện quan hệ thực thể qua cụm từ. Nghiên cứu mở ra nhiều hướng ứng dụng tiềm năng.

24/03/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Luận án tiến sĩ: The study on automatic Chinese collocation extraction

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (214 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

The Study on Automatic Chinese Collocation Extraction by Xu Ruifeng A Thesis Submitted in Partial Fulfillment of the Requirements _for the Degree of Doctor of Philosophy Department of Computing The Hong Kong Polytechnic University Jan 12, 2006 UMI Number: 3241091 INFORMATION TO USERS The quality of this reproduction is dependent upon the quality of the copy submitted. Broken or indistinct print, colored or poor quality illustrations and photographs, print bleed-through, substandard margins, and improper alignment can adversely affect reproduction. In the unlikely event that the author did not send a complete manuscript and there are missing pages, these will be noted. Also, if unauthorized copyright material had to be removed, a note will indicate the deletion.

® UMI UMI Microform 3241091 Copyright 2007 by ProQuest Information and Learning Company. All rights reserved. This microform edition is protected against unauthorized copying under Title 17, United States Code. ProQuest Information and Learning Company 300 North Zeeb Road P.

Box 1346 Ann Arbor, MI 48106-1346 CERTIFICATE OF ORIGINALITY I hereby declare that this thesis is my own work and that, to the best of my knowledge and belief, it reproduces no material previously published or written, nor material that has been accepted for the award of any other degree or diploma, except where due acknowledgement has been made in the text. Collocation is a lexical phenomenon in which two or more words are: habitually combined together as some conventional way of saying things. Collocation information is essential to many natural language processing tasks such as word sense disambiguation, machine translation, and information extraction. Most of current works on collocation extraction are statistical based with limited precision and recall because they can not well distinguish word co-occurrences, which are statistically significant, from true collocations, which are of habitual use and are thus either syntactically or semantically significant.

The objective of this study is to investigate methods to improve the performance of Chinese collocation extraction algorithms. Different types of collocations are identified. Collocation extraction algorithms are then desigried to target on different types of collocations using different features and criteria associated with these different types. In addition to improve statistical based collocation extraction algorithms, additional syntactic and semantic information are also incorporated into the algorithm to further improve the performance of collocation extraction.

On the study of the statistical based algorithms, a new algorithm based on bi-directional word bi-grams is designed to help identify collocations with low co-occurrence frequency and are of fixed use. A large scale Chinese collocation answer set is established so that collocation extraction algorithms can be evaluated and compared objectively by using the same training corpus and corresponding answer set. Collocations are then categorized into four types based on their compositionality, substitutability, modifiability and internal association. Based on the characteristics of each type of collocations, a multi-stage window- based collocation extraction is built where the n-gram collocations and different types of bi- gram collocations are separately extracted in different stages using different strategies and different discriminative features.

A Chinese shallow treebank, referred to as the PolyU Treebank, is annotated manually to provide syntactic and semantic knowledge to further help collocation extraction. This treebank is also used to train a chunker based on lexicalized Hidden Markov Model (HMM). The chunker provides ways to process running text for collocation extraction. By using the support collocation patterns and reject collocation patterns extracted from the annotated Chinese treebank and parsed running text, syntactic features are employed to further improve the performance of the window-based collocation extraction system.

Experimental results show that the use of syntactic patterns can significantly improve the - performance of collocation extraction, especially for filtering pseudo collocations. The extracted collocations were applied in the post-processing of a handwritten Chinese character recognition system. Experiments indicate that collocation information can be used in real application to improve the performance of these natural language related applications. Keyword: Collocation extraction, Treebank, Chunking and parsing, ii Publications Arising From the Thesis > [1] Guo-hong Fu, Ruifeng Xu, K.

Luke and Qin Lu, Chinese Text Chunking Using Lexicalized HMMs, In Proceedings of IEEE International Conference on Machine Learning and Cybernetics, pp.7-12, Guang Zhou, China, 2005 [2] Qin Lu, Jing Zhou and Ruifeng Xu, Machine Learning Approaches for Chinese Shallow Parsing, In Proceedings of IEEE International Conference on Machine Learning and Cybernetics, vol.2309-2314, Xi’an, China, 2003 {3] Qin Lu, S. Chan, Ruifeng Xu, et al. A Unicode Based Adaptive Segmentor, In Proceedings of 2nd Workshop on ACL SIGHAN, pp164-167, Sapporo, Japan, 2003 [4] Qin Lu, Yin Li and Ruifeng Xu, Improving Xtract for Chinese Collocation Extraction, In Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering, pp. 333-338, Beijing, China, 2003 [Š} Qin Lu, S.

Chan, Ruifeng Xu, et al. A Unicode Based Adaptive Segmentor, Journal of Chinese Language and Computing, vol. 3, pp221-234, 2004 [6] Ruifeng Xu, Qin Lu, Daniel S. Yeung and Xizhao Wang, Distant BI-Gram Model, Collocation and Their Application in Post-processing for Chinese Character Recognition, In Proceedings of IEEE International Conference on Machine Learning and Cybernetics, vol.2251-2255, Beijing, China, 2002 [7] Ruifeng Xu, Qin Lu and Yin Li, An Automatic Chinese Collocation Extraction Algorithm based on Lexical Statistics, In Proceedings of IEEE International Conference on Natural Language Processing and Knowledge Engineering, pp.321-326, Beijing, China, 2003 [8] Ruifeng Xu, Qin Lu and Wanyin Li, The Construction of a Chinese Shallow Treebank, In Proceedings of 3rd Workshop on ACL SIGHAN, pp.94-101,Barcelona, Spain, 2004 nỉ [9] Ruifeng Xu, Daniel Yeung and Daming Shi, A Hybrid Post-processing System for Offline Handwritten Chinese Character Recognition based on a Statistical Language Model.

International Journal of Pattern Recognition and Artificial Intelligence, vol. 415-428, 2005 ˆ [10] Ruifeng Xu, Qin Lu, Yin Li and Wanyin Li, The Design and Construction of the PolyU Shallow Treebank, International Journal of Computational Linguistics and Chinese Language Processing, vol.397-416, 2005 [11] Ruifeing Xu and Qin Lu, Multi-stage Chinese Collocation Extraction, In Proceedings ofIEEE International Conference on Machine Learning and Cybernetics, pp.3254-3259, Guang Zhou, China, 2005 | [12] Ruifeng Xu and Qin Lu, Improving Collocation Extraction by Using Syntactic Patterns, In Proceedings of IEEE Conference on Natural Language Processing and Knowledge Engineering 2005, pp.52-57, WuHan, China, 2005 [13] Ruifeng Xu and Qin Lu, A Multi-stage Collocation Extraction System, The Advances in Machine Learning and Cybernetics, Lecture Notes on Artificial Intelligences (LNAI 3930), (Yeung D.), Springer-Verlag, Berlin Heidelberg: pp.740-749, 2006 [14] Ruifeng Xu, Qin Lu and Sujian Li, The Design and Construction of a Chinese Collocation Bank, Accpeted to published in Proceedins of Ffth International Conference on Language Resources and Evaluation, Genoa, Italy, 2006 [15] SuJian Li, Wen-jie Li, Qin Lu and Ruifeng Xu, Verifying Person Descriptions with Term-Entity Association, In Proceedings ofIEEE International Conference on Machine Learning and Cybernetics, pp. 50-55, Guang Zhou, China, 2005 [16] Sujian Li, Yun Li, Luning Ji and Ruifeng Xu, Use of Dictionary Matching and String Frequency Statistics in Content Analysis of Automatic Indexing, In Proceedings of 8th Joint Symposium on Computational Linguistics, NanJing, China, 2005 [17] Wanyin Li, Qin Lu and Ruifeng Xu, Using Synonym Relations in Chinese Collocation Extraction, In Proceedings of 3rd Workshop on ACL SIGHAN, pp.86-93, Barcelona, Spain, 2004 [18] Wanyin Li, Qin Lu and Ruifeng Xu, Similarity based Chinese Synonyms Collocation Extraction, International Journal of Computational Linguistics and Chinese Language Processing, vol. This thesis could not have been done without the help and cooperation of many peoples, and it is now my great pleasure to take this opportunity to thank them.

First and foremost, I would like to express my deepest thanks to my supervisor, Prof. Qin Lu, for being a consistent source of support and encouragement. I could not imagine having a better advisor and mentor for me. Without her knowledge and perceptiveness, I would never have finished my Ph.

I gratefully acknowledge her who gives me enormous freedom to pursue my own interests while at the same time providing just the right amount of guidance to ensure the right research approach. It would be my great pleasure to thank Dr. James Liu, Prof. William Wong and Prof.

Maosong Sun, for their great efforts, valuable comments and excellent advices to improve the quality and readability of the earlier version of this thesis. I would like to thank Dr. WenJie Li, who constantly encouraged me, contributed her valuable insight in academic research during the past three years. Another great excellent person whom I would like to express my deep gratitude is Dr.

Sujian Li, my close friend, for the continuous support and kindly help. I would also like to thank all my friends in our research group, Mrs. Yin Li, Ms. WanYan Li, Mr.

Tin-Shing Chiu, Ms. LuNing Ji, Mr. Ming-Li Wu, Dr. BaoLi Li, Mr.

Wei Li and Mr. Qing Chen, who have always been the great support to me and have made this group a wonderful place to learn and have fun. I will treasure their friendship for the rest of my life. At last, I would like express my deepest appreciation to my father Yu-Shu Xu and my mother Shao-Lan Li, my wife Shu-Qi Jiang, my aunt Shu-Jun Xu and my uncle Bao-Ku Su, vii my elder brother Rui-Song Xu and his wife Di An, for their endless love and unwavering support.

This thesis is dedicated to my mother Shao-Lan Li who gave my live, to my wife Shu-Qi rd Jiang who gives me true love, and to my baby daughter Carol Xu, the hope. vi Table of Contents Certificate of Originality À0.nn i Publications Asing from the Th€SI§. c0 ng TH cọ 4 64 0 10 11 FC VN ố. vii Table of Contents.

ix List Of Figures .sccccccsccscssssnssesscescnccssssneeseessssessssesecescesessoasseeasscaeasoesseeseeeseesssneseusaeseaseosees xili ID 82g 1. -- -‹- ‹ sóc sọ Họ Họ họ 9 0 th 1 2 Basic Concepts and Thesis SCOD€.2 Motivation and Problem Sta†€Tn€T(. Research Objectives and Thesis Scope. Gc HQ KH 6 0.1 Review of Automatic Collocation Extraction Techn1que€s.1 Window-based Statistical Collocation Extraction Approach.2 Syntax-based Collocation Extraction Approach.3 Collocation Extraction using Semantic ÌnÍOrmatiOH.2 Review of Automatic Shallow P4TSIDE.1 Statistic-based Shallow PaTSiDE.2 Rule-based Shallow P4TSINE.- - --c cm HH mờ 35 4 Collocation Extraction Based on Lexical Statistics.1 Preparation of Training Corpus and Answer S€(.- cọ HH nh 40 4.

Applying Xtract to Chinese Collocation Extraction: CX?r4cf. Improving CXtract: CXÍTđCÍÏ.4 A New Collocation Extraction System: CX?rC£2.1 The Framework DeSIØH.- - ---- cà cà ng HH4 08000842 157 52 4.2 Construct a Word Co-occurrence Database for CXtract2 ¬ 57 4.3 Evaluation Of CX?rđC(2.5 Evaluations of Statistical Collocation Extraction Algorithms.-- so + HH4 ng tình ng nh ni, 64 5 Multi-Stage Collocation ExtractiOn.1 Categorization of Chinese CollocatIOnS.--Ặ sen ng g4 th re.2 Characteristic Analysis of Typical CollocatiOnS. The Design of A Multi-Stage Collocation Extraction System.1 Additional Feature Selections .2 Applying the Heuristic Rules to Eliminate Pseudo Collocations.3 The New Multi-stage Extraction Algorithm.4 Parameter Optimization based on Perceptron Training Rule.4 Experimental Results and EvaluatiOTiS.--- cà Sen 421118821 188823 xe 86 5.1 Experimental Data PreparatOTn.2 Experiments on Type 1 and Type 2 Collocation Extraction in Stage 3 .3 Experiments on Weight Parameter Ôptimization.4 Experiments on Multi-stage Collocation Extraction of Stage 1-3 and 5.5 Experiments on Pseudo collocation Filtering by Using Heuristic Rules.6 Experiments on Evaluating the Complete Collocation Extraction System 93 5.5 Chapter Sumưnar1z2tiOT.- - -- S2 - SH ki n0 9v 94 6 The Design and Development of Chinese Shallow Treebank and Automatic Chunkers 95 6.1 The Design and Development of PolyU Treebank .1 Basic Concepts and Background of Shallow Treebank .--- - ------ HH HH th K1 0011 1088124 28791 99 6.3 Annotation Guideline Desigm.-- - -- - --- SH HH HH nen 102 6.4 Implementation of the PolyU Treebank.- co SSS+ĂẰ he enreg 108 6.5 Quality Assurance and Annotation PTOBT€SS.6 Contributions of PolyU Treebank.2 The Design and Development of Automatic ChuniK€TS.1 Chunking Scope and R€pr€s€ntatiOn.- nen ng errườ 118 6.2 Chunking with POS FeatUr€s.-- -- HH HH HH ng 120 6.3 Chunking with Lexicalized FeafUT€S. -- - -- - Ác HH ng gey 125 6.4 Experiments and EvaluUatiOTS.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Từ khóa liên quan

Xử lý ngôn ngữ tự nhiên Trích xuất cụm từ tiếng Trung tự động Chinese collocation extraction Thuật toán trích xuất collocation Ngân hàng cây cú pháp tiếng Trung Phân đoạn và phân tích cú pháp

Chủ đề nghiên cứu

Xử lý ngôn ngữ tự nhiên Trích xuất collocation tự động Học máy trong phân tích văn bản Phát triển tài nguyên ngôn ngữ

Câu hỏi thường gặp

Luận án "Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ" nghiên cứu về vấn đề gì?

Luận án tiến sĩ về trích xuất cụm từ tiếng Trung tự động. Kết hợp thuật toán thống kê, cú pháp và ngữ nghĩa. Ứng dụng trong nhận dạng ký tự và xử lý ngôn ngữ tự nhiên.

Luận án "Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại The Hong Kong Polytechnic University. Năm bảo vệ: 2006.

Luận án "Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ" thuộc chuyên ngành gì?

Luận án "Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ" thuộc chuyên ngành Computing. Danh mục: Khoa Học Máy Tính.

Luận án "Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ" có bao nhiêu trang?

Luận án "Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ" có 214 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Cách tải luận án "Trích xuất cụm từ tiếng Trung tự động - Luận án tiến sĩ" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter

Mục lục chi tiết

Tóm tắt nội dung