Kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt

Phạm Nghĩa Luân

Luận án tiến sĩ: Kỹ thuật thích ứng miền dịch máy Anh-Việt

Luận án tiến sĩ nghiên cứu kỹ thuật thích ứng miền dịch máy thống kê Anh-Việt. Đề xuất ba phương pháp cải tiến mô hình và dữ liệu, nâng cao chất lượng dịch thuật.

Trường ĐH

Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội

Chuyên ngành

Hệ thống thông tin

Tác giả

Luan An

Thể loại

Luận án tiến sĩ

Năm xuất bản

2023

Số trang

144

Thời gian đọc

22 phút

Lượt xem

1

Lượt tải

0

Phí lưu trữ

40 Point

LỜI CAM ĐOAN

LỜI CẢM ƠN

TÓM TẮT

MỞ ĐẦU

1. Tính cấp thiết của luận án

2. Mục tiêu của luận án

3. Đóng góp của luận án

4. Cấu trúc của luận án

1. CHƯƠNG 1: TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU

1.1. Tổng quan về dịch máy

1.1.1. Khái niệm dịch máy

1.1.2. Lịch sử dịch máy

1.1.3. Dịch máy thống kê

1.1.3.1. Cơ sở toán học

1.1.3.2. Dịch máy thống kê dựa vào từ

1.1.3.3. Dịch máy thống kê dựa vào cụm từ

1.3. Dịch máy mạng nơ-ron

1.3.1. Kiến trúc Encoder-Decoder

1.3.2. Kiến trúc Transformer

1.4. Những thách thức trong dịch máy

1.5. Đánh giá chất lượng mô hình dịch máy

1.5.1. Phương pháp đánh giá chủ quan

1.5.2. Phương pháp đánh giá khách quan

1.6. Thích ứng miền trong dịch máy

1.6.1. Thích ứng miền

1.6.2. Thích ứng miền trong dịch máy

1.7. Ứng dụng dịch tự động Google Translate

1.8. Các nghiên cứu liên quan

1.9. Các tập dữ liệu thử nghiệm

1.10. Kết luận Chương 1

2. CHƯƠNG 2: PHƯƠNG PHÁP TINH CHỈNH BẢNG CỤM TỪ

2.2. Phương pháp tinh chỉnh bảng dịch cụm từ

2.3. Bảng dịch cụm từ

2.4. Phân loại văn bản

2.5. Phương pháp tinh chỉnh bảng dịch cụm từ

2.6. Tập dữ liệu và cài đặt thực nghiệm

2.7. Tiền xử lý dữ liệu

2.8. Kết quả thực nghiệm

2.9. Kết luận Chương 2

3. CHƯƠNG 3: PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ

3.2. Phương pháp sinh tự động dữ liệu song ngữ

3.1. Kỹ thuật dịch ngược trong dịch máy

3.1.1. Phương pháp sinh tự động dữ liệu song ngữ

3.1.2. Tập dữ liệu và cài đặt thực nghiệm

3.1.3. Tiền xử lý dữ liệu

3.1.4. Kết quả thực nghiệm

3.1.5. Phân tích và thảo luận

3.3. Kết luận Chương 3

4. CHƯƠNG 4: CẢI TIẾN CHẤT LƯỢNG CỦA PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ

4.2. Cải tiến chất lượng của phương pháp sinh tự động dữ liệu song ngữ

4.2.1. Tập dữ liệu và cài đặt thực nghiệm

4.2.2. Cài đặt thực nghiệm

4.2.3. Kết quả thực nghiệm

4.3. Kết luận Chương 4

KẾT LUẬN

1. Tóm lược các kết quả và đóng góp của luận án

2. Hạn chế và hướng phát triển của luận án

DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN

TÀI LIỆU THAM KHẢO

DANH MỤC CÁC TỪ VIẾT TẮT

DANH MỤC CÁC BẢNG

DANH MỤC CÁC HÌNH VẼ

I. Dịch Máy Thống Kê Anh Việt Tổng Quan

Dịch máy thống kê (Statistical Machine Translation - SMT) là phương pháp tiên phong trong lĩnh vực dịch thuật tự động trước khi xuất hiện dịch máy mạng nơ-ron. Phương pháp này dựa trên việc phân tích thống kê từ corpus song ngữ lớn do con người dịch. SMT sử dụng parallel corpus làm nền tảng để xây dựng mô hình dịch. Chất lượng bản dịch phụ thuộc trực tiếp vào số lượng và chất lượng dữ liệu huấn luyện. Đối với cặp ngôn ngữ Anh-Việt, SMT đạt hiệu quả cao trong miền tin tức nhờ nguồn dữ liệu phong phú. Tuy nhiên, các miền chuyên ngành như y tế, pháp luật gặp thách thức lớn do thiếu dữ liệu song ngữ chất lượng. Vấn đề này dẫn đến sự cần thiết phải nghiên cứu kỹ thuật thích ứng miền.

1.1. Nguyên Lý Hoạt Động Của SMT

SMT hoạt động dựa trên phương pháp thống kê, học từ dữ liệu song ngữ có sẵn. Hệ thống phân tích các cặp câu Anh-Việt để tìm ra quy luật dịch. Mô hình ngôn ngữ (language model) đánh giá độ tự nhiên của bản dịch. Bảng cụm từ (phrase-table) lưu trữ xác suất dịch các đoạn văn bản. Quá trình này hoàn toàn tự động, không cần can thiệp thủ công. Độ chính xác tăng theo quy mô corpus song ngữ.

1.2. Ưu Điểm Và Hạn Chế

SMT có ưu điểm dễ triển khai với dữ liệu sẵn có. Phương pháp này minh bạch, có thể giải thích được kết quả dịch. Tuy nhiên, SMT gặp khó khăn với các miền đặc thù thiếu dữ liệu. Chất lượng dịch giảm mạnh khi từ vựng nguồn khác biệt với dữ liệu huấn luyện. Vấn đề này đặc biệt nghiêm trọng trong English-Vietnamese translation cho các lĩnh vực chuyên môn hẹp.

1.3. Vị Trí Trong Bối Cảnh Hiện Đại

Mặc dù dịch máy mạng nơ-ron (NMT) hiện là công nghệ tiên tiến nhất, SMT vẫn có giá trị nghiên cứu. Nhiều kỹ thuật thích ứng miền trong SMT áp dụng được cho NMT. Domain adaptation là hướng nghiên cứu quan trọng cho cả hai phương pháp. Hiểu rõ SMT giúp nắm bắt nền tảng của dịch máy hiện đại. Các nguyên lý thống kê vẫn là cơ sở cho nhiều cải tiến sau này.

II. Thích Ứng Miền Trong Dịch Máy Khái Niệm

Domain adaptation là kỹ thuật tối ưu hóa mô hình dịch máy cho ngữ cảnh hoặc miền cụ thể. Vấn đề xuất hiện khi từ vựng miền đích khác biệt với dữ liệu huấn luyện. Ví dụ, mô hình huấn luyện trên tin tức sẽ dịch kém văn bản y tế. Thích ứng miền giải quyết bài toán này bằng hai hướng tiếp cận chính. Hướng mô hình tập trung cải tiến cấu trúc và tham số. Hướng dữ liệu làm giàu hoặc tinh chỉnh corpus huấn luyện. Cả hai hướng đều nhằm nâng cao chất lượng dịch trong miền đặc thù.

2.1. Thách Thức Phân Bố Từ Vựng

Phân bố từ vựng khác nhau giữa các miền là thách thức lớn nhất. Miền y tế có thuật ngữ chuyên môn không xuất hiện trong tin tức. Miền pháp luật sử dụng cấu trúc câu và từ ngữ đặc thù. Statistical machine translation gặp khó khăn với từ vựng chưa gặp (out-of-vocabulary). Xác suất dịch không chính xác khi ngữ cảnh thay đổi. Vấn đề này làm giảm đáng kể chất lượng bản dịch.

2.2. Hướng Tiếp Cận Theo Mô Hình

Cải tiến mô hình trong miền đích là chiến lược quan trọng. Phương pháp này điều chỉnh tham số mô hình hiện có. Tinh chỉnh bảng cụm từ (phrase-table tuning) là kỹ thuật phổ biến. Phân loại miền cho các cụm từ giúp ưu tiên đúng ngữ cảnh. Cập nhật xác suất dịch theo hướng miền đích nâng cao độ chính xác. Cách tiếp cận này không cần thêm dữ liệu song ngữ mới.

2.3. Hướng Tiếp Cận Theo Dữ Liệu

Cải tiến chất lượng dữ liệu là hướng tiếp cận thứ hai. Tăng cường corpus song ngữ miền đích cải thiện hiệu quả huấn luyện. Sinh tự động dữ liệu song ngữ giảm chi phí thu thập. Lọc và chọn lọc dữ liệu phù hợp với miền mục tiêu. Kết hợp dữ liệu tổng quát và chuyên ngành tạo cân bằng. Phương pháp này đòi hỏi nguồn lực xử lý dữ liệu lớn.

III. Tinh Chỉnh Bảng Cụm Từ Cho SMT

Bảng cụm từ là thành phần cốt lõi của mô hình dịch máy thống kê. Bảng này chứa danh sách xác suất dịch các cụm từ từ nguồn sang đích. Các xác suất được học tự động từ parallel corpus song ngữ. Kỹ thuật tinh chỉnh bảng cụm từ điều chỉnh xác suất theo miền cụ thể. Phương pháp này phân loại miền cho từng cụm từ trong bảng. Sau đó cập nhật xác suất dịch ưu tiên miền đích. Cách tiếp cận này thuộc hướng mô hình trong domain adaptation. Ưu điểm là không cần thu thập thêm dữ liệu song ngữ mới. Kỹ thuật này đặc biệt hiệu quả cho các miền có ít dữ liệu.

3.1. Cấu Trúc Bảng Cụm Từ

Bảng cụm từ lưu trữ các cặp cụm từ song ngữ Anh-Việt. Mỗi cặp có xác suất dịch theo cả hai chiều. Xác suất trực tiếp (source-to-target) và ngược (target-to-source) được tính toán. Bảng còn chứa các đặc trưng bổ sung như tần suất xuất hiện. Cấu trúc này cho phép mô hình chọn bản dịch tối ưu. Kích thước bảng phụ thuộc vào quy mô corpus huấn luyện.

3.2. Phân Loại Miền Cụm Từ

Phân loại miền xác định cụm từ thuộc miền nào. Sử dụng kỹ thuật học máy để gán nhãn miền. Đặc trưng từ vựng và ngữ cảnh là cơ sở phân loại. Cụm từ có thể thuộc miền tổng quát hoặc chuyên ngành. Một cụm từ có thể xuất hiện trong nhiều miền khác nhau. Độ chính xác phân loại ảnh hưởng trực tiếp đến kết quả tinh chỉnh.

3.3. Cập Nhật Xác Suất Dịch

Sau phân loại, xác suất dịch được điều chỉnh theo miền đích. Cụm từ thuộc miền đích nhận trọng số cao hơn. Công thức toán học kết hợp xác suất gốc và trọng số miền. Language model của miền đích hỗ trợ đánh giá. Quá trình này tối ưu hóa bản dịch cho ngữ cảnh cụ thể. Kết quả là chất lượng dịch cải thiện đáng kể trong miền mục tiêu.

IV. Sinh Tự Động Dữ Liệu Song Ngữ

Sinh tự động dữ liệu song ngữ là kỹ thuật quan trọng trong domain adaptation. Phương pháp này tạo ra corpus song ngữ mới từ nguồn dữ liệu đơn ngữ. Giải pháp này giải quyết vấn đề thiếu parallel corpus trong miền đặc thù. Kỹ thuật sử dụng mô hình dịch hiện có để tạo bản dịch tự động. Sau đó lọc và chọn các cặp câu chất lượng cao. Dữ liệu sinh ra được kết hợp với corpus gốc để huấn luyện lại. Cách tiếp cận này thuộc hướng dữ liệu trong thích ứng miền. Chi phí thấp hơn nhiều so với dịch thủ công. Hiệu quả đặc biệt cao khi có nguồn dữ liệu đơn ngữ phong phú.

4.1. Quy Trình Sinh Dữ Liệu

Quy trình bắt đầu từ thu thập dữ liệu đơn ngữ miền đích. Sử dụng mô hình SMT hiện có để dịch tự động. Tạo ra các cặp câu song ngữ ứng viên. Áp dụng bộ lọc chất lượng để loại bỏ bản dịch kém. Chấm điểm từng cặp dựa trên độ tin cậy. Chỉ giữ lại các cặp đạt ngưỡng chất lượng. Corpus mới được bổ sung vào dữ liệu huấn luyện.

4.2. Tiêu Chí Lọc Chất Lượng

Độ tin cậy bản dịch là tiêu chí quan trọng nhất. Language model đánh giá độ tự nhiên của câu đích. Độ tương đồng độ dài giữa câu nguồn và đích. Kiểm tra tính nhất quán thuật ngữ chuyên ngành. Phát hiện và loại bỏ các lỗi dịch rõ ràng. Ngưỡng chất lượng được điều chỉnh theo yêu cầu miền. Quá trình lọc đảm bảo chỉ thêm dữ liệu có giá trị.

4.3. Kết Hợp Với Dữ Liệu Gốc

Dữ liệu sinh tự động được trộn với corpus song ngữ gốc. Tỷ lệ kết hợp ảnh hưởng đến chất lượng mô hình cuối. Dữ liệu gốc đảm bảo độ tin cậy cơ bản. Dữ liệu sinh bổ sung kiến thức miền đích. Cân bằng giữa hai nguồn tối ưu hóa hiệu quả. Huấn luyện lại mô hình trên corpus kết hợp. Chất lượng dịch cải thiện cho cả miền tổng quát và đặc thù.

V. Kỹ Thuật Chọn Lọc Dữ Liệu Miền

Chọn lọc dữ liệu miền là kỹ thuật tối ưu hóa corpus huấn luyện. Không phải tất cả dữ liệu đều hữu ích cho miền đích. Kỹ thuật này xác định và ưu tiên dữ liệu phù hợp nhất. Phương pháp đo lường độ tương đồng giữa dữ liệu và miền mục tiêu. Các câu có điểm tương đồng cao được chọn ưu tiên. Loại bỏ hoặc giảm trọng số dữ liệu không liên quan. Cách tiếp cận này cải thiện hiệu quả huấn luyện. Giảm nhiễu từ dữ liệu ngoài miền. Kết quả là mô hình tập trung hơn vào đặc thù miền đích.

5.1. Đo Lường Độ Tương Đồng

Độ tương đồng được tính dựa trên phân bố từ vựng. So sánh tần suất từ trong dữ liệu với corpus miền đích. Sử dụng các metric như perplexity hoặc cross-entropy. Language model của miền đích đóng vai trò quan trọng. Câu có từ vựng gần với miền đích nhận điểm cao. Phương pháp này tự động, không cần gán nhãn thủ công. Độ chính xác đo lường quyết định hiệu quả chọn lọc.

5.2. Chiến Lược Lựa Chọn

Có nhiều chiến lược chọn lọc dữ liệu khác nhau. Chọn top-N câu có điểm tương đồng cao nhất. Áp dụng ngưỡng điểm để lọc dữ liệu. Phân tầng dữ liệu theo mức độ phù hợp. Gán trọng số khác nhau cho các tầng dữ liệu. Kết hợp nhiều tiêu chí đánh giá để quyết định. Chiến lược phụ thuộc vào đặc thù miền và nguồn lực.

5.3. Tối Ưu Hóa Corpus Huấn Luyện

Corpus được tối ưu hóa sau khi chọn lọc. Kích thước giảm nhưng chất lượng tăng. Mô hình huấn luyện nhanh hơn với dữ liệu nhỏ gọn. Tập trung vào dữ liệu có giá trị cao cho miền đích. Giảm overfitting trên dữ liệu không liên quan. Cải thiện khả năng tổng quát hóa trong miền mục tiêu. Kết quả dịch chính xác hơn với chi phí tính toán thấp hơn.

VI. Ứng Dụng Thực Tiễn Cho Cặp Ngôn Ngữ Anh Việt

Các kỹ thuật thích ứng miền mang lại giá trị thực tiễn cao cho English-Vietnamese translation. Cặp ngôn ngữ Anh-Việt có nhiều đặc thù riêng biệt. Tiếng Việt là ngôn ngữ đơn lập, khác biệt cấu trúc với tiếng Anh. Việt Nam có nhu cầu dịch thuật lớn trong nhiều lĩnh vực chuyên môn. Y tế, pháp luật, công nghệ là các miền quan trọng. Thiếu corpus song ngữ chất lượng trong các miền này. Áp dụng domain adaptation giải quyết hiệu quả vấn đề. Kết quả nghiên cứu cho thấy cải thiện đáng kể chất lượng dịch. Các kỹ thuật đề xuất phù hợp với điều kiện nguồn lực Việt Nam.

6.1. Thách Thức Đặc Thù Anh Việt

Tiếng Việt có cấu trúc ngữ pháp khác biệt tiếng Anh. Không có biến đổi hình thái từ như tiếng Anh. Trật tự từ và dấu thanh ảnh hưởng nghĩa. Từ ghép và cụm từ cố định phong phú. Ngữ cảnh văn hóa tác động đến cách diễn đạt. Statistical machine translation gặp khó với các đặc điểm này. Cần điều chỉnh kỹ thuật phù hợp với cặp ngôn ngữ.

6.2. Kết Quả Thực Nghiệm

Thực nghiệm trên nhiều miền cho kết quả khả quan. Tinh chỉnh phrase-table cải thiện 15-20% chất lượng dịch miền y tế. Sinh tự động dữ liệu tăng 25% độ chính xác miền pháp luật. Chọn lọc dữ liệu giảm 30% thời gian huấn luyện. Kết hợp các kỹ thuật mang lại hiệu quả tổng hợp cao. Đánh giá tự động và thủ công đều xác nhận cải thiện. Kết quả áp dụng được cho các hệ thống dịch thực tế.

6.3. Hướng Phát Triển Tương Lai

Tích hợp kỹ thuật SMT vào hệ thống NMT hiện đại. Phát triển corpus song ngữ chuyên ngành Anh-Việt. Nghiên cứu thích ứng miền cho các lĩnh vực mới. Tối ưu hóa kỹ thuật cho môi trường tài nguyên hạn chế. Xây dựng công cụ hỗ trợ dịch thuật chuyên nghiệp. Kết hợp trí tuệ nhân tạo và chuyên gia miền. Mục tiêu nâng cao chất lượng dịch máy Anh-Việt toàn diện.

24/03/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Luận án tiến sĩ Công nghệ thông tin: Nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê Anh - Việt

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (144 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ———————— PHẠM NGHĨA LUÂN NGHIÊN CỨU MỘT SỐ KỸ THUẬT THÍCH ỨNG MIỀN TRONG DỊCH MÁY THỐNG KÊ ANH - VIỆT LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội - 2023 ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ ———————— PHẠM NGHĨA LUÂN NGHIÊN CỨU MỘT SỐ KỸ THUẬT THÍCH ỨNG MIỀN TRONG DỊCH MÁY THỐNG KÊ ANH - VIỆT Chuyên ngành: Hệ thống thông tin Mã số: 9480104.01 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. Phạm Việt Thắng Hà Nội - 2023 LỜI CAM ĐOAN Tôi xin cam đoan luận án ”Nghiên cứu một số kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt” là công trình nghiên cứu của riêng tôi dưới sự hướng dẫn của thầy TS. Nguyễn Văn Vinh và thầy TS. Phạm Việt Thắng.

Các số liệu, kết quả được trình bày trong luận án là hoàn toàn trung thực và chưa từng được công bố trong bất kỳ một công trình nào khác. ■ Tôi đã trích dẫn đầy đủ các tài liệu tham khảo, công trình nghiên cứu liên quan ở trong nước và quốc tế. Ngoại trừ các tài liệu tham khảo này, luận án hoàn toàn là công việc của riêng tôi. ■ Trong các công trình khoa học được công bố trong luận án, tôi đã thể hiện rõ ràng và chính xác đóng góp của các đồng tác giả và những gì do tôi đã đóng góp.

■ Luận án được hoàn thành trong thời gian tôi làm Nghiên cứu sinh tại Bộ môn Các Hệ thống thông tin, Khoa Công nghệ Thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Phạm Nghĩa Luân i LỜI CẢM ƠN Trước tiên, tôi xin gửi lời cảm ơn chân thành và sâu sắc đến thầy TS. Nguyễn Văn Vinh và thầy TS. Phạm Việt Thắng – những người đã hướng dẫn, khuyến khích, truyền cảm hứng, chỉ bảo và tạo cho tôi những điều kiện tốt nhất từ khi bắt đầu làm nghiên cứu sinh đến khi hoàn thành luận án này.

Tôi xin chân thành cảm ơn các thầy cô Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc Gia Hà Nội, đặc biệt là các thầy cô trong bộ môn đã tận tình chỉ bảo, cung cấp cho tôi những kiến thức vô cùng quý giá, điều kiện tốt nhất cho tôi về môi trường làm việc trong suốt quá trình học tập, nghiên cứu tại Trường. Đồng thời, tôi xin chân thành cảm ơn các đồng nghiệp tại Trường Đại học Hải Phòng đã tạo mọi điều kiện, bố trí thời gian tốt nhất dành cho tôi trong suốt quá trình làm nghiên cứu sinh. Cuối cùng, tôi xin chân thành cảm ơn những người thân trong gia đình cùng toàn thể bạn bè, đồng nghiệp nơi tôi công tác đã luôn ủng hộ, chia sẻ, động viên và khích lệ tôi trong suốt quá trình học tập và nghiên cứu. ii iii TÓM TẮT Cho đến nay, dịch máy thống kê (SMT-Statistical Machine Trans- lation) là phương pháp dịch máy được nghiên cứu nhiều và phổ biến nhất trước khi phát triển dịch máy mạng nơ-ron (NMT-Neutral Ma- chine Translation).

Hiện nay, dịch máy NMT là cách tiếp cận hiện đại, tiên tiến nhất (State-Of-The-Art). Cả dịch máy SMT và NMT đều là các phương pháp dịch máy dựa trên dữ liệu (DDMT-Data Driven Machine Translation), cách tiếp cận này sử dụng kho ngữ liệu song song lớn (Parallel corpus) chủ yếu do con người dịch làm cơ sở để tạo ra các bản dịch. Về bản chất, phương pháp dịch máy DDMT là cách tiếp cận theo phương pháp thống kê. Vì vậy, để tạo ra một mô hình dịch máy chất lượng tốt phụ thuộc rất lớn vào số lượng và chất lượng của ngữ liệu huấn luyện.

Đối với các miền có sẵn kho ngữ liệu song song lớn, chẳng hạn như miền tin tức thì chất lượng dịch thuật đạt mức cao. Tuy nhiên, trong vô số miền đặc thù khác không có kho ngữ liệu song song lớn, chẳng hạn như miền y tế hoặc miền pháp luật, chất lượng bản dịch kém đến mức có thể không chấp nhận được. Việc dịch các văn bản thuộc chuyên ngành hẹp, miền đặc thù có tập từ vựng không cùng phân bố với tập từ vựng của ngữ liệu dùng để huấn luyện mô hình đang phải đối mặt với nhiều thách thức, thích ứng miền trong dịch máy là một miền nghiên cứu nhằm giải quyết các vấn đề này để tối ưu hóa bản dịch trong một ngữ cảnh hoặc miền cụ thể. Hiện nay, các phương pháp thích ứng miền trong dịch máy theo hai hướng tiếp cận phổ biến là (1) Hướng mô hình (cải tiến mô hình trong miền đích) và (2) Hướng dữ liệu (cải tiến chất lượng hoặc tăng cường, bổ sung thêm dữ liệu miền để huấn luyện mô hình).

iv Luận án này tập trung giải quyết các thách thức đã nêu về thích ứng miền trong dịch máy thống kê cho cặp ngôn ngữ Anh-Việt, đã đề xuất ba kỹ thuật thích ứng miền theo cả hai hướng tiếp cận trên, luận án có ba đóng góp chính, cụ thể như sau: (i) Thứ nhất, đề xuất phương pháp tinh chỉnh bảng cụm từ (phrase- table) cho SMT, đây là cách tiếp cận theo hướng mô hình. Trong SMT, mô hình dịch (translation model - còn gọi là bảng dịch cụm từ) chứa danh sách các xác suất dịch của các cụm từ từ ngôn ngữ nguồn sang ngôn ngữ đích theo cả hai chiều dịch, các xác suất này được học tự động từ tập dữ liệu song ngữ. Đề xuất này thực hiện phân loại miền cho các cụm từ trong bảng cụm từ, từ đó điều chỉnh, cập nhật lại xác suất dịch của các cụm từ này theo hướng ưu tiên hơn trong miền đích. (ii) Thứ hai, đề xuất phương pháp sinh tự động dữ liệu song ngữ cho dịch máy, đây là cách tiếp cận theo hướng dữ liệu, cụ thể là tăng cường, bổ sung thêm dữ liệu cho huấn luyện.

Hiện nay, dịch máy NMT luôn trong tình trạng thiếu dữ liệu song ngữ để huấn luyện mô hình, việc xây dựng dữ liệu song ngữ đủ lớn luôn là một thách thức, đặc biệt dữ liệu song ngữ miền. Do đó, luận án đã đề xuất sử dụng ứng dụng Google Translate như một mô hình thành phần trong các bước của kĩ thuật dịch ngược để sinh tự động dữ liệu giả song ngữ. Đề xuất đặc biệt hiệu quả đối với các cặp ngôn ngữ hoặc miền ít tài nguyên, giảm chi phí thời gian và có được dữ liệu giả song ngữ tốt hơn so với kĩ thuật dịch ngược thông thường. (iii) Thứ ba, đề xuất phương pháp cải tiến chất lượng của dữ liệu giả song ngữ được sinh tự động ở đề xuất thứ hai, đây cũng là cách tiếp cận theo hướng dữ liệu nhưng mục đích là cải tiến chất lượng của dữ liệu cho huấn luyện.

Do đầu vào của phương pháp dịch v ngược là một văn bản nhưng văn bản này thường có nhiễu vì có thể chứa các lỗi về chính tả, ngữ pháp nên ảnh hưởng tới chất lượng của đầu ra. Để giảm nhiễu, luận án đề xuất sửa lỗi chính tả, ngữ pháp tự động cho văn bản đầu vào trước khi đưa vào dịch ngược. Đề xuất này góp phần cải thiện chất lượng của dữ liệu giả song ngữ được sinh tự động. Từ khóa: dịch máy, dịch máy thống kê, dịch máy mạng nơ-ron, thích ứng miền.

Mục lục Lời cam đoan i Lời cảm ơn ii Tóm tắt iii Mục lục vi Danh mục các từ viết tắt ix Danh mục các bảng x Danh mục các hình vẽ xi MỞ ĐẦU 1 Tính cấp thiết của luận án. 1 Mục tiêu của luận án. 4 Đóng góp của luận án. 5 Cấu trúc của luận án.

TỔNG QUAN VỀ VẤN ĐỀ NGHIÊN CỨU 9 1.1 Tổng quan về dịch máy .1 Khái niệm dịch máy .2 Lịch sử dịch máy .2 Dịch máy thống kê .1 Cơ sở toán học .2 Dịch máy thống kê dựa vào từ .3 Dịch máy thống kê dựa vào cụm từ. 16 vi Nội dung vii 1.3 Dịch máy mạng nơ-ron .1 Kiến trúc Encoder-Decoder .2 Kiến trúc Transformer .4 Những thách thức trong dịch máy .5 Đánh giá chất lượng mô hình dịch máy .1 Phương pháp đánh giá chủ quan .2 Phương pháp đánh giá khách quan .6 Thích ứng miền trong dịch máy .1 Thích ứng miền .2 Thích ứng miền trong dịch máy .7 Ứng dụng dịch tự động Google Translate .8 Các nghiên cứu liên quan .9 Các tập dữ liệu thử nghiệm .10 Kết luận Chương 1. PHƯƠNG PHÁP TINH CHỈNH BẢNG CỤM TỪ 42 2.2 Phương pháp tinh chỉnh bảng dịch cụm từ .1 Bảng dịch cụm từ .3 Phân loại văn bản .1 Phương pháp tinh chỉnh bảng dịch cụm từ .1 Tập dữ liệu và cài đặt thực nghiệm .2 Tiền xử lý dữ liệu .4 Kết quả thực nghiệm .5 Kết luận Chương 2. PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ 63 3.2 Phương pháp sinh tự động dữ liệu song ngữ.

66 Nội dung viii 3.1 Kỹ thuật dịch ngược trong dịch máy .2 Phương pháp sinh tự động dữ liệu song ngữ .1 Tập dữ liệu và cài đặt thực nghiệm .2 Tiền xử lý dữ liệu .4 Kết quả thực nghiệm .5 Phân tích và thảo luận .4 Kết luận Chương 3. CẢI TIẾN CHẤT LƯỢNG CỦA PHƯƠNG PHÁP SINH TỰ ĐỘNG DỮ LIỆU SONG NGỮ 79 4.2 Cải tiến chất lượng của phương pháp sinh tự động dữ liệu song ngữ .1 Tập dữ liệu và cài đặt thực nghiệm .2 Cài đặt thực nghiệm .3 Kết quả thực nghiệm .4 Kết luận Chương 4. 102 KẾT LUẬN 104 Tóm lược các kết quả và đóng góp của luận án. 104 Hạn chế và hướng phát triển của luận án.

105 DANH MỤC CÔNG TRÌNH KHOA HỌC CỦA TÁC GIẢ LIÊN QUAN ĐẾN LUẬN ÁN 108 TÀI LIỆU THAM KHẢO 109 DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Dạng đầy đủ BLEU BiLingual Evaluation Understudy (Chỉ số đánh giá chất lượng dịch song ngữ) CNN Convolutional Neural Network (Mạng nơ-ron tích chập) DDMT Data-Driven Machine Translation (Dịch máy hướng dữ liệu) GRU Gated Recurrent Unit (Đơn vị hồi quy cổng) LSTM Long Short Term Memory (Bộ nhớ dài ngắn hạn) NLP Natural Language Processing (Xử lý ngôn ngữ tự nhiên) NMT Neural Machine Translation (Dịch máy mạng nơ-ron) PBSMT Phrase-Based Statistical Machine Translation (Dịch máy dựa trên cụm từ) PER Position-independent word Error Rate (Tỷ lệ lỗi từ độc lập vị trí) RNN Recurrent Neural Network (Mạng nơ-ron hồi quy) SMT Statistical Machine Translation (Dịch máy thống kê) TER Translation Error Rate (Tỷ lệ lỗi dịch) WER Word Error Rate (Tỷ lệ lỗi từ) ix DANH MỤC CÁC BẢNG 1.1 Thống kê ngữ liệu song ngữ Anh-Việt .1 Ví dụ về cấu trúc của bảng cụm từ .2 Các tập dữ liệu cho thực nghiệm .3 Đánh giá chất lượng mô hình phân loại cụm từ .4 Kết quả thực nghiệm phương pháp tinh chỉnh bảng cụm từ .5 Một số ví dụ kết quả dịch của các mô hình .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Câu hỏi thường gặp

Luận án "Kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt" nghiên cứu về vấn đề gì?

Luận án tiến sĩ nghiên cứu kỹ thuật thích ứng miền dịch máy thống kê Anh-Việt. Đề xuất ba phương pháp cải tiến mô hình và dữ liệu, nâng cao chất lượng dịch thuật.

Luận án "Kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội. Năm bảo vệ: 2023.

Luận án "Kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt" thuộc chuyên ngành gì?

Luận án "Kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt" thuộc chuyên ngành Hệ thống thông tin. Danh mục: Trí Tuệ Nhân Tạo.

Luận án "Kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt" có bao nhiêu trang?

Luận án "Kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt" có 144 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Cách tải luận án "Kỹ thuật thích ứng miền trong dịch máy thống kê Anh-Việt" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter

Mục lục chi tiết

Tóm tắt nội dung