Mô hình đánh giá độ khó văn bản tiếng Việt bằng máy học

Lương An Vinh

Luận án tiến sĩ: Xây dựng mô hình đánh giá độ khó văn bản tiếng Việt

Luận án tiến sĩ xây dựng mô hình đánh giá độ khó văn bản tiếng Việt. Áp dụng BERT, SVM, Random Forest để phân lớp tự động từ dữ liệu sách giáo khoa.

Trường ĐH

trường đại học khoa học tự nhiên - đại học quốc gia tp.hcm

Chuyên ngành

Khoa học Máy tính

Tác giả

Luan An

Thể loại

Luận án tiến sĩ

Năm xuất bản

2023

Số trang

176

Thời gian đọc

27 phút

Lượt xem

1

Lượt tải

0

Phí lưu trữ

50 Point

I. Mô Hình Đánh Giá Độ Khó Văn Bản Tiếng Việt

Đánh giá độ khó văn bản tiếng Việt là bài toán quan trọng trong xử lý ngôn ngữ tự nhiên tiếng Việt. Mô hình đánh giá độ phức tạp văn bản giúp phân loại tài liệu theo trình độ người đọc. Nghiên cứu sử dụng hai hướng tiếp cận chính: thống kê và máy học. Hướng thống kê dựa trên các đặc trưng ngôn ngữ học như độ dài câu trung bình, mật độ từ vựng. Hướng máy học áp dụng thuật toán phân loại văn bản hiện đại. Kết quả cho thấy mô hình kết hợp đạt hiệu quả cao nhất.

1.1. Tổng Quan Nghiên Cứu Độ Khó Văn Bản

Độ khó văn bản phản ánh mức độ phức tạp khi đọc hiểu. Các yếu tố ảnh hưởng bao gồm từ vựng, cấu trúc câu, ngữ cảnh. Nghiên cứu tập trung vào văn bản tiếng Việt từ sách giáo khoa. Ngữ liệu được thu thập từ nhiều cấp học khác nhau. Phương pháp đánh giá sử dụng readability score chuẩn quốc tế. Mục tiêu xây dựng công thức tính toán phù hợp với tiếng Việt.

1.2. Ý Nghĩa Thực Tiễn Của Mô Hình

Mô hình hỗ trợ giáo viên chọn tài liệu phù hợp trình độ học sinh. Ứng dụng trong biên soạn sách giáo khoa theo chuẩn độ khó. Giúp phân loại tài liệu trực tuyến tự động. Nâng cao chất lượng giảng dạy tiếng Việt. Tạo cơ sở cho các hệ thống học tập thích ứng. Đóng góp vào phát triển NLP tiếng Việt.

1.3. Phạm Vi Và Đối Tượng Nghiên Cứu

Nghiên cứu tập trung văn bản giáo dục tiếng Việt. Ngữ liệu từ sách giáo khoa các cấp tiểu học đến trung học phổ thông. Bổ sung ngữ liệu văn học và ngôn ngữ học chuyên ngành. Tổng số văn bản được phân tích vượt ngưỡng đại diện. Các văn bản được gán nhãn độ khó theo cấp học. Đảm bảo tính đa dạng về chủ đề và thể loại.

II. Đặc Trưng Ngôn Ngữ Học Trong Phân Tích Văn Bản

Đặc trưng ngôn ngữ học là yếu tố cốt lõi trong phân tích độ phức tạp văn bản. Nghiên cứu rút trích ba nhóm đặc trưng chính: cấp độ từ, cấp độ câu, cấp độ văn bản. Mỗi nhóm cung cấp thông tin khác biệt về độ khó. Độ dài câu trung bình phản ánh cấu trúc cú pháp. Mật độ từ vựng cho biết sự đa dạng từ ngữ. Tần suất từ phức tạp đo lường khó khăn về từ vựng. Phân tích cú pháp giúp hiểu cấu trúc ngữ pháp.

2.1. Đặc Trưng Cấp Độ Từ Vựng

Số lượng từ trong văn bản là chỉ số cơ bản nhất. Độ dài trung bình của từ phản ánh độ phức tạp từ vựng. Tần suất từ phức tạp được tính dựa trên danh sách từ chuẩn. Mật độ từ vựng đo bằng tỷ lệ từ độc nhất. Số lượng từ chuyên ngành ảnh hưởng đến độ khó. Các từ đa âm tiết thường khó hơn từ đơn âm tiết.

2.2. Đặc Trưng Cấp Độ Câu

Độ dài câu trung bình tính theo số từ mỗi câu. Số lượng mệnh đề phụ thuộc tăng độ phức tạp cú pháp. Cấu trúc câu ghép phức tạp hơn câu đơn. Phân tích cú pháp xác định độ sâu cây cú pháp. Mật độ động từ và danh từ ảnh hưởng đến khả năng đọc. Số lượng thành phần câu phản ánh cấu trúc ngữ pháp.

2.3. Đặc Trưng Cấp Độ Văn Bản

Số lượng đoạn văn và cách tổ chức ý. Mức độ liên kết giữa các câu trong văn bản. Sử dụng từ nối và liên từ logic. Tính nhất quán về chủ đề qua các đoạn. Độ dài văn bản tổng thể ảnh hưởng đến độ khó. Cấu trúc tổng thể từ mở bài đến kết luận.

III. Hướng Tiếp Cận Thống Kê Đánh Giá Độ Khó

Hướng tiếp cận thống kê sử dụng công thức toán học tính readability score. Phương pháp này dựa trên phân tích tương quan giữa đặc trưng và độ khó. Phân tích hồi quy xác định hệ số trọng số cho từng đặc trưng. Công thức Syntactic Density Score được điều chỉnh cho tiếng Việt. Kết quả cho thấy độ dài câu và mật độ từ vựng có tương quan cao. Phương pháp đơn giản, dễ triển khai nhưng độ chính xác hạn chế.

3.1. Phân Tích Tương Quan Đặc Trưng

Hệ số tương quan Pearson đo mối liên hệ giữa đặc trưng và độ khó. Độ dài câu trung bình có tương quan dương mạnh. Mật độ từ vựng tương quan với cấp độ văn bản. Số lượng từ phức tạp là yếu tố quan trọng. Phân tích loại bỏ đặc trưng có tương quan thấp. Kết quả giúp lựa chọn đặc trưng hiệu quả cho mô hình.

3.2. Mô Hình Hồi Quy Tuyến Tính

Hồi quy tuyến tính kết hợp nhiều đặc trưng tính điểm độ khó. Phương trình có dạng tuyến tính với hệ số được học từ dữ liệu. Phương pháp bình phương tối thiểu tìm hệ số tối ưu. Đánh giá mô hình bằng R-squared và RMSE. Kết quả cho thấy độ chính xác trung bình 65-70%. Phù hợp cho ứng dụng cần tính toán nhanh.

3.3. Công Thức Độ Khó Cho Tiếng Việt

Công thức được điều chỉnh từ SDS cho đặc thù tiếng Việt. Tích hợp đặc trưng về âm tiết và thanh điệu. Trọng số các đặc trưng được tối ưu trên ngữ liệu tiếng Việt. Kết quả quy đổi thành thang điểm chuẩn hóa. Áp dụng thành công trên văn bản sách giáo khoa. Tạo cơ sở cho các nghiên cứu tiếp theo.

IV. Thuật Toán Phân Loại Văn Bản Máy Học

Thuật toán phân loại văn bản sử dụng máy học giám sát. Nghiên cứu thử nghiệm nhiều thuật toán: SVM, Random Forest, Naive Bayes, KNN. Đặc trưng được biểu diễn bằng vector TF-IDF và đặc trưng ngôn ngữ học. Random Forest cho kết quả tốt nhất với độ chính xác 85%. SVM phù hợp với dữ liệu nhiều chiều. Kỹ thuật RFECV giúp lựa chọn đặc trưng tối ưu. Phương pháp này vượt trội hướng thống kê về độ chính xác.

4.1. Support Vector Machine SVM

SVM tìm siêu phẳng phân tách tối ưu giữa các lớp. Sử dụng kernel RBF cho dữ liệu phi tuyến. Tham số C và gamma được tinh chỉnh bằng grid search. Kết quả đạt độ chính xác 82% trên tập test. Thời gian huấn luyện cao với dữ liệu lớn. Phù hợp cho bài toán phân lớp nhị phân và đa lớp.

4.2. Random Forest Và Lựa Chọn Đặc Trưng

Random Forest kết hợp nhiều cây quyết định. Số lượng cây và độ sâu được tối ưu hóa. RFECV tự động loại bỏ đặc trưng không quan trọng. Kết quả xác định 45 đặc trưng tối ưu từ 120 ban đầu. Độ chính xác đạt 85% vượt các thuật toán khác. Feature importance giúp hiểu vai trò từng đặc trưng.

4.3. So Sánh Các Thuật Toán Truyền Thống

Naive Bayes đơn giản nhưng độ chính xác chỉ 72%. KNN nhạy cảm với tham số k và khoảng cách. Random Forest cân bằng giữa độ chính xác và tốc độ. SVM tốt với dữ liệu có nhiều đặc trưng. Kết hợp nhiều mô hình bằng ensemble learning cải thiện kết quả. Lựa chọn thuật toán phụ thuộc yêu cầu ứng dụng.

V. Mô Hình Học Sâu BERT Cho Tiếng Việt

BERT (Bidirectional Encoder Representations from Transformers) là mô hình học sâu tiên tiến. Nghiên cứu sử dụng PhoBERT - mô hình BERT được huấn luyện trước trên tiếng Việt. Kỹ thuật fine-tuning điều chỉnh mô hình cho bài toán đánh giá độ khó. Văn bản được tách thành các đoạn ngắn trước khi đưa vào BERT. Vector đầu ra được tổng hợp và đưa qua lớp phân loại. Tích hợp thêm đặc trưng ngôn ngữ học nâng cao hiệu suất. Kết quả đạt độ chính xác 89%, cao nhất trong các phương pháp.

5.1. Kiến Trúc PhoBERT Cho Tiếng Việt

PhoBERT được huấn luyện trên 20GB dữ liệu tiếng Việt. Sử dụng tokenizer dựa trên BPE cho tiếng Việt. Mô hình có 12 lớp transformer với 768 chiều ẩn. Xử lý văn bản tối đa 256 token mỗi đoạn. Pre-training giúp mô hình học biểu diễn ngữ nghĩa sâu. Fine-tuning điều chỉnh cho bài toán cụ thể.

5.2. Kỹ Thuật Tinh Chỉnh Và Tổng Hợp Vector

Văn bản dài được chia thành nhiều đoạn 256 token. Mỗi đoạn qua PhoBERT tạo vector biểu diễn 768 chiều. Các vector được tổng hợp bằng mean pooling hoặc max pooling. Lớp fully connected chuyển đổi về số lớp độ khó. Sử dụng dropout 0.3 tránh overfitting. Learning rate 2e-5 với Adam optimizer.

5.3. Tích Hợp Đặc Trưng Ngôn Ngữ Học

Kết hợp vector BERT với đặc trưng ngôn ngữ học truyền thống. Concatenation vector tạo biểu diễn đa chiều phong phú. Đặc trưng ngôn ngữ học bổ sung thông tin cú pháp, từ vựng. Kết quả tăng 4% độ chính xác so với chỉ dùng BERT. Mô hình kết hợp tận dụng ưu điểm cả hai hướng. Đạt state-of-the-art trên ngữ liệu tiếng Việt.

VI. Xây Dựng Ngữ Liệu Và Đánh Giá Kết Quả

Ngữ liệu là yếu tố quyết định chất lượng mô hình. Nghiên cứu xây dựng hai bộ ngữ liệu chính: SGK và VH-NNH. Ngữ liệu SGK từ sách giáo khoa các cấp học, được gán nhãn theo lớp. Ngữ liệu VH-NNH từ văn bản văn học và ngôn ngữ học chuyên ngành. Tổng cộng hơn 5000 văn bản được thu thập và xử lý. Tiền xử lý bao gồm OCR, chuẩn hóa, tách câu, gán nhãn. Đánh giá sử dụng accuracy, precision, recall, F1-score. Kết quả cho thấy mô hình BERT kết hợp đặc trưng đạt hiệu quả cao nhất.

6.1. Thu Thập Và Tiền Xử Lý Ngữ Liệu

Sách giáo khoa được scan và chuyển đổi bằng OCR. Văn bản được chuẩn hóa về mã Unicode UTF-8. Loại bỏ ký tự đặc biệt, số trang, hình ảnh. Tách câu sử dụng dấu câu và quy tắc tiếng Việt. Gán nhãn độ khó dựa trên cấp học và chuyên gia. Kiểm tra chất lượng bằng đánh giá chéo.

6.2. Thống Kê Và Phân Tích Ngữ Liệu

Ngữ liệu SGK gồm 3 cấp: tiểu học, THCS, THPT. Mỗi cấp có đặc điểm về độ dài câu và từ vựng khác biệt. Ngữ liệu VH-NNH phức tạp hơn với từ chuyên ngành. Phân bố lớp tương đối cân bằng sau gom nhóm. Độ dài văn bản trung bình tăng theo cấp học. Mật độ từ vựng cũng tăng dần qua các cấp.

6.3. Kết Quả Thực Nghiệm Và So Sánh

Mô hình BERT đạt accuracy 89% trên ngữ liệu SGK. Random Forest đạt 85%, SVM đạt 82%. Hướng thống kê chỉ đạt 68% độ chính xác. Trên ngữ liệu VH-NNH, BERT đạt 86%. Tích hợp đặc trưng ngôn ngữ học cải thiện 3-4%. Kết quả vượt trội các nghiên cứu trước về NLP tiếng Việt.

24/03/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Luận án tiến sĩ Khoa học máy tính: Xây dựng mô hình đánh giá độ khó của văn bản tiếng Việt

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (176 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

ĐẠI HỌC QUỐC GIA TP.HCM TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LƯƠNG AN VINH XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ ĐỘ KHÓ CUA VĂN BẢN TIENG VIỆT LUẬN ÁN TIEN SĨ KHOA HOC MAY TÍNH TP. Hồ Chí Minh — Năm 2023 _ ĐẠI HỌC QUỐC GIA TP.HCM _ TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN LƯƠNG AN VINH XÂY DỰNG MÔ HÌNH ĐÁNH GIÁ ĐỘ KHÓ CUA VĂN BẢN TIENG VIỆT Ngành: Khoa học Máy tính Mã số ngành: 62480101 Phản biện 1: PGS. Nguyễn Tuần Đăng Phản biện 2: PGS. Nguyễn Thanh Hiên Phản biện 3: PGS.

Nguyễn Ngọc Vũ Phản biện độc lập 1: PGS. Nguyễn Tuan Đăng Phản biện độc lập 2: PGS. Nguyễn Ngọc Vũ NGƯỜI HƯỚNG DẪN KHOA HỌC: PGS. ĐINH ĐIÈN TP.

Hồ Chí Minh — Năm 2023 LỜI CÁM ƠN Lời đầu tiên tôi xin gửi lời cảm ơn chân thành và biết ơn sâu sắc tới PGS. Dinh Điền, người thay đã chỉ bao và hướng dẫn tận tình cho tôi trong suốt quá trình nghiên cứu khoa học và thực hiện luận án này. Tôi xin chân thành cảm ơn sự giúp đỡ và góp ý rất nhiệt tình của tập thé giảng viên, cán bộ Khoa Công nghệ thông tin và Trung tâm Ngôn ngữ học Tính toán, Trường Đại hoc Khoa học Tự nhiên — Đại học Quốc gia Tp. Hồ Chí Minh.

Cuối cùng, tôi xin gửi lời cảm ơn tới gia đình, người thân và bạn bè — những người luôn ở bên tôi những lúc khó khăn nhât, luôn động viên tôi, khuyên khích tôi trong cuộc sông và trong công việc. Tôi xin chân thành cảm ơn! ii LỜI CAM ĐOAN Tôi xin cam đoan luận án này được hoàn thành trên cơ sở nghiên cứu, tông hợp và phát triển các nghiên cứu đánh giá độ khó của các văn bản trong nước và trên thế giới do tôi thực hiện đưới sự hướng dẫn của PGS. Tat cả các tài liệu tham khảo đều được nêu rõ nguồn gốc một cách rõ ràng trong Danh mục tài liệu tham khảo. Các công trình công bồ là trung thực và chưa được ai công bé trong bat kỳ công trình nào khác.

Ký tên Lương An Vinh iii 8/9000. iii MUC LUC DANH MỤC CÁC KY HIỆU, CÁC CHỮ VIET TÁTT. viii DANH MỤC CAC HINH VE, DO THI. TOM TAT LUẬN AN.

Độ khó cua văn bản. Các nghiên cứu về độ khó của văn bản 1. Hướng tiếp cận thống kê. Hướng tiếp cận máy học.

Mục tiêu và phạm vi của lUẬH đhH.- th HH HH HT26 1. Đối tượng nghiên cứu. Nội dung luận án. Phạm vi nghiên CỨU.

Đóng góp của lUẬN đH. BO cục luận đn.--cccccceS2EEEEtrtthHHHHH ae 30 D6. Tig Ket nh. CƠ SỞ LÝ THUYET VE ĐỘ KHO CUA VAN BẢN.

DO KN6 CUA VGN DAN n4. Các yếu tổ ngôn ngữ ảnh hưởng đến độ khó của văn bản. Yếu tố từ. Yếu tổ câu 2.

Yếu tố van bản. Các hướng tiếp cận đánh giá độ khó văn bản tự động. Đánh giá độ khó van bản theo hướng tiếp cận thống kê. Đánh giá độ khó theo hướng tiếp cận máy học.

HH giờ 63 CHUONG 3. MÔ HÌNH ĐÁNH GIA ĐỘ KHÓ VAN BẢN TIENG VIỆT. Các AGC IFƯHg. St TH HH ngư64 3.

Đánh giá độ khó văn bản tiếng Việt theo hướng tiếp cận thống kê. Phân tích tương quan. Phân tích hdi quy. Đánh giá độ khó văn bản tiếng Việt theo hướng tiếp cận máy học, sử dung các thuật toán phân lớp truyền thống.

Mô hình đánh giá độ khó văn ban sử dụng kỹ thuật học sâu. Tach đoạn văn ban. Tinh chỉnh BERT. Tổng hợp vector văn bản và phân lớp.

Tích hợp đặc trưng ngôn ngữ vào mô hình. THỰC NGHIỆM VÀ ĐÁNH GIÁ. Xây dựng ngữ liỆM. ST St St SH 89 4.

Thu thập ngữ liệu độ khó văn ban từ sách giáo khoa tiếng Viét. Xây dựng ngữ liệu độ khó của các văn bản lĩnh vực văn học và ngôn ngữ hỌc. Tiền xử lý va gán nhãn ngữ liệu. Thống kê và gom nhóm ngữ liệu.

Rút trích đặc trưng 4. Phương pháp đánh giá 4. St ST TT HH TII 4. Công thức đo độ khó văn bản tiếng Việt.

Đánh giá độ khó văn bản theo hướng tiếp cận máy học, sử dụng các thuật toán phân lớp truyền thống. Đánh giá độ khó văn bản sử dụng kỹ thuật học sâu. So sánh với các nghiên cứu khác .--- + s es+x+x+x+vzervxexex 127 AS. TiGU KE na.

KET LUẬN VA HƯỚNG PHAT TRIÊN.------- 135 DANH MỤC CONG TRINH CONG BO CUA TÁC GIẢ.-- 142 DANH MUC TAI LIEU THAM KHAO. PHU LUC DANH MỤC CÁC KÝ HIỆU, CÁC CHỮ VIET TAT STT Từ viết tắt Tên đầy đủ 1 | SVM Support Vector Machine 2 | TF-IDF Term Frequency - Inverse Document Frequency 3 | CEFR Common European Framework of Reference 4 | PoS Part-of-Speech 5 | NE Named-Entity 6 | NB Naive Bayes 7 |KNN K-nearest neighbors 8 | RF Random Forest 9 | RFECV Recursive Feature Elimination with Cross-Validation 10 | BERT Bidirectional Encoder Representations from Transformers 11 | LSTM Long short-term memory 12 | OCR Optical Character Recognition 13 ¡SGK Sách giáo khoa 14 | VH-NNH_| Van học — Ngôn ngữ học Vii DANH MỤC CÁC BẢNG Bang 1.1: Các đặc trưng và hệ số tinh Syntactic Density Score - SDS.2: Quy đổi từ SDS sang độ khó văn bản.3: Tổng hợp một số nghiên cứu về độ khó văn bản.1: So sánh Khả năng hiểu văn bản và Độ phức tạp của văn bản.1: Thống kê ngữ liệu SGK.2: Thống kê ngữ liệu SGK (gom nhóm theo 3 cấp học).3: Thống kê ngữ liệu VH-NNH.4: Hệ số tương quan của các đặc trưng với độ khó của van bản 12 Bảng 4.5: Hệ số tương quan của các công thức đo độ khó 114 Bang 4.6: Các đặc trưng cho kết quả tốt nhất trên bộ ngữ liệu SGK.7: Các đặc trưng tốt nhất trên ngữ liệu SGK - với đặc trưng độ dài.8: Kết quả đánh giá trên bộ ngữ liệu SGK.9: Danh sách đặc trưng của thuật toán RF - ngữ liệu VH-NNH.10: Kết quả đánh giá trên bộ ngữ liệu VH-NNH.11: Thông tin cầu hình của mô hình học sâu.12: Kết quả của mô hình học sâu, so sánh với các mô hình khác.13: Hệ số tương quan của các công thức đo độ khó.14: So sánh các mô hình máy học của luận án với các nghiên cứu khác. 133 viii DANH MỤC CÁC HÌNH VẼ, ĐÒ THỊ Hình 1.1: Ví dụ về văn bản dé và văn bản khó.2: Minh họa sự khác biệt giữa độ khó văn bản và khả năng đọc hiểu.1: Ví dụ về tính dé nhìn của văn bản. 2-52-5222 ++2Ec2EEEEEerEkerrxerree 36 Hình 2.2: Các hướng nghiên cứu về sự phù hợp giữa văn bản và người đọc.3: Khung tham chiếu trình độ ngôn ngữ chung của châu Âu CEER.4: Độ khó của văn bản được tích hợp trong công cụ Microsoft Word.5: Minh họa siêu phẳng, margin trong SVM.6: Minh họa thuật toán KNN với k đối tượng khác nhau.7: Minh họa thuật toán Random Forest.1: Hệ số tương quan biểu thị trên đồ thị phân tán Scatter.2: Biểu diễn phương trình hồi quy tuyến "0 .3: Minh họa các dang hàm hỏi quy phi tuyến.------cc+-222cvsve 7I Hình 3.4: Mô hình lựa chọn đặc trưng dựa trên thuật toán RFECV.5: Sự khác biệt giữa câu trúc của BERT, OpenAI GPT và ELMo.6: Mô hình đánh giá độ khó của văn bản sử dung BERT.7: Mô hình ngôn ngữ mặt nạ của BERÌT.8: Vector của token [CLS] được dùng như vector đại diện cho đoạn văn.9: Mô hình phân lớp sử dụng LSTM.10: Mô hình đề xuất, sử dung BERT và tích hợp đặc trưng ngôn ngữ.1: Quá trình xây dựng ngữ liệu đánh giá độ khó van bản.2: Thực nghiệm thuật toán RFECV trên bộ ngữ liệu SGK.3: Thực nghiệm thuật toán RFECV sử dụng thêm 6 đặc trưng độ dai.4: Thực nghiệm thuật toán RFECV trên ngữ liệu VH-NNH.

122 ix TOM TAT LUẬN ÁN Độ khó của văn bản là hệ thống các yếu tố ngôn ngữ của nội tại văn bản ảnh hướng đến tính dễ đọc hay khó đọc của một văn bản. Các nghiên cứu về độ khó đã được bắt đầu từ lâu, nhưng hau hết các nghiên cứu đó đều được thực hiện trên tiếng Anh và một số ngôn ngữ phô biến trên thế giới. Trong tiếng Việt, trước đây chỉ có hai công trình nghiên cứu về Độ khó của văn bản, thực hiện trên hai bộ ngữ liệu khá nhỏ. Chính vì thế, rất cần có thêm các công trình nghiên cứu khác về độ khó của văn bản tiếng Việt thực hiện trên các bộ ngữ liệu cập nhật hơn, lớn hơn và trên các đặc trưng sâu hơn của văn bản như vai trò của từ, ngữ, cầu trúc ngữ pháp, ngữ nghĩa của cau.

Luận án đã xây dựng 2 bộ ngữ liệu dùng đề khảo sát và thực nghiệm đánh giá độ khó văn bản tiếng Việt, gồm: (1) Bộ ngữ liệu 370 văn bản thu thập từ sách giáo khoa tiếng Việt và Ngữ văn; và (2) Bộ ngữ liệu 1.825 văn bản thuộc lĩnh vực văn học và ngôn ngữ học. Đây là 2 bộ ngữ liệu lớn và công khai đầu tiên về độ khó văn bản trong tiếng Việt. Luận án đã khảo sát 262 đặc trưng được trích xuất từ các văn bản này để xây dựng các công thức, các mô hình đánh giá độ khó văn bản. Các đặc trưng này được thuộc nhiều cấp độ của văn bản như các đặc trưng ở mức bề mặt (độ dài câu, độ dài từ, .), các đặc trưng về tần suất từ và tần suất chữ, các đặc trưng ở cấp độ ngữ pháp mức từ, mức câu, các đặc trưng thuộc về mô hình ngôn ngữ, các đặc trưng đơn giản ở cấp độ ngữ nghĩa và các đặc trưng của riêng tiếng Việt (như tỉ lệ từ mượn, tỉ lệ phương ngữ).

Luận án cũng đã giới thiệu 3 mô hình đánh giá độ khó văn bản tiếng Việt theo từng hướng tiếp cận: Với hướng tiếp cận thống kê, luận án đã thực hiện phân tích tương quan dé chọn ra những đặc trưng có tương quan cao nhất với độ khó của văn bản, sau đó thực hiện phân tích hồi quy với một số cải tiến khi thực nghiệm để xây dựng công thức tính độ khó văn bản tiếng Việt. Kết quả cho thấy công thức mới được xây dựng có độ tương quan với độ khó văn bản vượt trội so với tất cả các nghiên cứu khác. Với hướng tiếp cận máy học, luận án đã đề xuất sử dụng thuật toán RFECV dé tự động chọn ra các đặc trưng có đóng góp tốt vào các mô hình máy học đánh giá độ khó văn bản dùng các thuật toán phân lớp truyền thống. Nhờ đó, mô hình mà luận án xây dựng đã đạt độ chính xác cao so với các nghiên cứu trước đây.

Ngoài ra, luận án cũng đề xuất một mô hình học sâu đề phân lớp văn bản theo độ khó dựa trên mô hình ngôn ngữ tiền huấn luyện BERT và mạng LSTM.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Từ khóa liên quan

Xử lý ngôn ngữ tự nhiên độ khó văn bản tiếng Việt mô hình máy học tiếng Việt học sâu BERT ngữ liệu độ khó văn bản đánh giá độ khó tự động

Chủ đề nghiên cứu

Đánh giá độ khó văn bản tiếng Việt Máy học trong xử lý ngôn ngữ tự nhiên Học sâu cho phân loại văn bản Xây dựng ngữ liệu và đặc trưng ngôn ngữ

Câu hỏi thường gặp

Luận án "Mô hình đánh giá độ khó văn bản tiếng Việt bằng máy học" nghiên cứu về vấn đề gì?

Luận án tiến sĩ xây dựng mô hình đánh giá độ khó văn bản tiếng Việt. Áp dụng BERT, SVM, Random Forest để phân lớp tự động từ dữ liệu sách giáo khoa.

Luận án "Mô hình đánh giá độ khó văn bản tiếng Việt bằng máy học" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại trường đại học khoa học tự nhiên - đại học quốc gia tp.hcm. Năm bảo vệ: 2023.

Luận án "Mô hình đánh giá độ khó văn bản tiếng Việt bằng máy học" thuộc chuyên ngành gì?

Luận án "Mô hình đánh giá độ khó văn bản tiếng Việt bằng máy học" thuộc chuyên ngành Khoa học Máy tính. Danh mục: Khoa Học Máy Tính.

Luận án "Mô hình đánh giá độ khó văn bản tiếng Việt bằng máy học" có bao nhiêu trang?

Luận án "Mô hình đánh giá độ khó văn bản tiếng Việt bằng máy học" có 176 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Cách tải luận án "Mô hình đánh giá độ khó văn bản tiếng Việt bằng máy học" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter

Mục lục chi tiết

Tóm tắt nội dung