Luận án tiến sĩ: Xây dựng mô hình đánh giá độ khó văn bản tiếng Việt

Trường ĐH

trường đại học khoa học tự nhiên - đại học quốc gia tp.hcm

Chuyên ngành

Khoa học Máy tính

Tác giả

Ẩn danh

Thể loại

Luận án tiến sĩ

Năm xuất bản

Số trang

176

Thời gian đọc

27 phút

Lượt xem

0

Lượt tải

0

Phí lưu trữ

50 Point

Tóm tắt nội dung

I. Mô Hình Đánh Giá Độ Khó Văn Bản Tiếng Việt

Đánh giá độ khó văn bản tiếng Việt là bài toán quan trọng trong xử lý ngôn ngữ tự nhiên tiếng Việt. Mô hình đánh giá độ phức tạp văn bản giúp phân loại tài liệu theo trình độ người đọc. Nghiên cứu sử dụng hai hướng tiếp cận chính: thống kê và máy học. Hướng thống kê dựa trên các đặc trưng ngôn ngữ học như độ dài câu trung bình, mật độ từ vựng. Hướng máy học áp dụng thuật toán phân loại văn bản hiện đại. Kết quả cho thấy mô hình kết hợp đạt hiệu quả cao nhất.

1.1. Tổng Quan Nghiên Cứu Độ Khó Văn Bản

Độ khó văn bản phản ánh mức độ phức tạp khi đọc hiểu. Các yếu tố ảnh hưởng bao gồm từ vựng, cấu trúc câu, ngữ cảnh. Nghiên cứu tập trung vào văn bản tiếng Việt từ sách giáo khoa. Ngữ liệu được thu thập từ nhiều cấp học khác nhau. Phương pháp đánh giá sử dụng readability score chuẩn quốc tế. Mục tiêu xây dựng công thức tính toán phù hợp với tiếng Việt.

1.2. Ý Nghĩa Thực Tiễn Của Mô Hình

Mô hình hỗ trợ giáo viên chọn tài liệu phù hợp trình độ học sinh. Ứng dụng trong biên soạn sách giáo khoa theo chuẩn độ khó. Giúp phân loại tài liệu trực tuyến tự động. Nâng cao chất lượng giảng dạy tiếng Việt. Tạo cơ sở cho các hệ thống học tập thích ứng. Đóng góp vào phát triển NLP tiếng Việt.

1.3. Phạm Vi Và Đối Tượng Nghiên Cứu

Nghiên cứu tập trung văn bản giáo dục tiếng Việt. Ngữ liệu từ sách giáo khoa các cấp tiểu học đến trung học phổ thông. Bổ sung ngữ liệu văn học và ngôn ngữ học chuyên ngành. Tổng số văn bản được phân tích vượt ngưỡng đại diện. Các văn bản được gán nhãn độ khó theo cấp học. Đảm bảo tính đa dạng về chủ đề và thể loại.

II. Đặc Trưng Ngôn Ngữ Học Trong Phân Tích Văn Bản

Đặc trưng ngôn ngữ học là yếu tố cốt lõi trong phân tích độ phức tạp văn bản. Nghiên cứu rút trích ba nhóm đặc trưng chính: cấp độ từ, cấp độ câu, cấp độ văn bản. Mỗi nhóm cung cấp thông tin khác biệt về độ khó. Độ dài câu trung bình phản ánh cấu trúc cú pháp. Mật độ từ vựng cho biết sự đa dạng từ ngữ. Tần suất từ phức tạp đo lường khó khăn về từ vựng. Phân tích cú pháp giúp hiểu cấu trúc ngữ pháp.

2.1. Đặc Trưng Cấp Độ Từ Vựng

Số lượng từ trong văn bản là chỉ số cơ bản nhất. Độ dài trung bình của từ phản ánh độ phức tạp từ vựng. Tần suất từ phức tạp được tính dựa trên danh sách từ chuẩn. Mật độ từ vựng đo bằng tỷ lệ từ độc nhất. Số lượng từ chuyên ngành ảnh hưởng đến độ khó. Các từ đa âm tiết thường khó hơn từ đơn âm tiết.

2.2. Đặc Trưng Cấp Độ Câu

Độ dài câu trung bình tính theo số từ mỗi câu. Số lượng mệnh đề phụ thuộc tăng độ phức tạp cú pháp. Cấu trúc câu ghép phức tạp hơn câu đơn. Phân tích cú pháp xác định độ sâu cây cú pháp. Mật độ động từ và danh từ ảnh hưởng đến khả năng đọc. Số lượng thành phần câu phản ánh cấu trúc ngữ pháp.

2.3. Đặc Trưng Cấp Độ Văn Bản

Số lượng đoạn văn và cách tổ chức ý. Mức độ liên kết giữa các câu trong văn bản. Sử dụng từ nối và liên từ logic. Tính nhất quán về chủ đề qua các đoạn. Độ dài văn bản tổng thể ảnh hưởng đến độ khó. Cấu trúc tổng thể từ mở bài đến kết luận.

III. Hướng Tiếp Cận Thống Kê Đánh Giá Độ Khó

Hướng tiếp cận thống kê sử dụng công thức toán học tính readability score. Phương pháp này dựa trên phân tích tương quan giữa đặc trưng và độ khó. Phân tích hồi quy xác định hệ số trọng số cho từng đặc trưng. Công thức Syntactic Density Score được điều chỉnh cho tiếng Việt. Kết quả cho thấy độ dài câu và mật độ từ vựng có tương quan cao. Phương pháp đơn giản, dễ triển khai nhưng độ chính xác hạn chế.

3.1. Phân Tích Tương Quan Đặc Trưng

Hệ số tương quan Pearson đo mối liên hệ giữa đặc trưng và độ khó. Độ dài câu trung bình có tương quan dương mạnh. Mật độ từ vựng tương quan với cấp độ văn bản. Số lượng từ phức tạp là yếu tố quan trọng. Phân tích loại bỏ đặc trưng có tương quan thấp. Kết quả giúp lựa chọn đặc trưng hiệu quả cho mô hình.

3.2. Mô Hình Hồi Quy Tuyến Tính

Hồi quy tuyến tính kết hợp nhiều đặc trưng tính điểm độ khó. Phương trình có dạng tuyến tính với hệ số được học từ dữ liệu. Phương pháp bình phương tối thiểu tìm hệ số tối ưu. Đánh giá mô hình bằng R-squared và RMSE. Kết quả cho thấy độ chính xác trung bình 65-70%. Phù hợp cho ứng dụng cần tính toán nhanh.

3.3. Công Thức Độ Khó Cho Tiếng Việt

Công thức được điều chỉnh từ SDS cho đặc thù tiếng Việt. Tích hợp đặc trưng về âm tiết và thanh điệu. Trọng số các đặc trưng được tối ưu trên ngữ liệu tiếng Việt. Kết quả quy đổi thành thang điểm chuẩn hóa. Áp dụng thành công trên văn bản sách giáo khoa. Tạo cơ sở cho các nghiên cứu tiếp theo.

IV. Thuật Toán Phân Loại Văn Bản Máy Học

Thuật toán phân loại văn bản sử dụng máy học giám sát. Nghiên cứu thử nghiệm nhiều thuật toán: SVM, Random Forest, Naive Bayes, KNN. Đặc trưng được biểu diễn bằng vector TF-IDF và đặc trưng ngôn ngữ học. Random Forest cho kết quả tốt nhất với độ chính xác 85%. SVM phù hợp với dữ liệu nhiều chiều. Kỹ thuật RFECV giúp lựa chọn đặc trưng tối ưu. Phương pháp này vượt trội hướng thống kê về độ chính xác.

4.1. Support Vector Machine SVM

SVM tìm siêu phẳng phân tách tối ưu giữa các lớp. Sử dụng kernel RBF cho dữ liệu phi tuyến. Tham số C và gamma được tinh chỉnh bằng grid search. Kết quả đạt độ chính xác 82% trên tập test. Thời gian huấn luyện cao với dữ liệu lớn. Phù hợp cho bài toán phân lớp nhị phân và đa lớp.

4.2. Random Forest Và Lựa Chọn Đặc Trưng

Random Forest kết hợp nhiều cây quyết định. Số lượng cây và độ sâu được tối ưu hóa. RFECV tự động loại bỏ đặc trưng không quan trọng. Kết quả xác định 45 đặc trưng tối ưu từ 120 ban đầu. Độ chính xác đạt 85% vượt các thuật toán khác. Feature importance giúp hiểu vai trò từng đặc trưng.

4.3. So Sánh Các Thuật Toán Truyền Thống

Naive Bayes đơn giản nhưng độ chính xác chỉ 72%. KNN nhạy cảm với tham số k và khoảng cách. Random Forest cân bằng giữa độ chính xác và tốc độ. SVM tốt với dữ liệu có nhiều đặc trưng. Kết hợp nhiều mô hình bằng ensemble learning cải thiện kết quả. Lựa chọn thuật toán phụ thuộc yêu cầu ứng dụng.

V. Mô Hình Học Sâu BERT Cho Tiếng Việt

BERT (Bidirectional Encoder Representations from Transformers) là mô hình học sâu tiên tiến. Nghiên cứu sử dụng PhoBERT - mô hình BERT được huấn luyện trước trên tiếng Việt. Kỹ thuật fine-tuning điều chỉnh mô hình cho bài toán đánh giá độ khó. Văn bản được tách thành các đoạn ngắn trước khi đưa vào BERT. Vector đầu ra được tổng hợp và đưa qua lớp phân loại. Tích hợp thêm đặc trưng ngôn ngữ học nâng cao hiệu suất. Kết quả đạt độ chính xác 89%, cao nhất trong các phương pháp.

5.1. Kiến Trúc PhoBERT Cho Tiếng Việt

PhoBERT được huấn luyện trên 20GB dữ liệu tiếng Việt. Sử dụng tokenizer dựa trên BPE cho tiếng Việt. Mô hình có 12 lớp transformer với 768 chiều ẩn. Xử lý văn bản tối đa 256 token mỗi đoạn. Pre-training giúp mô hình học biểu diễn ngữ nghĩa sâu. Fine-tuning điều chỉnh cho bài toán cụ thể.

5.2. Kỹ Thuật Tinh Chỉnh Và Tổng Hợp Vector

Văn bản dài được chia thành nhiều đoạn 256 token. Mỗi đoạn qua PhoBERT tạo vector biểu diễn 768 chiều. Các vector được tổng hợp bằng mean pooling hoặc max pooling. Lớp fully connected chuyển đổi về số lớp độ khó. Sử dụng dropout 0.3 tránh overfitting. Learning rate 2e-5 với Adam optimizer.

5.3. Tích Hợp Đặc Trưng Ngôn Ngữ Học

Kết hợp vector BERT với đặc trưng ngôn ngữ học truyền thống. Concatenation vector tạo biểu diễn đa chiều phong phú. Đặc trưng ngôn ngữ học bổ sung thông tin cú pháp, từ vựng. Kết quả tăng 4% độ chính xác so với chỉ dùng BERT. Mô hình kết hợp tận dụng ưu điểm cả hai hướng. Đạt state-of-the-art trên ngữ liệu tiếng Việt.

VI. Xây Dựng Ngữ Liệu Và Đánh Giá Kết Quả

Ngữ liệu là yếu tố quyết định chất lượng mô hình. Nghiên cứu xây dựng hai bộ ngữ liệu chính: SGK và VH-NNH. Ngữ liệu SGK từ sách giáo khoa các cấp học, được gán nhãn theo lớp. Ngữ liệu VH-NNH từ văn bản văn học và ngôn ngữ học chuyên ngành. Tổng cộng hơn 5000 văn bản được thu thập và xử lý. Tiền xử lý bao gồm OCR, chuẩn hóa, tách câu, gán nhãn. Đánh giá sử dụng accuracy, precision, recall, F1-score. Kết quả cho thấy mô hình BERT kết hợp đặc trưng đạt hiệu quả cao nhất.

6.1. Thu Thập Và Tiền Xử Lý Ngữ Liệu

Sách giáo khoa được scan và chuyển đổi bằng OCR. Văn bản được chuẩn hóa về mã Unicode UTF-8. Loại bỏ ký tự đặc biệt, số trang, hình ảnh. Tách câu sử dụng dấu câu và quy tắc tiếng Việt. Gán nhãn độ khó dựa trên cấp học và chuyên gia. Kiểm tra chất lượng bằng đánh giá chéo.

6.2. Thống Kê Và Phân Tích Ngữ Liệu

Ngữ liệu SGK gồm 3 cấp: tiểu học, THCS, THPT. Mỗi cấp có đặc điểm về độ dài câu và từ vựng khác biệt. Ngữ liệu VH-NNH phức tạp hơn với từ chuyên ngành. Phân bố lớp tương đối cân bằng sau gom nhóm. Độ dài văn bản trung bình tăng theo cấp học. Mật độ từ vựng cũng tăng dần qua các cấp.

6.3. Kết Quả Thực Nghiệm Và So Sánh

Mô hình BERT đạt accuracy 89% trên ngữ liệu SGK. Random Forest đạt 85%, SVM đạt 82%. Hướng thống kê chỉ đạt 68% độ chính xác. Trên ngữ liệu VH-NNH, BERT đạt 86%. Tích hợp đặc trưng ngôn ngữ học cải thiện 3-4%. Kết quả vượt trội các nghiên cứu trước về NLP tiếng Việt.

Xem trước tài liệu
Tải đầy đủ để xem toàn bộ nội dung
Luận án tiến sĩ Khoa học máy tính: Xây dựng mô hình đánh giá độ khó của văn bản tiếng Việt

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (176 trang)

Từ khóa và chủ đề nghiên cứu


Câu hỏi thường gặp

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter