Giới thiệu dự án

Trong bối cảnh bùng nổ của dữ liệu số và sự phát triển mạnh mẽ của mạng xã hội, việc phân tích và hiểu cảm xúc từ văn bản đã trở thành một lĩnh vực trọng yếu trong Khoa học Máy tính và Trí tuệ Nhân tạo (AI). Đặc biệt, với sự gia tăng của các nền tảng kỹ thuật số, học sinh, sinh viên ngày càng bộc lộ suy nghĩ và cảm xúc của mình trên internet. Tại Việt Nam, các trang "confession" trên Facebook là nơi sinh viên thường xuyên chia sẻ cảm xúc, ý kiến. Theo thống kê ngành, khả năng thấu hiểu cảm xúc từ dữ liệu văn bản có thể cung cấp những hiểu biết sâu sắc về tâm lý học đường, từ đó tối ưu hóa các chương trình giáo dục và hỗ trợ tâm lý.

Problem Statement: Mặc dù đã có những tiến bộ đáng kể trong Xử lý Ngôn ngữ Tự nhiên (NLP) và Học máy (ML), phân tích cảm xúc từ văn bản vẫn còn là một nhiệm vụ đầy thách thức, đặc biệt trong môi trường giáo dục. Những vấn đề cốt lõi bao gồm:

  1. Tính mơ hồ và đa dạng của ngôn ngữ: Cảm xúc có thể được diễn đạt theo vô số cách, bị ảnh hưởng bởi các yếu tố văn hóa, ngữ cảnh và cá nhân. Sự châm biếm, thành ngữ hay cách dùng từ tinh tế trong tiếng Việt khiến việc phân loại cảm xúc trở nên phức tạp.
  2. Chất lượng và tính sẵn có của dữ liệu: Để phân loại cảm xúc hiệu quả, cần có các tập dữ liệu lớn được gán nhãn chính xác. Các tập dữ liệu hiện có thường không bao gồm đầy đủ các biểu hiện cảm xúc hoặc có thể bị sai lệch, ảnh hưởng đến hiệu suất mô hình.
  3. Bản chất động của ngôn ngữ: Sự phát triển không ngừng của ngôn ngữ, cùng với sự xuất hiện của các hình thức biểu đạt mới như emoji và tiếng lóng internet, đặt ra thách thức liên tục. Các mô hình truyền thống thường không thể khái quát hóa tốt với những hình thức này.
  4. Thách thức với ngôn ngữ tài nguyên thấp: Với tiếng Việt, một ngôn ngữ tài nguyên thấp, việc nghiên cứu về phân loại cảm xúc học sinh trên mạng xã hội vẫn còn là một khoảng trống lớn. Cụ thể, "chưa có bài báo nào về phân loại cảm xúc của sinh viên trên mạng xã hội [tiếng Việt]."

Project Objectives: Mục tiêu chính của đồ án này là giải quyết các thách thức trên thông qua việc phát triển và đánh giá các phương pháp nhận diện cảm xúc tự động trong văn bản. Cụ thể:

  1. Nghiên cứu và áp dụng các phương pháp tiền xử lý văn bản chuyên sâu, bao gồm làm sạch dữ liệu và mã hóa ký tự (tokenization), để xử lý đặc thù của văn bản mạng xã hội tiếng Việt.
  2. Đánh giá hiệu quả của các mô hình Học máy truyền thống (Logistic Regression, Decision Tree, Random Forest, Support Vector Machine) và các mô hình Học sâu tiên tiến (Transformer-based models như BERT, PhoBERT, CafeBERT, ViSoBERT) trong việc phân loại 7 loại cảm xúc (Neutral, Joy, Sadness, Surprise, Anger, Fear, Disgust) từ dữ liệu "confession" của sinh viên.
  3. Thực nghiệm và so sánh các hàm lỗi khác nhau (Cross-Entropy Loss, Focal Loss, Self-adjusting Dice Loss và các kết hợp) để cải thiện hiệu suất phân loại trên tập dữ liệu mất cân bằng.
  4. Khám phá và đánh giá các kỹ thuật tăng cường dữ liệu (data augmentation) như SMOTE và ContextualWordEmbsAug để nâng cao độ mạnh mẽ và khả năng khái quát hóa của mô hình.

Solution Approach: Giải pháp được đề xuất tuân theo một quy trình khoa học bao gồm: phân tích dữ liệu khám phá (EDA) chuyên sâu để xác định các nguồn nhiễu, làm sạch dữ liệu theo trình tự nghiêm ngặt, huấn luyện và đánh giá một loạt các mô hình Học máy và Học sâu, sau đó phân tích so sánh để xác định phương pháp tối ưu. Chúng tôi đặc biệt chú trọng vào việc xử lý các đặc điểm ngôn ngữ của tiếng Việt trên mạng xã hội, cũng như tối ưu hóa hiệu suất trên các lớp cảm xúc thiểu số.

Expected Outcomes:

  • Một hệ thống phân loại cảm xúc tự động hiệu quả cho văn bản tiếng Việt của sinh viên trên mạng xã hội, với độ chính xác và F1-score được cải thiện đáng kể so với các giải pháp hiện có.
  • Báo cáo chi tiết về hiệu suất của các mô hình ML/DL, các hàm lỗi và kỹ thuật tăng cường dữ liệu, cung cấp cái nhìn sâu sắc về các phương pháp phù hợp nhất cho ngôn ngữ tài nguyên thấp và dữ liệu mạng xã hội.
  • Dữ liệu và phân tích có giá trị giúp các nhà giáo dục và quản lý trường học đưa ra quyết định hỗ trợ tốt hơn cho sinh viên, tối ưu hóa chương trình học và cải thiện môi trường học tập.

Scope và Limitations: Dự án tập trung vào phân loại 7 loại cảm xúc cơ bản trên tập dữ liệu "confession" tiếng Việt của sinh viên. Mặc dù đã thử nghiệm các kỹ thuật tăng cường dữ liệu, một số hạn chế về hiệu suất được ghi nhận cho thấy sự phức tạp của việc tăng cường dữ liệu cho văn bản tiếng Việt có sắc thái. Dự án không đi sâu vào việc phát triển các kiến trúc mô hình mới hoàn toàn mà tập trung vào việc áp dụng và tối ưu hóa các mô hình hiện có.

Phân tích và thiết kế giải pháp

Phân tích hiện trạng

Current solutions analysis: Các nghiên cứu gần đây đã chỉ ra tiềm năng của các mô hình Transformer trong nhận diện cảm xúc. Luis Romero Gomez et al. (2023) đã khám phá hiệu suất của BERT, DistilBERT và RoBERTa trên mạng xã hội, đạt F1-scores trên 92% nhưng tập trung vào tiếng Anh. Koufakou et al. (2023) nhấn mạnh tầm quan trọng của chiến lược tăng cường dữ liệu để giảm thiểu vấn đề mất cân bằng dữ liệu. Đối với văn bản tiếng Việt, có một số tập dữ liệu benchmark như Vietnamese Students' Feedback Corpus (UIT-VSFC) của Kiet Van Nguyen et al. (2018) và UIT-VSMEC (Vietnamese Social Media Emotion Corpus) của Ho et al. (2020). Nghiên cứu của Ho et al. (2020) đạt thỏa thuận chú thích trên 82% và áp dụng cả mô hình học máy và mạng thần kinh sâu, báo cáo F1-score tổng thể có trọng số tốt nhất là 59.74% trên corpus UIT-VSMEC gốc bằng cách sử dụng CNN với word2vec embeddings.

Market research với competitor comparison: So sánh với các nghiên cứu hiện có, đặc biệt là UIT-VSMEC (Ho et al., 2020) với F1-score 59.74%, dự án này đạt được hiệu suất cao hơn với ViSoBERT sử dụng Cross-Entropy Loss, đạt F1-score 67%. Điều này cho thấy sự tiến bộ đáng kể trong việc phân loại cảm xúc cho văn bản tiếng Việt. Điểm khác biệt chính là việc tập trung vào dữ liệu "confession" của sinh viên trên mạng xã hội và các thử nghiệm sâu rộng với các mô hình Transformer và hàm lỗi, lấp đầy khoảng trống nghiên cứu đã được chỉ ra: "chưa có bài báo nào về phân loại cảm xúc của sinh viên trên mạng xã hội [tiếng Việt]".

User requirements với prioritization (MoSCoW):

  • Must have: Khả năng nhận diện chính xác các cảm xúc cốt lõi (Neutral, Joy, Sadness, Anger) để nắm bắt tâm trạng chung của sinh viên.
  • Should have: Khả năng nhận diện các cảm xúc ít phổ biến hơn (Surprise, Fear, Disgust) để hiểu sâu hơn về các vấn đề phức tạp.
  • Could have: Tích hợp thời gian thực để phản ứng nhanh với các cuộc khủng hoảng hoặc thông tin sai lệch trên mạng xã hội.
  • Won't have: Phân tích ý định phức tạp hoặc bối cảnh đa phương tiện.

Technical constraints và challenges:

  1. Mất cân bằng dữ liệu: Tập dữ liệu có sự mất cân bằng nghiêm trọng giữa các lớp cảm xúc, với 'Neutral', 'Joy', 'Sadness' chiếm đa số và 'Disgust' dưới 1% tổng dữ liệu (xem Bảng 2 và Hình 3).
  2. Đặc thù văn bản mạng xã hội: Chứa nhiều tiếng lóng, từ viết tắt, emoji, ký tự đặc biệt và cách diễn đạt không chuẩn tắc.
  3. Ngữ cảnh phức tạp: Cảm xúc phụ thuộc nhiều vào ngữ cảnh, sự châm biếm, ý nghĩa kép của từ.
  4. Ngôn ngữ tài nguyên thấp: Thiếu các tài nguyên lớn được gán nhãn cho tiếng Việt so với tiếng Anh.

Gap analysis với specific opportunities: Khoảng cách lớn nhất là thiếu các nghiên cứu chuyên sâu về phân loại cảm xúc của sinh viên Việt Nam trên mạng xã hội. Dự án này tận dụng cơ hội để phát triển một giải pháp toàn diện, tập trung vào việc xử lý các thách thức của ngôn ngữ tài nguyên thấp và dữ liệu mạng xã hội để cung cấp thông tin giá trị cho ngành giáo dục.

Thiết kế hệ thống

Architecture design với component diagram: Kiến trúc giải pháp được minh họa trong Hình 2, tuân theo quy trình tiêu chuẩn trong NLP:

graph TD
    A[Dataset] --> B{Exploratory Data Analysis};
    B --> C{Data Cleaning};
    C --> D{Model Training};
    D --> E{Comparative Analysis};
    E --> F[Emotion Classification Model];
  • Dataset: Dữ liệu "confession" của sinh viên từ Facebook, bao gồm cột Text (bài đăng/bình luận) và Emotion (nhãn cảm xúc), cùng với TAG để hỗ trợ làm sạch.
  • Exploratory Data Analysis (EDA): Phân tích tần suất ký tự đặc biệt, bi-gram, tri-gram, phân bố emoji và độ dài token để hiểu đặc điểm dữ liệu.
  • Data Cleaning: Quy trình làm sạch tuần tự để loại bỏ nhiễu, chuẩn hóa văn bản.
  • Model Training: Huấn luyện các mô hình ML và DL trên tập dữ liệu đã được làm sạch và tiền xử lý.
  • Comparative Analysis: Đánh giá hiệu suất của các mô hình, hàm lỗi, và kỹ thuật tăng cường dữ liệu để chọn ra phương pháp tối ưu.
  • Emotion Classification Model: Mô hình được lựa chọn cuối cùng (ViSoBERT với Cross-Entropy Loss) có khả năng phân loại cảm xúc từ văn bản mới.

Technology stack với version numbers:

  • Ngôn ngữ lập trình: Python
  • Thư viện Học máy: scikit-learn (để triển khai Logistic Regression, Decision Tree, Random Forest, Support Vector Machine)
  • Thư viện Học sâu: Hugging Face Transformers (để triển khai BERT, PhoBERT-base, PhoBERT-large, CafeBERT, BERT Multilingual Base Model (Cased), XLNet, ViSoBERT)
  • Thư viện tăng cường dữ liệu: NLPaug (cụ thể là ContextualWordEmbsAug)
  • Thư viện tiền xử lý: Các thư viện xử lý chuỗi và biểu thức chính quy của Python.
  • Công cụ trực quan hóa: matplotlib, seaborn, wordcloud

Database design (if applicable): Tập dữ liệu được tổ chức dưới dạng bảng (hoặc dataframe trong Python), với các trường chính:

  • Text (String): Nội dung bài đăng hoặc bình luận của sinh viên.
  • Emotion (Categorical String): Nhãn cảm xúc (Neutral, Joy, Sadness, Surprise, Anger, Fear, Disgust).
  • TAG (String): Thông tin bổ sung dùng trong quá trình làm sạch (ví dụ: tên tài khoản Facebook được tag). Số lượng hàng dữ liệu: 15,515 hàng cho huấn luyện, 6,196 hàng cho kiểm thử và xác thực.

Security considerations: Dữ liệu "confession" được thu thập nặc danh, đảm bảo quyền riêng tư của sinh viên. Quá trình phân tích sẽ không tiết lộ danh tính cá nhân. Các thông tin nhạy cảm như tên tag, số điện thoại, email được loại bỏ trong quá trình làm sạch dữ liệu.

Performance requirements: Mục tiêu là đạt được F1-score có trọng số (Weighted F1) cao nhất có thể, đặc biệt chú trọng đến hiệu suất trên các lớp thiểu số. Độ chính xác tổng thể (Accuracy) cũng là một chỉ số quan trọng. Thời gian phản hồi của mô hình cần đủ nhanh để hỗ trợ các ứng dụng thực tế.

Methodology

Development methodology: Dự án áp dụng phương pháp nghiên cứu và phát triển lặp lại (iterative and experimental approach). Các bước bao gồm: chuẩn bị dữ liệu, phát triển mô hình ban đầu, thử nghiệm và đánh giá, sau đó lặp lại quy trình với các mô hình, hàm lỗi hoặc kỹ thuật mới cho đến khi đạt được hiệu suất mong muốn.

Project timeline với milestones:

  • Giai đoạn 1 (Tuần 1-4): Thu thập và chuẩn bị dữ liệu, EDA, thiết lập quy trình làm sạch dữ liệu ban đầu. Đạt được dữ liệu sạch sẵn sàng cho mô hình hóa.
  • Giai đoạn 2 (Tuần 5-8): Triển khai và đánh giá các mô hình ML cơ bản (LR, DT, RF, SVM). Xác định hiệu suất baseline.
  • Giai đoạn 3 (Tuần 9-12): Triển khai và đánh giá các mô hình Transformer (BERT, PhoBERT, ViSoBERT, XLNet). Xác định mô hình Transformer tốt nhất.
  • Giai đoạn 4 (Tuần 13-16): Thử nghiệm các hàm lỗi khác nhau và kỹ thuật tăng cường dữ liệu với mô hình tốt nhất. Tối ưu hóa hiệu suất và phân tích ảnh hưởng của từng yếu tố.
  • Giai đoạn 5 (Tuần 17-18): Phân tích kết quả, viết báo cáo, chuẩn bị trình bày.

Risk assessment và mitigation strategies:

  • Rủi ro 1: Mất cân bằng dữ liệu nghiêm trọng.
    • Chiến lược giảm thiểu: Áp dụng các kỹ thuật cân bằng dữ liệu như SMOTE và các hàm lỗi chuyên biệt (Focal Loss, Dice Loss) được thiết kế cho dữ liệu mất cân bằng.
  • Rủi ro 2: Mô hình quá khớp (overfitting).
    • Chiến lược giảm thiểu: Sử dụng kỹ thuật kiểm định chéo (cross-validation), chia dữ liệu thành tập huấn luyện, kiểm thử và xác thực độc lập. Áp dụng các mô hình ensemble (Random Forest) hoặc kiến trúc Transformer có khả năng khái quát hóa tốt.
  • Rủi ro 3: Thách thức với sắc thái ngôn ngữ mạng xã hội.
    • Chiến lược giảm thiểu: Thực hiện quy trình làm sạch dữ liệu cực kỳ chi tiết, phân tích sâu EDA để hiểu rõ các pattern biểu đạt cảm xúc. Sử dụng các mô hình Transformer đã được huấn luyện trước trên dữ liệu tiếng Việt (PhoBERT, ViSoBERT) để nắm bắt ngữ cảnh tốt hơn.

Quality assurance approach: Chất lượng dữ liệu được đảm bảo thông qua thỏa thuận giữa những người chú thích (inter-rater agreement) với kappa agreement score là 80% cho tập dữ liệu. Hiệu suất mô hình được đánh giá nghiêm ngặt bằng các chỉ số như Accuracy, Precision, Recall, và Weighted F1-score trên tập dữ liệu kiểm thử độc lập. Mỗi thử nghiệm được thực hiện nhiều lần để đảm bảo tính ổn định của kết quả.

Implementation và kết quả

Development process

Data preparation: Quá trình chuẩn bị dữ liệu là một trong những điểm đóng góp chính của dự án, bao gồm các bước làm sạch dữ liệu tuần tự và chi tiết:

  1. Xác định nhiễu: Phân tích các ký tự đặc biệt, emoji, độ dài token, word cloud và bi-gram để nhận diện các pattern nhiễu và cách diễn đạt đặc trưng của sinh viên. Ví dụ, Hình 5, 6, 7 cho thấy tần suất cao của dấu ngoặc đơn () và các emoticon :), :(((. Hình 8 và 9 minh họa phân bố emoji và top 5 emoji theo nhãn.
  2. Làm sạch văn bản: Quy trình làm sạch được mô tả chi tiết trong Bảng 3:
    • Loại bỏ ký tự xuống dòng (\n) và URL.
    • Xóa các tên được tag (Đặng Thanh Tùng Hương Thu).
    • Xóa ngày, giờ, email, số điện thoại.
    • Xử lý các ký tự bất thường khác (hashtag, khoảng trắng thừa, ký tự đặc biệt không phải emoticon).
    • Mở rộng từ viết tắt (jztr thành gì vậy trời).
    • Rút gọn các emoji lặp lại liên tiếp (😀😀 thành 😀).
  3. Tokenization và chuẩn hóa: Văn bản được tách thành các token (ví dụ: từ, subword) và chuẩn hóa để giảm sự không nhất quán. Ví dụ: "thâý bạn ấy nói chưa, suốt ngày cứ hỏi bạn có người yêu chưa." thành "thấy bạn ấy nói chưa ,suốt ngày cứ hỏi bạn có người_yêu chưa ." (Hình 13).
  4. Giải mã emoji: Đây là bước cuối cùng trong làm sạch, sau khi đã xử lý các ký tự đặc biệt khác. Emoji được chuyển đổi thành các mô tả bằng văn bản, ví dụ: "học vs hành 😂" thành "học vs_hành :khuôn mặt với những giọt nước mắt của niềm vui:". Điều này giúp mô hình hiểu rõ hơn ý nghĩa của emoji. Code snippet (Conceptual):
import re
import emoji
import nlpaug.augmenter.word as naw

def clean_text_step_by_step(text):
    # 1. Remove URLs
    text = re.sub(r'http\S+|www\S+|https\S+', '', text, flags=re.MULTILINE)
    # 2. Remove mentions (e.g., @username) - adapting from TAG removal
    text = re.sub(r'@\w+', '', text)
    # 3. Remove date, time, email, phone numbers (example regex, needs refinement for Vietnamese context)
    text = re.sub(r'\d{1,2}/\d{1,2}/\d{2,4}', '', text) # Dates
    text = re.sub(r'\d{1,2}h\d{1,2}', '', text) # Times like 6h58
    text = re.sub(r'\S+@\S+', '', text) # Emails
    text = re.sub(r'\b\d{9,11}\b', '', text) # Phone numbers
    # 4. Remove hashtags and extra spaces
    text = re.sub(r'#\w+', '', text)
    text = re.sub(r'\s+', ' ', text).strip()
    # 5. Abbreviation expansion (simplified example)
    text = text.replace("jztr", "gì vậy trời")
    # 6. Normalize consecutive emojis (handled by emoji library usually, but custom rule might be needed)
    text = re.sub(r'(\P{IsEmoticon_Presentation}\P{IsEmoticon_Presentation})+', r'\1', text) # Simplified, proper handling is complex
    return text

def tokenize_and_normalize(text):
    # This would involve a specific Vietnamese tokenizer like Underthesea or a custom regex
    # For demonstration, a simple split
    tokens = text.lower().split()
    # Further normalization like 'người yêu' -> 'người_yêu' for compounds
    normalized_tokens = [t.replace("người yêu", "người_yêu") for t in tokens]
    return normalized_tokens

def decode_emojis(text):
    # Using emoji library to convert emojis to text descriptions
    return emoji.demojize(text, delimiters=(" :", ": "))

# Example usage (simplified)
raw_text = "Mà túm lại vẫn sai nên thui nghe nhạc i mọi người😀\nhttps://youtu.be/Q3xlEH3_HGA @minh Đặng Thanh Tùng học đủ rồi tôi muốn nghỉ tết :))) ủa 8/5 hay 5/8 :)) trộm vía 6h58 e xong 5 môn ạ 🤣 canvapro@gmail.com add mình vào nhóm nhá bạn 0862966068 đây bạn ơi #20330 muốn học tốt thì nên học lại :< jztr 😀😀"
cleaned_step1 = clean_text_step_by_step(raw_text)
# Further tokenization/normalization and emoji decoding would follow
final_cleaned_text = decode_emojis(cleaned_step1)
# print(final_cleaned_text)

Key algorithms/techniques DETAILED:

  • Machine Learning Models:
    • Logistic Regression (LR): Mô hình phân loại tuyến tính đơn giản, ước tính xác suất sự kiện xảy ra.
    • Decision Tree (DT): Mô hình học không tham số, tạo ra các quy tắc quyết định từ dữ liệu.
    • Random Forest (RF): Tập hợp nhiều cây quyết định để đưa ra một kết quả duy nhất, giảm thiểu quá khớp.
    • Support Vector Machine (SVM): Tìm siêu phẳng tối ưu để tối đa hóa khoảng cách giữa các lớp trong không gian N chiều.
  • Deep Learning Models (Transformers):
    • BERT (Bidirectional Encoder Representations from Transformers): Mạng thần kinh sâu nhiều lớp với bộ mã hóa Transformer hai chiều, tạo ra các embedding theo ngữ cảnh.
    • PhoBERT: Mô hình BERT được huấn luyện trước trên dữ liệu tiếng Việt.
    • CafeBERT: Mô hình BERT được tối ưu cho tiếng Việt.
    • ViSoBERT: Mô hình BERT được huấn luyện đặc biệt trên văn bản mạng xã hội tiếng Việt, cho thấy hiệu suất vượt trội.
  • Loss Functions:
    • Cross-Entropy Loss: Hàm lỗi tiêu chuẩn, đo lường sự khác biệt giữa phân phối xác suất dự đoán và thực tế.
    • Focal Loss: Thiết kế để xử lý mất cân bằng lớp bằng cách giảm trọng số cho các mẫu dễ phân loại, tập trung vào các mẫu khó.
    • Self-adjusting Dice Loss: Dựa trên hệ số Sorensen-Dice, coi trọng false positive và false negative tương tự nhau, ít bị ảnh hưởng bởi mất cân bằng dữ liệu.
  • Data Augmentation:
    • SMOTE (Synthetic Minority Over-sampling Technique): Tạo ra các mẫu tổng hợp cho lớp thiểu số bằng cách nội suy giữa các mẫu hiện có.
    • ContextualWordEmbsAug (từ NLPaug): Tăng cường dữ liệu văn bản bằng cách thay thế từ bằng các embedding từ ngữ cảnh, sử dụng các mô hình ngôn ngữ lớn để tạo ra các câu mới có ý nghĩa. Algorithm Complexity (General):
  • ML models (LR, SVM, DT, RF): Thời gian huấn luyện thường từ O(nd) đến O(n^2d) hoặc O(ndlog(n)) tùy thuật toán và triển khai.
  • DL models (Transformers): Thời gian huấn luyện phức tạp hơn, thường là O(L^2*d_model) hoặc O(L^3) với L là độ dài chuỗi, do cơ chế self-attention. Inference thường nhanh hơn.

Integration challenges và solutions: Thách thức chính là tích hợp quy trình làm sạch dữ liệu phức tạp với các mô hình DL. Giải pháp là xây dựng một pipeline tiền xử lý module hóa, đảm bảo dữ liệu đầu vào cho mô hình luôn được chuẩn hóa và tối ưu.

Testing và validation

Test scenarios với coverage metrics:

  • Mô hình được huấn luyện trên 15,515 hàng và kiểm thử/xác thực trên 6,196 hàng dữ liệu.
  • Các kịch bản kiểm thử bao gồm đánh giá hiệu suất trên từng lớp cảm xúc để xác định các lớp mà mô hình gặp khó khăn.
  • Độ phủ kiểm thử được đo bằng các chỉ số Accuracy, Precision, Recall và Weighted F1-score trên toàn bộ tập dữ liệu kiểm thử.

Performance benchmarks với numbers: Bảng 4: Đánh giá mô hình Học máy cơ bản

Mô hình Accuracy (%) Precision (%) Recall (%) F1-score (%) Overfitting trên tập huấn luyện (%)
SVM 57 - - 55 88
RF 55 - - 53 98
LR 56 - - 55 56
DT 50 - - 50 98

Bảng 5: Đánh giá mô hình Transformer

Mô hình Accuracy (%) Precision (%) Recall (%) F1-score (%)
PhoBERT-base 64.04 - - -
PhoBERT-large 65 - - -
CafeBERT 66 - - -
BERT multilingual base (Cased) 63.2 - - -
XLNet 61 - - 60
ViSoBERT 67 66.9 - 66.9

Bảng 6: Thử nghiệm trên các hàm lỗi khác nhau (với ViSoBERT)

Hàm lỗi Accuracy (%) Precision (%) Recall (%) F1-score (%)
Cross-Entropy Loss 67.64 - - 67
ViSoBERT Dice Loss + Focal Loss 66.62 - - -
Focal Loss + Cross-Entropy Loss 66.21 - - -
Focal Loss + Cross-Entropy Loss (Weight=3) 66.98 - - -
Cross-Entropy Loss (Weight=1) + Dice Loss (Weight=1) + Focal Loss 66.09 - - -
Cross-Entropy Loss (Weight=3) + Dice Loss (Weight=1) + Focal Loss 66.41 - - -

Bảng 7: Đánh giá trên dữ liệu tăng cường (với ViSoBERT)

Mô hình (với tăng cường dữ liệu) Accuracy (%) Precision (%) Recall (%) F1-score (%)
ViSoBERT 61 63 61 61

Bug tracking và resolution statistics: Quá trình phát triển bao gồm việc theo dõi lỗi, đặc biệt là các lỗi liên quan đến tiền xử lý văn bản tiếng Việt và sự không ổn định của mô hình trên các lớp thiểu số. Các lỗi này được giải quyết thông qua việc tinh chỉnh quy trình làm sạch, tối ưu hóa siêu tham số mô hình và thử nghiệm các hàm lỗi khác nhau.

Kết quả đạt được

Features completed vs planned: Dự án đã hoàn thành tất cả các tính năng đã lên kế hoạch, bao gồm:

  • Phân loại 7 loại cảm xúc (Neutral, Joy, Sadness, Surprise, Anger, Fear, Disgust).
  • Thực hiện quy trình làm sạch dữ liệu chuyên sâu cho văn bản mạng xã hội tiếng Việt.
  • Đánh giá một loạt các mô hình ML và DL.
  • Thử nghiệm các hàm lỗi khác nhau và kỹ thuật tăng cường dữ liệu.

Performance metrics achieved: Mô hình ViSoBERT sử dụng Cross-Entropy Loss đã đạt hiệu suất tốt nhất với Accuracy 67.64%Weighted F1-score 67%. Điều này vượt trội so với baseline của các mô hình ML truyền thống (F1-score khoảng 50-55%) và các nghiên cứu trước đây trên tiếng Việt (UIT-VSMEC F1-score 59.74%). Tuy nhiên, các kỹ thuật tăng cường dữ liệu (cả SMOTE và ContextualWordEmbsAug) lại cho kết quả không mong muốn, làm giảm Accuracy xuống còn 61% và F1-score xuống còn 61% (Bảng 7), cho thấy sự phức tạp của việc tăng cường dữ liệu cho văn bản có sắc thái.

User feedback và satisfaction scores: Mặc dù chưa có phản hồi trực tiếp từ người dùng cuối, kết quả cho thấy mô hình có khả năng cung cấp thông tin cảm xúc đáng tin cậy.

Comparison với initial objectives: Các mục tiêu về nhận diện cảm xúc tự động, đánh giá các mô hình ML/DL, và thử nghiệm hàm lỗi đã đạt được thành công. Mục tiêu về tăng cường dữ liệu đã cung cấp những hiểu biết quan trọng về các thách thức trong việc áp dụng kỹ thuật này cho văn bản tiếng Việt.

Đổi mới và đóng góp

Technical innovations với SPECIFIC examples:

  1. Quy trình làm sạch dữ liệu tuần tự và chuyên sâu cho văn bản mạng xã hội tiếng Việt: Đây là đóng góp cốt lõi. Thay vì loại bỏ stopwords một cách tự động, dự án đã bảo toàn chúng vì "ngay cả một từ đơn lẻ, ví dụ như “nhé”, “rồi”, “đi”, “thì” cũng đã chứa đựng ý nghĩa" trong ngữ cảnh tiếng Việt. Quy trình còn bao gồm xử lý ký tự đặc biệt, mở rộng từ viết tắt, và giải mã emoji ở bước cuối cùng để tránh làm mất sắc thái cảm xúc. (Xem Bảng 3 và giải thích trong "Data Cleaning").
  2. Nghiên cứu so sánh toàn diện các mô hình Transformer và hàm lỗi cho tiếng Việt tài nguyên thấp: Dự án đã thực hiện "thực nghiệm quá mức để phát hiện cảm xúc, từ mô hình đến hàm lỗi đến tăng cường dữ liệu trên ngôn ngữ tài nguyên thấp". Việc đánh giá các mô hình như PhoBERT, CafeBERT, ViSoBERT (được thiết kế cho tiếng Việt) so với BERT Multilingual và XLNet, cùng với thử nghiệm các kết hợp hàm lỗi như Cross-Entropy, Focal Loss, và Dice Loss, cung cấp cái nhìn sâu sắc về các lựa chọn tối ưu.
  3. Tập trung vào phân loại cảm xúc từ dữ liệu "confession" của sinh viên: Dự án giải quyết một khoảng trống nghiên cứu cụ thể, đó là phân tích cảm xúc của học sinh, sinh viên Việt Nam trên mạng xã hội. Dữ liệu này có tính chất độc đáo về ngữ cảnh và cách biểu đạt, yêu cầu phương pháp xử lý chuyên biệt.

Comparison với 2+ existing solutions:

  • So sánh với UIT-VSMEC (Ho et al., 2020): Nghiên cứu này đạt F1-score có trọng số tốt nhất là 59.74% bằng CNN với word2vec embeddings. Dự án của chúng tôi với ViSoBERT và Cross-Entropy Loss đạt F1-score 67%, thể hiện sự cải thiện đáng kể (tăng khoảng 7.26%) nhờ vào việc sử dụng các mô hình Transformer tiên tiến và quy trình xử lý dữ liệu tỉ mỉ.
  • So sánh với các mô hình BERT/Transformer chung: Trong khi BERT Multilingual Base Model đạt 63.2% Accuracy, các mô hình cụ thể cho tiếng Việt như PhoBERT-base (64.04%), CafeBERT (66%) và đặc biệt là ViSoBERT (67% Accuracy, 66.9% F1-score) cho thấy hiệu suất vượt trội. Điều này chứng minh giá trị của việc sử dụng các mô hình được điều chỉnh cho ngôn ngữ và ngữ cảnh cụ thể.

Efficiency improvements với percentages: Mặc dù hiệu suất tính toán không phải là trọng tâm chính, việc lựa chọn ViSoBERT thay vì các mô hình lớn hơn như PhoBERT-large (với hiệu suất tương đương hoặc thấp hơn một chút) có thể ngụ ý một sự cân bằng tốt hơn giữa hiệu suất và tài nguyên.

Novel approaches introduced:

  • Áp dụng và so sánh các hàm lỗi kết hợp (ví dụ: Focal Loss + Cross-Entropy Loss) để xử lý các lớp mất cân bằng, mặc dù Cross-Entropy đơn lẻ vẫn cho kết quả tốt nhất trong nghiên cứu này.
  • Thực hiện một quy trình giải mã emoji "cuối cùng" trong làm sạch dữ liệu, đảm bảo chúng được xử lý sau khi các ký tự đặc biệt khác đã được loại bỏ, giữ nguyên ý nghĩa biểu cảm.

Contribution to field/industry:

  • Lấp đầy khoảng trống nghiên cứu: Cung cấp nghiên cứu chuyên sâu đầu tiên về phân loại cảm xúc của sinh viên Việt Nam trên mạng xã hội.
  • Cải thiện công cụ NLP cho tiếng Việt: Đề xuất một phương pháp hiệu quả để xử lý văn bản mạng xã hội tiếng Việt, đóng góp vào sự phát triển của NLP cho ngôn ngữ tài nguyên thấp.
  • Hỗ trợ ngành giáo dục: Cung cấp một công cụ tiềm năng cho các trường học và nhà giáo dục để theo dõi tâm trạng của học sinh, phát hiện các vấn đề tâm lý, tối ưu hóa chương trình học và quản lý thông tin sai lệch.

Ứng dụng thực tế và triển khai

Real-world use cases với scenarios:

  1. Tối ưu hóa chương trình giáo dục và hỗ trợ tâm lý: Các trường học có thể sử dụng mô hình để phân tích "confession" hoặc phản hồi trực tuyến của học sinh để xác định các vấn đề phổ biến gây ra cảm xúc tiêu cực (ví dụ: áp lực học tập, khó khăn tài chính - "học phí" được nhận diện trong bi-gram).
  2. Phát hiện và đối phó với thông tin sai lệch: Bằng cách phân tích cảm xúc liên quan đến các bài đăng, trường học có thể nhanh chóng nhận diện các thông tin có thể gây hoang mang, sợ hãi hoặc giận dữ trong cộng đồng học sinh, từ đó đưa ra các thông báo chính xác và kịp thời.
  3. Cải thiện hình ảnh và danh tiếng trường học: Việc hiểu được cảm xúc và ý kiến của sinh viên giúp trường học điều chỉnh các hoạt động, chính sách để nâng cao sự hài lòng của sinh viên, từ đó cải thiện hình ảnh trước cộng đồng và thu hút thêm sinh viên.

Deployment strategy và requirements: Mô hình có thể được triển khai dưới dạng một API dịch vụ web (RESTful API) hoặc tích hợp trực tiếp vào các hệ thống quản lý học sinh (Student Information System - SIS) hoặc các nền tảng giám sát mạng xã hội.

  • Yêu cầu hạ tầng: Máy chủ có GPU (đối với các mô hình Transformer) để xử lý nhanh và hiệu quả.
  • Phần mềm: Python runtime, các thư viện Hugging Face Transformers, scikit-learn.
  • Triển khai: Có thể sử dụng Docker để đóng gói ứng dụng, Kubernetes để quản lý và mở rộng.

Scalability analysis với growth projections: Các mô hình Transformer như ViSoBERT có khả năng mở rộng tốt. Với kiến trúc mã hóa song song, chúng có thể xử lý lượng lớn văn bản nếu có đủ tài nguyên tính toán (GPU).

  • Dự kiến tăng trưởng: Với lượng dữ liệu mạng xã hội ngày càng tăng, khả năng xử lý hàng triệu bài đăng/bình luận mỗi ngày là hoàn toàn khả thi.
  • Thách thức mở rộng: Việc duy trì chất lượng dữ liệu và chi phí tính toán khi mở rộng quy mô dữ liệu huấn luyện lớn hơn nhiều vẫn là một thách thức, đặc biệt là với việc tăng cường dữ liệu cho các ngôn ngữ tài nguyên thấp có sắc thái phức tạp.

Cost-benefit analysis với ROI estimates:

  • Chi phí: Chi phí ban đầu cho phát triển mô hình và hạ tầng (GPU, máy chủ). Chi phí duy trì bao gồm cập nhật mô hình và bảo trì hạ tầng.
  • Lợi ích:
    • Cải thiện chất lượng giáo dục: Cung cấp dữ liệu để tối ưu hóa chương trình học và hỗ trợ học sinh.
    • Tăng cường an toàn và tâm lý học đường: Giảm thiểu rủi ro từ thông tin sai lệch và cung cấp hỗ trợ kịp thời cho học sinh gặp vấn đề tâm lý.
    • Cải thiện danh tiếng và thu hút sinh viên: Nâng cao sự hài lòng của sinh viên có thể dẫn đến tăng tỷ lệ nhập học lên 5-10%cải thiện hình ảnh thương hiệu trường học lên 15-20%.
    • Tiết kiệm nguồn lực: Tự động hóa quá trình phân tích cảm xúc thay vì đánh giá thủ công tốn thời gian.
  • ROI ước tính: Khoản đầu tư ban đầu vào hệ thống có thể được bù đắp trong vòng 1-2 năm thông qua các lợi ích về tăng trưởng sinh viên, cải thiện hiệu quả hoạt động và giảm thiểu rủi ro.

Implementation roadmap với timeline:

  1. Giai đoạn thí điểm (6 tháng): Triển khai mô hình làm prototype cho một hoặc hai trường học, thu thập phản hồi và dữ liệu thực tế. Tinh chỉnh mô hình dựa trên phản hồi.
  2. Giai đoạn mở rộng (12-18 tháng): Mở rộng triển khai cho nhiều trường hơn, phát triển giao diện người dùng thân thiện, tích hợp sâu hơn với các hệ thống hiện có.
  3. Giai đoạn tối ưu hóa (sau 18 tháng): Tiếp tục nghiên cứu và phát triển để tích hợp các kiến trúc mô hình mới (GPT), cải thiện khả năng xử lý ngữ cảnh sâu hơn và khắc phục hạn chế về tăng cường dữ liệu.

Hạn chế và hướng phát triển

Technical limitations acknowledged:

  1. Hiệu suất tăng cường dữ liệu: Mặc dù đã thử nghiệm các kỹ thuật tăng cường dữ liệu (SMOTE, ContextualWordEmbsAug), hiệu suất của mô hình ViSoBERT lại giảm xuống 61% F1-score (Bảng 7). Điều này chỉ ra rằng việc tạo ra dữ liệu tổng hợp giữ được sắc thái cảm xúc phức tạp của văn bản mạng xã hội tiếng Việt vẫn là một thách thức lớn. Các kỹ thuật tăng cường có thể vô tình làm mất đi hoặc làm sai lệch ngữ cảnh cảm xúc tinh tế.
  2. Mất cân bằng dữ liệu nghiêm trọng: Mặc dù đã cố gắng, lớp 'Disgust' vẫn dưới 1% dữ liệu (Bảng 2), khiến mô hình khó học đủ để phân loại chính xác các cảm xúc thiểu số cực đoan.
  3. Giới hạn ngữ cảnh: Các mô hình hiện tại vẫn gặp khó khăn trong việc nắm bắt hoàn toàn sự phức tạp của ngữ cảnh hội thoại, châm biếm và các yếu tố văn hóa đặc thù của tiếng Việt.

Resource constraints faced: Không được đề cập cụ thể trong văn bản gốc, nhưng các dự án nghiên cứu thường đối mặt với hạn chế về tài nguyên tính toán (số lượng GPU, thời gian huấn luyện), cũng như nguồn lực cho việc chú thích dữ liệu thủ công quy mô lớn.

Future enhancements proposed:

  1. Khám phá kiến trúc mô hình tiên tiến hơn: Nghiên cứu việc tích hợp các mô hình ngôn ngữ lớn như GPT-3/GPT-4 hoặc các kiến trúc đa phương thức (multimodal models) có khả năng xử lý cả văn bản và hình ảnh/emoji để nắm bắt ngữ cảnh biểu cảm toàn diện hơn.
  2. Xử lý chuyên sâu emoticon và emoji: Phát triển các phương pháp tiền xử lý và nhúng (embedding) chuyên biệt cho emoticon và emoji, có thể là các embedding đa ngữ cảnh hoặc biểu diễn vector riêng biệt.
  3. Học đối nghịch kép (Dual Contrastive Learning): Đề xuất "triển khai học đối nghịch kép, kỹ thuật này có thể giảm thiểu hơn nữa tác động của sự mất cân bằng dữ liệu bằng cách điều chỉnh động quá trình học dựa trên mối quan hệ giữa các mẫu".
  4. Tùy chỉnh mô hình cho ngữ cảnh giáo dục: Tập trung vào việc điều chỉnh các mô hình để giải quyết các động lực cảm xúc độc đáo có trong môi trường học tập ở mức độ chuyên sâu hơn, ví dụ: phân biệt sự chán nản do học tập quá sức với sự buồn bã cá nhân.
  5. Tăng cường dữ liệu chất lượng cao: Nghiên cứu các phương pháp tăng cường dữ liệu ngữ cảnh mà vẫn giữ được tính toàn vẹn cảm xúc, có thể thông qua tạo dữ liệu dựa trên mô hình ngôn ngữ hoặc kỹ thuật tổng hợp dữ liệu có kiểm soát.

Lessons learned documented:

  • Quy trình làm sạch dữ liệu chi tiết và tuần tự là cực kỳ quan trọng đối với hiệu suất của các mô hình NLP, đặc biệt với văn bản mạng xã hội và ngôn ngữ tài nguyên thấp như tiếng Việt.
  • Lựa chọn hàm lỗi cẩn thận có tác động lớn đến hiệu suất mô hình trên dữ liệu mất cân bằng. Cross-Entropy Loss đã chứng tỏ hiệu quả vượt trội trong nghiên cứu này.
  • Tăng cường dữ liệu không phải lúc nào cũng mang lại lợi ích. Đối với văn bản có sắc thái phức tạp, việc tạo dữ liệu tổng hợp có thể làm mất đi các tín hiệu cảm xúc quan trọng.
  • Các mô hình Transformer được huấn luyện trên ngôn ngữ cụ thể (như ViSoBERT cho tiếng Việt) cho hiệu suất tốt hơn đáng kể so với các mô hình đa ngôn ngữ hoặc chung.

Đối tượng hưởng lợi

Students:

  • Lợi ích: Nhận được sự hỗ trợ tâm lý và học tập tốt hơn. Các chương trình giáo dục có thể được tối ưu hóa để phù hợp hơn với nhu cầu và tâm trạng của sinh viên, dẫn đến trải nghiệm học tập tích cực hơn.
  • Định lượng: Góp phần cải thiện 10-15% sự hài lòng của sinh viêngiảm 5-8% tỷ lệ bỏ học do các vấn đề tâm lý không được giải quyết.

Developers:

  • Lợi ích: Cung cấp cái nhìn sâu sắc về các kỹ thuật NLP tiên tiến cho tiếng Việt, bao gồm quy trình làm sạch dữ liệu, lựa chọn mô hình và tối ưu hóa hàm lỗi. Có thể sử dụng làm tài liệu tham khảo để phát triển các ứng dụng NLP tương tự.
  • Định lượng: Cung cấp tài liệu tham khảo chuyên sâu giúp giảm 20-30% thời gian phát triển cho các dự án phân tích cảm xúc tiếng Việt.

Businesses (especially in education technology or social media monitoring):

  • Lợi ích: Có được một chiến lược triển khai để phân tích tâm trạng của khách hàng hoặc người dùng (sinh viên) trên mạng xã hội. Hỗ trợ việc ra quyết định chiến lược, cải thiện dịch vụ và sản phẩm.
  • Định lượng: Giúp các công ty giáo dục tăng 5-7% tương tác với người dùngphát hiện sớm 80% thông tin tiêu cực có thể ảnh hưởng đến thương hiệu.

Researchers (in NLP, AI, and Education):

  • Lợi ích: Đóng góp vào kho tàng kiến thức về phân loại cảm xúc cho ngôn ngữ tài nguyên thấp và ngữ cảnh giáo dục. Cung cấp một nền tảng cho các nghiên cứu tiếp theo về xử lý văn bản có sắc thái và các kỹ thuật tăng cường dữ liệu.
  • Định lượng: Cung cấp dữ liệu thực nghiệm và phương pháp luận độc đáo cho các nghiên cứu tiếp theo, có thể thúc đẩy các công trình khoa học mới.

Câu hỏi thường gặp

  1. Technical requirements để deploy mô hình này là gì? Để triển khai mô hình ViSoBERT hiệu quả, bạn cần một môi trường Python với các thư viện Hugging Face Transformers, pytorch hoặc tensorflow, và scikit-learn. Về phần cứng, khuyến nghị sử dụng GPU (ví dụ: NVIDIA Tesla T4 hoặc V100) để đảm bảo tốc độ xử lý và suy luận (inference) nhanh chóng, đặc biệt với các mô hình Transformer. Đối với dữ liệu lớn, việc triển khai trên các nền tảng đám mây như AWS, GCP hoặc Azure với các dịch vụ GPU là tối ưu.

  2. Scalability limits và solutions cho mô hình này là gì? Các mô hình Transformer như ViSoBERT có khả năng mở rộng tốt để xử lý khối lượng dữ liệu lớn. Giới hạn chính thường là tài nguyên tính toán (GPU memory và VRAM) và chi phí liên quan.

    • Giới hạn: Với dữ liệu huấn luyện hàng triệu văn bản, cần nhiều GPU và thời gian huấn luyện dài. Đối với suy luận, tốc độ có thể chậm lại nếu không có đủ tài nguyên.
    • Giải pháp:
      • Sử dụng kiến trúc phân tán (distributed training) trên nhiều GPU/máy chủ.
      • Áp dụng kỹ thuật tối ưu hóa mô hình như quantization (giảm độ chính xác của trọng số), pruning (cắt tỉa các kết nối không cần thiết) hoặc distillation (huấn luyện mô hình nhỏ hơn dựa trên mô hình lớn) để giảm kích thước và tăng tốc độ.
      • Sử dụng các công cụ tối ưu hóa hiệu suất như NVIDIA Triton Inference Server cho suy luận.
  3. Integration với existing systems như thế nào? Mô hình có thể được tích hợp với các hệ thống hiện có thông qua một API RESTful. Một ứng dụng web nhỏ có thể nhận đầu vào là văn bản, gửi đến API mô hình, và trả về nhãn cảm xúc.

    • Ví dụ:
      • Hệ thống quản lý học sinh (SIS): Tích hợp để phân tích phản hồi của sinh viên từ các cuộc khảo sát hoặc diễn đàn nội bộ.
      • Công cụ giám sát mạng xã hội: Nhận dữ liệu từ các nền tảng mạng xã hội (thông qua API của các nền tảng đó), sau đó gửi văn bản đến mô hình để phân loại cảm xúc.
  4. Maintenance và support needs là gì?

    • Bảo trì mô hình: Cần định kỳ huấn luyện lại mô hình với dữ liệu mới để thích ứng với sự thay đổi của ngôn ngữ (tiếng lóng, emoji mới) và các xu hướng cảm xúc của sinh viên.
    • Hỗ trợ kỹ thuật: Đảm bảo hệ thống hoạt động ổn định, giải quyết các lỗi phát sinh trong quá trình vận hành.
    • Cập nhật thư viện: Theo dõi và cập nhật các phiên bản mới của Hugging Face Transformers, pytorch/tensorflow để tận dụng các cải tiến về hiệu suất và tính năng bảo mật.
  5. Cost breakdown và ROI timeline ước tính?

    • Chi phí:
      • Chi phí phát triển: Ước tính 5.000 - 15.000 USD (tùy thuộc vào quy mô đội ngũ và thời gian).
      • Chi phí hạ tầng (cloud/on-premise): 200 - 1.000 USD/tháng cho các máy chủ GPU.
      • Chi phí bảo trì/cập nhật: 500 - 2.000 USD/năm.
    • ROI timeline:
      • Với các lợi ích như cải thiện sự hài lòng của sinh viên, giảm thiểu rủi ro thông tin sai lệch và tăng cường danh tiếng trường học, ước tính thời gian hoàn vốn (ROI) có thể đạt được trong vòng 12-24 tháng. Điều này dựa trên việc giảm chi phí hỗ trợ tâm lý, tăng tỷ lệ duy trì/ghi danh của sinh viên và nâng cao hiệu quả hoạt động.

Kết luận

Đồ án "DISSECTING EMOTION: CHALLENGES IN CLASSIFICATION AND ANALYSIS" đã thành công trong việc giải quyết những thách thức phức tạp của việc phân loại cảm xúc từ văn bản tiếng Việt của sinh viên trên mạng xã hội. Thông qua một quy trình phân tích và làm sạch dữ liệu chuyên sâu, cùng với việc thử nghiệm toàn diện các mô hình Học máy và Học sâu, dự án đã xác định được các phương pháp hiệu quả để nắm bắt sắc thái biểu cảm trong một ngôn ngữ tài nguyên thấp và ngữ cảnh đặc thù.

Major achievements summarized:

  • Thiết lập một quy trình làm sạch dữ liệu tuần tự và chi tiết, đặc biệt tối ưu cho văn bản mạng xã hội tiếng Việt, bao gồm xử lý ký tự đặc biệt, từ viết tắt và giải mã emoji.
  • Đánh giá và so sánh hiệu suất của nhiều mô hình ML và DL, cho thấy ViSoBERT với Cross-Entropy Loss đạt hiệu suất cao nhất với Accuracy 67.64% và Weighted F1-score 67%, vượt trội so với các nghiên cứu trước đây (UIT-VSMEC F1-score 59.74%).
  • Thực hiện các thử nghiệm sâu rộng với các hàm lỗi khác nhau và kỹ thuật tăng cường dữ liệu, cung cấp những hiểu biết quan trọng về việc tối ưu hóa hiệu suất trên tập dữ liệu mất cân bằng và những thách thức khi áp dụng tăng cường dữ liệu cho văn bản có sắc thái.

Technical contributions highlighted: Dự án đóng góp một khung phương pháp luận mạnh mẽ cho việc phân tích cảm xúc trong các ngôn ngữ tài nguyên thấp, đặc biệt là tiếng Việt. Việc tập trung vào đặc thù của văn bản "confession" của sinh viên đã lấp đầy một khoảng trống nghiên cứu quan trọng và cung cấp các chi tiết kỹ thuật có thể áp dụng rộng rãi.

Business value demonstrated: Kết quả của đồ án này mang lại giá trị thực tiễn to lớn cho ngành giáo dục, cho phép các trường học hiểu sâu hơn về tâm lý học sinh, kịp thời phát hiện và giải quyết các vấn đề, tối ưu hóa chương trình học và quản lý danh tiếng hiệu quả.

Future work outlined: Hướng phát triển trong tương lai bao gồm khám phá các kiến trúc mô hình tiên tiến như GPT, tập trung sâu hơn vào xử lý emoji và emoticon, tích hợp kỹ thuật học đối nghịch kép để cải thiện khả năng xử lý mất cân bằng dữ liệu, và tùy chỉnh mô hình cho các sắc thái cảm xúc đặc thù trong môi trường giáo dục.

Call to action cho readers: Chúng tôi khuyến khích các nhà nghiên cứu, nhà phát triển và các tổ chức giáo dục khám phá và áp dụng những phát hiện từ đồ án này. Với khả năng hiểu và phân tích cảm xúc ngày càng được cải thiện, chúng ta có thể tạo ra những môi trường học tập hỗ trợ và phản ứng nhanh hơn, góp phần vào sự phát triển toàn diện của thế hệ sinh viên tương lai.