Luận án TS Nguyễn Thiên Bình: Phát hiện, Phân loại Mã độc với Kiểm tra Mô hình & Phân tích Khái niệm
Đại học Bách khoa
Khoa học máy tính
Ẩn danh
Luận án
Năm xuất bản
Số trang
139
Thời gian đọc
21 phút
Lượt xem
0
Lượt tải
0
Phí lưu trữ
40 Point
Mục lục chi tiết
Lời cam đoan
TÓM TẮT LUẬN ÁN
ABSTRACT
Lời CÁM ƠN
DANH SÁCH HÌNH VẼ
DANH SÁCH BẢNG
DANH MỤC CÁC TỪ VIẾT TẮT
1. 1: Giới thiệu
1.2. Các kỹ thuật phân tích mã độc trong công nghiệp
1.3. Áp dụng kiểm tra mô hình để phân tích mã độc
1.4. Sự cần thiết thực hiện đề tài
1.5. Tầm quan trọng của luận án
2. 2: Nền tảng và các nghiên cứu liên quan
2.1. Phân loại mã độc
2.2. Kỹ thuật phân tích động mã độc
2.3. Kỹ thuật phân tích tĩnh mã độc
2.4. Kiểm tra mô hình
2.4.1. Mô hình hoá
2.4.2. Linear Temporal Logic (LTL)
2.4.3. Computational Temporal Logic (CTL)
2.5. Vấn đề bùng nổ không gian trạng thái
2.5.1. Các kỹ thuật làm rối mã
2.5.2. Các kỹ thuật làm rối mã được mã độc sử dụng
2.5.3. Các kỹ thuật giải rối mã
2.5.3.1. Phương pháp gom cụm phân hoạch
2.5.3.2. Phương pháp gom cụm phân cấp
3. 3: Phương pháp kiểm tra gia tăng từng phần
3.1. Các nghiên cứu liên quan
3.1.1. Xây dựng CFG
3.1.2. Phương pháp kiểm tra thành phần
3.2. Các định nghĩa ban đầu
3.3. Kiểm tra gia tăng từng phần trên !-region
3.4. Xây dựng tập !-region
3.5. Trừu tượng hoá !-region
3.6. Xây dựng tập !-instruction
3.6.1. Hướng tiếp cận kiểm tra mô hình thông thường
3.6.2. Phương pháp kiểm tra gia tăng từng phần
3.6.2.1. Môi trường
3.7. Các phương pháp kiểm tra
3.8. Kết quả thí nghiệm
4. 4: Áp dụng suy diễn trừu tượng để loại bỏ các kỹ thuật làm rối mã
4.1. Các nghiên cứu liên quan
4.2. HOPE - khung thực xử lý các kỹ thuật làm rối mã
4.3. Trừu tượng hoá hành vi để giải rối mã
4.4. Chứng minh khả năng giải rối mã
5. 5: Hệ thống hoá mã độc
5.1. Các nghiên cứu liên quan
5.1.1. Phân tích khái niệm hình thức và các mở rộng
5.1.2. Phân tích khái niệm hình thức hướng đặc tính
5.1.3. Tổng quát hoá luận lý cho phân tích khái niệm hình thức
5.1.4. Đặc tả và phân loại mã độc
5.2. Các định nghĩa ban đầu
5.2.1. Phân tích khái niệm hình thức
5.2.2. Phân tích khái niệm luận lý mã độc
5.2.3. Hệ thống hoá mã độc dựa vào V-LCA
5.2.4. Gom cụm khái niệm liên tục
5.2.5. Quản lý tập cận phổ biến
5.2.5.1. Khái niệm phổ biến
5.2.5.2. Quản lý cập nhật khái niệm phổ biến
5.3. Hiệu suất của kỹ thuật gom cụm dựa trên FCA
5.4. Sử dụng độ đo AUP để so sánh chất lượng gom cụm
5.5. Đánh giá hiệu suất theo chất lượng cụm
6. 6: Kết luận và hướng mở rộng
Tóm tắt nội dung
I.
Phát hiện mã độc là một thách thức lớn trong an ninh mạng hiện đại. Các phương pháp truyền thống như so trùng chữ ký có nhiều hạn chế, đặc biệt với mã độc biến thể hoặc chưa từng biết. Ngành công nghiệp bảo mật cần các giải pháp phát hiện mã độc tiên tiến hơn. Kiểm tra mô hình nổi lên như một hướng tiếp cận đầy hứa hẹn. Phương pháp này cho phép biểu diễn hành vi nguy hại một cách logic, cung cấp khả năng phân tích sâu hơn các loại mã độc. Tuy nhiên, việc áp dụng kiểm tra mô hình cho phát hiện mã độc gặp phải trở ngại lớn: vấn đề bùng nổ không gian trạng thái. Độ phức tạp của mô hình chương trình tăng theo cấp số nhân, đòi hỏi tài nguyên tính toán khổng lồ. Nhiều nghiên cứu đã cố gắng giải quyết vấn đề này, nhưng ít nghiên cứu nào tập trung cụ thể vào bài toán phát hiện mã độc. Đây là một khoảng trống quan trọng cần được lấp đầy bằng các kỹ thuật tiên tiến từ học máy và trí tuệ nhân tạo (AI). Luận án này cung cấp một hướng giải quyết toàn diện, giúp vượt qua những giới hạn hiện tại của phương pháp phát hiện mã độc và cải thiện an ninh mạng.
1.1. Hạn chế phương pháp phát hiện mã độc truyền thống.
Phương pháp so trùng chữ ký rất phổ biến nhưng dễ bị qua mặt. Mã độc mới không có chữ ký sẽ không được phát hiện. Cần một cách tiếp cận chủ động hơn, tập trung vào phát hiện hành vi thay vì dấu vết tĩnh. Điều này đòi hỏi công nghệ học máy (machine learning) và trí tuệ nhân tạo (AI) để phân tích hiệu quả.
1.2. Tiềm năng của kiểm tra mô hình trong phát hiện mã độc.
Kiểm tra mô hình có khả năng biểu diễn logic hành vi nguy hại của mã độc. Phương pháp này vượt qua giới hạn của chữ ký, cung cấp độ chắc chắn cao hơn trong phát hiện. Kiểm tra mô hình là công cụ mạnh mẽ để phân tích chương trình, mang lại hiệu quả lớn khi áp dụng vào lĩnh vực phát hiện mã độc và malware.
1.3. Thách thức bùng nổ không gian trạng thái khi kiểm tra mô hình.
Vấn đề bùng nổ không gian trạng thái là trở ngại chính khi kiểm tra mô hình. Khi phân tích chương trình phức tạp, số lượng trạng thái tăng rất nhanh, khiến việc kiểm tra trở nên không khả thi. Cần các kỹ thuật giảm phức tạp mô hình, đặc biệt đối với các mẫu mã độc lớn và phức tạp. Việc này đòi hỏi nghiên cứu sâu về thuật toán và cấu trúc dữ liệu.
II.
Mặc dù kiểm tra mô hình rất mạnh mẽ, nhưng vấn đề bùng nổ không gian trạng thái giới hạn ứng dụng, đặc biệt trong phát hiện mã độc phức tạp. Luận án này đã nghiên cứu hành vi của mã độc và phát hiện một đặc điểm quan trọng. Hành vi nguy hiểm thường tập trung, chỉ xuất hiện trong một đoạn mã nguồn cụ thể, được gọi là !-region. Đặc tính này là cơ sở vững chắc để phát triển một phương pháp mới. Đề xuất phương pháp kiểm tra gia tăng từng phần, giúp thu giảm độ phức tạp của mô hình chương trình. Thay vì kiểm tra toàn bộ mã, chỉ tập trung phân tích vào các !-region. Điều này giải quyết hiệu quả vấn đề bùng nổ không gian trạng thái, giúp kiểm tra mô hình trở nên khả thi hơn khi áp dụng cho phát hiện mã độc (malware). Phương pháp này giảm đáng kể thời gian và tài nguyên phân tích, nâng cao khả năng phát hiện mã độc bằng các kỹ thuật học máy và trí tuệ nhân tạo.
2.1. Khái niệm region Khoanh vùng hành vi mã độc.
Hành vi nguy hiểm của mã độc không phân tán mà tập trung trong một phần nhỏ mã nguồn. Phần này được định danh là !-region. Đây là một phát hiện quan trọng, mở ra hướng giải quyết vấn đề phức tạp. Việc xác định !-region giúp tập trung tài nguyên phân tích, tối ưu hóa quá trình phát hiện malware.
2.2. Phương pháp kiểm tra gia tăng từng phần cho mã độc.
Luận án đề xuất phương pháp kiểm tra gia tăng từng phần. Phương pháp này giảm thiểu không gian trạng thái cần phân tích bằng cách chỉ kiểm tra các phần chương trình liên quan đến !-region. Giúp thu giảm độ phức tạp mô hình đáng kể, làm cho công cụ kiểm tra mô hình hoạt động hiệu quả hơn và nâng cao tốc độ phát hiện mã độc.
2.3. Hiệu quả giảm độ phức tạp và tối ưu tài nguyên.
Áp dụng phương pháp này mang lại lợi ích lớn, giảm đáng kể chi phí tính toán và tối ưu hóa việc sử dụng tài nguyên. Kiểm tra mô hình trở nên khả thi, có thể ứng dụng trên các chương trình lớn và mã độc phức tạp. Đây là bước tiến quan trọng trong phát hiện mã độc, kết hợp hiệu quả với các kỹ thuật học máy.
III.
Mã độc thường xuyên sử dụng các kỹ thuật làm rối mã (obfuscation) để che giấu hành vi nguy hiểm. Điều này tạo ra thách thức lớn, khiến việc phân tích tĩnh trở nên khó khăn và gây trở ngại cho kiểm tra mô hình. Nhiều đề xuất đã cải tiến logic thời gian, nhưng mỗi giải pháp chỉ xử lý được một kỹ thuật rối mã cụ thể. Đồng thời, các giải pháp đó yêu cầu cập nhật liên tục công cụ kiểm tra mô hình, dẫn đến chi phí rất lớn. Luận án này đã nghiên cứu một hướng tiếp cận mới bằng cách áp dụng suy diễn trừu tượng. Phương pháp này giúp trừu tượng hóa chương trình cần kiểm tra thành một biểu diễn trung gian tối giản. Biểu diễn này loại bỏ hầu hết các kỹ thuật làm rối mã một cách hiệu quả, giải quyết vấn đề một cách tổng thể. Không cần cập nhật công cụ kiểm tra mô hình liên tục, tiết kiệm chi phí và tăng hiệu quả phân tích mã độc (malware). Đây là một bước tiến quan trọng trong việc đối phó với các mối đe dọa từ mã độc tinh vi.
3.1. Thách thức từ kỹ thuật làm rối mã obfuscation của mã độc.
Mã độc sử dụng obfuscation để tránh bị phát hiện. Kỹ thuật này thay đổi cấu trúc mã mà không làm thay đổi chức năng. Điều này làm phức tạp quá trình phân tích, ngăn cản việc nhận diện hành vi nguy hiểm. Phân tích mã độc (malware) gặp nhiều trở ngại lớn từ các phương pháp che giấu này.
3.2. Hạn chế các giải pháp hiện tại đối phó rối mã.
Các giải pháp trước đây thường cải tiến logic thời gian nhưng chỉ hiệu quả với một số loại obfuscation. Mỗi kỹ thuật rối mã mới lại đòi hỏi cập nhật công cụ, dẫn đến chi phí phát triển và bảo trì rất cao. Cần một phương pháp tiếp cận linh hoạt hơn để đối phó với sự đa dạng của mã độc.
3.3. Suy diễn trừu tượng Giải pháp hiệu quả cho deobfuscation.
Luận án đề xuất sử dụng suy diễn trừu tượng để trừu tượng hóa chương trình thành dạng đơn giản hơn. Biểu diễn này loại bỏ hiệu quả các yếu tố làm rối mã, giúp phân tích hành vi mã độc dễ dàng hơn. Công cụ kiểm tra mô hình không cần thay đổi, đây là bước tiến quan trọng cho phân tích malware, có tiềm năng ứng dụng trong các hệ thống học máy và deep learning.
IV.
Phân loại mã độc hiệu quả là yếu tố then chốt giúp nhận diện và phản ứng nhanh chóng trước các mối đe dọa. Tuy nhiên, hành vi nguy hại thường được biểu diễn bằng logic, gây khó khăn khi khai thác dữ liệu. Các phương pháp trích xuất đặc tính truyền thống không hiệu quả với dạng dữ liệu này. Luận án này giải quyết vấn đề bằng khung MarCHGen (Malware Conceptual Hierarchy Generation). Khung này mở rộng phân tích khái niệm hình thức và đề xuất phương pháp V-LCA (Viral Logical Concept Analysis). V-LCA giúp xây dựng giàn khái niệm mã độc, biểu diễn mối quan hệ ngữ nghĩa giữa các khái niệm. Sau đó, kỹ thuật gom cụm khái niệm liên tục được giới thiệu để xây dựng cây phân cấp khái niệm mã độc. Cây này cung cấp cấu trúc phân loại rõ ràng và hiệu quả. Cuối cùng, cây được giám sát bởi kỹ thuật quản lý tập cận phổ biến, tránh việc tái gom cụm không cần thiết, đảm bảo hiệu quả và tính ổn định của hệ thống phân loại mã độc dựa trên trí tuệ nhân tạo (AI) và học sâu (deep learning).
4.1. Khó khăn trong khai phá dữ liệu từ logic hành vi mã độc.
Hành vi mã độc biểu diễn dưới dạng công thức logic không tương thích với khai phá dữ liệu truyền thống. Trích xuất đặc tính để phân loại gặp khó khăn. Các thuật toán học máy (machine learning) cần dữ liệu có cấu trúc rõ ràng, đòi hỏi cầu nối giữa logic hành vi và đặc tính có thể học để phân loại mã độc.
4.2. Khung MarCHGen và V LCA Xây dựng giàn khái niệm mã độc.
MarCHGen được giới thiệu để giải quyết vấn đề phân loại. Khung này sử dụng V-LCA (Viral Logical Concept Analysis), mở rộng phân tích khái niệm hình thức. V-LCA giúp xây dựng giàn khái niệm mã độc, tổ chức các hành vi thành các khái niệm có ý nghĩa. Đây là nền tảng cho phân loại mã độc dựa trên AI.
4.3. Cây phân cấp khái niệm và quản lý tập dữ liệu lớn.
Kỹ thuật gom cụm khái niệm liên tục tạo cây phân cấp, tổ chức các khái niệm mã độc một cách có hệ thống. Cung cấp một cấu trúc phân loại mạnh mẽ. Đồng thời, quản lý tập cận phổ biến được áp dụng để tránh tái gom cụm lặp lại, đảm bảo tính nhất quán và hiệu quả cho hệ thống học sâu (deep learning) và phân loại mã độc.
V.
Luận án giới thiệu hai khung giải pháp chính là HOPE và MarCHGen, mang lại những tiến bộ đáng kể trong lĩnh vực phát hiện và phân loại mã độc. Khung HOPE tập trung vào việc xử lý các kỹ thuật làm rối mã bằng cách phân tách rõ ràng bước gỡ rối mã (deobfuscation) và bước kiểm tra mô hình độc lập. Điều này có ý nghĩa quan trọng, vì khi xuất hiện kỹ thuật làm rối mã mới, công cụ kiểm tra mô hình không cần cập nhật. Chỉ cần điều chỉnh bước gỡ rối mã, giúp giảm chi phí phát triển và bảo trì đáng kể. Khung MarCHGen giải quyết vấn đề phân loại mã độc bằng cách xây dựng cây phân cấp khái niệm mã độc dựa trên phân tích hành vi logic. Sự kết hợp giữa hai khung này tạo nên một giải pháp toàn diện, từ phát hiện các mối đe dọa mới đến phân loại chúng một cách chính xác. Các đóng góp này nâng cao năng lực bảo mật hệ thống, đặc biệt trong môi trường phát triển nhanh chóng của mã độc (malware), mở ra nhiều tiềm năng ứng dụng trong lĩnh vực trí tuệ nhân tạo (AI) cho an ninh mạng và học sâu (deep learning).
5.1. Khung HOPE Giải pháp phân tách gỡ rối mã và kiểm tra mô hình.
HOPE là một kiến trúc độc đáo, tách biệt hoàn toàn quá trình deobfuscation và kiểm tra mô hình. Lợi ích là công cụ kiểm tra mô hình giữ ổn định, không cần cập nhật khi có kỹ thuật rối mã mới. Điều này tối ưu hóa chi phí và tăng cường khả năng thích ứng của hệ thống phát hiện mã độc (malware).
5.2. Sự kết hợp giữa HOPE và MarCHGen Hệ thống toàn diện.
HOPE giải quyết vấn đề làm rối mã, trong khi MarCHGen cung cấp khả năng phân loại dựa trên khái niệm. Kết hợp cả hai tạo ra một hệ thống mạnh mẽ để phát hiện và phân loại mã độc hiệu quả. Từ phân tích sâu hành vi đến tổ chức tri thức về malware, đây là một bước tiến quan trọng cho an ninh mạng sử dụng học máy (machine learning).
5.3. Tiềm năng ứng dụng và đóng góp cho trí tuệ nhân tạo bảo mật.
Các giải pháp đề xuất có tiềm năng lớn trong việc áp dụng vào các hệ thống an ninh mạng tiên tiến. Chúng nâng cao khả năng phòng thủ trước mã độc và đóng góp quan trọng vào lĩnh vực trí tuệ nhân tạo (AI), đặc biệt là AI cho an ninh mạng. Mở ra hướng nghiên cứu mới về học sâu (deep learning) trong phát hiện mối đe dọa.
Tải xuống file đầy đủ để xem toàn bộ nội dung
Tải đầy đủ (139 trang)Câu hỏi thường gặp
Luận án tiến sĩ khoa học máy tính áp dụng kiểm tra mô hình và phân tích khái niệm hình thức để phân loại và phát hiện mã độc.
Luận án này được bảo vệ tại Đại học Bách khoa. Năm bảo vệ: 2019.
Luận án "Phát hiện & phân loại mã độc: Kiểm tra mô hình & phân tích khái niệm" thuộc chuyên ngành Khoa học máy tính. Danh mục: An Toàn Thông Tin.
Luận án "Phát hiện & phân loại mã độc: Kiểm tra mô hình & phân tích khái niệm" có 139 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.
Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.