Phát hiện & phân loại mã độc: Kiểm tra mô hình & phân tích khái niệm

Nguyễn Thiên Bình

Luận án TS Nguyễn Thiên Bình: Phát hiện, Phân loại Mã độc với Kiểm tra Mô hình & Phân tích Khái niệm

Luận án tiến sĩ khoa học máy tính áp dụng kiểm tra mô hình và phân tích khái niệm hình thức để phân loại và phát hiện mã độc.

Trường ĐH

Đại học Bách khoa

Chuyên ngành

Khoa học máy tính

Tác giả

Luan An

Thể loại

Luận án

Năm xuất bản

2019

Số trang

139

Thời gian đọc

21 phút

Lượt xem

0

Lượt tải

0

Phí lưu trữ

40 Point

Lời cam đoan

TÓM TẮT LUẬN ÁN

ABSTRACT

Lời CÁM ƠN

DANH SÁCH HÌNH VẼ

DANH SÁCH BẢNG

DANH MỤC CÁC TỪ VIẾT TẮT

1. 1: Giới thiệu

1.2. Các kỹ thuật phân tích mã độc trong công nghiệp

1.3. Áp dụng kiểm tra mô hình để phân tích mã độc

1.4. Sự cần thiết thực hiện đề tài

1.5. Tầm quan trọng của luận án

2. 2: Nền tảng và các nghiên cứu liên quan

2.1. Phân loại mã độc

2.2. Kỹ thuật phân tích động mã độc

2.3. Kỹ thuật phân tích tĩnh mã độc

2.4. Kiểm tra mô hình

2.4.1. Mô hình hoá

2.4.2. Linear Temporal Logic (LTL)

2.4.3. Computational Temporal Logic (CTL)

2.5. Vấn đề bùng nổ không gian trạng thái

2.5.1. Các kỹ thuật làm rối mã

2.5.2. Các kỹ thuật làm rối mã được mã độc sử dụng

2.5.3. Các kỹ thuật giải rối mã

2.5.3.1. Phương pháp gom cụm phân hoạch

2.5.3.2. Phương pháp gom cụm phân cấp

3. 3: Phương pháp kiểm tra gia tăng từng phần

3.1. Các nghiên cứu liên quan

3.1.1. Xây dựng CFG

3.1.2. Phương pháp kiểm tra thành phần

3.2. Các định nghĩa ban đầu

3.3. Kiểm tra gia tăng từng phần trên !-region

3.4. Xây dựng tập !-region

3.5. Trừu tượng hoá !-region

3.6. Xây dựng tập !-instruction

3.6.1. Hướng tiếp cận kiểm tra mô hình thông thường

3.6.2. Phương pháp kiểm tra gia tăng từng phần

3.6.2.1. Môi trường

3.7. Các phương pháp kiểm tra

3.8. Kết quả thí nghiệm

4. 4: Áp dụng suy diễn trừu tượng để loại bỏ các kỹ thuật làm rối mã

4.1. Các nghiên cứu liên quan

4.2. HOPE - khung thực xử lý các kỹ thuật làm rối mã

4.3. Trừu tượng hoá hành vi để giải rối mã

4.4. Chứng minh khả năng giải rối mã

5. 5: Hệ thống hoá mã độc

5.1. Các nghiên cứu liên quan

5.1.1. Phân tích khái niệm hình thức và các mở rộng

5.1.2. Phân tích khái niệm hình thức hướng đặc tính

5.1.3. Tổng quát hoá luận lý cho phân tích khái niệm hình thức

5.1.4. Đặc tả và phân loại mã độc

5.2. Các định nghĩa ban đầu

5.2.1. Phân tích khái niệm hình thức

5.2.2. Phân tích khái niệm luận lý mã độc

5.2.3. Hệ thống hoá mã độc dựa vào V-LCA

5.2.4. Gom cụm khái niệm liên tục

5.2.5. Quản lý tập cận phổ biến

5.2.5.1. Khái niệm phổ biến

5.2.5.2. Quản lý cập nhật khái niệm phổ biến

5.3. Hiệu suất của kỹ thuật gom cụm dựa trên FCA

5.4. Sử dụng độ đo AUP để so sánh chất lượng gom cụm

5.5. Đánh giá hiệu suất theo chất lượng cụm

6. 6: Kết luận và hướng mở rộng

I.

Phát hiện mã độc là một thách thức lớn trong an ninh mạng hiện đại. Các phương pháp truyền thống như so trùng chữ ký có nhiều hạn chế, đặc biệt với mã độc biến thể hoặc chưa từng biết. Ngành công nghiệp bảo mật cần các giải pháp phát hiện mã độc tiên tiến hơn. Kiểm tra mô hình nổi lên như một hướng tiếp cận đầy hứa hẹn. Phương pháp này cho phép biểu diễn hành vi nguy hại một cách logic, cung cấp khả năng phân tích sâu hơn các loại mã độc. Tuy nhiên, việc áp dụng kiểm tra mô hình cho phát hiện mã độc gặp phải trở ngại lớn: vấn đề bùng nổ không gian trạng thái. Độ phức tạp của mô hình chương trình tăng theo cấp số nhân, đòi hỏi tài nguyên tính toán khổng lồ. Nhiều nghiên cứu đã cố gắng giải quyết vấn đề này, nhưng ít nghiên cứu nào tập trung cụ thể vào bài toán phát hiện mã độc. Đây là một khoảng trống quan trọng cần được lấp đầy bằng các kỹ thuật tiên tiến từ học máy và trí tuệ nhân tạo (AI). Luận án này cung cấp một hướng giải quyết toàn diện, giúp vượt qua những giới hạn hiện tại của phương pháp phát hiện mã độc và cải thiện an ninh mạng.

1.1. Hạn chế phương pháp phát hiện mã độc truyền thống.

Phương pháp so trùng chữ ký rất phổ biến nhưng dễ bị qua mặt. Mã độc mới không có chữ ký sẽ không được phát hiện. Cần một cách tiếp cận chủ động hơn, tập trung vào phát hiện hành vi thay vì dấu vết tĩnh. Điều này đòi hỏi công nghệ học máy (machine learning) và trí tuệ nhân tạo (AI) để phân tích hiệu quả.

1.2. Tiềm năng của kiểm tra mô hình trong phát hiện mã độc.

Kiểm tra mô hình có khả năng biểu diễn logic hành vi nguy hại của mã độc. Phương pháp này vượt qua giới hạn của chữ ký, cung cấp độ chắc chắn cao hơn trong phát hiện. Kiểm tra mô hình là công cụ mạnh mẽ để phân tích chương trình, mang lại hiệu quả lớn khi áp dụng vào lĩnh vực phát hiện mã độc và malware.

1.3. Thách thức bùng nổ không gian trạng thái khi kiểm tra mô hình.

Vấn đề bùng nổ không gian trạng thái là trở ngại chính khi kiểm tra mô hình. Khi phân tích chương trình phức tạp, số lượng trạng thái tăng rất nhanh, khiến việc kiểm tra trở nên không khả thi. Cần các kỹ thuật giảm phức tạp mô hình, đặc biệt đối với các mẫu mã độc lớn và phức tạp. Việc này đòi hỏi nghiên cứu sâu về thuật toán và cấu trúc dữ liệu.

II.

Mặc dù kiểm tra mô hình rất mạnh mẽ, nhưng vấn đề bùng nổ không gian trạng thái giới hạn ứng dụng, đặc biệt trong phát hiện mã độc phức tạp. Luận án này đã nghiên cứu hành vi của mã độc và phát hiện một đặc điểm quan trọng. Hành vi nguy hiểm thường tập trung, chỉ xuất hiện trong một đoạn mã nguồn cụ thể, được gọi là !-region. Đặc tính này là cơ sở vững chắc để phát triển một phương pháp mới. Đề xuất phương pháp kiểm tra gia tăng từng phần, giúp thu giảm độ phức tạp của mô hình chương trình. Thay vì kiểm tra toàn bộ mã, chỉ tập trung phân tích vào các !-region. Điều này giải quyết hiệu quả vấn đề bùng nổ không gian trạng thái, giúp kiểm tra mô hình trở nên khả thi hơn khi áp dụng cho phát hiện mã độc (malware). Phương pháp này giảm đáng kể thời gian và tài nguyên phân tích, nâng cao khả năng phát hiện mã độc bằng các kỹ thuật học máy và trí tuệ nhân tạo.

2.1. Khái niệm region Khoanh vùng hành vi mã độc.

Hành vi nguy hiểm của mã độc không phân tán mà tập trung trong một phần nhỏ mã nguồn. Phần này được định danh là !-region. Đây là một phát hiện quan trọng, mở ra hướng giải quyết vấn đề phức tạp. Việc xác định !-region giúp tập trung tài nguyên phân tích, tối ưu hóa quá trình phát hiện malware.

2.2. Phương pháp kiểm tra gia tăng từng phần cho mã độc.

Luận án đề xuất phương pháp kiểm tra gia tăng từng phần. Phương pháp này giảm thiểu không gian trạng thái cần phân tích bằng cách chỉ kiểm tra các phần chương trình liên quan đến !-region. Giúp thu giảm độ phức tạp mô hình đáng kể, làm cho công cụ kiểm tra mô hình hoạt động hiệu quả hơn và nâng cao tốc độ phát hiện mã độc.

2.3. Hiệu quả giảm độ phức tạp và tối ưu tài nguyên.

Áp dụng phương pháp này mang lại lợi ích lớn, giảm đáng kể chi phí tính toán và tối ưu hóa việc sử dụng tài nguyên. Kiểm tra mô hình trở nên khả thi, có thể ứng dụng trên các chương trình lớn và mã độc phức tạp. Đây là bước tiến quan trọng trong phát hiện mã độc, kết hợp hiệu quả với các kỹ thuật học máy.

III.

Mã độc thường xuyên sử dụng các kỹ thuật làm rối mã (obfuscation) để che giấu hành vi nguy hiểm. Điều này tạo ra thách thức lớn, khiến việc phân tích tĩnh trở nên khó khăn và gây trở ngại cho kiểm tra mô hình. Nhiều đề xuất đã cải tiến logic thời gian, nhưng mỗi giải pháp chỉ xử lý được một kỹ thuật rối mã cụ thể. Đồng thời, các giải pháp đó yêu cầu cập nhật liên tục công cụ kiểm tra mô hình, dẫn đến chi phí rất lớn. Luận án này đã nghiên cứu một hướng tiếp cận mới bằng cách áp dụng suy diễn trừu tượng. Phương pháp này giúp trừu tượng hóa chương trình cần kiểm tra thành một biểu diễn trung gian tối giản. Biểu diễn này loại bỏ hầu hết các kỹ thuật làm rối mã một cách hiệu quả, giải quyết vấn đề một cách tổng thể. Không cần cập nhật công cụ kiểm tra mô hình liên tục, tiết kiệm chi phí và tăng hiệu quả phân tích mã độc (malware). Đây là một bước tiến quan trọng trong việc đối phó với các mối đe dọa từ mã độc tinh vi.

3.1. Thách thức từ kỹ thuật làm rối mã obfuscation của mã độc.

Mã độc sử dụng obfuscation để tránh bị phát hiện. Kỹ thuật này thay đổi cấu trúc mã mà không làm thay đổi chức năng. Điều này làm phức tạp quá trình phân tích, ngăn cản việc nhận diện hành vi nguy hiểm. Phân tích mã độc (malware) gặp nhiều trở ngại lớn từ các phương pháp che giấu này.

3.2. Hạn chế các giải pháp hiện tại đối phó rối mã.

Các giải pháp trước đây thường cải tiến logic thời gian nhưng chỉ hiệu quả với một số loại obfuscation. Mỗi kỹ thuật rối mã mới lại đòi hỏi cập nhật công cụ, dẫn đến chi phí phát triển và bảo trì rất cao. Cần một phương pháp tiếp cận linh hoạt hơn để đối phó với sự đa dạng của mã độc.

3.3. Suy diễn trừu tượng Giải pháp hiệu quả cho deobfuscation.

Luận án đề xuất sử dụng suy diễn trừu tượng để trừu tượng hóa chương trình thành dạng đơn giản hơn. Biểu diễn này loại bỏ hiệu quả các yếu tố làm rối mã, giúp phân tích hành vi mã độc dễ dàng hơn. Công cụ kiểm tra mô hình không cần thay đổi, đây là bước tiến quan trọng cho phân tích malware, có tiềm năng ứng dụng trong các hệ thống học máy và deep learning.

IV.

Phân loại mã độc hiệu quả là yếu tố then chốt giúp nhận diện và phản ứng nhanh chóng trước các mối đe dọa. Tuy nhiên, hành vi nguy hại thường được biểu diễn bằng logic, gây khó khăn khi khai thác dữ liệu. Các phương pháp trích xuất đặc tính truyền thống không hiệu quả với dạng dữ liệu này. Luận án này giải quyết vấn đề bằng khung MarCHGen (Malware Conceptual Hierarchy Generation). Khung này mở rộng phân tích khái niệm hình thức và đề xuất phương pháp V-LCA (Viral Logical Concept Analysis). V-LCA giúp xây dựng giàn khái niệm mã độc, biểu diễn mối quan hệ ngữ nghĩa giữa các khái niệm. Sau đó, kỹ thuật gom cụm khái niệm liên tục được giới thiệu để xây dựng cây phân cấp khái niệm mã độc. Cây này cung cấp cấu trúc phân loại rõ ràng và hiệu quả. Cuối cùng, cây được giám sát bởi kỹ thuật quản lý tập cận phổ biến, tránh việc tái gom cụm không cần thiết, đảm bảo hiệu quả và tính ổn định của hệ thống phân loại mã độc dựa trên trí tuệ nhân tạo (AI) và học sâu (deep learning).

4.1. Khó khăn trong khai phá dữ liệu từ logic hành vi mã độc.

Hành vi mã độc biểu diễn dưới dạng công thức logic không tương thích với khai phá dữ liệu truyền thống. Trích xuất đặc tính để phân loại gặp khó khăn. Các thuật toán học máy (machine learning) cần dữ liệu có cấu trúc rõ ràng, đòi hỏi cầu nối giữa logic hành vi và đặc tính có thể học để phân loại mã độc.

4.2. Khung MarCHGen và V LCA Xây dựng giàn khái niệm mã độc.

MarCHGen được giới thiệu để giải quyết vấn đề phân loại. Khung này sử dụng V-LCA (Viral Logical Concept Analysis), mở rộng phân tích khái niệm hình thức. V-LCA giúp xây dựng giàn khái niệm mã độc, tổ chức các hành vi thành các khái niệm có ý nghĩa. Đây là nền tảng cho phân loại mã độc dựa trên AI.

4.3. Cây phân cấp khái niệm và quản lý tập dữ liệu lớn.

Kỹ thuật gom cụm khái niệm liên tục tạo cây phân cấp, tổ chức các khái niệm mã độc một cách có hệ thống. Cung cấp một cấu trúc phân loại mạnh mẽ. Đồng thời, quản lý tập cận phổ biến được áp dụng để tránh tái gom cụm lặp lại, đảm bảo tính nhất quán và hiệu quả cho hệ thống học sâu (deep learning) và phân loại mã độc.

V.

Luận án giới thiệu hai khung giải pháp chính là HOPE và MarCHGen, mang lại những tiến bộ đáng kể trong lĩnh vực phát hiện và phân loại mã độc. Khung HOPE tập trung vào việc xử lý các kỹ thuật làm rối mã bằng cách phân tách rõ ràng bước gỡ rối mã (deobfuscation) và bước kiểm tra mô hình độc lập. Điều này có ý nghĩa quan trọng, vì khi xuất hiện kỹ thuật làm rối mã mới, công cụ kiểm tra mô hình không cần cập nhật. Chỉ cần điều chỉnh bước gỡ rối mã, giúp giảm chi phí phát triển và bảo trì đáng kể. Khung MarCHGen giải quyết vấn đề phân loại mã độc bằng cách xây dựng cây phân cấp khái niệm mã độc dựa trên phân tích hành vi logic. Sự kết hợp giữa hai khung này tạo nên một giải pháp toàn diện, từ phát hiện các mối đe dọa mới đến phân loại chúng một cách chính xác. Các đóng góp này nâng cao năng lực bảo mật hệ thống, đặc biệt trong môi trường phát triển nhanh chóng của mã độc (malware), mở ra nhiều tiềm năng ứng dụng trong lĩnh vực trí tuệ nhân tạo (AI) cho an ninh mạng và học sâu (deep learning).

5.1. Khung HOPE Giải pháp phân tách gỡ rối mã và kiểm tra mô hình.

HOPE là một kiến trúc độc đáo, tách biệt hoàn toàn quá trình deobfuscation và kiểm tra mô hình. Lợi ích là công cụ kiểm tra mô hình giữ ổn định, không cần cập nhật khi có kỹ thuật rối mã mới. Điều này tối ưu hóa chi phí và tăng cường khả năng thích ứng của hệ thống phát hiện mã độc (malware).

5.2. Sự kết hợp giữa HOPE và MarCHGen Hệ thống toàn diện.

HOPE giải quyết vấn đề làm rối mã, trong khi MarCHGen cung cấp khả năng phân loại dựa trên khái niệm. Kết hợp cả hai tạo ra một hệ thống mạnh mẽ để phát hiện và phân loại mã độc hiệu quả. Từ phân tích sâu hành vi đến tổ chức tri thức về malware, đây là một bước tiến quan trọng cho an ninh mạng sử dụng học máy (machine learning).

5.3. Tiềm năng ứng dụng và đóng góp cho trí tuệ nhân tạo bảo mật.

Các giải pháp đề xuất có tiềm năng lớn trong việc áp dụng vào các hệ thống an ninh mạng tiên tiến. Chúng nâng cao khả năng phòng thủ trước mã độc và đóng góp quan trọng vào lĩnh vực trí tuệ nhân tạo (AI), đặc biệt là AI cho an ninh mạng. Mở ra hướng nghiên cứu mới về học sâu (deep learning) trong phát hiện mối đe dọa.

08/04/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Luận án tiến sĩ khoa học máy tính áp dụng kiểm tra mô hình và phân tích khái niệm hình thức để phân loại và phát hiện mã độc

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (139 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THIÊN BÌNH ÁP DỤNG KIỂM TRA MÔ HÌNH VÀ PHÂN TÍCH KHÁI NIỆM HÌNH THỨC ĐỂ PHÂN LOẠI VÀ PHÁT HIỆN MÃ ĐỘC LUẬN ÁN TIẾN SĨ KỸ THUẬT TP. HỒ CHÍ MINH NĂM 2019 ĐẠI HỌC QUỐC GIA TP. HCM TRƯỜNG ĐẠI HỌC BÁCH KHOA NGUYỄN THIÊN BÌNH ÁP DỤNG KIỂM TRA MÔ HÌNH VÀ PHÂN TÍCH KHÁI NIỆM HÌNH THỨC ĐỂ PHÂN LOẠI VÀ PHÁT HIỆN MÃ ĐỘC Chuyên ngành: Khoa học máy tính Mã số chuyên ngành: 62.01 Phản biện độc lập 1: PGS.

Võ Trung Hùng Phản biện độc lập 2: PGS. Trương Ninh Thuận Phản biện 1: PGS. Đỗ Văn Nhơn Phản biện 2: PGS. Trần Minh Triết Phản biện 3: PGS.

Bùi Hoài Thắng NGƯỜI HƯỚNG DẪN KHOA HỌC PGS. Quản Thành Thơ TP. HỒ CHÍ MINH NĂM 2019 LÕI CAM OAN Tác gi£ xin cam oan ây là công trình nghiên c˘u cıa b£n thân tác gi£. Các k∏t qu£ nghiên c˘u và các k∏t lu™n trong lu™n án này là trung th¸c và không sao chép t¯ bßt k˝ mÎt nguÁn nào và d˜Ói bßt k˝ hình th˘c nào.

Viªc tham kh£o các nguÁn tài liªu (n∏u có) ã ˜Òc th¸c hiªn trích d®n và ghi nguÁn tài liªu tham kh£o úng quy ‡nh. Tác gi£ lu™n án Ch˙ k˛ Nguyπn Thiên Bình i TÓM TçT LUäN ÁN ∫ kh≠c phˆc nh˜Òc i∫m cıa ph˜Ïng pháp phát hiªn mã Îc b¨ng cách so trùng ch˙ k˛ trong công nghiªp, hiªn nay có các nghiên c˘u theo h˜Óng ti∏p c™n áp dˆng ki∫m tra mô hình ∫ phát hiªn mã Îc nhÌ vào viªc cho phép bi∫u diπn hành vi nguy h§i mÎt cách lu™n l˛. Tuy nhiên, tr ng§i cÏ b£n cıa ph˜Ïng pháp ki∫m tra mô hình là vßn ∑ bùng nÍ không gian tr§ng thái. Dù ã có nhi∑u nghiên c˘u ∫ gi£i quy∏t vßn ∑ này, nh˜ng hiªn v®n ch˜a có nghiên c˘u nào t™p trung vào bài toán phát hiªn mã Îc.

Thông qua viªc phân tích các hành vi nguy h§i cıa mã Îc trong th¸c t∏, chúng tôi nh™n thßy hành vi nguy h§i cıa mã Îc chø xußt hiªn trong mÎt o§n mã nguÁn ˜Òc gÂi là !-region. ∞c tính này là cÏ s ∫ lu™n án ∑ xußt ph˜Ïng pháp ki∫m tra gia t´ng t¯ng ph¶n giúp thu gi£m Î ph˘c t§p cıa mô hình ch˜Ïng trình, t¯ ó giúp gi£i quy∏t vßn ∑ bùng nÍ không gian tr§ng thái. Bên c§nh vßn ∑ bùng nÍ không gian tr§ng thái, ph˜Ïng pháp ki∫m tra mô hình ∫ phát hiªn mã Îc còn g∞p mÎt tr ng§i lÓn, ó là mã Îc th˜Ìng áp dˆng các kˇ thu™t làm rËi mã (obfuscation) ∫ che dßu hành vi nguy h§i cıa chúng. Tuy ã có mÎt sË ∑ xußt theo h˜Óng ti∏p c™n c£i ti∏n lu™n l˛ thÌi gian ∫ gi£i quy∏t vßn ∑ nói trên nh˜ng mÈi ∑ xußt theo h˜Óng này chø có th∫ gi£i quy∏t ˜Òc mÎt kˇ thu™t làm rËi mã, Áng thÌi ph£i c™p nh™t công cˆ ki∫m tra mô hình, d®n ∏n chi phí ∫ x˚ l˛ mÎt kˇ thu™t làm rËi mã là rßt lÓn.

Do ó, lu™n án ã nghiên c˘u áp dˆng suy diπn tr¯u t˜Òng ∫ tr¯u t˜Òng hoá ch˜Ïng trình c¶n ˜Òc ki∫m tra thành mÎt bi∫u diπn trung gian tËi gi£n, giúp lo§i b‰ h¶u h∏t các kˇ thu™t làm rËi mã. Ngoài ra, lu™n án ∑ xußt khung th˘c HOPE, vÓi viªc phân tách b˜Óc gi£i rËi mã (deobfuscation) và b˜Óc ki∫m tra mô hình. NhÌ v™y, khi x˚ l˛ mÎt kˇ thu™t làm rËi mã mÓi, công cˆ ki∫m tra mô hình không c¶n ˜Òc c™p nh™t, t¯ ó tËi ˜u ˜Òc chi phí. Vßn ∑ còn l§i cıa ph˜Ïng pháp ki∫m tra mô hình ∫ phát hiªn mã Îc là các hành vi nguy h§i ˜Òc bi∫u diπn b¨ng các công th˘c lu™n l˛, vì v™y các h˜Óng ti∏p c™n khai phá d˙ liªu d¸a trên viªc trích xußt ∞c tính g∞p rßt nhi∑u khó kh´n.

Lu™n án gi£i quy∏t vßn ∑ này b¨ng mÎt khung th˘c ˜Òc gÂi là MarCHGen (Malware Conceptual Hierarchy Generation). Trong khung th˘c này, b¨ng cách m rÎng phân tích khái niªm hình th˘c, ph˜Ïng pháp phân tích khái niªm lu™n l˛ mã Îc (Viral Logical Concept Analysis - V-LCA) ˜Òc lu™n án ∑ xußt ∫ xây d¸ng giàn khái niªm mã Îc. Sau ó, lu™n án ∑ xußt kˇ thu™t gom cˆm khái niªm liên tˆc giúp xây d¸ng cây phân cßp khái niªm mã Îc. CuËi cùng, cây phân cßp khái niªm mã Îc ˜Òc giám sát bi mÎt kˇ thu™t ˜Òc gÂi là qu£n l˛ t™p c™n phÍ bi∏n (pre-large dataset management), giúp tránh viªc tái gom cˆm nhi∑u l¶n không c¶n thi∏t.

T¯ khoá: Phân tích mã th¸c thi, suy diπn tr¯u t˜Òng, ki∫m tra mô hình, bùng nÍ không gian tr§ng thái, !-region, phân tích khái niªm hình th˘c, phân tích khái niªm lu™n l˛ mã Îc, gom cˆm khái niªm liên tˆc. ii ABSTRACT To overcome the drawbacks of signature matching malware detection methods that widely used in industry, there is much research approaching the application of model checking to detect malware since this technique can logically represent malicious behaviors. However, model checking usually suffers from the infamous state explosion problem. Many studies have been conducted to address this, but none of them is dedicated for malware detection.

By studying large amount of malware, we found that malicious behavior should not occupy in more than one code segment so-called !-region. This provides a solid fundamental for the thesis to propose incremental verification method, which allows reducing program model complexity, thus helping to solve the state explosion problem. In addition to the state explosion problem, model checking approach for malware detection encounters a major drawback that malware often employs obfuscation techniques to mask their harmful behavior. Despite some suggestions into the direction of improving temporal logic to solve this problem, each proposal following this direction can only handle one obfuscation technique with the requirement to update the model checker, resulting in enormous costs to handle one code obfuscation technique.

Thus, the thesis studied the utilization of abstract interpretation in order to abstract the program into a minimal intermediate representation, eliminating most of the obfuscation techniques. Moreover, the thesis proposes HOPE framework, with the separation of the deobfuscation step and the model checking step. As a result, when processing a new obfuscation technique, model checking tool does not need to be updated, thus optimizing the costs. The remaining problem of model checking for malicious code detection is that malicious behaviors are represented by logical formulae.

Therefore, the typical data mining approaches based on feature extraction are not easily applied. The thesis solves this problem with a framework called MarCHGen (Malware Conceptual Hierarchy Generation). In this framework, by extending Formal Concept Analysis (FCA), Viral Logical Concept Analysis (V-LCA) is proposed in the thesis to generate viral concept lattice. Then, the thesis proposes an On-the-fly Conceptual Clustering (OCC) technique to generate malware concept hierarchy.

Finally, the malware concept hierarchy will be monitored by the pre-large dataset management technique to avoid re-clustering several times unnecessarily. Keywords: Binary code analysis, abstract interpretation, model checking, state explosion, !-region, formal concept analysis, viral logical concept analysis, on-the-fly conceptual clustering technique. iii LÕI CÁM ÃN Cho phép tôi ˜Òc g˚i ∏n PGS. Qu£n Thành ThÏ lÌi c£m Ïn sâu s≠c và s¸ tri ân chân thành nhßt cıa tôi vì nh˙ng s¸ hÈ trÒ, quan tâm, d§y b£o, ‡nh h˜Óng và Îng viên mà th¶y ã dành cho tôi trong suËt thÌi gian nghiên c˘u, th¸c hiªn và b£o vª lu™n án.

Bên c§nh ó, tôi xin phép c£m Ïn Ban giám hiªu, Phòng Sau §i hÂc, Khoa Khoa hÂc và Kˇ thu™t máy tính, BÎ môn Công nghª ph¶n m∑m; và các Th¶y Cô, các b§n nghiên c˘u sinh  Tr˜Ìng §i hÂc Bách Khoa TP. HÁ Chí Minh ã hÈ trÒ tôi trong quá trình nghiên c˘u, hÂc t™p t§i Tr˜Ìng. CuËi cùng, tôi cÙng muËn chia s¥ s¸ trân trÂng Ëi vÓi nh˙ng ıng hÎ cıa gia ình tôi và nhßt là vÒ tôi, cho quá trình nghiên c˘u và hÂc t™p cıa tôi trong thÌi gian qua. HCM, tháng 1, n´m 2019 Nguyπn Thiên Bình iv M÷C L÷C Danh sách hình v≥ vii Danh sách b£ng viii 1 GiÓi thiªu 1 1.2 Các kˇ thu™t phân tích mã Îc trong công nghiªp .3 Áp dˆng ki∫m tra mô hình ∫ phân tích mã Îc .4 S¸ c¶n thi∏t th¸c hiªn ∑ tài .8 T¶m quan trÂng cıa lu™n án.

11 2 N∑n t£ng và các nghiên c˘u liên quan 13 2.1 Phân lo§i mã Îc .2 Kˇ thu™t phân tích Îng mã Îc .3 Kˇ thu™t phân tích tænh mã Îc .2 Ki∫m tra mô hình .1 Mô hình hoá. 23 Linear Temporal Logic (LTL). 24 Computational Temporal Logic (CTL) .3 Vßn ∑ bùng nÍ không gian tr§ng thái .1 Các kˇ thu™t làm rËi mã .2 Các kˇ thu™t làm rËi mã ˜Òc mã Îc s˚ dˆng .3 Các kˇ thu™t gi£i rËi mã .1 Ph˜Ïng pháp gom cˆm phân ho§ch .2 Ph˜Ïng pháp gom cˆm phân cßp. 36 3 Ph˜Ïng pháp ki∫m tra gia t´ng t¯ng ph¶n 38 3.1 Các nghiên c˘u liên quan .1 Xây d¸ng CFG .2 Ph˜Ïng pháp ki∫m tra thành ph¶n .2 Các ‡nh nghæa ban ¶u .3 Ki∫m tra gia t´ng t¯ng ph¶n trên !-region .4 Xây d¸ng t™p !-region .5 Tr¯u t˜Òng hoá !-region .6 Xây d¸ng t™p !-instruction .1 H˜Óng ti∏p c™n ki∫m tra mô hình thông th˜Ìng .2 Ph˜Ïng pháp ki∫m tra gia t´ng t¯ng ph¶n .1 Môi tr˜Ìng .4 Các ph˜Ïng pháp ki∫m tra .5 K∏t qu£ thí nghiªm.

71 4 Áp dˆng suy diπn tr¯u t˜Òng ∫ lo§i b‰ các kˇ thu™t làm rËi mã 73 4.1 Các nghiên c˘u liên quan .2 HOPE - khung th˘c x˚ l˛ các kˇ thu™t làm rËi mã .3 Tr¯u t˜Òng hoá hành vi ∫ gi£i rËi mã .4 Ch˘ng minh kh£ n´ng gi£i rËi mã. 83 5 Hª thËng hoá mã Îc 84 5.1 Các nghiên c˘u liên quan .1 Phân tích khái niªm hình th˘c và các m rÎng .2 Phân tích khái niªm hình th˘c h˜Óng ∞c tính .3 TÍng quát hoá lu™n l˛ cho phân tích khái niªm hình th˘c .4 ∞c t£ và phân lo§i mã Îc .2 Các ‡nh nghæa ban ¶u .1 Phân tích khái niªm hình th˘c .2 Phân tích khái niªm lu™n l˛ mã Îc .3 Hª thËng hoá mã Îc d¸a vào V-LCA .4 Gom cˆm khái niªm liên tˆc .5 Qu£n l˛ t™p c™n phÍ bi∏n .1 Khái niªm phÍ bi∏n .2 Qu£n l˛ c™p nh™t khái niªm phÍ bi∏n .1 Hiªu sußt cıa kˇ thu™t gom cˆm d¸a trên FCA .2 S˚ dˆng Î o AUP ∫ so sánh chßt l˜Òng gom cˆm .3 ánh giá hiªu sußt theo chßt l˜Òng cˆm. 106 6 K∏t lu™n và h˜Óng m rÎng 107 6. 108 vi DANH SÁCH HÌNH Vì 1.1 Ch˙ k˛ virus Chernobyl.2 Cßu trúc nÎi dung lu™n án.1 Bi∫u diπn ch˜Ïng trình.2 Áp dˆng ki∫m tra mô hình ∫ phát hiªn mã Îc.5 Ph˜Ïng pháp gom cˆm phân cßp.1 Ph˜Ïng pháp ki∫m tra thành ph¶n.2 Các b˜Óc th¸c hiªn ki∫m tra thành ph¶n.3 ASM, CFG và không gian tr§ng thái cıa ch˜Ïng trình.4 Quy t≠c th¸c thi.5 Nh˙ng lªnh không ch˘a trong m®u nh™n diªn mã Îc.6 Ph˜Ïng pháp ki∫m tra gia t´ng t¯ng ph¶n.8 Không gian tr§ng thái ki∫m tra mô hình.9 Ch˜Ïng trình r≥ nhánh Ïn gi£n và ph˘c t§p.10 So sánh tÍng thÌi gian ch§y.11 So sánh bÎ nhÓ s˚ dˆng.12 So sánh sË tr§ng thái duyªt.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Câu hỏi thường gặp

Luận án "Phát hiện & phân loại mã độc: Kiểm tra mô hình & phân tích khái niệm" nghiên cứu về vấn đề gì?

Luận án tiến sĩ khoa học máy tính áp dụng kiểm tra mô hình và phân tích khái niệm hình thức để phân loại và phát hiện mã độc.

Luận án "Phát hiện & phân loại mã độc: Kiểm tra mô hình & phân tích khái niệm" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại Đại học Bách khoa. Năm bảo vệ: 2019.

Luận án "Phát hiện & phân loại mã độc: Kiểm tra mô hình & phân tích khái niệm" thuộc chuyên ngành gì?

Luận án "Phát hiện & phân loại mã độc: Kiểm tra mô hình & phân tích khái niệm" thuộc chuyên ngành Khoa học máy tính. Danh mục: An Toàn Thông Tin.

Luận án "Phát hiện & phân loại mã độc: Kiểm tra mô hình & phân tích khái niệm" có bao nhiêu trang?

Luận án "Phát hiện & phân loại mã độc: Kiểm tra mô hình & phân tích khái niệm" có 139 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Cách tải luận án "Phát hiện & phân loại mã độc: Kiểm tra mô hình & phân tích khái niệm" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter

Mục lục chi tiết

Tóm tắt nội dung

I.