Luận án tiến sĩ: Phát hiện webshell với các phương pháp học sâu
Vietnam National University - University of Engineering and Technology
Information Systems
Ẩn danh
Luận án tiến sĩ
Năm xuất bản
Số trang
139
Thời gian đọc
21 phút
Lượt xem
0
Lượt tải
0
Phí lưu trữ
40 Point
Mục lục chi tiết
DECLARATION OF AUTHORSHIP
ACKNOWLEDGEMENTS
ABSTRACT
LIST OF FIGURES
LIST OF TABLES
ABBREVIATIONS
INTRODUCTION
Research Motivations
Research Challenges
Objectives of Dissertation
Research Scope
Methodologies
Research Contributions
1. 1: THEORETICAL BACKGROUND AND PRELIMINARIES
1.1. 1.1 Fundamental Concepts
1.2. 1.2 Webshell Detection Approaches
1.2.1. 1.2.1 Webshell Dataset Collection
1.2.2. 1.2.2 Non-AI Approaches
1.2.3. 1.2.3 AJ-Powered Source Code Analysis Approaches
1.2.4. AI-Powered Network Analysis Approaches
1.2.5. Dissertation Research Direction
1.3. Summary of Chapter 1
2. 2: DL-POWERED WEBSHELL DETECTION BY SOURCE CODE ANALYSIS
2.2. 2.2 Proposed DL-Powered Source Code Analysis Framework
2.2.1. PHP Webshell Detection
2.3. 2.3 Yara-Based Analysis
2.4. 2.4 Dataset Collecting and Cleaning
2.5. 2.5 Hyperparameter Tuning CNN Model
2.6. 2.6 Experimental Results and Evaluation
2.7. Results and Evaluation
2.8. NET Webshell Detection
2.9. Yara-based Analysis
2.10. CNN Model Hyperparameter Tuning
2.11. Dataset Collecting and Cleaning
2.12. 2.6 Experimental Results and Evaluations
2.12.1. Results and Evaluation
2.5. 2.5 Summary of Chapter 2
3. 3: DL-POWERED PROACTIVE WEBSHELL DETECTION AND PREVENTION BY HTTP TRAFFIC ANALYSIS
3.2. 3.2 Proactive Webshell Detection and Prevention
3.3. Deep Learning Intrusion Detection Model
3.4. Webshell Detection and Prevention
3.5. Handling Imbalanced Datasets
3.3. 3.3 Experiments and Evaluation
3.4. 3.4 Results and Evaluation
3.5. 3.5 Comparisons and Discussions
3.6. Summary of Chapter 3
CONCLUSION AND FUTURE WORKS
Contribution Highlights
Dissertation Limitations
Future Works
BIBLIOGRAPHY
Tóm tắt nội dung
I. Tổng Quan Phát Hiện Webshell Bằng Deep Learning
Webshell đã trở thành mối đe dọa nghiêm trọng đối với bảo mật ứng dụng web. Các phương pháp truyền thống không còn hiệu quả trước webshell mới. Deep learning security mang đến giải pháp đột phá. Công nghệ này kết hợp machine learning cybersecurity với phân tích mã nguồn độc hại. Luận án nghiên cứu hai hướng chính: quét mã nguồn và phân tích HTTP traffic. Hướng đầu tiên sử dụng neural network malware detection để nhận diện webshell trong code. Hướng thứ hai áp dụng CNN phát hiện webshell qua lưu lượng mạng. Cả hai phương pháp đều tích hợp RNN LSTM security để nâng cao độ chính xác. Kết quả đạt được 01 bằng sáng chế quốc gia, 02 bài báo SCI-E, 01 bài E-SCI. Nghiên cứu còn được ứng dụng trong dự án KC01.19/16-20 của Bộ Khoa học và Công nghệ. Framework ASAF được phát triển cho cả ngôn ngữ thông dịch và biên dịch. Mô hình đã được thử nghiệm trên dataset CSE-CIC-IDS2018 chuẩn quốc tế.
1.1. Bối Cảnh Và Thách Thức Bảo Mật Web Hiện Đại
Tấn công webshell gia tăng nhanh chóng trong môi trường số hóa. Hacker sử dụng kỹ thuật evasion phức tạp để qua mặt hệ thống bảo mật. Phương pháp signature-based truyền thống không phát hiện được webshell mới. Static analysis webshell gặp khó khăn với code obfuscation. Dynamic analysis webshell tốn nhiều tài nguyên hệ thống. Feature extraction malware đòi hỏi chuyên môn cao từ chuyên gia. Khoảng cách giữa khả năng tấn công và phòng thủ ngày càng lớn. Deep learning mang lại khả năng tự động học các pattern mới. Công nghệ này giảm thiểu sự phụ thuộc vào cập nhật signature thủ công.
1.2. Vai Trò Của Deep Learning Trong Cybersecurity
Deep learning đã cách mạng hóa phát hiện mã độc webshell. Neural network có khả năng học đặc trưng phức tạp từ dữ liệu. CNN phát hiện webshell hiệu quả qua phân tích pattern không gian. RNN LSTM security xử lý tốt chuỗi dữ liệu thời gian trong HTTP traffic. Machine learning cybersecurity tự động trích xuất feature từ raw data. Mô hình có thể phát hiện cả webshell zero-day chưa từng xuất hiện. Độ chính xác cao hơn đáng kể so với phương pháp truyền thống. Thời gian phát hiện giảm từ giờ xuống còn mili giây. Khả năng mở rộng tốt cho hệ thống enterprise lớn.
1.3. Phạm Vi Và Phương Pháp Nghiên Cứu
Luận án tập trung vào hai hướng nghiên cứu chính. Hướng thứ nhất: phân tích mã nguồn ứng dụng web bằng static analysis. Hướng thứ hai: giám sát HTTP traffic real-time bằng dynamic analysis. Nghiên cứu chọn PHP cho ngôn ngữ thông dịch, ASP.NET cho ngôn ngữ biên dịch. Framework ASAF được thiết kế linh hoạt cho nhiều ngôn ngữ lập trình. Thuật toán cải tiến loss function giải quyết vấn đề data imbalance. Thử nghiệm trên dataset chuẩn CSE-CIC-IDS2018 để đánh giá khách quan. Tích hợp với NetIDPS system để triển khai thực tế. Phương pháp đo lường bao gồm precision, recall, F1-score và accuracy.
II. Framework ASAF Phát Hiện Webshell Qua Code
ASAF (Advanced DL-Powered Source-Code Scanning Framework) là giải pháp toàn diện. Framework kết hợp signature-based detection với deep learning algorithms. Static analysis webshell được tăng cường bởi neural network malware detection. Hệ thống phát hiện cả webshell đã biết và chưa biết hiệu quả. Feature extraction malware tự động từ abstract syntax tree (AST). CNN phát hiện webshell qua pattern recognition trong code structure. Kiến trúc modular cho phép customize cho từng ngôn ngữ lập trình. Phần Yara-based detector xử lý webshell signature truyền thống. Phần deep learning model học đặc trưng mới từ unknown samples. Tích hợp hai phương pháp tạo ra defense-in-depth strategy mạnh mẽ. Thử nghiệm với PHP và ASP.NET cho kết quả vượt trội. Độ chính xác đạt trên 98% với tỷ lệ false positive thấp.
2.1. Kiến Trúc Framework ASAF Đa Tầng
ASAF sử dụng kiến trúc phân lớp linh hoạt và mở rộng. Tầng preprocessing chuẩn hóa source code từ nhiều định dạng khác nhau. Parser chuyển đổi code thành abstract syntax tree chuẩn. Feature extractor trích xuất đặc trưng cú pháp và ngữ nghĩa. Tầng detection kết hợp rule-based và model-based approaches. Signature engine sử dụng Yara rules cho known webshell patterns. Deep learning engine áp dụng CNN và RNN cho unknown detection. Post-processing layer phân tích kết quả và giảm false positives. Output module tạo báo cáo chi tiết với severity scoring. API gateway cho phép tích hợp với CI/CD pipeline. Framework hỗ trợ batch scanning và real-time monitoring mode.
2.2. Phát Hiện PHP Webshell Với Deep Learning
PHP là ngôn ngữ phổ biến nhất cho web development. Đây cũng là mục tiêu chính của webshell attacks. ASAF-PHP module phân tích cú pháp đặc thù của PHP. Mô hình CNN xử lý token sequence từ PHP source code. LSTM layer học context dependencies trong code flow. Feature extraction bao gồm dangerous functions, eval usage, obfuscation patterns. Training dataset gồm 15,000+ PHP webshell samples từ nhiều nguồn. Model đạt accuracy 98.7%, precision 97.9%, recall 98.5%. False positive rate chỉ 1.3% trên legitimate PHP applications. Thời gian scan trung bình 50ms cho file 10KB. Khả năng phát hiện polymorphic và metamorphic webshells tốt.
2.3. Phát Hiện ASP.NET Webshell Qua Compiled Code
ASP.NET webshell thường tồn tại dưới dạng compiled assemblies. ASAF-ASPNET module decompile và phân tích IL code. Static analysis webshell áp dụng trên intermediate language bytecode. Feature extraction malware từ API calls, reflection usage, dynamic loading. Deep learning model học từ control flow graph và data flow analysis. Dataset training bao gồm 8,000+ ASP.NET webshell samples. Model đạt accuracy 97.2%, với F1-score 96.8%. Phát hiện được cả webshell embedded trong legitimate DLLs. Integration với build process để scan trước khi deployment. Performance overhead minimal không ảnh hưởng development workflow.
III. Phát Hiện Webshell Qua HTTP Traffic Analysis
Phân tích HTTP traffic mang lại góc nhìn runtime về webshell activity. Dynamic analysis webshell bắt được hành vi thực thi thực tế. RNN LSTM security xử lý sequence của HTTP requests hiệu quả. Mô hình học pattern bất thường trong web application behavior. Feature extraction malware từ headers, parameters, payload content. CNN phát hiện webshell qua spatial patterns trong network traffic. Dataset CSE-CIC-IDS2018 cung cấp labeled traffic cho training. Thuật toán custom loss function giải quyết class imbalance problem. Machine learning cybersecurity tự động phân loại benign và malicious requests. Real-time detection với latency dưới 10ms cho mỗi request. Tích hợp NetIDPS system để blocking tự động attack sources. Blacklist management và URI filtering bảo vệ web server proactively.
3.1. Deep Neural Network Cho Traffic Analysis
Kiến trúc neural network kết hợp CNN và LSTM layers. CNN layer trích xuất spatial features từ HTTP request structure. Max pooling giảm dimensionality và tăng translation invariance. LSTM layer học temporal dependencies giữa các requests liên tiếp. Attention mechanism tập trung vào các phần quan trọng của traffic. Bidirectional LSTM nắm bắt context từ cả hai hướng. Dense layers với dropout regularization tránh overfitting. Output layer sử dụng softmax cho multi-class classification. Model training với Adam optimizer và custom loss function. Batch normalization tăng tốc convergence và stability. Architecture tối ưu qua extensive hyperparameter tuning.
3.2. Giải Quyết Data Imbalance Trong Training
Webshell traffic chiếm tỷ lệ rất nhỏ trong tổng HTTP requests. Class imbalance gây bias model về majority class. Thuật toán custom loss function tăng weight cho minority class. Focal loss tập trung vào hard-to-classify examples. SMOTE technique tạo synthetic samples cho webshell class. Under-sampling majority class để cân bằng training data. Cost-sensitive learning gán penalty cao hơn cho false negatives. Ensemble methods kết hợp multiple models trained khác nhau. Evaluation metrics bao gồm precision, recall, F1-score, AUC-ROC. Cross-validation đảm bảo model generalization tốt. Results cho thấy improvement đáng kể so với standard loss.
3.3. Tích Hợp NetIDPS Và Auto Blocking
NetIDPS system cung cấp nền tảng cho real-time detection. Deep learning model được deploy như detection engine module. Traffic mirroring đảm bảo zero impact lên production performance. Detection triggers automatic response actions ngay lập tức. Malicious IP addresses được thêm vào blacklist tự động. URI patterns của webshell được block tại web server level. Firewall rules được update động dựa trên detection results. Alert system thông báo SOC team về suspicious activities. Logging và forensics data được lưu cho incident investigation. Dashboard visualization hiển thị security metrics real-time. Integration testing đảm bảo reliability và false positive management.
IV. Kỹ Thuật Feature Extraction Cho Malware Detection
Feature extraction malware là bước quan trọng trong machine learning cybersecurity. Static analysis webshell trích xuất features từ source code structure. Dynamic analysis webshell thu thập features từ runtime behavior. Phương pháp kết hợp hai approaches tạo feature set toàn diện. Từ source code: AST nodes, function calls, string literals, control flow. Từ HTTP traffic: request frequency, parameter patterns, payload entropy. Neural network malware detection tự động học high-level features. Manual feature engineering vẫn cần thiết cho domain knowledge. Dimensionality reduction techniques giảm feature space complexity. PCA và t-SNE visualization giúp hiểu feature distributions. Feature importance analysis xác định predictive power của từng feature. Continuous feature engineering cải thiện model performance over time.
4.1. Static Features Từ Source Code Analysis
Abstract syntax tree cung cấp structural representation của code. Function call graph cho thấy control flow và dependencies. Dangerous API usage như eval, exec, system commands. String analysis phát hiện obfuscated và encoded payloads. Variable naming patterns thường khác biệt trong malicious code. Code complexity metrics: cyclomatic complexity, nesting depth. Import statements và library dependencies analysis. Regular expression patterns cho command injection detection. Entropy calculation của string literals phát hiện encryption. N-gram features từ token sequences trong source code. Opcode sequences từ compiled bytecode cho compiled languages.
4.2. Dynamic Features Từ HTTP Traffic Patterns
Request frequency và timing patterns của webshell communication. HTTP method distribution khác biệt giữa normal và malicious. Header anomalies như unusual user-agents, custom headers. Parameter names và values thường chứa command indicators. Payload size distribution và entropy của POST data. Session characteristics như duration, request count per session. Response time patterns có thể indicate command execution. Referrer và origin headers cho cross-site request analysis. Cookie patterns và authentication token behaviors. Geographic và IP reputation features của request sources. Protocol compliance và RFC violation detection.
4.3. Automated Feature Learning Với Deep Networks
Deep learning tự động học representation từ raw data. Convolutional layers trích xuất local patterns và hierarchies. Pooling operations tạo translation-invariant features. Recurrent layers capture sequential dependencies automatically. Attention mechanisms identify salient features dynamically. Embedding layers học dense representations cho categorical data. Autoencoders phát hiện anomalies qua reconstruction error. Transfer learning leverage pre-trained models cho new tasks. Feature visualization techniques hiểu neural network decisions. Ablation studies đánh giá contribution của từng layer. End-to-end learning giảm dependency vào manual engineering.
V. Thử Nghiệm Và Đánh Giá Hiệu Quả Detection
Evaluation methodology sử dụng dataset chuẩn CSE-CIC-IDS2018. Dataset chứa labeled network traffic với nhiều attack types. Webshell samples được collect từ public repositories và honeypots. Training/validation/test split theo tỷ lệ 70/15/15 chuẩn. Metrics bao gồm accuracy, precision, recall, F1-score, AUC-ROC. Confusion matrix phân tích chi tiết true/false positives/negatives. Cross-validation với 5 folds đảm bảo statistical significance. Comparison với baseline methods: signature-based, traditional ML. Performance testing đo throughput và latency trong production. Ablation studies đánh giá contribution của từng component. Results cho thấy improvement vượt trội so với existing approaches. Real-world deployment validation tại enterprise environments thành công.
5.1. Dataset Và Experimental Setup Chi Tiết
CSE-CIC-IDS2018 dataset gồm 16 million network flows. Labeled data bao gồm normal traffic và 14 attack categories. Webshell-specific samples được augment từ external sources. Total 25,000+ webshell samples cho training và testing. Hardware setup: NVIDIA Tesla V100 GPU, 64GB RAM. Software stack: TensorFlow 2.x, Keras, Python 3.8. Training configuration: batch size 128, learning rate 0.001. Early stopping với patience 10 epochs tránh overfitting. Data augmentation techniques cho source code samples. Normalization và standardization của numerical features. Class weight balancing trong loss function calculation.
5.2. Kết Quả So Sánh Với Baseline Methods
ASAF framework đạt accuracy 98.7% trên PHP webshell detection. Vượt trội signature-based methods (85.3%) và traditional ML (92.1%). HTTP traffic analysis model đạt F1-score 96.8%. Precision 97.2% đảm bảo low false positive rate. Recall 96.4% catch được majority của webshell attacks. AUC-ROC score 0.989 cho thấy excellent discrimination ability. Comparison với published research papers trên same dataset. ASAF outperforms existing deep learning approaches 3-5%. Inference time 50ms cho source code, 10ms cho traffic. Memory footprint reasonable cho production deployment. Scalability testing với concurrent requests cho positive results.
5.3. Real World Deployment Và Practical Impact
Integration với national research project KC01.19/16-20 thành công. Deployment tại multiple enterprise web applications. Detection của zero-day webshells chưa có trong signature databases. Reduction 85% trong incident response time. False positive rate dưới 2% acceptable cho security teams. Automatic blocking prevented 1,200+ attack attempts. Cost savings từ reduced manual analysis và faster remediation. User feedback positive về system usability và effectiveness. Continuous learning từ new samples improve model over time. Patent applications filed cho novel detection techniques. Publications trong SCI-E và E-SCI journals validate contributions.
VI. Hướng Phát Triển Deep Learning Security Tương Lai
Machine learning cybersecurity đang evolve với adversarial AI. Attackers sử dụng deep learning để evade detection systems. Adversarial training cần thiết để robust against evasion attempts. Explainable AI (XAI) giúp security analysts hiểu model decisions. Federated learning cho phép collaborative training without data sharing. AutoML tự động tối ưu architecture và hyperparameters. Transfer learning giảm dependency vào large labeled datasets. Online learning adapts model real-time với new attack patterns. Quantum computing có thể revolutionize cả attack và defense. Integration với threat intelligence platforms cho context-aware detection. Multi-modal learning kết hợp code, traffic, và system logs. Future research directions promising cho next-generation security systems.
6.1. Adversarial Machine Learning Và Robustness
Adversarial examples có thể fool deep learning models. Attackers craft inputs để bypass detection với minimal changes. Adversarial training include perturbed samples trong training data. Defensive distillation reduces model sensitivity to perturbations. Gradient masking techniques hide gradients từ attackers. Ensemble methods increase robustness qua model diversity. Input transformation và randomization defend against attacks. Certified defenses provide provable robustness guarantees. Detection của adversarial examples trước khi classification. Research ongoing về arms race giữa attacks và defenses. Robustness evaluation critical cho production deployment.
6.2. Explainable AI Cho Security Operations
Black-box models gây khó khăn cho security analysts. Explainability builds trust và facilitates human-in-the-loop. LIME và SHAP techniques explain individual predictions. Attention visualization shows which features model focuses on. Saliency maps highlight important regions trong input data. Rule extraction from neural networks cho interpretable policies. Counterfactual explanations show what changes would alter prediction. Model debugging identifies failure modes và biases. Compliance requirements demand explainability trong certain industries. XAI enables faster incident investigation và response. Balance giữa accuracy và interpretability remains challenge.
6.3. Tích Hợp Threat Intelligence Và Automation
Threat intelligence feeds provide context cho detections. Integration với MITRE ATT&CK framework cho tactic mapping. Automated correlation giữa multiple detection signals. SOAR platforms orchestrate response actions automatically. Threat hunting powered by machine learning anomaly detection. Predictive analytics forecast future attack trends. Risk scoring combines multiple factors cho prioritization. Automated reporting generates actionable intelligence cho stakeholders. Integration với SIEM systems cho centralized monitoring. Continuous improvement qua feedback loops từ analysts. Future vision: fully autonomous security operations centers.
Tải xuống file đầy đủ để xem toàn bộ nội dung
Tải đầy đủ (139 trang)Từ khóa và chủ đề nghiên cứu
Câu hỏi thường gặp
Luận án tiến sĩ đề xuất các phương pháp học sâu để phát hiện webshell thông qua phân tích mã nguồn và lưu lượng HTTP. Nghiên cứu tích hợp kỹ thuật dựa trên chữ ký với thuật toán học sâu, cải thiện khả năng phát hiện cả webshell đã biết và chưa biết.
Luận án này được bảo vệ tại Vietnam National University - University of Engineering and Technology. Năm bảo vệ: 2024.
Luận án "Phát hiện webshell bằng phương pháp học sâu" thuộc chuyên ngành Information Systems. Danh mục: An Toàn Thông Tin.
Luận án "Phát hiện webshell bằng phương pháp học sâu" có 139 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.
Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.