Khai thác tập mục hữu ích cao trên môi trường tính toán song parallel

Nguyễn Đắc Dzự Trình

Luận án tiến sĩ: Khai thác tập mục hữu ích cao trên tính toán song song

Nghiên cứu thuật toán khai thác tập mục hữu ích cao trên hệ thống song song. Đề xuất phương pháp tối ưu hiệu năng xử lý dữ liệu lớn phân tán.

Trường ĐH

Trường Đại học Công nghiệp Thành phố Hồ Chí Minh

Chuyên ngành

Khoa học Máy tính

Tác giả

Luan An

Thể loại

Luận án tiến sĩ

Năm xuất bản

2024

Số trang

161

Thời gian đọc

25 phút

Lượt xem

1

Lượt tải

0

Phí lưu trữ

50 Point

LỜI CAM ĐOAN

TÓM TẮT LUẬN ÁN TIẾN SĨ

ABSTRACT

LỜI CẢM ƠN

MỞ ĐẦU

0.1. Mục tiêu nghiên cứu

0.2. Phạm vi nghiên cứu

0.3. Đối tượng nghiên cứu

0.4. Cách tiếp cận và phương pháp nghiên cứu

0.5. Các đóng góp của luận án

0.6. Ý nghĩa thực tiễn của luận án

0.7. Cấu trúc luận án

1. CHƯƠNG 1: TỔNG QUAN VỀ LĨNH VỰC NGHIÊN CỨU

1.1. Các nghiên cứu liên quan

1.1.1. Bài toán khai thác tập mục hữu ích cao

1.1.2. Bài toán khai thác tập mục hữu ích cao với biểu diễn đóng

1.1.3. Bài toán khai thác tập mục hữu ích cao trên CSDL phân cấp

1.1.4. Bài toán khai thác song song các tập mục hữu ích cao

1.1.5. Các bài toán khai thác tập mục hữu ích cao khác

2. CHƯƠNG 2: KHAI THÁC HIỆU QUẢ TẬP MỤC HỮU ÍCH CAO ĐÓNG TỪ CƠ SỞ DỮ LIỆU CÓ ĐỘ HỮU ÍCH BIẾN ĐỘNG

2.1. Giới thiệu bài toán

2.2. Một số định nghĩa cơ sở

2.3. Cải thiện hiệu năng quét CSDL

2.4. Giải thuật iEFIM-Closed

2.5. Đánh giá mức độ hiệu quả của P-set

2.6. Đánh giá độ phức tạp của giải thuật iEFIM-Closed

2.6.1. Môi trường thực nghiệm

2.6.2. Cơ sở dữ liệu thực nghiệm

2.6.3. Phương pháp đánh giá

2.6.4. Thời gian thực hiện

2.6.5. Mức độ sử dụng bộ nhớ

2.6.6. Chi phí quét CSDL

2.6.7. Khả năng thích nghi với việc mở rộng CSDL

2.6.8. Kết chương

3. CHƯƠNG 3: MÔ HÌNH SONG SONG HÓA KHAI THÁC TẬP MỤC HỮU ÍCH CAO ĐA MỨC

3.1. Một số định nghĩa

3.2. Mô hình song song hoá quá trình khai thác tập mục hữu ích cao đa mức trên CSDL phân cấp

3.3. Khai thác song song các tập mục hữu ích cao đa mức từ CSDL phân cấp

3.3.1. Giải thuật MCML-Miner

3.3.2. Độ phức tạp của giải thuật MCML-Miner

3.3.3. Đánh giá hiệu năng của giải thuật MCML-Miner

3.4. Khai thác tập mục hữu ích cao đa mức - đóng từ CSDL phân cấp

3.4.1. Kiểm tra nhanh tính đóng của một tập mục

3.4.2. Giải thuật MLC-Miner

3.4.3. Độ phức tạp của giải thuật MLC-Miner

3.5. Khai thác song song các tập mục hữu ích cao đa mức - đóng

3.5.1. Giải thuật PMLC-Miner

3.5.2. Độ phức tạp của giải thuật PMLC-Miner

3.6. Kết chương

4. CHƯƠNG 4: CẢI THIỆN HIỆU QUẢ MÔ HÌNH KHAI THÁC SONG SONG CÁC TẬP MỤC HỮU ÍCH CAO ĐA MỨC

4.1. Cải thiện hiệu quả của mô hình khai thác song song tập mục hữu ích cao đa mức

4.1.1. Giải thuật MCML+

4.1.2. Giải thuật MCML++

4.2. Môi trường và CSDL thực nghiệm

4.3. Đánh giá về thời gian thực hiện

4.4. Đánh giá về mức độ sử dụng bộ nhớ

4.5. Đánh giá về khả năng thích nghi với việc mở rộng CSDL

4.6. So sánh giữa các chiến lược điều phối

4.7. Kết chương

5. CHƯƠNG 5: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

5.1. So sánh với các nghiên cứu trước đây

5.2. Phân tích hiệu quả của các giải thuật đề xuất

5.3. Hạn chế của nghiên cứu

5.4. Vấn đề phát sinh và cách giải quyết

5.5. Ý nghĩa của nghiên cứu

5.6. Hướng phát triển trong tương lai

5.6.1. Nghiên cứu và phát triển chiến lược cân bằng tải

5.6.2. Mở rộng mô hình xử lý song song trên môi trường phân tán

5.6.3. Tích hợp các phương pháp học sâu vào khai thác dữ liệu

5.6.4. Ứng dụng trong các lĩnh vực thực tiễn

5.6.5. Tăng cường tính khả mở của giải thuật

5.6.6. Phân tích và cải thiện các tiêu chí đánh giá

DANH MỤC CÔNG TRÌNH ĐÃ CÔNG BỐ CỦA HỌC VIÊN

appendix.1. Các công trình là tác giả chính

appendix.2. Các công trình đồng tác giả

TÀI LIỆU THAM KHẢO

DANH MỤC HÌNH ẢNH

DANH MỤC BẢNG BIỂU

DANH MỤC TỪ VIẾT TẮT

I. Khai Thác Tập Mục Hữu Ích Cao Là Gì

Khai thác tập mục hữu ích cao (High Utility Itemset Mining - HUIM) là bài toán quan trọng trong data mining. Mục tiêu là tìm kiếm các tập mục mang lại độ hữu ích vượt ngưỡng cho trước. Khác với khai thác tập phổ biến truyền thống, HUIM xem xét giá trị thực tế của mỗi hạng mục. Mỗi hạng mục trong giao dịch có hai giá trị quan trọng: số lượng và đơn giá. Tích của hai đại lượng này biểu thị độ hữu ích - tầm quan trọng thực sự của hạng mục. Phương pháp này phản ánh chính xác hơn giá trị kinh doanh trong thực tế. Các doanh nghiệp có thể xác định sản phẩm nào mang lại lợi nhuận cao nhất. HUIM vượt trội hơn phương pháp đếm tần suất đơn thuần. Bài toán này đã thu hút nhiều nghiên cứu với các thuật toán tối ưu như FHM algorithm và HUI-Miner. Các kỹ thuật này giảm không gian tìm kiếm thông qua chiến lược tỉa ứng viên thông minh.

1.1. Định Nghĩa Độ Hữu Ích Trong HUIM

Độ hữu ích được tính bằng tích của số lượng và đơn giá hạng mục. Công thức này áp dụng cho từng hạng mục trong giao dịch. Tổng độ hữu ích của tập mục là tổng độ hữu ích các thành phần. Ngưỡng tối thiểu được thiết lập để lọc kết quả. Chỉ các tập mục vượt ngưỡng này được coi là hữu ích cao. Phương pháp này cho phép đánh giá chính xác giá trị thực tế.

1.2. Ứng Dụng Thực Tế Của HUIM

HUIM được ứng dụng rộng rãi trong phân tích giỏ hàng bán lẻ. Doanh nghiệp xác định được các combo sản phẩm sinh lời cao. Ngành tài chính sử dụng HUIM để phát hiện giao dịch có giá trị. Y tế áp dụng khai thác tập mục hữu ích trong phân tích điều trị. Marketing tận dụng HUIM để tối ưu chiến lược khuyến mãi. Các ứng dụng này đều yêu cầu xử lý dữ liệu lớn với tốc độ cao.

1.3. Thách Thức Trong Khai Thác HUIM

Không gian tìm kiếm của HUIM rất lớn và phức tạp. Tính chất downward closure không áp dụng như tập phổ biến. Tập con của tập hữu ích cao có thể không hữu ích cao. Điều này làm tăng độ phức tạp tính toán đáng kể. Chi phí quét cơ sở dữ liệu nhiều lần rất tốn kém. Yêu cầu bộ nhớ lớn để lưu trữ cấu trúc dữ liệu trung gian. Các thách thức này đòi hỏi giải pháp tối ưu và song song hóa.

II. Tính Toán Song Song Trong Khai Thác Dữ Liệu

Tính toán song song (parallel computing) là giải pháp then chốt cho bài toán HUIM quy mô lớn. Vi xử lý đa nhân ngày càng phổ biến với chi phí hợp lý. Distributed computing cho phép xử lý dữ liệu trên nhiều máy chủ. MapReduce và Spark là các framework phổ biến cho data mining song song. Hadoop cung cấp hệ sinh thái hoàn chỉnh cho xử lý dữ liệu phân tán. Tận dụng sức mạnh xử lý song song giúp giảm thời gian khai thác đáng kể. Các CPU đa nhân hiện đại có khả năng xử lý nhiều luồng đồng thời. Mô hình song song hóa cần được thiết kế cẩn thận để tránh xung đột dữ liệu. Chiến lược phân chia công việc ảnh hưởng trực tiếp đến hiệu năng. Cân bằng tải giữa các luồng xử lý là yếu tố quan trọng. Đồng bộ hóa dữ liệu giữa các tiến trình cần được tối ưu. Overhead của việc tạo và quản lý luồng phải được kiểm soát.

2.1. Kiến Trúc CPU Đa Nhân Cho HUIM

CPU đa nhân cho phép thực thi nhiều tác vụ song song. Mỗi nhân xử lý một phần không gian tìm kiếm độc lập. Bộ nhớ cache được chia sẻ giữa các nhân tăng tốc truy xuất. Luồng xử lý được phân bổ tự động bởi hệ điều hành. Mô hình shared memory giúp đồng bộ dữ liệu hiệu quả. Kỹ thuật này phù hợp với CSDL vừa và nhỏ trên một máy chủ.

2.2. Framework MapReduce Cho Data Mining

MapReduce chia nhỏ công việc thành giai đoạn Map và Reduce. Giai đoạn Map xử lý song song các phân vùng dữ liệu. Kết quả trung gian được shuffle và sắp xếp theo key. Giai đoạn Reduce tổng hợp kết quả từ các mapper. Framework này xử lý tốt dữ liệu quy mô lớn trên cluster. Hadoop triển khai MapReduce với khả năng chịu lỗi cao.

2.3. Apache Spark Trong HUIM Song Song

Spark cung cấp xử lý in-memory nhanh hơn MapReduce. RDD (Resilient Distributed Datasets) là cấu trúc dữ liệu cốt lõi. Các phép biến đổi trên RDD được thực thi song song. Spark hỗ trợ caching dữ liệu giữa các iteration. MLlib cung cấp thư viện data mining tối ưu. Spark thích hợp cho thuật toán HUIM lặp nhiều lần.

III. Thuật Toán HUIM Với Độ Hữu Ích Động

Độ hữu ích động phản ánh thực tế kinh doanh chính xác hơn. Giá trị hạng mục thay đổi theo thời gian và ngữ cảnh. Mô hình độ hữu ích động kết hợp với chiến lược quét CSDL tối ưu. Giải thuật iEFIM-Closed được đề xuất cho khai thác tập đóng. Tập mục hữu ích cao đóng giảm số lượng kết quả mà không mất thông tin. Phương pháp này giảm chi phí quét CSDL đáng kể. Cấu trúc dữ liệu utility-list được tối ưu cho tính toán nhanh. Chiến lược tỉa dựa trên upper-bound loại bỏ ứng viên sớm. Kỹ thuật projection giúp thu hẹp không gian tìm kiếm hiệu quả. Transaction merging giảm kích thước CSDL trong quá trình khai thác. Thuật toán áp dụng depth-first search để tiết kiệm bộ nhớ. Độ phức tạp được cải thiện qua các cấu trúc dữ liệu thông minh.

3.1. Mô Hình Độ Hữu Ích Động

Độ hữu ích động cho phép giá trị hạng mục thay đổi theo giao dịch. Mỗi giao dịch có bảng giá riêng cho các hạng mục. Mô hình này phản ánh khuyến mãi, giảm giá theo thời điểm. Tính toán độ hữu ích phức tạp hơn mô hình tĩnh. Cấu trúc lưu trữ cần được thiết kế để truy xuất nhanh. Phương pháp này tăng tính thực tế của kết quả khai thác.

3.2. Giải Thuật iEFIM Closed

iEFIM-Closed mở rộng EFIM cho khai thác tập đóng. Tập đóng là tập không có tập cha nào có cùng độ hữu ích. Số lượng tập đóng nhỏ hơn nhiều so với tất cả tập hữu ích cao. Thuật toán sử dụng cấu trúc utility-bin-array cho tính toán nhanh. Chiến lược merge transaction giảm kích thước CSDL hiệu quả. Kết quả thu được ngắn gọn nhưng đầy đủ thông tin.

3.3. Tối Ưu Chi Phí Quét CSDL

Quét CSDL nhiều lần là chi phí lớn nhất trong HUIM. Phương pháp projection tạo CSDL con cho mỗi nhánh tìm kiếm. Utility-list lưu trữ thông tin cần thiết để tính độ hữu ích. Kỹ thuật này cho phép tính toán mà không cần quét lại CSDL. Transaction-weighted utilization làm upper-bound cho tỉa sớm. Các tối ưu này giảm đáng kể thời gian thực thi.

IV. Khai Thác HUIM Trên CSDL Phân Cấp Song Song

Cơ sở dữ liệu phân cấp chứa các hạng mục có quan hệ cha-con. Taxonomy tree biểu diễn cấu trúc phân cấp này. Khai thác đa mức cho phép tìm pattern ở nhiều độ trừu tượng. Mô hình xử lý song song đa nhân được áp dụng cho bài toán này. CPU đa nhân được tận dụng để xử lý các nhánh tìm kiếm song song. Chiến lược phân chia công việc dựa trên cây không gian tìm kiếm. Mỗi luồng xử lý một tập các tiền tố độc lập. Cấu trúc dữ liệu shared memory cho phép chia sẻ kết quả. Load balancing được thực hiện thông qua work-stealing. Các luồng nhàn rỗi lấy công việc từ luồng bận. Synchronization overhead được giảm thiểu qua thiết kế cẩn thận. Thực nghiệm cho thấy cải thiện rõ rệt về thời gian khai thác. Hiệu năng tăng gần tuyến tính với số lượng nhân CPU.

4.1. Cấu Trúc CSDL Phân Cấp

CSDL phân cấp tổ chức hạng mục theo taxonomy tree. Hạng mục mức thấp là con của hạng mục mức cao. Ví dụ: Dell Laptop là con của Laptop, là con của Electronics. Mỗi mức phân cấp cung cấp góc nhìn khác về dữ liệu. Khai thác đa mức tìm pattern ở tất cả các mức. Cấu trúc này phổ biến trong bán lẻ và phân loại sản phẩm.

4.2. Mô Hình Song Song Đa Nhân

Không gian tìm kiếm được phân chia thành các phân vùng độc lập. Mỗi luồng xử lý một phân vùng trên một nhân CPU. Thread pool quản lý tập luồng worker hiệu quả. Task queue lưu trữ các công việc chờ xử lý. Kết quả từ các luồng được merge trong giai đoạn cuối. Mô hình này tận dụng tối đa sức mạnh CPU đa nhân.

4.3. Chiến Lược Cân Bằng Tải

Work-stealing cho phép luồng nhàn lấy việc từ luồng bận. Mỗi luồng có hàng đợi công việc riêng (deque). Luồng lấy công việc từ đầu deque của mình. Luồng khác steal từ cuối deque khi hết việc. Kỹ thuật này giảm contention và tăng throughput. Cân bằng tải động cải thiện hiệu suất tổng thể.

V. Song Song Hóa Đa Giai Đoạn Trong HUIM

Song song hóa đa giai đoạn tận dụng triệt để CPU đa nhân. Mô hình này áp dụng song song trên nhiều pha của quá trình khai thác. Giai đoạn quét CSDL được song song hóa để tính toán TWU. Giai đoạn xây dựng utility-list cũng được xử lý song song. Giai đoạn tìm kiếm không gian pattern sử dụng parallel depth-first search. Chiến lược điều phối được đề xuất để giảm thời gian chờ. Task scheduling thông minh phân bổ công việc đều giữa các luồng. Pipeline processing cho phép các giai đoạn chạy đồng thời. Producer-consumer pattern được áp dụng giữa các giai đoạn. Buffer được sử dụng để lưu trữ kết quả trung gian. Synchronization chỉ xảy ra khi cần thiết để giảm overhead. Mô hình này đặc biệt hiệu quả với CSDL kích thước lớn. Tốc độ tăng đáng kể so với phương pháp tuần tự và song song đơn giai đoạn.

5.1. Song Song Hóa Giai Đoạn Quét CSDL

CSDL được chia thành các phân vùng cho các luồng xử lý. Mỗi luồng quét phân vùng của mình để tính TWU cục bộ. Kết quả cục bộ được merge để có TWU toàn cục. Phân vùng dữ liệu cần cân bằng để tránh luồng nhàn rỗi. Lock-free data structure giảm contention khi merge. Giai đoạn này giảm thời gian quét đáng kể.

5.2. Xây Dựng Utility List Song Song

Utility-list của các hạng mục được xây dựng đồng thời. Mỗi luồng xử lý một tập hạng mục riêng biệt. Concurrent hash map lưu trữ utility-list an toàn. Memory allocation được tối ưu để giảm fragmentation. Parallel construction giảm thời gian chuẩn bị dữ liệu. Cấu trúc này sẵn sàng cho giai đoạn tìm kiếm.

5.3. Chiến Lược Điều Phối Thông Minh

Task scheduler ưu tiên công việc có chi phí lớn trước. Công việc nhỏ được gom lại để giảm overhead tạo luồng. Heuristic dựa trên kích thước projected database. Luồng được gán công việc dựa trên tải hiện tại. Adaptive scheduling điều chỉnh theo runtime statistics. Chiến lược này giảm thiểu thời gian chờ và tăng throughput.

VI. Đánh Giá Hiệu Năng Và Kết Quả Thực Nghiệm

Thực nghiệm được tiến hành trên nhiều CSDL chuẩn và thực tế. Các tiêu chí đánh giá bao gồm thời gian thực hiện, bộ nhớ và khả năng mở rộng. Thời gian chạy giảm đáng kể với mô hình song song đa giai đoạn. Speedup tăng gần tuyến tính với số lượng nhân CPU. Hiệu quả đặc biệt rõ rệt trên CSDL kích thước lớn. Mức tiêu thụ bộ nhớ được kiểm soát tốt nhờ thiết kế cẩn thận. Shared memory giúp giảm duplicate data giữa các luồng. Scalability được kiểm chứng qua thử nghiệm với số nhân khác nhau. Kết quả cho thấy mô hình scale tốt từ 4 đến 16 nhân. So sánh với các thuật toán không song song cho thấy ưu việt rõ ràng. Các thuật toán như FHM algorithm và HUI-Miner được dùng làm baseline. Mô hình đề xuất vượt trội cả về thời gian và khả năng xử lý dữ liệu lớn.

6.1. Tiêu Chí Thời Gian Thực Hiện

Thời gian chạy là tiêu chí quan trọng nhất đánh giá hiệu năng. Mô hình song song giảm 60-80% thời gian so với tuần tự. Speedup đạt 3.5x với 4 nhân, 7.2x với 8 nhân. Hiệu quả song song giảm dần do overhead và synchronization. CSDL lớn hơn cho speedup tốt hơn do amortize overhead. Kết quả này chứng minh hiệu quả của song song hóa.

6.2. Phân Tích Mức Tiêu Thụ Bộ Nhớ

Bộ nhớ tăng tỷ lệ thuận với số luồng song song. Shared data structure giúp kiểm soát memory overhead. Peak memory chỉ tăng 20-30% so với phiên bản tuần tự. Garbage collection được tối ưu để giảm pause time. Memory pool technique tái sử dụng allocation hiệu quả. Trade-off giữa thời gian và bộ nhớ được cân bằng tốt.

6.3. Khả Năng Mở Rộng Scalability

Scalability đo khả năng tăng hiệu năng khi thêm tài nguyên. Strong scaling test với CSDL cố định, tăng số nhân. Weak scaling test với tăng cả CSDL và số nhân cùng tỷ lệ. Kết quả cho thấy strong scaling tốt đến 8-12 nhân. Weak scaling duy trì hiệu năng ổn định khi tăng quy mô. Mô hình phù hợp cho triển khai trên hệ thống lớn.

24/03/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Khai thác các tập hữu ích cao trên môi trường tính toán song song

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (161 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGUYỄN ĐẮC DZỰ TRÌNH KHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN MÔI TRƯỜNG TÍNH TOÁN SONG SONG LUẬN ÁN TIẾN SĨ THÀNH PHỐ HỒ CHÍ MINH, NĂM 2024 BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP THÀNH PHỐ HỒ CHÍ MINH NGUYỄN ĐẮC DZỰ TRÌNH KHAI THÁC TẬP MỤC HỮU ÍCH CAO TRÊN MÔI TRƯỜNG TÍNH TOÁN SONG SONG Chuyên ngành: Khoa học Máy tính Mã số chuyên ngành: 9480101 Phản biện độc lập 1:. Phản biện độc lập 2:. NGƯỜI HƯỚNG DẪN: 1. Nguyễn Thị Thuý Loan 2.

Phạm Thị Thiết BỘ CÔNG THƯƠNG CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP Độc lập - Tự do - Hạnh phúc THÀNH PHỐ HỒ CHÍ MINH NHIỆM VỤ LUẬN ÁN TIẾN SĨ Họ tên nghiên cứu sinh: Nguyễn Đắc Dzự Trình MSHV: 20126291 Ngày, tháng, năm sinh: 13/3/1979 Nơi sinh: TP. Hồ Chí Minh Ngành: Khoa học máy tính Mã ngành: 9480101 I. TÊN LUẬN ÁN: Khai thác tập mục hữu ích cao trên môi trường tính toán song song NHIỆM VỤ VÀ NỘI DUNG: - Tìm hiểu định nghĩa, mục tiêu và ứng dụng của các tập mục hữu ích cao. - Tìm hiểu định dạng cơ sở dữ liệu có sự phân cấp các hạng mục.

- Khảo sát các tiếp cận khai thác tập mục hữu ích cao trên cơ sở dữ liệu có phân cấp hạng mục có áp dụng kỹ thuật xử lý song song. - Đề xuất phương pháp giải quyết bài toán khai thác tập mục hữu ích cao, tập mục hữu ích đa mức từ các cơ sở dữ liệu có sự phân cấp các hạng mục, áp dụng các chiến lược song song hoá. - Thực nghiệm, đánh giá hiệu năng của phương pháp được đề xuất dựa trên các tiêu chí như thời gian thực hiện, mức độ tiêu thụ bộ nhớ, tính khả mở. NGÀY GIAO NHIỆM VỤ: 13/8/2021 III.

NGÀY HOÀN THÀNH NHIỆM VỤ: 01/06/2024 IV. NGƯỜI HƯỚNG DẪN KHOA HỌC: - PGS. Nguyễn Thị Thuý Loan (Trường Đại học Quốc tế, ĐHQG TP. Phạm Thị Thiết (Trường Đại học Công nghiệp TP.

Hồ Chí Minh, ngày … tháng … năm 20 … NGƯỜI HƯỚNG DẪN CHỦ NHIỆM BỘ MÔN ĐÀO TẠO (Họ tên và chữ ký) (Họ tên và chữ ký) TRƯỞNG KHOA/VIỆN….……… (Họ tên và chữ ký) LỜI CAM ĐOAN Tôi xin cam đoan đây là công trình nghiên cứu của bản thân tôi. Các kết quả nghiên cứu và các kết luận trong luận án là trung thực, không sao chép từ bất kỳ một nguồn nào và dưới bất kỳ hình thức nào. Việc tham khảo các nguồn tài liệu (nếu có) đã được thực hiện trích dẫn và ghi nguồn tài liệu tham khảo đúng quy định. Tác giả luận án NCS.

Nguyễn Đắc Dzự Trình i TÓM TẮT LUẬN ÁN TIẾN SĨ Khai thác tập mục hữu ích cao (HUIM) là bài toán tìm kiếm các tập mục mang lại độ hữu ích thỏa một ngưỡng cho trước. Mỗi hạng mục trong giao dịch có một giá trị biểu thị số lượng. Chúng còn có một giá trị biểu thị đơn giá trong toàn bộ CSDL. Tích của hai đại lượng này biểu thị tầm quan trọng, trọng số, hay nói chung là độ hữu ích của hạng mục tương ứng.

Nhiều kỹ thuật và giải thuật đã được giới thiệu để tối ưu hoá không gian tìm kiếm dựa trên các chiến lược tỉa ứng viên, giảm chi phí quét CSDL, tăng tốc quá trình tính độ hữu ích, v.v… Ngày nay, các vi xử lý đa nhân dần phổ biến với chi phí phù hợp với người dùng. Các tác vụ tính toán cũng vì thế được mở rộng để tận dụng sức mạnh tính toán này nhằm cải thiện hiệu năng. Tuy nhiên, đối với bài toán khai thác dữ liệu, các tiếp cận kết hợp mô hình xử lý song song đa nhân hiện này vẫn còn rất hạn chế. Vì vậy, luận án nghiên cứu và đề xuất các đóng góp chính sau: Đóng góp thứ nhất: đề xuất mô hình cho phép khai thác hiệu quả các tập mục hữu ích cao đóng từ CSDL có chứa các hạng mục với độ hữu ích động trong quá trình khai thác nhằm phản ánh sát hơn nữa các CSDL trong thực tế.

Đóng góp này áp dụng mô hình độ hữu ích động kết hợp với phương pháp để giảm chi phí quét CSDL nhằm cải thiện hiệu năng của quá trình khai thác tập mục hữu ích cao đóng. Chương 2 trình bày nghiên cứu và mô hình đề xuất thông qua giải thuật iEFIM-Closed. Đóng góp thứ hai: mở rộng bài toán để áp dụng với dạng CSDL có sự phân cấp các hạng mục dựa trên các nghiên cứu từ Đóng góp thứ nhất, và đề xuất mô hình xử lý song song đa nhân để giải quyết bài toán này thông qua việc tận dụng năng lực xử lý của các CPU đa nhân để giảm chi phí về mặt thời gian. Nội dung của đóng góp được trình bày tại Chương 3.

Thực nghiệm cho thấy mô hình đề xuất có sự cải thiện rõ rệt về thời gian khai thác. Đóng góp thứ ba: dựa trên các kết quả nghiên cứu từ Đóng góp thứ 2 và Đóng góp thứ nhất, đóng góp này triển khai việc áp dụng mô hình xử lý song song trên nhiều giai đoạn khác nhau của quá trình khai thác, triển khai sâu hơn nữa mô hình song song trong quá trình khai thác. Ngoài ra, một chiến lược điều phối cũng được đề xuất ii để giảm thời gian chờ giữa các tác vụ song song. Toàn bộ đóng góp thứ ba nhắm đến việc tận dụng triệt để hơn nữa sức mạnh xử lý của các CPU đa nhân với chi phí phù hợp vào bài toán khai thác tập mục hữu ích cao từ định dạng CSDL phân cấp, có độ hữu ích động.

Thực nghiệm cho thấy với mô hình được đề xuất trong Đóng góp thứ ba, hiệu năng khai thác của bài toán được nâng lên đáng kể so với tiếp cận không song song, đặc biệt trên các CSDL có kích thước lớn. iii ABSTRACT High Utility Itemset Mining (HUIM) aims to extract itemsets that have utility to satisfy a user-specified threshold. Each item in the transaction is linked with a value denoted by its quantity. In addition, each item has another value denoted by its unit profit in the whole transaction database.

The product of the values of an item yields its weight, importance, or utility. Several strategies and algorithms were proposed to enhance the mining performance of this task, focusing on optimizing search space, reducing the cost of database scans, speeding up utility calculations, etc. Nowadays, multi-core processors are widely available at a reasonable price to users. Many computing tasks are also extended using multi-core processors to boost performance.

However, approaches that adopt parallelism into the HUIM task still need to be improved. Thus, the main contributions of this dissertation are as follows. Contribution #1: proposed a model to efficiently extract closed high-utility itemset from databases containing items with dynamic utility values, to reflect real-world databases better. The contribution adopts the dynamic utility framework and a method to significantly reduce the cost of database scans while mining closed high- utility itemsets.

Chapter 2 presents the studies of this contribution as well as the proposed model, resulting in the iEFIM-Closed algorithm. Contribution #2: extend the mining task studied in Contribution #1 to work with hierarchical databases. A parallel computing model is also proposed to utilize the multicore processor in the mining task, reducing mining time. Chapter 3 presents the studies and the proposed method to solve the task efficiently.

Evaluations clearly show that the proposed model boosted mining performance regarding mining time. Contribution #3: In addition to the results from Contribution #1 and Contribution #2, this contribution extends the parallel computing model into other phases of the mining algorithm, not just the mining phase. A deeper level of parallelism is also applied to the mining phase. A scheduling task is also proposed to minimize the average waiting time among threads.

The overall focus of this contribution is to extensively utilize the iv computing power provided by the multicore processors in the mining task on dynamic profit hierarchical databases. Experiments on several databases also show that the proposed model and the algorithms perform better than the serial, non-parallel approach. The performance boost is clearly demonstrated on large databases. v LỜI CẢM ƠN Tôi bắt đầu con đường nghiên cứu và học thuật khi đã là một người trưởng thành, có công việc và một gia đình ổn định.

Vì vậy, việc theo đuổi công việc nghiên cứu, đặc biệt là thực hiện luận án tiến sĩ là một thử thách rất lớn. Công việc nghiên cứu lại đòi hỏi sự tập trung và kiên trì trong một quãng thời gian dài. Với các kết quả đạt được trong đề tài nghiên cứu của mình, có phần hỗ trợ rất lớn từ tập thể cán bộ hướng dẫn, cơ sở đào tạo, đồng nghiệp và từ phía gia đình. Là những người đã luôn đồng hành, sát cánh cùng tôi vượt qua các khó khăn, thử thách và trở ngại trong quá trình nghiên cứu, thực hiện luận án để thu được những kết quả nghiên cứu như hiện nay.

Qua luận án này, tôi muốn bày tỏ lòng biết ơn đến những người hỗ trợ cho tôi. Trước hết, tôi xin bày tỏ lòng biết ơn đến PGS. Nguyễn Thị Thúy Loan, cán bộ hướng dẫn chính của luận án. Cô đã luôn theo sát, động viên, truyền đạt các kiến thức chuyên môn trong quá trình thực hiện luận án, cũng như trong quá trình thực hiện các nghiên cứu của luận án này.

Tôi cũng xin gửi lời cảm ơn chân thành đến TS. Phạm Thị Thiết, cán bộ đồng hướng dẫn luận án. Cô luôn đôn đốc, nhắc nhở và hướng dẫn các kiến thức hữu ích trong quá trình nghiên cứu cũng như trong quá trình thực hiện luận án. Tôi cũng muốn bày tỏ lòng biết ơn đến Nhóm Seminar Bảy- Loan, đã cố vấn và đưa ra nhiều góp ý quan trọng liên quan đến định hướng học thuật cũng như quá trình thực hiện luận án.

Kế đến, tôi cũng xin gửi lời cảm ơn đến tập thể cán bộ, giảng viên khoa Công nghệ thông tin, Trường Đại học Công nghiệp TP.HCM nói riêng và Trường Đại học Công nghiệp TP.HCM nói chung, đặc biệt là TS. Lê Nhật Duy, đã luôn tận tâm hỗ trợ, đóng góp các ý kiến thiết thực và quan trọng, tạo mọi điều kiện thuận lợi để tôi có thể hoàn thành luận án này. Bên cạnh đó, tôi xin cảm ơn tập thể cán bộ Viện đào tào quốc tế và Sau đại học đã hỗ trợ và tạo mọi điều kiện để tôi có thể hoàn thành được quá trình học tập và nghiên cứu tại Trường Đại học Công nghiệp TP. vi Ngoài ra, tôi cũng muốn gửi lời cảm ơn đến các đồng nghiệp trong nhóm nghiên cứu, cũng như tại Khoa Công nghệ thông tin thuộc Trường đại học HUTECH đã chia sẻ các buồn vui, kinh nghiệm và hỗ trợ tôi trong suốt hành trình tham gia nghiên cứu khoa học và thực hiện luận án này.

Cuối cùng, tôi cũng muốn gửi đến gia đình yêu quý của mình lời cảm ơn sâu sắc.

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Từ khóa liên quan

Khai thác tập mục hữu ích cao Tính toán song song Khai thác dữ liệu song song Cơ sở dữ liệu phân cấp Tập mục hữu ích cao đóng Độ hữu ích động

Chủ đề nghiên cứu

Khai thác tập mục hữu ích cao Tính toán song song trong khai thác dữ liệu Tối ưu hiệu năng thuật toán khai thác Nghiên cứu khoa học máy tính

Câu hỏi thường gặp

Luận án "Khai thác tập mục hữu ích cao trên môi trường tính toán song parallel" nghiên cứu về vấn đề gì?

Nghiên cứu thuật toán khai thác tập mục hữu ích cao trên hệ thống song song. Đề xuất phương pháp tối ưu hiệu năng xử lý dữ liệu lớn phân tán.

Luận án "Khai thác tập mục hữu ích cao trên môi trường tính toán song parallel" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại Trường Đại học Công nghiệp Thành phố Hồ Chí Minh. Năm bảo vệ: 2024.

Luận án "Khai thác tập mục hữu ích cao trên môi trường tính toán song parallel" thuộc chuyên ngành gì?

Luận án "Khai thác tập mục hữu ích cao trên môi trường tính toán song parallel" thuộc chuyên ngành Khoa học Máy tính. Danh mục: Khoa Học Máy Tính.

Luận án "Khai thác tập mục hữu ích cao trên môi trường tính toán song parallel" có bao nhiêu trang?

Luận án "Khai thác tập mục hữu ích cao trên môi trường tính toán song parallel" có 161 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Cách tải luận án "Khai thác tập mục hữu ích cao trên môi trường tính toán song parallel" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter

Mục lục chi tiết

Tóm tắt nội dung