Cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh

Hoàng Văn Quý

Luận án tiến sĩ: Cải tiến thuật toán xếp hạng đa tạp tra cứu ảnh

Luận án tiến sĩ cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh. Đề xuất phương pháp EMR kết hợp CNN và tối ưu GPU, nâng cao độ chính xác tra cứu ảnh.

Trường ĐH

Đại học Điện lực

Chuyên ngành

Công nghệ thông tin

Tác giả

Luan An

Thể loại

Luận án tiến sĩ

Năm xuất bản

2023

Số trang

154

Thời gian đọc

24 phút

Lượt xem

1

Lượt tải

0

Phí lưu trữ

50 Point

1. CHƯƠNG 1: TRA CỨU ẢNH DỰA VÀO NỘI DUNG VÀ XẾP HẠNG ĐA TẠP TRONG CBIR

1.1. Giới thiệu về tra cứu ảnh dựa vào nội dung

1.2. Biểu diễn ảnh bằng vector đặc trưng

1.3. Đặc trưng mức thấp của ảnh

1.4. Đặc trưng mức cao của ảnh

1.5. Dữ liệu đa tạp

1.6. Các khái niệm đa tạp

1.7. Xếp hạng đa tạp cơ bản

1.8. Xếp hạng đa tạp hiệu quả

1.9. Tra cứu ảnh với xếp hạng đa tạp

1.10. Độ đo tương tự và tìm kiếm xấp xỉ láng giềng gần nhất

1.11. Kết luận chương 1

2. CHƯƠNG 2: NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH VỚI XẾP HẠNG ĐA TẠP CẢI TIẾN

2.1. Kiến trúc CBIR đề xuất

2.2. Phương pháp tìm điểm neo bằng thuật toán lvdc‑FCM

2.3. Tính trọng số hồi quy giữa điểm neo và điểm dữ liệu

2.4. Kỹ thuật xếp hạng trong EMR

2.5. Thực nghiệm và đánh giá kết quả

2.6. Kết luận chương 2

3. CHƯƠNG 3: NÂNG CAO HIỆU QUẢ TRA CỨU ẢNH THEO TIẾP CẬN KẾT HỢP ĐẶC TRƯNG MỨC THẤP VÀ ĐẶC TRƯNG MỨC CAO

3.1. Hệ thống CBIR đề xuất

3.2. Biểu diễn ảnh bằng kết hợp đặc trưng mức cao và mức thấp

3.3. Kỹ thuật tinh chỉnh mạng EfficientNetB7

3.4. CBIR với kỹ thuật xếp hạng EMR dựa vào GPU‑platform

3.5. Thuật toán LDM‑FCM và đồ thị HD‑EMR

3.6. Thực nghiệm và các kết quả

3.7. Kết luận chương 3

4. CHƯƠNG 4: KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN

4.1. Kết luận chung

4.2. Hướng phát triển trong nghiên cứu tương lai

LỜI CAM ĐOAN

LỜI CẢM ƠN

DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU

DANH MỤC CÁC BẢNG

DANH MỤC HÌNH VẼ

TÀI LIỆU THAM KHẢO

I. Tổng Quan Thuật Toán Xếp Hạng Đa Tạp

Thuật toán xếp hạng đa tạp (manifold ranking algorithm) đại diện cho bước tiến quan trọng trong lĩnh vực tra cứu ảnh dựa nội dung. Phương pháp này khai thác cấu trúc hình học tiềm ẩn của dữ liệu ảnh trong không gian đa chiều. Manifold ranking hoạt động dựa trên giả định rằng các điểm dữ liệu gần nhau trên đa tạp có khả năng thuộc cùng lớp. Kỹ thuật này áp dụng graph-based ranking để lan truyền thông tin tương quan từ ảnh truy vấn đến toàn bộ tập dữ liệu. Ưu điểm nổi bật là khả năng xử lý dữ liệu phi tuyến tính và bảo toàn cấu trúc cục bộ. Thuật toán sử dụng semi-supervised learning, kết hợp thông tin từ cả dữ liệu có nhãn và không nhãn. Quá trình xếp hạng dựa trên ma trận kề được xây dựng từ đồ thị láng giềng gần nhất.

1.1. Nguyên Lý Hoạt Động Của Manifold Ranking

Manifold ranking xây dựng đồ thị kết nối các điểm dữ liệu dựa trên độ tương tự. Mỗi ảnh được biểu diễn như một đỉnh trong đồ thị. Các cạnh kết nối thể hiện mức độ liên quan giữa các ảnh. Trọng số cạnh được tính toán bằng similarity measure như khoảng cách Euclidean hoặc cosine. Thuật toán lan truyền điểm số từ ảnh truy vấn qua các cạnh. Quá trình lặp đi lặp lại cho đến khi hội tụ. Kết quả cuối cùng là vector điểm số phản ánh mức độ liên quan của mỗi ảnh với truy vấn.

1.2. Ứng Dụng Trong Content Based Image Retrieval

CBIR sử dụng manifold ranking để cải thiện độ chính xác tra cứu. Hệ thống trích xuất đặc trưng thị giác từ ảnh truy vấn. Feature extraction bao gồm cả đặc trưng mức thấp và mức cao. Thuật toán xếp hạng sắp xếp kết quả theo độ tương đồng. Phương pháp này vượt trội so với tìm kiếm láng giềng gần nhất truyền thống. Manifold ranking khai thác thông tin ngữ cảnh toàn cục từ tập dữ liệu.

1.3. Thách Thức Trong Triển Khai Thực Tế

Chi phí tính toán cao là rào cản lớn với tập dữ liệu lớn. Việc xây dựng đồ thị đầy đủ yêu cầu O(n²) phép tính. Lưu trữ ma trận kề tiêu tốn nhiều bộ nhớ. Thời gian hội tụ của thuật toán phụ thuộc vào kích thước đồ thị. Các nghiên cứu tập trung vào tối ưu hóa hiệu suất. Phương pháp xấp xỉ và song song hóa được áp dụng để giảm độ phức tạp.

II. Cải Tiến EMR Với Thuật Toán lvdc FCM

Efficient Manifold Ranking (EMR) kết hợp với lvdc-FCM tạo ra đột phá trong CBIR. Phương pháp này giải quyết vấn đề chi phí tính toán của manifold ranking truyền thống. lvdc-FCM là biến thể cải tiến của thuật toán phân cụm mờ FCM. Kỹ thuật này chọn lọc điểm neo (anchor points) đại diện cho cấu trúc dữ liệu. Thay vì xây dựng đồ thị đầy đủ, EMR chỉ kết nối các điểm với điểm neo. Độ phức tạp giảm từ O(n²) xuống O(nm), với m là số điểm neo. Ma trận hồi quy thưa được sử dụng thay cho ma trận kề dày đặc. Phương pháp này duy trì độ chính xác cao trong khi giảm đáng kể thời gian xử lý.

2.1. Quy Trình Tìm Điểm Neo Bằng lvdc FCM

lvdc-FCM cải tiến FCM truyền thống bằng cách tích hợp ràng buộc khoảng cách. Thuật toán xác định tâm cụm tối ưu làm điểm neo. Quá trình lặp cập nhật ma trận độ thuộc và vị trí tâm cụm. Hàm mục tiêu kết hợp độ đo tương tự và ràng buộc cục bộ. Điểm neo được chọn phản ánh đặc điểm đa dạng của tập dữ liệu. Số lượng điểm neo được tối ưu hóa để cân bằng hiệu suất và độ chính xác.

2.2. Xây Dựng Ma Trận Hồi Quy Thưa

Ma trận hồi quy mô tả mối quan hệ giữa điểm dữ liệu và điểm neo. Mỗi điểm dữ liệu chỉ kết nối với k điểm neo gần nhất. Trọng số hồi quy được tính toán dựa trên khoảng cách và cấu trúc cục bộ. Phương pháp tối ưu hóa ràng buộc đảm bảo tổng trọng số bằng 1. Ma trận thưa giảm đáng kể yêu cầu bộ nhớ. Cấu trúc này cho phép tính toán nhanh trong quá trình xếp hạng.

2.3. Kết Quả Thực Nghiệm Trên Các Tập Dữ Liệu

Thực nghiệm được tiến hành trên các CSDL chuẩn như Corel, Caltech. Độ chính xác trung bình (ARP) cải thiện 8-12% so với phương pháp cơ bản. Thời gian tra cứu giảm 60-70% nhờ sử dụng điểm neo. EMR-lvdc-FCM vượt trội so với các phương pháp ANN truyền thống. Kết quả ổn định với các loại đặc trưng khác nhau. Phương pháp đặc biệt hiệu quả với tập dữ liệu quy mô trung bình đến lớn.

III. Kết Hợp Đặc Trưng Mức Thấp Và Mức Cao

Visual search hiện đại yêu cầu biểu diễn ảnh đa tầng và phong phú. Đặc trưng mức thấp bao gồm màu sắc, kết cấu, hình dạng được trích xuất trực tiếp. Đặc trưng mức cao từ mạng CNN nắm bắt ngữ nghĩa và khái niệm trừu tượng. Kết hợp hai loại đặc trưng tạo ra biểu diễn toàn diện hơn. EfficientNetB7+ được tinh chỉnh để trích xuất đặc trưng sâu chất lượng cao. Đặc trưng mức thấp bổ sung thông tin chi tiết mà CNN có thể bỏ qua. Kỹ thuật fusion kết hợp vector đặc trưng theo trọng số tối ưu. Phương pháp này cải thiện khả năng phân biệt giữa các ảnh tương tự.

3.1. Trích Xuất Đặc Trưng Từ EfficientNetB7

EfficientNetB7 là kiến trúc CNN tiên tiến với cân bằng tối ưu giữa độ sâu, rộng và độ phân giải. Mạng được pre-train trên ImageNet với hàng triệu ảnh. Quá trình fine-tuning điều chỉnh mạng cho tác vụ tra cứu ảnh cụ thể. Các lớp fully connected cuối được thay thế để phù hợp với tập dữ liệu. Transfer learning giúp tận dụng kiến thức đã học. Vector đặc trưng được trích xuất từ lớp trước softmax. Kích thước vector được tối ưu hóa để cân bằng biểu diễn và hiệu suất.

3.2. Chiến Lược Kết Hợp Đặc Trưng Đa Tầng

Đặc trưng mức thấp bao gồm histogram màu, GLCM kết cấu, moment Hu. Đặc trưng mức cao là vector 2560 chiều từ EfficientNetB7+. Normalization chuẩn hóa các vector về cùng tỷ lệ. Phương pháp concatenation nối trực tiếp các vector đặc trưng. Trọng số kết hợp được học từ tập validation. PCA có thể được áp dụng để giảm chiều nếu cần thiết. Vector kết hợp cuối cùng mang thông tin phong phú và đa dạng.

3.3. Đánh Giá Hiệu Quả Của Fusion Features

Thực nghiệm so sánh đặc trưng đơn lẻ và kết hợp. Fusion features đạt ARP cao hơn 10-15% so với chỉ dùng CNN. Độ chính xác cải thiện đặc biệt rõ với các truy vấn phức tạp. Đặc trưng kết hợp giúp phân biệt ảnh có ngữ nghĩa tương tự nhưng chi tiết khác biệt. Thời gian trích xuất tăng nhẹ nhưng vẫn chấp nhận được. Phương pháp phù hợp với ứng dụng yêu cầu độ chính xác cao.

IV. Tối Ưu HD EMR Trên Nền Tảng GPU

HD-EMR (High-Dimensional Efficient Manifold Ranking) xử lý đặc trưng chiều rất cao hiệu quả. GPU-platform cung cấp khả năng tính toán song song mạnh mẽ. CUDA framework cho phép lập trình song song trên GPU NVIDIA. Thuật toán LDM-FCM được tối ưu hóa để chạy trên GPU. Các phép tính ma trận được vectorize để tận dụng hàng nghìn nhân GPU. Thời gian xây dựng đồ thị giảm từ hàng giờ xuống vài phút. Memory management được tối ưu hóa để xử lý tập dữ liệu lớn. Batch processing cho phép xử lý hàng triệu ảnh. GPU acceleration mở ra khả năng triển khai CBIR quy mô lớn thực tế.

4.1. Kiến Trúc LDM FCM Song Song Hóa

LDM-FCM (Local Density Maximum FCM) cải tiến lvdc-FCM cho GPU. Thuật toán chia dữ liệu thành các block xử lý độc lập. Mỗi block được gán cho một thread block trên GPU. Tính toán khoảng cách và cập nhật tâm cụm được song song hóa hoàn toàn. Shared memory được sử dụng để tăng tốc truy xuất dữ liệu. Synchronization đảm bảo tính nhất quán giữa các thread. Thuật toán đạt speedup 50-100 lần so với CPU.

4.2. Xây Dựng Đồ Thị HD EMR Hiệu Quả

Đồ thị HD-EMR xử lý vector đặc trưng 3000-5000 chiều. Tìm kiếm k-nearest neighbors được tăng tốc bằng GPU. Ma trận kề thưa được lưu trữ dạng CSR (Compressed Sparse Row). Tính toán trọng số hồi quy sử dụng kernel GPU tối ưu. Sparse matrix operations được thực hiện bằng thư viện cuSPARSE. Quá trình xếp hạng lặp được tăng tốc bằng SpMV song song. Toàn bộ pipeline chạy trên GPU giảm overhead truyền dữ liệu.

4.3. Kết Quả Benchmark Trên Tập Dữ Liệu Lớn

Thực nghiệm trên tập dữ liệu 1 triệu ảnh cho kết quả ấn tượng. Thời gian tra cứu trung bình dưới 100ms với GPU RTX 3090. HD-EMR đạt ARP 0.85-0.92 trên các tập dữ liệu chuẩn. Speedup so với CPU implementation đạt 80-120 lần. Hệ thống xử lý được 10.000+ truy vấn mỗi giây. Độ chính xác tương đương hoặc cao hơn phương pháp chạy trên CPU. GPU platform chứng minh tính khả thi triển khai thương mại.

V. Đánh Giá Hiệu Năng Hệ Thống CBIR

Đánh giá toàn diện yêu cầu nhiều chỉ số và phương pháp thực nghiệm. Precision đo tỷ lệ kết quả đúng trong tập trả về. Recall đo tỷ lệ kết quả đúng được tìm thấy. ARP (Average Retrieval Precision) tổng hợp độ chính xác trung bình. Mean Average Precision (MAP) là chỉ số chuẩn trong image retrieval. Precision-Recall curve trực quan hóa hiệu năng ở các ngưỡng. Thời gian tra cứu đo tốc độ phản hồi hệ thống. Scalability đánh giá khả năng mở rộng với tập dữ liệu lớn. Relevance feedback cho phép cải thiện kết quả qua tương tác người dùng.

5.1. Các Chỉ Số Đánh Giá Độ Chính Xác

Precision@K đo độ chính xác trong K kết quả đầu tiên. Công thức: P@K = (số ảnh liên quan trong K kết quả) / K. Recall@K đo tỷ lệ phủ trong K kết quả đầu. MAP tính trung bình precision tại mọi vị trí có ảnh liên quan. F1-score kết hợp precision và recall thành một chỉ số. NDCG (Normalized Discounted Cumulative Gain) xem xét thứ tự xếp hạng. Các chỉ số này được tính trên tập test độc lập.

5.2. Phương Pháp Thực Nghiệm Và Baseline

Cross-validation 5-fold đảm bảo tính tin cậy kết quả. Baseline bao gồm ANN, manifold ranking cơ bản, deep learning thuần. So sánh với các phương pháp state-of-the-art đã công bố. Thực nghiệm trên nhiều CSDL: Corel-1K, Caltech-101, ImageNet subset. Mỗi thực nghiệm lặp lại 10 lần lấy trung bình. Độ lệch chuẩn được báo cáo để đánh giá tính ổn định. Statistical significance test xác nhận cải thiện có ý nghĩa.

5.3. Phân Tích Ưu Nhược Điểm Phương Pháp

Ưu điểm: độ chính xác cao, xử lý tốt dữ liệu phi tuyến, scalable với GPU. Kết hợp đặc trưng đa tầng nâng cao khả năng biểu diễn. Semi-supervised learning tận dụng dữ liệu không nhãn. Nhược điểm: yêu cầu GPU để đạt hiệu suất tối ưu. Tinh chỉnh nhiều tham số phức tạp. Chi phí huấn luyện CNN ban đầu cao. Phù hợp nhất với ứng dụng tra cứu ảnh quy mô vừa và lớn.

VI. Ứng Dụng Thực Tế Và Hướng Phát Triển

Hệ thống CBIR với manifold ranking có nhiều ứng dụng thực tiễn. E-commerce sử dụng visual search để tìm sản phẩm tương tự. Y tế áp dụng tra cứu ảnh X-quang, CT để hỗ trợ chẩn đoán. An ninh sử dụng nhận diện khuôn mặt và giám sát video. Quản lý tài liệu số tổ chức và tìm kiếm ảnh trong thư viện lớn. Mạng xã hội cung cấp tìm kiếm ảnh thông minh cho người dùng. Bản quyền phát hiện ảnh vi phạm và bảo vệ sở hữu trí tuệ. Xu hướng tương lai hướng tới multimodal search kết hợp ảnh, văn bản, âm thanh. Federated learning cho phép học từ dữ liệu phân tán bảo mật.

6.1. Triển Khai Hệ Thống CBIR Thương Mại

Kiến trúc microservices cho phép mở rộng linh hoạt từng thành phần. API RESTful cung cấp giao diện chuẩn cho ứng dụng client. Load balancing phân phối truy vấn đều trên nhiều GPU server. Caching thông minh lưu kết quả truy vấn phổ biến. Database indexing tối ưu hóa truy xuất metadata ảnh. Monitoring và logging theo dõi hiệu năng real-time. Auto-scaling điều chỉnh tài nguyên theo tải hệ thống.

6.2. Tích Hợp Relevance Feedback Cải Tiến

Relevance feedback cho phép người dùng đánh giá kết quả tra cứu. Hệ thống học từ phản hồi để tinh chỉnh truy vấn. Active learning chọn ảnh mẫu tối ưu để người dùng đánh giá. Query expansion mở rộng truy vấn dựa trên feedback tích cực. Re-ranking sắp xếp lại kết quả theo mô hình cập nhật. Online learning cải thiện liên tục qua tương tác. Phương pháp này tăng độ chính xác 15-25% sau vài lần feedback.

6.3. Hướng Nghiên Cứu Và Phát Triển Tiếp Theo

Transformer-based models hứa hẹn cải thiện feature extraction. Self-supervised learning giảm phụ thuộc vào dữ liệu có nhãn. Graph neural networks mở rộng khả năng manifold ranking. Cross-modal retrieval kết hợp tìm kiếm ảnh-văn bản. Explainable AI giải thích tại sao ảnh được xếp hạng cao. Privacy-preserving techniques bảo vệ dữ liệu người dùng. Edge computing đưa CBIR lên thiết bị di động. Continuous learning thích ứng với dữ liệu mới không cần huấn luyện lại.

24/03/2026

Xem trước tài liệu

Tải đầy đủ để xem toàn bộ nội dung

Luận án Tiến sĩ Nghiên cứu cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh

Tải xuống file đầy đủ để xem toàn bộ nội dung

Tải đầy đủ (154 trang)

Trích đoạn nội dung luận án

Tải xuống để đọc toàn bộ

BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC ĐIỆN LỰC HOÀNG VĂN QUÝ NGHIÊN CỨU CẢI TIẾN THUẬT TOÁN XẾP HẠNG ĐA TẠP TRONG TRA CỨU ẢNH LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN Hà Nội, năm 2023 BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC ĐIỆN LỰC HOÀNG VĂN QUÝ NGHIÊN CỨU CẢI TIẾN THUẬT TOÁN XẾP HẠNG ĐA TẠP TRONG TRA CỨU ẢNH Ngành: Công nghệ thông tin Mã số: 9480201 LUẬN ÁN TIẾN SĨ CÔNG NGHỆ THÔNG TIN NGƯỜI HƯỚNG DẪN KHOA HỌC: 1. NGÔ HOÀNG HUY 2. NGUYỄN THẾ CƯỜNG Hà Nội, năm 2023 i LỜI CAM ĐOAN Tôi xin cam đoan luận án tiến sĩ là kết quả nghiên cứu khoa học của tôi dưới sự hướng dẫn của TS. Ngô Hoàng Huy và TS.

Nguyễn Thế Cường. Các kết quả nghiên cứu được trình bày trong luận án là trung thực, khách quan và chưa từng được tác giả khác công bố. Tôi xin cam đoan rằng mọi sự giúp đỡ cho việc thực hiện luận án đã được cám ơn, các thông tin trích dẫn trong luận án này đều được chỉ rõ nguồn gốc. Hà Nội, ngày tháng 11 năm 2023 Tập thể hướng dẫn Người hướng dẫn 1 Người hướng dẫn 2 Tác giả luận án TS.

Ngô Hoàng Huy TS. Nguyễn Thế Cường Hoàng Văn Quý ii LỜI CẢM ƠN Với tình cảm chân thành và lòng biết ơn sâu sắc, tôi xin trân trọng gửi lời cảm ơn tới Ban Lãnh đạo Đại học Điện lực cùng các thầy cô giáo tham gia giảng dạy đã cung cấp những kiến thức cơ bản, chuyên môn sâu và đã giúp đỡ tôi trong quá trình học tập nghiên cứu. Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc đến TS. Ngô Hoàng Huy và TS.

Nguyễn Thế Cường những người hướng dẫn khoa học đã tận tâm giúp đỡ và chỉ dẫn cho tôi những kiến thức cũng như phương pháp luận trong suốt thời gian hướng dẫn nghiên cứu, hoàn thành luận án. Xin cảm ơn Ban Giám hiệu Trường Đại học Hồng Đức, các đồng nghiệp tại Khoa Công nghệ thông tin và truyền thông - Trường Đại học Hồng Đức đã luôn động viên giúp đỡ tôi trong công tác để tôi có thời gian tập trung nghiên cứu và thực hiện luận án. Đặc biệt tôi xin bày tỏ lòng biết ơn sâu sắc tới Cha, Mẹ, Vợ, Con và các anh, chị em trong gia đình, những người luôn dành cho tôi những tình cảm nồng ấm và sẻ chia những lúc khó khăn trong cuộc sống, luôn động viên giúp đỡ tôi trong quá trình nghiên cứu. Luận án cũng là món quà tinh thần mà tôi trân trọng gửi tặng đến các thành viên trong Gia đình.

Tôi xin trân trọng cảm ơn! Tác giả luận án Hoàng Văn Quý iii MỤC LỤC LỜI CAM ĐOAN. ii MỤC LỤC. iii DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU. vi DANH MỤC CÁC BẢNG.

viii DANH MỤC HÌNH VẼ. ix MỞ ĐẦU. Tính cấp thiết của đề tài. Mục tiêu của luận án.

Đối tượng nghiên cứu của luận án. Phạm vi nghiên cứu. Các đóng góp của luận án. Bố cục của luận án.

TRA CỨU ẢNH DỰA VÀO NỘI DUNG VÀ XẾP HẠNG ĐA TẠP TRONG CBIR. Giới thiệu về tra cứu ảnh dựa vào nội dung. Biểu diễn ảnh bằng vector đặc trưng. Đặc trưng mức thấp của ảnh.

Đặc trưng mức cao của ảnh. Dữ liệu đa tạp. Các khái niệm đa tạp. Dữ liệu đa tạp.

Xếp hạng đa tạp. Xếp hạng đa tạp cơ bản. Xếp hạng đa tạp hiệu quả. Tra cứu ảnh với xếp hạng đa tạp.

Độ đo tương tự và tìm kiếm xấp xỉ láng giềng gần nhất 34 1. Tìm kiếm xấp xỉ láng giềng gần nhất (ANN). Phương pháp đánh giá hiệu quả trong CBIR. Một số CSDL thực nghiệm cho tra cứu ảnh.

Kết luận chương 1. NÂNG CAO ĐỘ CHÍNH XÁC TRA CỨU ẢNH VỚI XẾP HẠNG ĐA TẠP CẢI TIẾN. Kiến trúc CBIR đề xuất. Phương pháp tìm điểm neo bằng thuật toán lvdc- FCM.

Tìm các điểm neo gần nhất của một điểm dữ liệu. Tính trọng số hồi quy giữa điểm neo và điểm dữ liệu. Xây dựng ma trận hồi quy. Xây dựng ma trận kề.

Kỹ thuật xếp hạng trong EMR. Thuật toán EMR với lvdc-FCM trong CBIR. Thực nghiệm và đánh giá kết quả. Đánh giá hiệu quả của của thuật toán lvdc-FCM đề xuất.

Đánh giá hiệu năng tra cứu ảnh với EMR-(lvdc-FCM). Kết luận chương 2. NÂNG CAO HIỆU QUẢ TRA CỨU ẢNH THEO TIẾP CẬN KẾT HỢP ĐẶC TRƯNG MỨC THẤP VÀ ĐẶC TRƯNG MỨC CAO. Hệ thống CBIR đề xuất.

Biểu diễn ảnh bằng kết hợp đặc trưng mức cao từ EfficientNetB7+ và đặc trưng mức thấp. Trích rút đặc trưng mức cao của ảnh sử dụng CNN. Kỹ thuật đề xuất tinh chỉnh mạng efficientNetB7. Kết hợp đặc trưng.

CBIR với kỹ thuật xếp hạng EMR dựa vào GPU-platform. Tối ưu hóa thuật toán tìm điểm neo dựa trên GPU-platform. Thuật toán LDM-FCM. Xây dựng đồ thị HD-EMR với đặc trưng chiều rất cao.

Thuật toán HD-EMR trong CBIR. Thực nghiệm và các kết quả. Môi trường thực nghiệm và huấn luyện mạng EfficientNetB7+ 104 3. Các tham số và kết quả thực nghiệm hệ thống đề xuất HD-EMR.

Kết luận chương 3. 113 KẾT LUẬN VÀ HƯỚNG PHÁT TRIỂN. 115 DANH MỤC CÁC CÔNG TRÌNH KHOA HỌC CÓ LIÊN QUAN ĐẾN LUẬN ÁN. 117 TÀI LIỆU THAM KHẢO.

PL1 vi DANH MỤC CÁC TỪ VIẾT TẮT VÀ KÝ HIỆU Từ viết tắt Tên đầy đủ (và tạm dịch) ANN Approximate Nearest Neighbor (Xấp xỉ láng giềng gần nhất) ARP Averge Retrieval Precision (Độ chính xác trung bình) CBIR Content-Based Image Retrieval (Tra cứu ảnh dựa nội dung) CNN Convolutional Neural Network (Mạng Neowrron tích chập) CSDL Cơ sở dữ liệu CUDA Compute Unified Device Architecture (Kiến trúc thiết bị tính toán hợp nhất) EMR Efficient Manifold Ranking (Xếp hạng đa tạp hiệu quả) FCM Fuzzy C-mean (Thuật toán phân cụm mờ C-mean) GPGPU General Purpose computing on Graphics Processing Unit (sử dụng các khối xử lý đồ họa cho mục đích tính toán thông thường) GPU Graphics Processing Unit (Đơn vị xử lý đồ họa) K-means K-means (Thuật toán phân cụm K-means) K-NN K-Nearest Neighbor (K- láng giềng gần nhất) MR Manifold Ranking (Xếp hạng đa tạp) Precision Độ chính xác QP Quadratic Qrogramming (Quy hoạch toàn phương chuẩn) Recall Độ triệu hồi Ký hiệu Ký hiệu Tên đầy đủ FEinorm Đặc trưng đã chuẩn hoá ảnh thứ i. FEtnorm ,i Đặc trưng thuộc bộ t, ảnh thứ i đã chuẩn hoá. LEtnorm ,i Đặc trưng mức thấp thuộc bộ t, ảnh thứ i đã được chuẩn hóa. vii LF _ Qtnorm Dữ liệu thuộc bộ t, đã chuẩn hoá của ảnh truy vấn  t , c ,i Giá trị độ thuộc của phần tử đặc trưng i ở bộ t so với tâm c, p là hệ số FCM  t , c ,i Độ lệch chuẩn thành phần j của đặc trưng t theo cụm c Giá trị độ thuộc cụm thứ c của điểm ảnh (i, j), đầu ra của thủ i,j,c tục phân cụm FCM At,c,j Tâm cụm c của thành phần đặc trưng j ở bộ đặc trưng t (theo FCM) C Số cụm trong thuật toán FCM (số Anchor point) CFE Đặc trưng kết nối CFQ Đặc trưng kết nối của ảnh truy vấn D Số chiều của vector đặc trưng d(Ai, Bj) Khoảng cách giữa 2 vector A và B có cùng số chiều.

DFE Đặc trưng nhúng E CSDL ảnh F Không gian đặc trưng FE Đặc trưng ảnh FEi Đặc trưng thô mức thấp của ảnh thứ i FEt,i Đặc trưng thô mức thấp thuộc bộ t của ảnh thứ i HF Đặc trưng mức cao của ảnh (Hight-level Feature) HFQ Đặc trưng mức cao của ảnh ảnh truy vấn. I Ảnh đa kênh nói chung LF Đặc trưng mức thấp của ảnh (Low-level Feature) LF_Qt Vector đặc trưng mức thấp thuộc bộ t của ảnh truy vấn Q LFQ Đặc trưng mức thấp của ảnh ảnh truy vấn. n Số lượng ảnh của cơ sở dữ liệu ảnh E Q Ảnh truy vấn viii DANH MỤC CÁC BẢNG Bảng 1. Bảng mô tả kí hiệu và đặc tính của các đặc trưng mức thấp (LF- Low level features) được sử dụng trong các thực nghiệm của LA.

Một số độ đo khoảng cách và công thức. Các tập dữ liệu ảnh. Kết quả các chỉ số đánh giá trên tập dữ liệu nhân tạo 20D. Chỉ số Xie-Beni index và chỉ số IFVIndex trên tập dữ liệu 20D với 3000 điểm, số cụm 30, số vòng lặp 150.

Chỉ số Xie-Beni index và chỉ số IFVIndex trên tập dữ liệu LF809 của tập dữ liệu Corel30K số cụm 5000 và số vòng lặp 100. Bảng kết quả tra cứu ảnh trên các tập dữ liệu với các tập điểm neo lớn và độ chính xác trung bình cho từng bộ điểm neo. Thời gian thực thi khi tra cứu một truy vấn (điểm neo 5000, ảnh trả về 20) trên tập Corel30K. Môi trường thực nghiệm Google Colab.

Môi trường thực nghiệm máy tính cá nhân. Các tham số thực nghiệm. Kết quả transfer learning với mạng EfficientNetB7+ trên các tập dữ liệu. Bảng các đặc trưng sử dụng trong thực nghiệm.

Bảng kết quả tra cứu trên 3 tập dữ liệu với số ảnh trả về là 20. 109 ix DANH MỤC HÌNH VẼ Hình 1. Hệ thống CBIR truyền thống. Minh họa đối sánh trong CBIR.

Giao diện hệ thống CBIR truyền thống. Mô tả biểu đồ màu của ảnh. Mô hình trích rút đặc trưng ảnh bằng mô hình học sâu. Mô phỏng các không gian đa tạp.

Ảnh trực quan tích của 5 đa tạp Swiss-roll; 2-moon; S-curve; friedman3; Gaussian_quantiles (số chiều 20) được chiếu xuống R3. Ảnh có ý nghĩa nằm trong các đa tạp con trong không gian hình ảnh. Mô tả xếp hạng trên tập dữ liệu 2-Moon. Các điểm dữ liệu và điểm neo.

Biểu diễn đồ thị Neo của điểm dữ liệu xi và điểm neo Uk với zik là ma trận biểu diễn mối quan hệ giữa dữ liệu và điểm neo. Quá trình tra cứu trong MR với đồ thị K-NN. Hệ thống CBIR với SGR. Một số hình ảnh trong tập CSDL Corel30K.

Một số hình ảnh trong tập CSDL Logo-2K+. Một số hình ảnh trong tập CSDL VGGFACE2-S. Mô hình hệ thống đề xuất CBIR với đặc trưng mức thấp sử dụng EMR-(lvdc-FCM). Kết quả phân cụm K-means và kết quả mong muốn trên tập dữ liệu phân bố theo 2-moon.

Biểu diễn đồ thị Neo của điểm dữ liệu LFi và điểm neo Ak với zki là trọng số hồi quy biểu diễn mối quan hệ giữa dữ liệu và điểm neo (s=3). Ma trận kề W biểu diễn mối quan hệ giữa các điểm dữ liệu. Mở rộng ma trận Z với mẫu mới. Xây dựng đồ thị EMR với lvdc-FCM.

Trực quan hóa dữ liệu 20D với t-SNE. Trực quan hóa dữ liệu 20D với PCA .

Nội dung được bảo vệ bản quyền — Tải xuống đầy đủ

Từ khóa liên quan

Cải tiến thuật toán xếp hạng đa tạp Tra cứu ảnh dựa nội dung CBIR Đặc trưng ảnh học sâu CNN Kết hợp đặc trưng mức cao thấp Xếp hạng đa tạp hiệu quả EMR Tối ưu hóa GPU tra cứu ảnh

Chủ đề nghiên cứu

Cải tiến hệ thống tra cứu ảnh Phát triển thuật toán xếp hạng đa tạp Ứng dụng học sâu trong CBIR Nghiên cứu hiệu suất thị giác máy tính

Câu hỏi thường gặp

Luận án "Cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh" nghiên cứu về vấn đề gì?

Luận án tiến sĩ cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh. Đề xuất phương pháp EMR kết hợp CNN và tối ưu GPU, nâng cao độ chính xác tra cứu ảnh.

Luận án "Cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh" được bảo vệ tại trường nào?

Luận án này được bảo vệ tại Đại học Điện lực. Năm bảo vệ: 2023.

Luận án "Cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh" thuộc chuyên ngành gì?

Luận án "Cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh" thuộc chuyên ngành Công nghệ thông tin. Danh mục: Khoa Học Máy Tính.

Luận án "Cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh" có bao nhiêu trang?

Luận án "Cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh" có 154 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.

Cách tải luận án "Cải tiến thuật toán xếp hạng đa tạp trong tra cứu ảnh" về máy như thế nào?

Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.

Luận án liên quan

Chia sẻ tài liệu: Facebook Twitter

Mục lục chi tiết

Tóm tắt nội dung