Tổng quan về luận án

Luận án này tiên phong giải quyết một trong những thách thức cấp bách nhất của đô thị hiện đại: Dự đoán và Định hướng Luồng Giao thông trong Môi trường Bất định. Với bối cảnh khoa học về Hệ thống Giao thông Thông minh (ITS) đang phát triển mạnh mẽ, nghiên cứu tập trung vào việc nâng cao hiệu quả quản lý luồng giao thông, đặc biệt trong các tình huống không chắc chắn do đặc thù giao thông đô thị phức tạp tại Việt Nam. Nghiên cứu này đặt nền móng cho các giải pháp thông minh hơn, vượt qua những hạn chế của các hệ thống ITS hiện hành.

Research gap cụ thể mà luận án này giải quyết là sự thiếu hụt các giải pháp tích hợp và hiệu quả để xử lý dữ liệu giao thông đa dạng, đặc biệt là dữ liệu video, trong môi trường bất định đặc trưng của Việt Nam. Các nghiên cứu trước đây như của Yu [98] và Wang [91] đã đề xuất các khung kiến trúc cho phân tích video nhưng vẫn còn "hạn chế trong việc truy cập có hệ thống vào các tập dữ liệu lớn và xử lý video có nhiều yếu tố bất định". Hơn nữa, các mô hình dự báo giao thông dựa trên Học sâu (DNNs) hiện tại chủ yếu tập trung vào dữ liệu từ bộ đếm vòng lặp hoặc cảm biến, trong khi "dữ liệu giao thông từ camera và các nguồn khác vẫn chưa được khai thác đầy đủ" để định lượng sự không chắc chắn [54]. Luận án cũng chỉ ra rằng việc nhận dạng đối tượng nhỏ hoặc bị che khuất, đặc biệt với sự đa dạng của phương tiện tại Việt Nam (xe máy, xe đạp, ô tô 3 bánh, v.v.), vẫn là một thách thức lớn mà các phương pháp học sâu hiện có đạt "độ chính xác chỉ dưới 40%" [51].

Để lấp đầy khoảng trống này, luận án đề xuất các mục tiêu nghiên cứu cụ thể:

  1. Nghiên cứu về cách thu thập và tích hợp dữ liệu từ nhiều nguồn camera khác nhau.
  2. Đề xuất mô hình tích hợp dữ liệu (HAIVAN-CVA).
  3. Nghiên cứu các phương pháp về nhận dạng và theo dõi đối tượng.
  4. Nghiên cứu các phương pháp về ước lượng mật độ giao thông trong môi trường bất định.
  5. Nghiên cứu phương pháp dự đoán luồng giao thông (HAIVAN-ALSTM).

Khung lý thuyết của luận án được xây dựng dựa trên sự kết hợp của nhiều lý thuyết và mô hình học máy tiên tiến. Cụ thể, nghiên cứu sử dụng các lý thuyết về Học sâu (Deep Learning), Học máy (Machine Learning), và Thị giác máy tính (Computer Vision) để xử lý dữ liệu hình ảnh/video. Đối với dự đoán luồng giao thông, các mô hình chuỗi thời gian như ARIMA (Autoregressive Integrated Moving Average) và LSTM (Long Short-Term Memory) được tích hợp để xử lý tính bất định và phụ thuộc thời gian của dữ liệu.

Đóng góp đột phá của luận án bao gồm:

  1. Kiến trúc HAIVAN-CVA: Một kiến trúc tích hợp dữ liệu video IoT cho phép xử lý phân tán quy mô lớn trên các nền tảng không đồng nhất, giải quyết vấn đề tích hợp dữ liệu đa nguồn.
  2. Mô hình nhận dạng HAIVAN-BSYOLO: Một phương pháp nhận dạng đối tượng mới kết hợp trừ nền ngưỡng động và YOLO/Transformer, cải thiện đáng kể hiệu năng nhận dạng phương tiện giao thông nhỏ và từ nhiều góc quay khác nhau, phù hợp với đặc thù giao thông Việt Nam.
  3. Phương pháp ước lượng mật độ giao thông: Một mô hình được đề xuất để ước lượng mật độ hiệu quả trong môi trường bất định.
  4. Mô hình dự đoán luồng HAIVAN-ALSTM: Kết hợp ARIMA và LSTM để dự đoán luồng giao thông với độ chính xác cao trong môi trường bất định, vượt trội so với các mô hình độc lập.
  5. Bộ dữ liệu giao thông Đà Nẵng độc đáo: Xây dựng một bộ dữ liệu quy mô lớn từ các nút camera thực tế tại Đà Nẵng (giai đoạn 2017-2021), bao gồm các góc quay phức tạp, cung cấp nguồn tài nguyên quý giá cho nghiên cứu ITS.

Phạm vi nghiên cứu tập trung vào giao thông đường bộ tại thành phố Đà Nẵng, sử dụng dữ liệu từ năm 2017 đến 2021. Luận án không chỉ có ý nghĩa lý thuyết sâu sắc trong việc mở rộng các mô hình học sâu và chuỗi thời gian cho bài toán giao thông mà còn mang lại giá trị thực tiễn cao, đáp ứng nhu cầu giải quyết các vấn đề giao thông đô thị, giảm tắc nghẽn, tăng cường an toàn và hiệu quả vận hành hệ thống ITS.

Literature Review và Positioning

Đánh giá tổng quan tài liệu đã xác định các dòng nghiên cứu chính liên quan đến dự đoán và định hướng luồng giao thông, bao gồm Giao thông thông minh (ITS), Nhận dạng đối tượng, Ước lượng mật độ và Dự đoán luồng giao thông.

Synthesis của major streams:

  • Nền tảng tích hợp dữ liệu Video: Các nghiên cứu của Yu [98] và Wang [91] đã đề xuất khung kiến trúc và nền tảng mở rộng, bảo mật cho mạng lưới camera lớn, tích hợp và xử lý dữ liệu video thời gian thực. Jain [36] chỉ ra tiềm năng sử dụng camera đã triển khai cho các ứng dụng phân tích khác. Sabokrou [55] tập trung vào biểu diễn video chuẩn hóa để phát hiện bất thường. Các tác giả như Kim [42] và Yang [95] nhấn mạnh tầm quan trọng của công nghệ thông minh trong thành phố thông minh.
  • Môi trường bất định trong giao thông: Dự báo giao thông trong môi trường bất định là một lĩnh vực quan trọng. Các phương pháp định lượng sự không chắc chắn bao gồm mô hình thống kê tham số với khoảng dự báo [19], bộ lọc Kalman thích ứng [57], và hồi quy phân vị [92], [56], [47]. Tuy nhiên, nghiên cứu [54] cho thấy hiệu suất giảm khi áp dụng hồi quy phân vị cho dữ liệu giao thông dựa trên hình ảnh.
  • Nhận dạng đối tượng: Lĩnh vực này đã phát triển từ phát hiện khuôn mặt [83], người đi bộ [20] đến phát hiện đối tượng tổng quát [24]. Các mô hình học sâu như R-CNN [16], Faster R-CNN [22], [12], YOLOv3 [63], [49] và SSD [48] đã đạt được những tiến bộ đáng kể. Tuy nhiên, nhận dạng đối tượng nhỏ vẫn là một thách thức lớn, với độ chính xác thấp [51], đòi hỏi các phương pháp cải tiến như MTGAN [4] hay RFLA [94]. Đặc biệt, đặc thù giao thông đa dạng của Việt Nam (xe máy, xe đạp, v.v.) và góc quay camera phức tạp là một thách thức lớn mà các mô hình quốc tế thường chưa giải quyết hiệu quả.
  • Ước lượng mật độ giao thông: Các phương pháp đa dạng từ xử lý hình ảnh truyền thống (HOG, LBP, SVM [88], [67]) đến các mô hình học sâu tiên tiến (CNN Kim tự tháp rút gọn [72], [76], MCNN [102]). Công trình của [90] đã kết hợp YOLO để phát hiện phương tiện và tính diện tích nhằm ước lượng mật độ.
  • Dự đoán luồng giao thông: Các phương pháp bao gồm GNN [93] cho dữ liệu đồ thị, mô hình học sâu tổng quát [65], và các kỹ thuật tích hợp IoT [97]. Các mô hình chuỗi thời gian như ARIMA [87], SARIMA, Holt-Winters và LSTM [100] cũng được sử dụng rộng rãi. Các mô hình vĩ mô (Lighthill và Whitham [1956], CTM) và vi mô (theo dõi xe, Aimsun Live, SUMO) cung cấp các góc nhìn khác nhau về động lực học giao thông. LSTM, đặc biệt với kỹ thuật cửa sổ trượt, là một công cụ mạnh mẽ cho dự đoán chuỗi thời gian.

Contradictions/debates: Có những tranh luận về hiệu quả của các phương pháp định lượng sự không chắc chắn trong dự báo giao thông. Ví dụ, trong khi một số nghiên cứu (như [92], [56]) khám phá thành công các kỹ thuật như hồi quy phân vị, nghiên cứu [54] lại báo cáo "hiệu suất giảm so với mô hình cơ sở của họ" khi áp dụng hồi quy phân vị cho dữ liệu giao thông dựa trên hình ảnh. Điều này cho thấy sự phức tạp và cần thiết của việc tùy chỉnh các phương pháp cho từng loại dữ liệu và bối cảnh cụ thể. Hơn nữa, việc áp dụng các mô hình học sâu trong ước lượng mật độ cũng gặp phải nhược điểm như "Cấu trúc mạng cồng kềnh như vậy đòi hỏi nhiều thời gian hơn để đào tạo" và "cấu trúc dự phòng nên các cột khác nhau dường như thực hiện tương tự" [102], đặt ra vấn đề về hiệu quả và tối ưu hóa.

Positioning trong literature: Luận án này tự định vị mình là một bước tiến quan trọng trong lĩnh vực ITS bằng cách giải quyết các thách thức chưa được giải quyết đầy đủ trong việc xử lý dữ liệu video đa nguồn và tính bất định của giao thông, đặc biệt trong bối cảnh đặc thù của Việt Nam. Cụ thể, nó giải quyết khoảng trống trong việc:

  1. Tích hợp dữ liệu: Cải thiện khả năng truy cập có hệ thống vào các tập dữ liệu lớn và xử lý video trong điều kiện bất định, điều mà các nghiên cứu trước đây (như [98], [91]) còn hạn chế.
  2. Nhận dạng đối tượng nhỏ và đa dạng: Vượt qua các hạn chế của các mô hình học sâu hiện có trong việc phát hiện đối tượng nhỏ với độ chính xác thấp (dưới 40% theo [51]) và giải quyết sự phức tạp của phương tiện giao thông đa dạng tại Việt Nam.
  3. Dự đoán luồng giao thông trong bất định: Khai thác dữ liệu dựa trên hình ảnh để định lượng sự không chắc chắn, khác với các nghiên cứu trước đây chủ yếu sử dụng dữ liệu bộ đếm vòng lặp [54].
  4. Tích hợp đa phương pháp: Kết hợp các phương pháp trừ nền, học sâu (YOLO, Transformer), và chuỗi thời gian (ARIMA, LSTM) một cách sáng tạo để tạo ra một giải pháp toàn diện.

How this advances field: Nghiên cứu này thúc đẩy lĩnh vực bằng cách cung cấp một khung làm việc tích hợp (HAIVAN-CVA) và các mô hình cụ thể (HAIVAN-BSYOLO, HAIVAN-ALSTM) được tối ưu hóa cho môi trường giao thông phức tạp và bất định. Nó mở ra hướng mới trong việc tận dụng dữ liệu video từ camera CCTV cho các ứng dụng ITS, cung cấp các công cụ và phương pháp mới để ước lượng mật độ và dự đoán luồng giao thông chính xác hơn. Điều này đặc biệt quan trọng cho các thành phố có đặc thù giao thông tương tự Đà Nẵng, nơi sự đa dạng phương tiện và hành vi người tham gia giao thông tạo ra tính bất định cao.

So sánh với ít nhất 2 international studies: So với nghiên cứu của Kim [42] và Yang [95] về thành phố thông minh, luận án này đi sâu vào một khía cạnh cụ thể là quản lý giao thông thông minh, cung cấp giải pháp kỹ thuật chi tiết thay vì chỉ là các khái niệm tổng quát. Trong khi các nghiên cứu của [93] (GNN) và [65] (mô hình học sâu) đã phát triển các phương pháp dự đoán luồng giao thông, luận án này đặc biệt tập trung vào việc định lượng và giảm thiểu ảnh hưởng của "tính bất định ngẫu nhiên" trong dữ liệu, một khía cạnh mà các nghiên cứu trên chưa đi sâu, và chứng minh điều này bằng việc kết hợp ARIMA và LSTM (HAIVAN-ALSTM) trên dữ liệu thực tế tại Đà Nẵng. Hơn nữa, luận án giải quyết vấn đề nhận dạng đối tượng nhỏ mà [51] chỉ ra còn có độ chính xác thấp (dưới 40%) bằng mô hình HAIVAN-BSYOLO, một đóng góp quan trọng để cải thiện độ tin cậy của dữ liệu đầu vào.

Đóng góp lý thuyết và khung phân tích

Đóng góp cho lý thuyết

Luận án này không chỉ mở rộng mà còn thách thức một số lý thuyết và mô hình học thuật hiện có, đặc biệt trong bối cảnh môi trường bất định và dữ liệu đa dạng.

  • Mở rộng lý thuyết về Nhận dạng đối tượng (Object Detection Theories): Luận án mở rộng các mô hình học sâu hiện có như YOLO (Redmon et al.) và Transformer (Vaswani et al.) bằng cách tích hợp phương pháp trừ nền ngưỡng động (PBAS - Pixel-Adaptive Background Subtraction) để tạo ra mô hình HAIVAN-BSYOLO. Sự kết hợp này được chứng minh là hiệu quả hơn trong việc nhận dạng các đối tượng nhỏ, bị che khuất và từ nhiều góc quay khác nhau, một thách thức lớn mà các mô hình cơ sở gặp phải, đặc biệt với sự đa dạng của phương tiện giao thông ở Việt Nam.
  • Mở rộng lý thuyết Chuỗi thời gian (Time-Series Forecasting Theories): Nghiên cứu mở rộng mô hình ARIMA (Box & Jenkins) và LSTM (Hochreiter & Schmidhuber) thông qua mô hình kết hợp HAIVAN-ALSTM. HAIVAN-ALSTM không chỉ tận dụng khả năng của ARIMA trong việc nắm bắt các mẫu tuyến tính và tính mùa vụ, mà còn khai thác sức mạnh của LSTM trong việc xử lý các phụ thuộc xa và phi tuyến tính trong dữ liệu chuỗi thời gian, đặc biệt quan trọng trong môi trường giao thông bất định. Mô hình này vượt qua các hạn chế của từng phương pháp riêng lẻ khi đối mặt với sự biến động không lường trước của luồng giao thông.
  • Thách thức các giả định về độ ổn định dữ liệu (Challenging Data Stationarity Assumptions): Bằng cách tập trung vào "môi trường bất định", luận án thách thức giả định về tính ổn định thường thấy trong các mô hình chuỗi thời gian truyền thống. Các giải pháp đề xuất được thiết kế để hoạt động hiệu quả ngay cả khi dữ liệu có "tính không chắc chắn trong dữ liệu giao thông, sự thay đổi liên tục của môi trường, khả năng tắc nghẽn, tai nạn, công trình xây dựng, thời tiết, sự kiện đặc biệt, vv."

Conceptual framework với components và relationships: Khung phân tích của luận án được xây dựng trên một hệ thống tích hợp đa tầng, với các thành phần và mối quan hệ rõ ràng:

  1. Lớp thu thập và tích hợp dữ liệu (Data Collection & Integration Layer): Bao gồm thu thập dữ liệu từ "nhiều nguồn camera khác nhau" (CCTV, điện thoại, camera trên xe) và tích hợp chúng thông qua kiến trúc HAIVAN-CVA. HAIVAN-CVA là một nền tảng phân tích dữ liệu video IoT cho phép "chạy các luồng công việc phân tán quy mô lớn trên các nền tảng không đồng nhất".
  2. Lớp xử lý và nhận dạng đối tượng (Object Processing & Recognition Layer): Dữ liệu video thô được đưa vào mô hình HAIVAN-BSYOLO để thực hiện "nhận dạng các đối tượng tham gia giao thông từ nhiều góc quay và độ cao khác nhau". Mô hình này kết hợp trừ nền ngưỡng động và các kỹ thuật học sâu tiên tiến (YOLO, Transformer) để nâng cao độ chính xác, đặc biệt với các phương tiện nhỏ.
  3. Lớp ước lượng mật độ giao thông (Traffic Density Estimation Layer): Dựa trên kết quả nhận dạng đối tượng (số lượng và kích thước phương tiện), một mô hình được đề xuất để "ước lượng mật độ trong giao thông". Quy trình này bao gồm xác định làn đường, tham chiếu kích thước phương tiện, và tính tổng diện tích phương tiện để đưa ra "công thức tính mật độ giao thông".
  4. Lớp dự đoán luồng giao thông (Traffic Flow Prediction Layer): Sử dụng mật độ giao thông đã ước lượng và dữ liệu lịch sử, mô hình HAIVAN-ALSTM (kết hợp ARIMA và LSTM) dự đoán luồng giao thông tương lai, xử lý hiệu quả "tính bất định ngẫu nhiên" của hệ thống.
  5. Lớp định hướng và ra quyết định (Guidance & Decision-Making Layer): Dựa trên dự đoán luồng giao thông, hệ thống cung cấp "hướng dẫn định tuyến và lên kế hoạch tối ưu để giảm thiểu tắc đường, giảm thời gian di chuyển và giảm lượng khí thải độc hại".

Theoretical model với propositions/hypotheses numbered: Luận án đề xuất một mô hình lý thuyết kết hợp, với các giả thuyết chính: H1: Kiến trúc HAIVAN-CVA sẽ cải thiện hiệu quả tích hợp và xử lý dữ liệu video đa nguồn trong ITS so với các nền tảng tích hợp dữ liệu video truyền thống [30]. H2: Mô hình HAIVAN-BSYOLO (kết hợp trừ nền ngưỡng động và YOLO/Transformer) sẽ đạt độ chính xác nhận dạng đối tượng cao hơn đáng kể so với các mô hình học sâu độc lập (SSD, YOLOv3, Faster R-CNN) đối với các phương tiện giao thông nhỏ và từ nhiều góc quay trong môi trường đô thị bất định của Việt Nam. Cụ thể, nó sẽ vượt qua "độ chính xác chỉ dưới 40%" mà các phương pháp hiện tại đạt được với đối tượng nhỏ [51]. H3: Phương pháp ước lượng mật độ giao thông được đề xuất sẽ cung cấp kết quả chính xác và tin cậy hơn trong môi trường bất định bằng cách kết hợp nhận dạng đối tượng chính xác và xác định làn đường hiệu quả, so với các phương pháp chỉ dựa trên đặc trưng hình ảnh đơn thuần [88], [67]. H4: Mô hình HAIVAN-ALSTM (kết hợp ARIMA và LSTM) sẽ cho phép dự đoán luồng giao thông ngắn hạn (5-15 phút) với độ chính xác cao hơn và khả năng xử lý tính bất định tốt hơn so với các mô hình chuỗi thời gian đơn lẻ (ARIMA, LSTM, GRU, SAEs) trong môi trường giao thông thực tế.

Paradigm shift với EVIDENCE từ findings: Luận án không chỉ cải tiến các kỹ thuật hiện có mà còn hướng tới một sự thay đổi mô hình nhỏ trong ITS, từ các hệ thống giám sát và dự báo bị động, dựa trên dữ liệu ổn định, sang một hệ thống chủ động, thích ứng, có khả năng xử lý "môi trường bất định" và tận dụng "dữ liệu dựa trên hình ảnh" một cách hiệu quả hơn. Điều này được minh chứng bằng khả năng tích hợp dữ liệu phức tạp từ nhiều nguồn video, xử lý đối tượng nhỏ và đa dạng mà trước đây là thách thức lớn, và đặc biệt là khả năng dự đoán luồng giao thông trong bối cảnh "tính bất định ngẫu nhiên" mà các nghiên cứu trước đây thường không đi sâu vào [54]. Sự chuyển đổi này là cơ sở cho các hệ thống ITS thế hệ mới, linh hoạt và mạnh mẽ hơn.

Khung phân tích độc đáo

Khung phân tích của luận án thể hiện sự tích hợp độc đáo của các lý thuyết và phương pháp từ nhiều lĩnh vực khác nhau.

  • Integration của theories: Nghiên cứu tích hợp một cách chặt chẽ các lý thuyết về Thị giác máy tính (Computer Vision) (nhận dạng đối tượng), Học sâu (Deep Learning) (mạng nơ-ron, LSTM, YOLO, Transformer), Xử lý tín hiệu và Chuỗi thời gian (Signal Processing & Time-Series Analysis) (ARIMA, cửa sổ trượt), và Lý thuyết hệ thống (Systems Theory) (kiến trúc tích hợp dữ liệu phân tán).
  • Novel analytical approach với justification: Luận án đề xuất một phương pháp phân tích mới dựa trên "phân tích dữ liệu video IoT" (HAIVAN-CVA). Phương pháp này độc đáo ở chỗ nó không chỉ tập trung vào một khía cạnh (ví dụ: chỉ nhận dạng đối tượng hoặc chỉ dự đoán) mà là một chuỗi xử lý hoàn chỉnh từ thu thập dữ liệu video đa dạng (url, video từ điện thoại, camera giám sát trên xe) đến dự đoán và định hướng luồng giao thông. Sự kết hợp giữa kỹ thuật trừ nền (truyền thống) và học sâu (YOLO, Transformer) trong HAIVAN-BSYOLO để nhận dạng đối tượng nhỏ là một cách tiếp cận sáng tạo, giải quyết được nhược điểm của việc chỉ sử dụng học sâu trên dữ liệu có độ phân giải thấp, điều này được chứng minh qua "kết quả nhận dạng đối tượng nhỏ sử dụng HAIVAN-BSYOLO".
  • Conceptual contributions với definitions: Luận án cung cấp các đóng góp khái niệm quan trọng như:
    • HAIVAN-CVA: Định nghĩa một kiến trúc hệ thống tích hợp dữ liệu video IoT hiệu quả cho môi trường giao thông phức tạp.
    • HAIVAN-BSYOLO: Định nghĩa một mô hình nhận dạng đối tượng lai (hybrid) được tối ưu hóa cho các đối tượng nhỏ và góc quay đa dạng.
    • HAIVAN-ALSTM: Định nghĩa một mô hình dự đoán chuỗi thời gian kết hợp mạnh mẽ để xử lý tính bất định trong luồng giao thông.
  • Boundary conditions explicitly stated:
    • Phạm vi địa lý: Giao thông đường bộ tại thành phố Đà Nẵng. Các đặc điểm giao thông cụ thể của Đà Nẵng (số lượng du khách lớn, phương tiện đa dạng) được xem xét.
    • Khoảng thời gian dữ liệu: 2017 đến 2021. Mặc dù các mô hình được thiết kế để thích ứng, dữ liệu huấn luyện và kiểm định nằm trong khung thời gian này.
    • Loại phương tiện: Bao gồm ô tô, xe máy, xe đạp, phương tiện công cộng (xe buýt), và các phương tiện đặc thù khác ở Việt Nam (ô tô 3 bánh, xe công nông, v.v.).
    • Tính bất định: Tập trung vào "tính bất định ngẫu nhiên" từ sự biến động tự nhiên trong dữ liệu (thời tiết, tai nạn, sự kiện bất thường, hành vi người tham gia giao thông) và "dữ liệu đầu vào từ các nguồn camera khác nhau ảnh hưởng trực tiếp đến việc giám sát các phương tiện tham gia giao thông" [58].

Phương pháp nghiên cứu tiên tiến

Thiết kế nghiên cứu

Nghiên cứu áp dụng phương pháp tiếp cận định lượng mạnh mẽ, với nền tảng triết lý nghiên cứu hậu thực chứng (post-positivism). Mặc dù luận án hướng tới việc phát triển các mô hình và thuật toán có thể đo lường và kiểm chứng khách quan để dự đoán và định hướng luồng giao thông, nó cũng thừa nhận tính phức tạp và bất định của thực tế giao thông. Do đó, mục tiêu là xây dựng các giải pháp có thể tổng quát hóa và có độ tin cậy cao, đồng thời vẫn giữ thái độ khiêm tốn trước những yếu tố không thể kiểm soát hoàn toàn.

Thiết kế nghiên cứu sử dụng phương pháp hỗn hợp (mixed methods) được triển khai một cách tinh vi. Mặc dù trọng tâm là phát triển các mô hình định lượng, quá trình này bao gồm việc phân tích sâu rộng tài liệu (qualitative review) để xác định khoảng trống nghiên cứu, sau đó xây dựng và kiểm định các mô hình toán học và thuật toán (quantitative development and validation). Sự kết hợp này được biện minh bởi nhu cầu hiểu rõ bối cảnh phức tạp của giao thông (phân tích tài liệu) để từ đó phát triển các giải pháp kỹ thuật số có thể đo lường hiệu quả (phát triển mô hình và thực nghiệm).

Nghiên cứu được thiết kế với cấu trúc đa cấp (multi-level design):

  • Cấp độ 1: Dữ liệu thô – Thu thập từ "nhiều nguồn camera khác nhau" (CCTV, điện thoại, camera giám sát trên xe) ở các nút giao thông tại Đà Nẵng.
  • Cấp độ 2: Xử lý cấp thấp – Nhận dạng đối tượng (phương tiện) từ video thô, ước lượng mật độ ở cấp độ làn đường/đoạn đường.
  • Cấp độ 3: Xử lý cấp cao – Dự đoán luồng giao thông ở cấp độ nút giao thông hoặc khu vực, và đưa ra định hướng. Mỗi cấp độ đóng góp vào sự hiểu biết toàn diện về động lực học giao thông và cung cấp dữ liệu đầu vào cho cấp độ tiếp theo.

Sample size và selection criteria EXACT: Luận án đã xây dựng một bộ dữ liệu giao thông độc đáo từ "các nút camera" tại thành phố Đà Nẵng, bao gồm "một vài nút giao thông có góc quay cao, từ trên xuống như camera ở Tây Cầu Rồng, Camera ở cầu vượt Ngã ba Huế, hay Camera ở Vòng xuyến hướng Điện Biên phủ". Dữ liệu được thu thập trong khoảng thời gian từ 2017 đến 2021. Mặc dù số lượng cụ thể các khung hình hoặc giờ video không được nêu rõ, đây là một bộ dữ liệu quy mô lớn, bao gồm "số lượng ảnh thu được trong tuần" và "số lượng xe ở làn đường 1/2/3" được biểu đồ hóa trong phần kết quả thực nghiệm. Tiêu chí lựa chọn dữ liệu tập trung vào các khu vực có "tính bất định trong giao thông" cao và đa dạng về góc quay camera để đảm bảo tính đại diện cho các thách thức thực tế.

Quy trình nghiên cứu rigorous

Sampling strategy với inclusion/exclusion criteria: Chiến lược lấy mẫu dữ liệu bao gồm việc chọn lọc các địa điểm camera giám sát tại Đà Nẵng mà thể hiện rõ các yếu tố bất định và đa dạng về loại phương tiện.

  • Tiêu chí đưa vào (Inclusion Criteria): Các camera CCTV tại các nút giao thông quan trọng, các khu vực thường xuyên có tắc nghẽn, hoặc các điểm có góc quay khó (trên cao, không trực diện) để kiểm thử khả năng của mô hình trong điều kiện thực tế phức tạp. Dữ liệu bao gồm các phương tiện đa dạng: ô tô, xe máy, xe đạp, xe buýt, xe tải, và các phương tiện đặc thù như xe ô tô 3 bánh, xe công nông.
  • Tiêu chí loại trừ (Exclusion Criteria): Các đoạn video bị mờ nghiêm trọng, hỏng, hoặc không chứa thông tin giao thông đủ để phân tích.

Data collection protocols với instruments described: Dữ liệu được thu thập chủ yếu từ camera giám sát CCTV, bổ sung bởi dữ liệu từ "camera trên xe (Vidc)" và "video từ điện thoại (Vidm)" như các tham số đầu vào của HAIVANi.

  • Thiết bị thu thập: Camera giám sát thực tế được cài đặt tại các điểm giao thông.
  • Protocol: Dữ liệu video được truy vấn từ camera giám sát và "lưu trữ dữ liệu trên máy chủ đám mây" (Firebase, Flickr). Quy trình này đảm bảo tính liên tục và khả năng mở rộng của dữ liệu. "Thông tin các yêu cầu truy vấn" được giải thích trong Bảng 3.1. Các bộ thu thập (collectors) triển khai các trình điều khiển để lấy dữ liệu từ các nguồn video bên ngoài và chuyển đến các mô-đun khác [30].

Triangulation (data/method/investigator/theory):

  • Triangulation dữ liệu (Data Triangulation): Sử dụng dữ liệu từ nhiều nguồn khác nhau (các camera ở nhiều vị trí, góc độ, loại phương tiện đa dạng) để đảm bảo tính toàn diện và robust của mô hình.
  • Triangulation phương pháp (Method Triangulation): Kết hợp nhiều phương pháp khác nhau trong một chuỗi xử lý: từ trừ nền, học sâu (YOLO, Transformer) cho nhận dạng; đến ARIMA và LSTM cho dự đoán luồng. Việc so sánh hiệu năng của mô hình đề xuất với nhiều mô hình cơ sở khác cũng là một hình thức kiểm chứng phương pháp.
  • Triangulation lý thuyết (Theory Triangulation): Khung lý thuyết tổng thể tích hợp các quan điểm từ Thị giác máy tính, Học sâu và Chuỗi thời gian để cung cấp một cái nhìn đa chiều về vấn đề.

Validity (construct/internal/external) và reliability (α values):

  • Construct Validity: Các khái niệm như "mật độ giao thông", "luồng giao thông", "tính bất định" được định nghĩa rõ ràng và đo lường bằng các chỉ số có cơ sở khoa học (ví dụ: mật độ được tính bằng số lượng phương tiện/diện tích mặt đường, luồng là số lượng phương tiện đi qua một điểm trong một khoảng thời gian).
  • Internal Validity: Được đảm bảo thông qua việc kiểm soát các yếu tố nhiễu trong quá trình thực nghiệm, ví dụ như huấn luyện mô hình trên các tập dữ liệu được tiền xử lý cẩn thận ("Tiền xử lý dữ liệu"), sử dụng các phương pháp so sánh chuẩn hóa. "Huấn luyện mô hình" và "Sử dụng mô hình" được mô tả chi tiết trong Chương 3.
  • External Validity (Generalizability): Các mô hình được phát triển trên dữ liệu đa dạng của Đà Nẵng, một thành phố với đặc thù giao thông phức tạp, cho thấy tiềm năng áp dụng cho các thành phố khác có điều kiện tương tự. Luận án cũng "Đề xuất các hướng nghiên cứu mở rộng dựa trên kết quả thu được, hướng tới việc áp dụng thực tiễn hoặc phát triển các nghiên cứu tiếp theo".
  • Reliability: Mặc dù giá trị alpha (α values) cụ thể không được nêu rõ trong phần tóm tắt, luận án sử dụng các metrics tiêu chuẩn trong học sâu như mAP (mean Average Precision) để đánh giá độ chính xác của nhận dạng đối tượng và các chỉ số lỗi dự đoán cho luồng giao thông. Việc "So sánh hiệu năng của HAIVAN-BSYOLO với YOLO-v8" và "So sánh hiệu năng của ba mô hình HAIVAN-ALSTM, SAEs và GRU" chứng minh sự chú trọng vào tính tin cậy và khả năng tái lập của kết quả.

Data và phân tích

Sample characteristics với demographics/statistics: Dữ liệu được thu thập từ các camera giao thông tại Đà Nẵng trong giai đoạn 2017-2021. Mẫu dữ liệu bao gồm:

  • Các loại phương tiện: Ô tô, xe máy, xe đạp, xe buýt, xe tải, xe ô tô 3 bánh, xe công nông và người đi bộ.
  • Góc quay camera: Đa dạng, bao gồm cả góc quay cao, từ trên xuống (Tây Cầu Rồng, cầu vượt Ngã ba Huế, Vòng xuyến hướng Điện Biên phủ), góc quay ngang, trực diện, từ trên cao (Hình 3.22, 3.23, 3.24).
  • Đặc điểm thời gian: Dữ liệu theo thời gian thực và lịch sử, được phân tích theo "buổi sáng, trưa và chiều từ thứ 2 đến chủ nhật" để nắm bắt tính chu kỳ.
  • Kích thước phương tiện: Bảng 2.1 cung cấp "Kích thước phương tiện (ĐV: mm)", đây là thông số quan trọng cho việc ước lượng mật độ chính xác. Dữ liệu này được tiền xử lý ("Tiền xử lý dữ liệu") để chuẩn hóa và làm sạch trước khi đưa vào mô hình.

Advanced techniques (SEM/multilevel/QCA etc.) với software: Luận án sử dụng một loạt các kỹ thuật tiên tiến trong xử lý dữ liệu và mô hình hóa:

  • Nhận dạng đối tượng: Phương pháp trừ nền ngưỡng động (Pixel-Adaptive Background Subtraction - PBAS), YOLO (You Only Look Once) các phiên bản (YOLOv3, YOLO-v8), SSD (Single Shot Multibox Detector), Transformer. Mô hình HAIVAN-BSYOLO kết hợp PBAS với YOLO.
  • Ước lượng mật độ: Các thuật toán được phát triển dựa trên việc đếm phương tiện và xác định diện tích làn đường.
  • Dự đoán luồng giao thông: Các mô hình chuỗi thời gian như ARIMA, LSTM, GRU (Gated Recurrent Unit), SAEs (Stacked Autoencoder). Mô hình HAIVAN-ALSTM kết hợp ARIMA và LSTM.
  • Software/Tools: Mặc dù không liệt kê cụ thể các thư viện lập trình (như TensorFlow, PyTorch), việc sử dụng các mô hình học sâu hiện đại như YOLO, Transformer, LSTM, GRU ngụ ý sử dụng các framework này. Ngoài ra, việc "Lưu trữ dữ liệu trên máy chủ đám mây" được thực hiện bằng "Firebase" và "Flickr", và hệ thống được triển khai trên "Hệ thống máy ảo trên AWS EC2".

Robustness checks với alternative specifications: Tính mạnh mẽ của các mô hình được kiểm chứng bằng cách:

  • So sánh hiệu năng: Các mô hình đề xuất được so sánh với các mô hình cơ sở hoặc đối thủ cạnh tranh trên cùng tập dữ liệu. Ví dụ, "So sánh hiệu năng của HAIVAN-BSYOLO với YOLO-v8" và "So sánh hiệu năng của thuật toán PBAS với sự khác biệt giữa hai khung hình tĩnh và động" trong nhận dạng đối tượng. Trong dự đoán luồng, "Bảng so sánh hiệu năng của ba mô hình HAIVAN-ALSTM, SAEs và GRU" và "Bảng so sánh hiệu năng của mô hình LSTM so với các mô hình khác".
  • Thử nghiệm trên các tập dữ liệu khác nhau: "Đánh giá hệ thống với hai video đầu vào khác nhau" và "Bảng kết quả đánh giá hiệu năng từ các video khác nhau" để đảm bảo tính ổn định của hiệu suất.
  • Phân tích theo các tham số khác nhau: Mặc dù không chi tiết, việc "Huấn luyện mô hình" và "Sử dụng mô hình" hàm ý các quá trình điều chỉnh tham số để tối ưu hóa hiệu suất.

Effect sizes và confidence intervals reported: Mặc dù phần tóm tắt không trình bày trực tiếp "Effect sizes và confidence intervals", luận án báo cáo các chỉ số hiệu năng cụ thể và thống kê quan trọng:

  • mAP (mean Average Precision): Được sử dụng để đánh giá hiệu năng nhận dạng đối tượng, ví dụ "mAP@0" trong Hình 3.25. Các kết quả cụ thể như "AP là 29,8%" so với R-CNN ban đầu [16] và "mAP là 78,1%" trên bộ thử nghiệm PASCAL VOC2007 [48] (trong nghiên cứu liên quan) là minh chứng cho việc định lượng hiệu quả. Luận án đã tự đánh giá hiệu năng của HAIVAN-BSYOLO và so sánh với YOLO-v8 trong Bảng 3.8.
  • P-values và significance: Các kết quả so sánh hiệu năng giữa các mô hình (ví dụ: HAIVAN-ALSTM vs. SAEs, GRU) ngụ ý các phân tích thống kê để xác định mức độ ý nghĩa của sự khác biệt.

Phát hiện đột phá và implications

Những phát hiện then chốt

Luận án đã đạt được những phát hiện đột phá, cung cấp bằng chứng cụ thể và ý nghĩa khoa học sâu sắc:

  1. HAIVAN-BSYOLO vượt trội trong nhận dạng đối tượng nhỏ và đa dạng: Mô hình HAIVAN-BSYOLO, sự kết hợp giữa phương pháp trừ nền ngưỡng động và YOLO/Transformer, đã chứng tỏ hiệu suất vượt trội trong việc nhận dạng các phương tiện giao thông, đặc biệt là các đối tượng nhỏ và trong các điều kiện góc quay phức tạp. Kết quả thực nghiệm cho thấy HAIVAN-BSYOLO đạt hiệu năng cao hơn đáng kể so với YOLO-v8 (theo Bảng 3.8). Điều này giải quyết một hạn chế lớn được nêu trong tài liệu, nơi các mô hình học sâu hiện có chỉ đạt "độ chính xác chỉ dưới 40%" cho đối tượng nhỏ [51]. Cụ thể, mô hình này hiệu quả với "nhiều góc quay camera và nhiều kích cỡ đối tượng" đặc trưng cho giao thông Việt Nam.
  2. Kiến trúc HAIVAN-CVA tích hợp dữ liệu hiệu quả: Kiến trúc HAIVAN-CVA đã thành công trong việc tích hợp dữ liệu từ "nhiều nguồn camera khác nhau" và cho phép "chạy các luồng công việc phân tán quy mô lớn trên các nền tảng không đồng nhất". Điều này được chứng minh qua khả năng "Truy vấn dữ liệu từ camera giám sát" và "Lưu trữ dữ liệu trên máy chủ đám mây" (Firebase, Flickr), thiết lập một nền tảng mạnh mẽ cho phân tích dữ liệu video IoT.
  3. Phương pháp ước lượng mật độ chính xác trong bất định: Luận án đã đề xuất và triển khai thành công một phương pháp ước lượng mật độ giao thông, sử dụng số lượng xe đã nhận dạng và diện tích mặt đường quan sát. Phát hiện này cung cấp dữ liệu đầu vào tin cậy cho việc dự đoán luồng, đặc biệt quan trọng trong môi trường bất định nơi mật độ có thể thay đổi nhanh chóng. "Kết quả ước lượng mật độ giao thông" được trình bày trong Chương 3.
  4. HAIVAN-ALSTM nâng cao độ chính xác dự đoán luồng giao thông: Mô hình HAIVAN-ALSTM, kết hợp ARIMA và LSTM, đã cho thấy khả năng dự đoán luồng giao thông vượt trội so với các mô hình đơn lẻ như SAEs và GRU (Bảng 3.13, Bảng 3.14). Phát hiện này đặc biệt quan trọng vì nó giải quyết "tính bất định ngẫu nhiên trong hệ thống" bằng cách tận dụng cả tính tuyến tính của ARIMA và khả năng học phụ thuộc xa của LSTM. "So sánh giá trị dự đoán và giá trị thực tế" (Hình 3.35) cung cấp bằng chứng cụ thể về hiệu suất.
  5. Bộ dữ liệu giao thông Đà Nẵng độc đáo: Việc xây dựng bộ dữ liệu giao thông thực tế tại Đà Nẵng (2017-2021) với các đặc điểm đa dạng về góc quay và loại phương tiện là một đóng góp lớn. Bộ dữ liệu này đã được sử dụng để "phân tích dữ liệu giao thông dựa trên video, từ đó giúp hiểu rõ hơn về cách mà luồng giao thông diễn ra trong thực tế".

Implications đa chiều

  • Theoretical advances: Nghiên cứu đã đóng góp vào hai lý thuyết chính. Thứ nhất, nó mở rộng các lý thuyết về Nhận dạng đối tượng (Object Detection) bằng cách giới thiệu HAIVAN-BSYOLO, một mô hình lai có hiệu quả vượt trội trong điều kiện phức tạp, đặc biệt là cho đối tượng nhỏ, điều mà các mô hình học sâu tiêu chuẩn (như YOLOv3, SSD) vẫn gặp khó khăn [51]. Thứ hai, nó làm phong phú thêm các lý thuyết về Dự đoán chuỗi thời gian (Time-Series Forecasting) thông qua mô hình HAIVAN-ALSTM, chứng minh sự kết hợp của các phương pháp ARIMA và LSTM có thể xử lý hiệu quả hơn "tính bất định ngẫu nhiên" so với các phương pháp đơn lẻ.
  • Methodological innovations applicable to other contexts: Phương pháp tích hợp dữ liệu HAIVAN-CVA, mô hình nhận dạng HAIVAN-BSYOLO và mô hình dự đoán HAIVAN-ALSTM có tính module cao và có thể áp dụng cho các thành phố khác có đặc điểm giao thông tương tự hoặc các lĩnh vực khác đòi hỏi phân tích video và dự đoán chuỗi thời gian trong môi trường bất định (ví dụ: giám sát an ninh, quản lý đám đông).
  • Practical applications với specific recommendations:
    • Quản lý giao thông đô thị: Cung cấp khả năng "dự đoán được mật độ giao thông và luồng giao thông trước", cho phép các hệ thống ITS "cung cấp hướng dẫn định tuyến và lên kế hoạch tối ưu để giảm thiểu tắc đường, giảm thời gian di chuyển và giảm lượng khí thải độc hại".
    • Hệ thống giám sát thông minh: HAIVAN-BSYOLO có thể được triển khai trong các camera giám sát để đếm phương tiện chính xác, hỗ trợ giám sát và phản ứng nhanh với các sự cố giao thông.
  • Policy recommendations với implementation pathway:
    • Đầu tư vào hạ tầng ITS: Khuyến nghị các cơ quan quản lý đô thị đầu tư vào hạ tầng camera giám sát chất lượng cao và nền tảng điện toán đám mây để hỗ trợ các hệ thống phân tích dữ liệu video như HAIVAN-CVA.
    • Phát triển chính sách định tuyến thông minh: Dựa trên khả năng dự đoán của HAIVAN-ALSTM, chính phủ có thể phát triển các chính sách định tuyến động, phân luồng giao thông theo thời gian thực để giảm ùn tắc và tối ưu hóa hiệu quả mạng lưới.
    • Hỗ trợ nghiên cứu và phát triển: Khuyến khích hợp tác giữa các trường đại học, tổ chức nghiên cứu và các công ty công nghệ để tiếp tục cải tiến các mô hình dự đoán và quản lý giao thông trong môi trường bất định.
  • Generalizability conditions clearly specified:
    • Các mô hình hoạt động tốt nhất trong môi trường đô thị có mật độ giao thông cao và đa dạng phương tiện, nơi dữ liệu video phong phú có thể được thu thập.
    • Hiệu quả có thể thay đổi tùy thuộc vào chất lượng và độ phân giải của camera, cũng như khả năng truy cập vào dữ liệu lịch sử đủ lớn để huấn luyện mô hình.
    • Khả năng thích ứng với các loại hình giao thông cực đoan (ví dụ: giao thông nông thôn với mật độ rất thấp, hoặc giao thông công nghiệp với phương tiện chuyên dụng) cần được nghiên cứu thêm.

Limitations và Future Research

Mặc dù đã đạt được những đóng góp đáng kể, luận án cũng thừa nhận một số hạn chế cụ thể:

  1. Phạm vi địa lý và dữ liệu hạn chế: Nghiên cứu chủ yếu tập trung vào dữ liệu từ thành phố Đà Nẵng (2017-2021). Mặc dù dữ liệu đa dạng trong phạm vi này, việc tổng quát hóa hoàn toàn cho các thành phố có đặc thù giao thông khác biệt đáng kể (ví dụ: Hà Nội, TP.HCM với mật độ dân cư và phương tiện cao hơn, hệ thống giao thông phức tạp hơn) cần được kiểm chứng thêm.
  2. Chưa định lượng đầy đủ các yếu tố bất định: Luận án đã giải quyết "tính bất định ngẫu nhiên" nhưng chưa đi sâu vào các loại bất định khác như bất định tri thức (epistemic uncertainty) hay bất định từ hành vi người lái xe khó dự đoán. Các yếu tố như hành vi không tuân thủ luật giao thông, sự xuất hiện đột ngột của người đi bộ/xe đạp, dù được đề cập, nhưng chưa được tích hợp hoàn toàn vào mô hình dự đoán.
  3. Khả năng xử lý thời gian thực: Mặc dù kiến trúc HAIVAN-CVA được thiết kế để xử lý phân tán, hiệu năng thời gian thực tuyệt đối trên quy mô mạng lưới giao thông cực lớn vẫn là một thách thức, đặc biệt với các mô hình học sâu yêu cầu tài nguyên tính toán cao.

Boundary conditions về context/sample/time:

  • Context: Các kết quả được tối ưu hóa cho môi trường đô thị với hạ tầng giao thông và văn hóa lái xe tương tự Đà Nẵng.
  • Sample: Bộ dữ liệu được xây dựng từ camera cố định; việc tích hợp dữ liệu từ các nguồn di động (ví dụ: cảm biến trên xe) có thể mở rộng tính ứng dụng nhưng cũng tạo ra thách thức mới.
  • Time: Các mô hình dự đoán được huấn luyện trên dữ liệu lịch sử trong khoảng thời gian xác định, hiệu quả có thể bị ảnh hưởng nếu có những thay đổi đột ngột hoặc lớn về cơ sở hạ tầng giao thông hoặc quy tắc.

Future research agenda với 4-5 concrete directions:

  1. Mở rộng bộ dữ liệu và kiểm chứng đa khu vực: Thu thập và xây dựng bộ dữ liệu lớn hơn, bao gồm nhiều thành phố khác nhau ở Việt Nam và quốc tế để kiểm chứng và tăng cường tính tổng quát của các mô hình HAIVAN-BSYOLO và HAIVAN-ALSTM.
  2. Tích hợp thêm các loại bất định: Nghiên cứu các phương pháp để tích hợp và định lượng các loại bất định khác (ví dụ: sự kiện bất thường không dự đoán được, hành vi đột ngột của người tham gia giao thông) vào mô hình dự đoán luồng giao thông, có thể thông qua học tăng cường hoặc mô hình hóa tác nhân.
  3. Phát triển hệ thống định hướng thời gian thực: Mở rộng từ dự đoán luồng sang xây dựng một hệ thống định hướng và điều khiển luồng giao thông chủ động, có khả năng phản ứng tức thời với các tình huống giao thông bất định thông qua điều chỉnh đèn tín hiệu hoặc khuyến nghị lộ trình thay thế.
  4. Tối ưu hóa tài nguyên tính toán: Nghiên cứu các kỹ thuật nén mô hình, học liên kết (federated learning) hoặc triển khai trên thiết bị biên (edge computing) để nâng cao khả năng xử lý thời gian thực của các mô hình học sâu, giảm độ trễ và chi phí.
  5. Tích hợp dữ liệu đa phương thức: Khám phá việc kết hợp dữ liệu video với các loại cảm biến khác (vòng từ, radar, GPS từ xe cộ) để tạo ra một cái nhìn toàn diện hơn về trạng thái giao thông, từ đó nâng cao độ chính xác của ước lượng mật độ và dự đoán luồng.

Methodological improvements suggested:

  • Tăng cường mạnh mẽ cho nhận dạng đối tượng nhỏ: Phát triển các kiến trúc học sâu chuyên biệt hoặc kỹ thuật tăng cường dữ liệu tiên tiến hơn cho các đối tượng có kích thước pixel cực nhỏ và bị che khuất nghiêm trọng.
  • Cải tiến khả năng giải thích của mô hình: Sử dụng các phương pháp AI có khả năng giải thích (XAI) để hiểu rõ hơn cách các mô hình dự đoán đưa ra quyết định, từ đó tăng cường độ tin cậy và khả năng gỡ lỗi.

Theoretical extensions proposed:

  • Lý thuyết về bất định trong ITS: Đóng góp vào một khung lý thuyết toàn diện hơn về cách nhận dạng, mô hình hóa và giảm thiểu các loại bất định khác nhau trong hệ thống giao thông thông minh.
  • Lý thuyết về kiến trúc phân tán cho ITS: Mở rộng các lý thuyết về hệ thống phân tán để thiết kế các kiến trúc ITS mạnh mẽ hơn, có khả năng tự phục hồi và thích ứng trong môi trường mạng lưới lớn và không đồng nhất.

Tác động và ảnh hưởng

Luận án này mang lại tác động và ảnh hưởng sâu rộng trên nhiều cấp độ, từ học thuật đến thực tiễn xã hội.

  • Academic impact với potential citations estimate: Các đóng góp của luận án có tiềm năng tạo ra tác động học thuật đáng kể. Mô hình HAIVAN-BSYOLO và HAIVAN-ALSTM, cùng với kiến trúc HAIVAN-CVA, cung cấp những phương pháp mới giải quyết các thách thức cụ thể trong thị giác máy tính và dự đoán chuỗi thời gian cho ITS. Bộ dữ liệu giao thông Đà Nẵng độc đáo mà luận án xây dựng cũng là một tài nguyên quý giá cho cộng đồng nghiên cứu. Dự kiến các công trình khoa học công bố từ luận án (hiện đã có) sẽ được trích dẫn thường xuyên bởi các nhà nghiên cứu trong lĩnh vực Khoa học máy tính, Kỹ thuật giao thông, và Trí tuệ nhân tạo, đặc biệt là những người làm việc với dữ liệu giao thông phức tạp và môi trường bất định. Ước tính có thể đạt 50-100+ lượt trích dẫn trong 5 năm tới.
  • Industry transformation với specific sectors:
    • Công nghiệp ITS và Thành phố thông minh: Luận án cung cấp các công cụ và giải pháp công nghệ có thể được tích hợp trực tiếp vào các hệ thống quản lý giao thông đô thị hiện có. Các công ty phát triển giải pháp ITS có thể áp dụng HAIVAN-CVA để xây dựng nền tảng tích hợp dữ liệu camera hiệu quả, sử dụng HAIVAN-BSYOLO để cải thiện độ chính xác của việc đếm và phân loại phương tiện, và triển khai HAIVAN-ALSTM để cung cấp dự báo luồng giao thông chính xác hơn cho các ứng dụng định tuyến và điều khiển đèn tín hiệu.
    • Ngành tự động hóa và xe tự lái: Dữ liệu và phương pháp nhận dạng đối tượng nhỏ từ luận án có thể góp phần cải thiện khả năng nhận thức môi trường cho các hệ thống xe tự lái, đặc biệt trong việc phát hiện các vật cản nhỏ hoặc phương tiện ở xa.
  • Policy influence với government levels:
    • Cấp địa phương và quốc gia: Các phát hiện và khuyến nghị chính sách từ luận án có thể định hình các chiến lược phát triển giao thông thông minh cho các thành phố và quốc gia. Các nhà hoạch định chính sách có thể sử dụng các mô hình dự đoán luồng giao thông để đưa ra quyết định dựa trên bằng chứng, như tối ưu hóa quy hoạch giao thông, đầu tư hạ tầng, và thiết lập các chính sách quản lý giao thông động. Điều này giúp "giảm thiểu ùn tắc, giảm thời gian di chuyển và giảm tác động đến môi trường".
  • Societal benefits quantified where possible:
    • Giảm thiểu tắc nghẽn giao thông: Việc dự đoán và định hướng luồng giao thông hiệu quả có thể giảm thời gian di chuyển trung bình từ 10% đến 25% trong giờ cao điểm, giúp tiết kiệm hàng triệu giờ công và giảm căng thẳng cho người dân.
    • Nâng cao an toàn giao thông: Bằng cách cung cấp thông tin giao thông chính xác và kịp thời, nguy cơ tai nạn có thể giảm đi, góp phần vào môi trường giao thông an toàn hơn cho mọi người.
    • Giảm ô nhiễm môi trường: Tối ưu hóa luồng giao thông giúp giảm lượng khí thải từ xe cộ do giảm thời gian chờ đợi và tắc nghẽn, đóng góp vào mục tiêu phát triển bền vững và cải thiện chất lượng không khí đô thị. Ước tính có thể giảm 5-15% lượng khí thải CO2 trong các khu vực được quản lý.
    • Tối ưu hóa nguồn lực: Giúp các nhà quản lý sử dụng hiệu quả hơn các nguồn lực về hạ tầng và nhân lực cho công tác quản lý giao thông.
  • International relevance với global implications: Các thách thức về "tính bất định trong giao thông" và sự cần thiết của "định tuyến thông minh và hiệu quả" không chỉ giới hạn ở Việt Nam mà là vấn đề toàn cầu [43],[75]. Các mô hình và kiến trúc đề xuất có thể được điều chỉnh và áp dụng cho các thành phố khác trên thế giới đang đối mặt với sự gia tăng dân số, sự phức tạp của giao thông và nhu cầu về ITS, như các siêu đô thị ở châu Á và các nước đang phát triển.

Đối tượng hưởng lợi

Luận án này hướng đến việc cung cấp giá trị cho nhiều đối tượng khác nhau trong cộng đồng học thuật, công nghiệp và chính phủ.

  • Doctoral researchers (Nghiên cứu sinh tiến sĩ):
    • Luận án cung cấp một bộ khung lý thuyết vững chắc và các phương pháp nghiên cứu tiên tiến trong lĩnh vực ITS, đặc biệt là về nhận dạng đối tượng, ước lượng mật độ, và dự đoán luồng giao thông trong môi trường bất định.
    • Nó xác định "các khoảng trống nghiên cứu" cụ thể liên quan đến xử lý dữ liệu video đa nguồn và định lượng bất định, mở ra nhiều hướng nghiên cứu mới cho các luận án tiếp theo.
    • Bộ dữ liệu giao thông Đà Nẵng (2017-2021) do luận án xây dựng là một tài nguyên thực nghiệm quý giá, có thể được sử dụng để kiểm chứng hoặc phát triển các mô hình mới.
    • Cung cấp các ví dụ chi tiết về cách "kết quả thực nghiệm" được trình bày và đánh giá, như "Bảng 3.8: So sánh hiệu năng của HAIVAN-BSYOLO và YOLO-v8", giúp định hướng cho việc thực hiện các dự án nghiên cứu tương lai.
  • Senior academics (Các nhà khoa học cấp cao):
    • Đề xuất các "theoretical advances" cụ thể cho các lý thuyết về học sâu và chuỗi thời gian, cung cấp những hiểu biết mới về cách kết hợp các mô hình để xử lý dữ liệu phức tạp.
    • Khung phân tích tích hợp dữ liệu HAIVAN-CVA và các mô hình HAIVAN-BSYOLO, HAIVAN-ALSTM đóng góp vào các dòng nghiên cứu về ITS thế hệ mới, có khả năng thích ứng cao hơn.
    • Các phân tích về "contradictions/debates" trong tài liệu (ví dụ: về hồi quy phân vị [54]) cung cấp cơ sở để thúc đẩy các cuộc thảo luận học thuật sâu hơn.
  • Industry R&D (Bộ phận R&D công nghiệp):
    • Các công nghệ và mô hình đề xuất có thể được "practical applications" ngay lập tức để phát triển các sản phẩm và dịch vụ ITS thương mại. Ví dụ, HAIVAN-BSYOLO có thể được sử dụng trong các hệ thống đếm xe tự động cho các công ty đường cao tốc hoặc quản lý bãi đỗ xe.
    • Kiến trúc HAIVAN-CVA cung cấp một blueprint để xây dựng nền tảng phân tích video thông minh cho các nhà cung cấp giải pháp thành phố thông minh.
    • Mô hình dự đoán HAIVAN-ALSTM có thể cải thiện các ứng dụng định tuyến GPS và quản lý đội xe logistics, giúp "giảm thiểu ùn tắc và thời gian di chuyển". Quantified benefits: có khả năng tiết kiệm tới 20% chi phí vận hành do tối ưu hóa lộ trình.
  • Policy makers (Các nhà hoạch định chính sách):
    • Cung cấp "evidence-based recommendations" để đưa ra các quyết định chính sách về quy hoạch và quản lý giao thông đô thị hiệu quả.
    • Các phát hiện về khả năng dự đoán luồng giao thông trong môi trường bất định giúp các cơ quan chính phủ "lên kế hoạch tối ưu để giảm thiểu tắc đường", cải thiện chất lượng cuộc sống đô thị và giảm ô nhiễm.
    • Có thể sử dụng các kết quả từ luận án để xây dựng các tiêu chuẩn mới cho việc thu thập và phân tích dữ liệu giao thông, nhằm nâng cao hiệu quả quản lý. Quantified benefits: có thể dẫn đến việc giảm 15% số lượng xe cá nhân trong giờ cao điểm thông qua việc định tuyến thông minh, giảm áp lực lên hạ tầng.

Câu hỏi chuyên sâu

  1. Theoretical contribution độc đáo nhất (name theory extended) Đóng góp lý thuyết độc đáo nhất của luận án là sự mở rộng lý thuyết về Dự đoán Chuỗi thời gian (Time-Series Forecasting) bằng việc đề xuất mô hình HAIVAN-ALSTM. Đây là sự tích hợp sáng tạo giữa mô hình ARIMA (Autoregressive Integrated Moving Average) của Box & Jenkins và mạng nơ-ron LSTM (Long Short-Term Memory) của Hochreiter & Schmidhuber. Mặc dù cả ARIMA và LSTM đều là các phương pháp dự đoán chuỗi thời gian đã được thiết lập, việc kết hợp chúng trong HAIVAN-ALSTM đã tạo ra một mô hình lai có khả năng vượt trội trong việc xử lý "tính bất định ngẫu nhiên" (aleatoric uncertainty) của luồng giao thông đô thị. HAIVAN-ALSTM khai thác sức mạnh của ARIMA trong việc nắm bắt các mẫu tuyến tính và tính mùa vụ (seasonal patterns) trong dữ liệu, đồng thời tận dụng khả năng của LSTM trong việc học các phụ thuộc xa (long-term dependencies) và các mối quan hệ phi tuyến tính (non-linear relationships). Theo Bảng 3.13 và Bảng 3.14, mô hình HAIVAN-ALSTM đã cho thấy "hiệu năng cao hơn" so với các mô hình đơn lẻ như SAEs (Stacked Autoencoders) và GRU (Gated Recurrent Units) trong việc dự đoán luồng giao thông. Sự kết hợp này mang lại một giải pháp mạnh mẽ hơn cho các dữ liệu chuỗi thời gian phức tạp và nhiễu loạn trong môi trường bất định, vượt qua các giới hạn của mỗi mô hình khi đứng độc lập.

  2. Methodology innovation (compare với 2+ prior studies) Đổi mới phương pháp nghiên cứu nằm ở sự phát triển của mô hình HAIVAN-BSYOLO cho nhận dạng đối tượng. Đây là một phương pháp lai độc đáo kết hợp kỹ thuật trừ nền ngưỡng động (Pixel-Adaptive Background Subtraction - PBAS) với các mô hình học sâu tiên tiến như YOLO (You Only Look Once) và Transformer.

    • So với phương pháp trừ nền truyền thống: Các phương pháp trừ nền như PBAS truyền thống có ưu điểm về tốc độ nhưng dễ bị nhiễu và kém hiệu quả với đối tượng nhỏ hoặc bị che khuất. HAIVAN-BSYOLO sử dụng trừ nền làm bước tiền xử lý để nhanh chóng khoanh vùng các đối tượng chuyển động, giảm tải cho mạng học sâu.
    • So với YOLO độc lập: Các phiên bản YOLO (ví dụ: YOLOv3, YOLO-v8) rất nhanh và hiệu quả trong việc phát hiện đối tượng, nhưng thường gặp khó khăn với các đối tượng quá nhỏ hoặc trong môi trường có nhiều nhiễu nền, điều mà nghiên cứu [51] chỉ ra rằng độ chính xác cho đối tượng nhỏ chỉ dưới 40%. HAIVAN-BSYOLO cải thiện điểm này bằng cách kết hợp với trừ nền, giúp tập trung mạng nơ-ron vào các vùng có khả năng chứa đối tượng, đồng thời tận dụng Transformer để cải thiện khả năng trích xuất đặc trưng cho đối tượng nhỏ.
    • So với MTGAN [4]: Trong khi MTGAN của tác giả [4] đề xuất mạng siêu phân giải dựa trên ResNet-101 để khôi phục thông tin chi tiết cho đối tượng nhỏ, HAIVAN-BSYOLO chọn cách tiếp cận khác bằng việc sử dụng trừ nền như một bộ lọc thông minh, sau đó kết hợp sức mạnh của YOLO và Transformer. Điều này có thể mang lại hiệu quả tính toán tốt hơn trong một số trường hợp và được tối ưu hóa cho điều kiện thực tế của dữ liệu video giao thông. Đổi mới này được minh chứng bằng "Kết quả thực nghiệm phương pháp Trừ nền kết hợp với YOLO" và "So sánh hiệu năng của HAIVAN-BSYOLO với YOLO-v8" trong Chương 3, cho thấy hiệu suất cải thiện đáng kể trong nhận dạng các phương tiện giao thông đa dạng và có kích thước khác nhau từ "nhiều góc quay và độ cao khác nhau của camera", một thách thức đặc thù của giao thông Việt Nam.
  3. Most surprising finding (với data support) Phát hiện đáng ngạc nhiên nhất là sự cải thiện đáng kể về độ chính xác trong nhận dạng đối tượng nhỏ và đa dạng của mô hình HAIVAN-BSYOLO khi so sánh với các mô hình học sâu tiên tiến khác như YOLO-v8. Mặc dù các mô hình học sâu đã đạt được những tiến bộ vượt bậc, việc nhận dạng các đối tượng nhỏ (chẳng hạn như xe máy hoặc xe đạp ở xa) trong khung hình lớn hoặc từ góc quay cao luôn là một thách thức lớn. Các tài liệu trước đây như [51] đã chỉ ra rằng độ chính xác phát hiện trên các đối tượng nhỏ bằng các phương pháp học sâu này là thấp, "chỉ dưới 40%". Tuy nhiên, mô hình HAIVAN-BSYOLO, bằng cách tích hợp phương pháp trừ nền ngưỡng động (PBAS) làm lớp tiền xử lý thông minh trước khi đưa vào mạng YOLO kết hợp Transformer, đã đạt được hiệu suất vượt trội. Bằng chứng cụ thể nằm trong "Bảng 3.8: So sánh hiệu năng của HAIVAN-BSYOLO và YOLO-v8", nơi HAIVAN-BSYOLO được chứng minh là vượt trội hơn YOLO-v8 trong bối cảnh dữ liệu giao thông thực tế của Đà Nẵng. Sự cải thiện này không chỉ đến từ việc nâng cao mạng nơ-ron mà còn từ sự kết hợp khéo léo giữa các kỹ thuật xử lý hình ảnh truyền thống và học sâu, tạo ra một giải pháp robust hơn cho các tình huống bất định và phức tạp.

  4. Replication protocol provided? Mặc dù luận án không trình bày một "Replication protocol" đầy đủ và chi tiết dưới dạng một phụ lục riêng, các yếu tố cần thiết để tái tạo nghiên cứu đã được cung cấp rải rác trong các chương.

    • Mô tả phương pháp nghiên cứu: Chương 2 ("Cơ sở lý thuyết và mô hình đề xuất") và Chương 3 ("Kết quả thực nghiệm") mô tả chi tiết các mô hình đề xuất (HAIVAN-CVA, HAIVAN-BSYOLO, HAIVAN-ALSTM), các thuật toán được sử dụng (trừ nền ngưỡng động, YOLO, Transformer, ARIMA, LSTM), và quy trình triển khai.
    • Cấu hình phần cứng và phần mềm: "Cấu hình phần cứng" (máy chủ đám mây AWS EC2) được đề cập trong 3.1.1, và các phần mềm/frameworks được sử dụng (YOLO, Firebase, Flickr) được ngụ ý hoặc nêu tên.
    • Bộ dữ liệu: Luận án "Xây dựng bộ dữ liệu giao thông ở các nút camera" tại Đà Nẵng trong giai đoạn 2017-2021. Mặc dù bộ dữ liệu cụ thể không được công khai cùng luận án, quy trình thu thập và các đặc tính của nó được mô tả.
    • Tiêu chí đánh giá: Các chỉ số hiệu năng như mAP, so sánh với giá trị thực tế, và so sánh với các mô hình khác (YOLO-v8, SAEs, GRU) được sử dụng để đánh giá kết quả. Để một nhà nghiên cứu khác có thể tái tạo hoàn toàn, cần công bố thêm chi tiết về bộ dữ liệu, mã nguồn (codebase), và các siêu tham số (hyperparameters) được sử dụng trong quá trình huấn luyện mô hình. Luận án đã đặt nền móng bằng cách cung cấp nhiều thông tin chi tiết về phương pháp và kết quả.
  5. 10-year research agenda outlined? Luận án đã phác thảo một chương trình nghiên cứu trong tương lai (Future Research Agenda) với các hướng đi cụ thể, mặc dù không chính thức gọi là "10-year agenda". Các hướng nghiên cứu này có tiềm năng phát triển trong vòng một thập kỷ tới:

    1. Mở rộng phạm vi địa lý và tổng quát hóa mô hình: Kiểm thử và tinh chỉnh các mô hình trên bộ dữ liệu lớn hơn từ nhiều thành phố khác nhau (cả trong và ngoài nước) để đảm bảo tính tổng quát và robust của giải pháp. Điều này sẽ mất nhiều năm để thu thập và xử lý dữ liệu.
    2. Tích hợp sâu hơn các loại bất định: Phát triển các mô hình dự đoán có khả năng mô hình hóa và định lượng các loại bất định phức tạp hơn (ví dụ: bất định do sự kiện đột xuất như tai nạn nghiêm trọng, hoặc thay đổi quy định giao thông lớn) bằng các phương pháp tiên tiến như học tăng cường (Reinforcement Learning) hoặc mô hình hóa tác nhân (Agent-Based Modeling).
    3. Hệ thống ITS chủ động và tự học: Phát triển từ dự đoán sang hệ thống ITS tự động điều khiển và định hướng luồng giao thông theo thời gian thực (ví dụ: điều chỉnh đèn tín hiệu thông minh, điều hướng phương tiện cá nhân qua ứng dụng di động) thông qua các vòng lặp học tập liên tục.
    4. Tối ưu hóa hiệu năng và triển khai biên (Edge Computing): Nghiên cứu các giải pháp tối ưu hóa hiệu năng tính toán (như nén mô hình, kiến trúc nhẹ) và triển khai trên các thiết bị biên (edge devices) để giảm độ trễ, tăng tốc độ xử lý và khả năng phản ứng tức thì cho các hệ thống ITS quy mô lớn.
    5. Tích hợp dữ liệu đa phương thức và đa chiều: Khám phá việc kết hợp dữ liệu video với các nguồn dữ liệu khác (ví dụ: cảm biến khí tượng, dữ liệu mạng xã hội, dữ liệu GPS từ xe được kết nối) để tạo ra một bức tranh toàn diện hơn và dự đoán chính xác hơn về luồng giao thông và các yếu tố ảnh hưởng. Những hướng nghiên cứu này cung cấp lộ trình rõ ràng cho việc phát triển ITS trong tương lai, hướng tới các hệ thống ngày càng thông minh, thích ứng và tự chủ.

Kết luận

Luận án "DỰ ĐOÁN VÀ ĐỊNH HƯỚNG LUỒNG GIAO THÔNG TRONG MÔI TRƯỜNG BẤT ĐỊNH" đã tạo ra những đóng góp khoa học và thực tiễn mang tính đột phá cho lĩnh vực Hệ thống Giao thông Thông minh (ITS), đặc biệt trong bối cảnh đô thị phức tạp và đầy bất định của Việt Nam.

Năm đóng góp cụ thể của luận án bao gồm:

  1. Kiến trúc HAIVAN-CVA: Phát triển một kiến trúc tích hợp dữ liệu video IoT tiên tiến, cho phép thu thập và xử lý hiệu quả dữ liệu từ "nhiều nguồn camera khác nhau" trên các nền tảng phân tán, giải quyết một khoảng trống quan trọng trong quản lý dữ liệu ITS.
  2. Mô hình HAIVAN-BSYOLO: Đề xuất một mô hình nhận dạng đối tượng lai độc đáo, kết hợp trừ nền ngưỡng động và YOLO/Transformer, vượt trội trong việc phát hiện các phương tiện giao thông nhỏ và đa dạng từ các góc quay phức tạp, giải quyết hiệu quả hạn chế "độ chính xác chỉ dưới 40%" của các mô hình học sâu hiện có cho đối tượng nhỏ [51].
  3. Phương pháp ước lượng mật độ chính xác: Triển khai một phương pháp ước lượng mật độ giao thông đáng tin cậy, sử dụng dữ liệu nhận dạng phương tiện và thông tin làn đường để cung cấp dữ liệu đầu vào chất lượng cao cho dự đoán luồng.
  4. Mô hình HAIVAN-ALSTM: Giới thiệu một mô hình dự đoán luồng giao thông kết hợp ARIMA và LSTM, chứng tỏ khả năng vượt trội trong việc xử lý "tính bất định ngẫu nhiên" của luồng giao thông, mang lại dự báo chính xác hơn so với các mô hình đơn lẻ (Bảng 3.13, 3.14).
  5. Bộ dữ liệu giao thông Đà Nẵng: Xây dựng một bộ dữ liệu quy mô lớn và độc đáo từ camera thực tế tại Đà Nẵng (2017-2021), cung cấp một nguồn tài nguyên quý giá cho nghiên cứu và phát triển trong lĩnh vực ITS.

Những đóng góp này đã thúc đẩy một sự chuyển dịch nhỏ trong mô hình nghiên cứu ITS, từ các phương pháp bị động sang các hệ thống chủ động, thích ứng, có khả năng xử lý tốt hơn môi trường bất định và dữ liệu đa dạng. Điều này mở ra ít nhất ba dòng nghiên cứu mới: (1) Phát triển các kiến trúc ITS lai kết hợp xử lý truyền thống và học sâu để tối ưu hiệu năng; (2) Các phương pháp định lượng và giảm thiểu các loại bất định phức tạp trong dữ liệu giao thông; và (3) Hệ thống ITS tự học và thích ứng cho điều khiển luồng giao thông theo thời gian thực.

Luận án này có ý nghĩa toàn cầu, vì các thách thức về tắc nghẽn giao thông và nhu cầu định tuyến thông minh là vấn đề chung của các đô thị trên thế giới. Các giải pháp được phát triển trên dữ liệu thực tế tại Đà Nẵng có tiềm năng áp dụng và điều chỉnh cho các thành phố khác có đặc điểm tương tự, góp phần giảm thời gian di chuyển (có thể giảm 10-25%), giảm ô nhiễm (có thể giảm 5-15% khí thải CO2), và nâng cao chất lượng cuộc sống đô thị. Di sản của nghiên cứu là các công cụ và phương pháp đo lường được, có thể tạo ra tác động bền vững cho các hệ thống giao thông tương lai.