Luận án tiến sĩ: Điều khiển học tăng cường xe hai bánh tự cân bằng
Đại học Bách khoa Hà Nội
Kỹ thuật điều khiển và tự động hóa
Ẩn danh
Luận án Tiến sĩ
Năm xuất bản
Số trang
92
Thời gian đọc
14 phút
Lượt xem
0
Lượt tải
0
Phí lưu trữ
40 Point
Tóm tắt nội dung
I. Điều Khiển Học Tăng Cường Cho Xe Hai Bánh
Học tăng cường (reinforcement learning) đang trở thành giải pháp đột phá trong điều khiển xe hai bánh tự cân bằng. Công nghệ này giải quyết thách thức lớn: mô hình bất định không dừng và nhiễu cơ cấu chấp hành. Xe hai bánh tự cân bằng là hệ thiếu cơ cấu chấp hành điển hình. Số bậc tự do vượt số tín hiệu điều khiển. Điều này tạo độ phức tạp cao trong thiết kế bộ điều khiển.
Phương pháp điều khiển thông minh sử dụng quy hoạch động thích nghi. Hệ thống học từ môi trường. Không cần mô hình toán chính xác. Deep Q-network và Q-learning tối ưu hóa chính sách điều khiển. Robot di động đạt độ ổn định cao. Inverted pendulum (con lắc ngược) là nền tảng lý thuyết. Xe hai bánh hoạt động theo nguyên lý tương tự.
Nghiên cứu tập trung vào ba vấn đề chính. Thứ nhất: xây dựng mô hình tuyến tính tương đương. Thứ hai: thiết kế bộ điều khiển thích nghi bền vững. Thứ ba: ước lượng nhiễu tổng hợp. Bộ quan sát nhiễu giảm tác động từ môi trường. Quy hoạch động xấp xỉ tuyến tính tối ưu tín hiệu điều khiển. Kết quả mô phỏng và thực nghiệm xác nhận hiệu quả.
1.1. Tổng Quan Hệ Thiếu Cơ Cấu Chấp Hành
Hệ thiếu cơ cấu chấp hành có đặc điểm riêng. Số đầu ra lớn hơn số đầu vào điều khiển. Xe hai bánh tự cân bằng thuộc loại này. Cần điều khiển ba biến trạng thái: vị trí, góc nghiêng, góc hướng. Chỉ có hai động cơ tạo mô-men xoắn. Thách thức nằm ở việc cân bằng động. Robot di động phải duy trì thăng bằng liên tục. Mất cân bằng dẫn đến đổ ngã ngay lập tức.
1.2. Các Dạng Xe Hai Bánh Tự Cân Bằng
Ba dạng xe hai bánh phổ biến. Dạng truyền thống: hai bánh song song, thân xe đứng giữa. Dạng đầu vào xen kênh: bánh xe điều khiển độc lập. Dạng bánh phản ứng: sử dụng con quay hồi chuyển. Mỗi loại có ưu nhược điểm riêng. Xe truyền thống đơn giản, dễ chế tạo. Xe xen kênh linh hoạt hơn. Xe bánh phản ứng ổn định cao nhưng phức tạp.
1.3. Ứng Dụng Học Tăng Cường Trong Điều Khiển
Reinforcement learning thay đổi cách tiếp cận điều khiển. Hệ thống tự học từ tương tác với môi trường. Không cần mô hình toán học chính xác trước. Deep Q-network xử lý không gian trạng thái lớn. Q-learning tối ưu hàm giá trị hành động. Phương pháp này phù hợp với mô hình bất định. Hệ thống thích nghi với nhiễu không dừng. Điều khiển thông minh đạt hiệu suất cao.
II. Mô Hình Toán Xe Hai Bánh Tự Cân Bằng
Xây dựng mô hình toán là bước đầu tiên. Mô hình mô tả động học và động lực học hệ thống. Xe hai bánh có ba bậc tự do chính. Vị trí x theo phương ngang. Góc nghiêng θ của thân xe. Góc hướng ψ khi xe quay. Mô hình phi tuyến phức tạp. Chứa các hàm lượng giác sin, cos. Cần tuyến tính hóa quanh điểm làm việc.
Mô hình tuyến tính tương đương đơn giản hóa bài toán. Giả thiết góc nghiêng nhỏ. Sin(θ) ≈ θ, cos(θ) ≈ 1. Mô hình trở thành hệ phương trình tuyến tính. Dễ dàng áp dụng lý thuyết điều khiển hiện đại. Bất định mô hình xuất hiện từ nhiều nguồn. Sai số tham số vật lý. Thay đổi khối lượng khi chở hàng. Ma sát không mô hình hóa chính xác.
Nhiễu đầu vào ảnh hưởng đến cơ cấu chấp hành. Động cơ không hoạt động lý tưởng. Điện áp nguồn dao động. Nhiễu môi trường tác động lên bánh xe. Mô hình tổng quát bao gồm cả nhiễu và bất định. Ma trận trạng thái A chứa bất định ΔA. Vector đầu vào B có nhiễu d. Thiết kế bộ điều khiển phải bền vững với các yếu tố này.
2.1. Phương Trình Động Lực Học Cơ Bản
Phương trình Lagrange mô tả động học hệ. Năng lượng động học bao gồm chuyển động tịnh tiến và quay. Năng lượng thế từ trọng lực tác dụng. Mô-men xoắn từ hai động cơ bánh xe. Phương trình phi tuyến bậc hai. Chứa tích các biến trạng thái. Ma trận khối lượng phụ thuộc vào cấu hình. Vector Coriolis chứa các lực ly tâm.
2.2. Tuyến Tính Hóa Quanh Điểm Cân Bằng
Điểm cân bằng là vị trí thẳng đứng. Góc nghiêng θ = 0, vận tốc góc = 0. Khai triển Taylor bậc nhất. Bỏ qua các số hạng bậc cao. Ma trận A mô tả động học tuyến tính. Ma trận B liên kết đầu vào với trạng thái. Hệ tuyến tính dễ phân tích tính ổn định. Áp dụng được các phương pháp điều khiển cổ điển.
2.3. Mô Hình Hóa Nhiễu Và Bất Định
Bất định mô hình ΔA là ma trận sai số. Phụ thuộc vào sai số tham số. Thường giả thiết bị chặn bởi chuẩn. Nhiễu đầu vào d(t) là vector ngẫu nhiên. Có thể không dừng, thay đổi theo thời gian. Giả thiết nhiễu có đạo hàm bị chặn. Bộ quan sát nhiễu sẽ ước lượng d(t). Mô hình tổng quát: ẋ = (A + ΔA)x + Bu + d.
III. Quy Hoạch Động Thích Nghi Học Tăng Cường
Quy hoạch động là nền tảng của điều khiển tối ưu. Phương pháp tìm chính sách điều khiển tối thiểu hóa hàm chi phí. Hàm chi phí bao gồm sai lệch trạng thái và năng lượng điều khiển. Phương trình Bellman mô tả nguyên lý tối ưu. Giải phương trình Riccati đại số tìm ma trận tăng ích. Phương pháp cổ điển cần biết chính xác mô hình.
Quy hoạch động thích nghi không cần mô hình trước. Hệ thống học từ dữ liệu tương tác. Reinforcement learning cung cấp framework. Agent quan sát trạng thái. Thực hiện hành động. Nhận phần thưởng từ môi trường. Mục tiêu: tối đa tổng phần thưởng tích lũy. Deep Q-network xấp xỉ hàm giá trị. Mạng neural network học ánh xạ trạng thái-hành động.
Phương pháp Actor-Critic kết hợp hai thành phần. Actor đề xuất hành động. Critic đánh giá chất lượng. Cập nhật đồng thời cả hai mạng. Gradient policy tối ưu tham số Actor. Temporal difference học hàm giá trị Critic. Phương pháp ổn định, hội tụ nhanh. Áp dụng hiệu quả cho xe hai bánh. Hệ thống thích nghi với nhiễu thời gian thực.
3.1. Phương Trình Bellman Và Hàm Giá Trị
Phương trình Bellman là phương trình đệ quy. V(s) = R(s,a) + γV(s'). V là hàm giá trị trạng thái. R là phần thưởng tức thời. γ là hệ số chiết khấu (0 < γ < 1). s' là trạng thái kế tiếp. Hàm Q(s,a) đánh giá cặp trạng thái-hành động. Q-learning học trực tiếp Q(s,a). Không cần mô hình chuyển trạng thái.
3.2. Deep Q Network Cho Điều Khiển Xe
Deep Q-network (DQN) sử dụng mạng neural. Đầu vào: vector trạng thái [x, θ, ψ, ẋ, θ̇, ψ̇]. Đầu ra: giá trị Q cho mỗi hành động rời rạc. Mạng gồm nhiều lớp fully connected. Hàm kích hoạt ReLU. Loss function: TD-error bình phương. Experience replay tăng hiệu quả học. Target network ổn định quá trình training.
3.3. Quy Hoạch Động Xấp Xỉ Tuyến Tính
Xấp xỉ tuyến tính đơn giản hóa bài toán. Hàm giá trị V(x) = x^T P x. P là ma trận đối xứng xác định dương. Phương trình Riccati xác định P. Luật điều khiển tối ưu: u = -Kx. K là ma trận tăng ích phản hồi trạng thái. K = R^(-1) B^T P. Phương pháp học P từ dữ liệu. Không cần biết ma trận A, B trước.
IV. Bộ Điều Khiển Thích Nghi Bền Vững
Bộ điều khiển thích nghi bền vững kết hợp nhiều kỹ thuật. Mục tiêu: duy trì hiệu suất khi có bất định và nhiễu. Kiến trúc gồm ba thành phần chính. Bộ quan sát nhiễu ước lượng d(t). Bộ điều khiển phản hồi trạng thái. Cơ chế thích nghi cập nhật tham số.
Bộ quan sát nhiễu sử dụng lý thuyết Luenberger. Quan sát mở rộng bao gồm trạng thái và nhiễu. Ma trận tăng ích quan sát L thiết kế theo pole placement. Sai số ước lượng hội tụ về 0 theo thời gian. Nhiễu ước lượng d̂ bù trừ nhiễu thực. Tín hiệu điều khiển: u = -Kx - d̂. Loại bỏ tác động nhiễu lên hệ thống.
Quy hoạch động xấp xỉ tuyến tính học ma trận P. Thuật toán cập nhật online từ dữ liệu. Không cần reset hệ thống về điểm đầu. Policy iteration cải thiện dần chính sách. Mỗi vòng lặp gồm hai bước: đánh giá và cải thiện. Phân tích Lyapunov chứng minh tính ổn định. Hệ kín hội tụ tiệm cận về điểm cân bằng. Bền vững với bất định có chuẩn bị chặn.
4.1. Thiết Kế Bộ Quan Sát Nhiễu Tổng
Bộ quan sát nhiễu mở rộng vector trạng thái. Trạng thái mở rộng: z = [x; d]. Phương trình quan sát: ż = Fz + Gu + L(y - ŷ). F là ma trận động học mở rộng. L là ma trận tăng ích quan sát. Chọn L sao cho (F - LC) ổn định Hurwitz. Sai số e = z - ẑ thỏa ė = (F - LC)e. Eigenvalues âm đảm bảo e → 0.
4.2. Phân Tích Ổn Định Hệ Kín
Hàm Lyapunov: V = x^T Px + e^T Pe. P, Pe là ma trận xác định dương. Đạo hàm V̇ dọc quỹ đạo hệ thống. V̇ = -x^T Qx - e^T Qe + các số hạng chéo. Chọn tham số sao cho V̇ < 0. Định lý Lyapunov đảm bảo ổn định tiệm cận. Hệ kín hội tụ về điểm cân bằng x = 0.
4.3. Thuật Toán Thích Nghi Online
Thuật toán cập nhật ma trận P từ dữ liệu. Thu thập cặp (x(t), u(t), x(t+Δt)). Xây dựng phương trình Bellman rời rạc. Giải hệ phương trình tuyến tính cho vec(P). Least squares estimate: P̂ = (Φ^T Φ)^(-1) Φ^T Y. Cập nhật luật điều khiển K = R^(-1) B^T P̂. Lặp lại cho đến hội tụ.
V. Kết Quả Mô Phỏng Và Thực Nghiệm
Kiểm chứng lý thuyết qua mô phỏng và thực nghiệm. Môi trường mô phỏng: MATLAB/Simulink. Mô hình xe với tham số thực tế. Khối lượng thân 10 kg. Khối lượng bánh 1 kg mỗi bánh. Chiều cao trọng tâm 0.3 m. Bán kính bánh 0.1 m.
Mô phỏng ba trường hợp. Trường hợp 1: LQR cổ điển không có quan sát nhiễu. Trường hợp 2: LQR kết hợp bộ quan sát nhiễu. Trường hợp 3: Quy hoạch động thích nghi với quan sát nhiễu. Nhiễu mô phỏng: xung vuông biên độ 5 N. Bất định mô hình: ΔA với chuẩn 10% giá trị danh định.
Kết quả cho thấy cải thiện rõ rệt. LQR cổ điển: sai số vị trí 0.15 m, góc nghiêng 8 độ. LQR với quan sát nhiễu: sai số vị trí 0.03 m, góc nghiêng 1.5 độ. Quy hoạch động thích nghi: sai số vị trí 0.01 m, góc nghiêng 0.5 độ. Thời gian xác lập giảm từ 5s xuống 2s. Thực nghiệm trên mô hình vật lý xác nhận kết quả lý thuyết.
5.1. Thiết Lập Tham Số Mô Phỏng
Tham số vật lý từ đo đạc thực tế. Khối lượng thân M = 10 kg. Khối lượng bánh m = 1 kg. Bán kính bánh r = 0.1 m. Chiều cao trọng tâm h = 0.3 m. Mô-men quán tính tính theo công thức chuẩn. Ma trận trọng Q = diag([100, 100, 10, 1, 1, 1]). Ma trận điều khiển R = diag([1, 1]). Bước thời gian Δt = 0.01s.
5.2. So Sánh Các Phương Pháp Điều Khiển
Ba phương pháp được so sánh. LQR cổ điển: thiết kế dựa trên mô hình danh định. LQR-DOB: LQR kết hợp bộ quan sát nhiễu. ADP-DOB: quy hoạch động thích nghi với quan sát nhiễu. Chỉ số đánh giá: IAE (tích phân sai số tuyệt đối). ISE (tích phân sai số bình phương). Thời gian xác lập. Độ vọt lố. ADP-DOB cho kết quả tốt nhất.
5.3. Kết Quả Thực Nghiệm Trên Mô Hình Vật Lý
Mô hình xe chế tạo trong phòng thí nghiệm. Vi điều khiển STM32F4. IMU MPU6050 đo góc nghiêng. Encoder đo vận tốc bánh xe. Driver động cơ L298N. Tần số lấy mẫu 100 Hz. Xe cân bằng thành công trong 120 giây. Sai số góc nghiêng trung bình 0.8 độ. Bám궤 đạo vị trí với sai số 0.05 m. Bền vững với nhiễu đẩy tay 10 N.
VI. Ưu Điểm Điều Khiển Học Tăng Cường
Điều khiển học tăng cường mang lại nhiều ưu điểm vượt trội. Không yêu cầu mô hình toán chính xác. Hệ thống học trực tiếp từ tương tác. Phù hợp với inverted pendulum và robot di động. Thích nghi với thay đổi môi trường. Bền vững với nhiễu và bất định.
Khả năng xử lý phi tuyến mạnh. Deep Q-network học các quan hệ phức tạp. Không cần tuyến tính hóa như phương pháp cổ điển. Xử lý được không gian trạng thái lớn. Mạng neural có khả năng tổng quát hóa cao. Học từ kinh nghiệm trước áp dụng cho tình huống mới.
Hiệu suất tối ưu theo thời gian. Quá trình học liên tục cải thiện chính sách. Policy iteration đảm bảo hội tụ đến tối ưu toàn cục. Cân bằng exploration và exploitation. Khám phá không gian hành động đầy đủ. Khai thác kiến thức đã học hiệu quả. Ứng dụng rộng rãi: xe tự lái, robot công nghiệp, UAV. Xu hướng tương lai của điều khiển thông minh.
6.1. Không Phụ Thuộc Mô Hình Chính Xác
Phương pháp cổ điển cần mô hình toán chi tiết. Xác định tham số vật lý tốn thời gian. Sai số mô hình ảnh hưởng hiệu suất. Reinforcement learning khắc phục nhược điểm này. Học trực tiếp từ dữ liệu tương tác. Model-free approach giảm công sức thiết kế. Đặc biệt hữu ích khi mô hình phức tạp. Hoặc tham số thay đổi theo thời gian.
6.2. Thích Nghi Với Môi Trường Động
Môi trường thực tế luôn thay đổi. Nhiễu không dừng, bất định thời gian. Bộ điều khiển cố định suy giảm hiệu suất. Học tăng cường cập nhật liên tục. Online learning thích nghi real-time. Phát hiện thay đổi trong dynamics. Điều chỉnh chính sách phù hợp. Duy trì hiệu suất ổn định lâu dài.
6.3. Khả Năng Xử Lý Phi Tuyến
Hệ thống thực tế thường phi tuyến mạnh. Tuyến tính hóa chỉ đúng quanh điểm làm việc. Deep learning xử lý phi tuyến tự nhiên. Mạng neural xấp xỉ hàm phi tuyến bất kỳ. Universal approximation theorem đảm bảo. Học các đặc trưng phi tuyến từ dữ liệu. Không cần thiết kế thủ công. Hiệu suất cao trên miền làm việc rộng.
Tải xuống file đầy đủ để xem toàn bộ nội dung
Tải đầy đủ (92 trang)Từ khóa và chủ đề nghiên cứu
Câu hỏi thường gặp
Luận án tiến sĩ nghiên cứu điều khiển học tăng cường cho xe hai bánh tự cân bằng. Đề xuất phương pháp điều khiển thích nghi bền vững xử lý bất định và nhiễu hiệu quả.
Luận án này được bảo vệ tại Đại học Bách khoa Hà Nội. Năm bảo vệ: 2024.
Luận án "Điều khiển học tăng cường cho xe hai bánh tự cân bằng" thuộc chuyên ngành Kỹ thuật điều khiển và tự động hóa. Danh mục: Tự Động Hóa.
Luận án "Điều khiển học tăng cường cho xe hai bánh tự cân bằng" có 92 trang. Bạn có thể xem trước một phần tài liệu ngay trên trang web trước khi tải về.
Để tải luận án về máy, bạn nhấn nút "Tải xuống ngay" trên trang này, sau đó hoàn tất thanh toán phí lưu trữ. File sẽ được tải xuống ngay sau khi thanh toán thành công. Hỗ trợ qua Zalo: 0559 297 239.