Điều khiển hệ máy bay không người lái sử dụng học tăng cường

  • 52 trang
  • file .pdf
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƢỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Điều khiển hệ máy bay không ngƣời lái
sử dụng học tăng cƣờng
ĐOÀN ANH ĐỨC
[email protected]
Ngành Kỹ thuật điều khiển và tự động hóa
Giảng viên hƣớng dẫn: PGS. TS. Nguyễn Hoài Nam
Chữ ký của GVHD
Trƣờng: Điện - Điện tử
Khoa: Tự động hoá
HÀ NỘI, 11/2022
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN
THẠC SĨ
Họ và tên tác giả luận văn: Đoàn Anh Đức
Đề tài luận văn: Điều khiển hệ máy bay không người lái sử dụng học
tăng cường
Chuyên ngành: Kỹ thuật điều khiển và tự động hóa
Mã số SV: 20202304M
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận
tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày
03/11/2022 với các nội dung sau:
- Chỉnh sửa các lỗi chính tả.
- Bổ xung năm công bố cho một số tài liệu tham chiếu.
- Bổ xung một số chú thích trong chương trình mô phỏng.
Ngày 10 tháng 11 năm 2022
Giáo viên hƣớng dẫn Tác giả luận văn
CHỦ TỊCH HỘI ĐỒNG
ii
Lời cảm ơn
Lời đầu tiên em xin chân thành cảm ơn đến Ban Giám hiệu Trường Đại học
Bách khoa Hà Nội, Trường Điện - Điện tử, Khoa Tự động hoá đã tạo điều kiện
cho em được học tập và nghiên cứu.
Đặc biệt, em xin bày tỏ lòng biết ơn sâu sắc nhất tới thầy Nguyễn Hoài
Nam đã hướng dẫn và hỗ trợ em trong quá trình thực hiện luận văn.
Tóm tắt nội dung luận văn
Các phương tiện bay không người lái nói chung có nhiều ứng dụng thực tế
trong nhiều lĩnh vực như quân sự, nghiên cứu khoa học, công nghiệp, nông
nghiệp, dịch vụ, ... Trong đó, quadrotor nói riêng có nhiều ưu điểm như độ cơ
động cao, có thể triển khai quy mô lớn làm cho nó phù hợp với những ứng dụng
như giám sát, quay phim, tìm kiến cứu nạn,... Trong luận văn này, tác giả lựa
chọn quadrotor làm đối tượng nghiên cứu; thiết kế bộ điều khiển sử dụng thuật
toán học tăng cường Data-Driven và so sánh kết quả thiết kế với bộ điều khiển
PID. Chương trình mô phỏng điều khiển đối tượng được thực hiện trên phần
mềm Matlab-Simulink.
Kết quả mô phỏng thiết kế bộ điều khiển sử dụng thuật toán học tăng cường
Data-Driven cho thấy đối tượng quadrotor bám tốt giá trị đặt, đó là cơ sở để
nghiên cứu và áp dụng cho các dạng phương tiện bay không người lái khác trong
tương lai.
HỌC VIÊN
Ký và ghi rõ họ tên
iii
MỤC LỤC
CHƢƠNG 1. GIỚI THIỆU.................................................................................. 1
1.1 Tổng quan về hệ máy bay không người lái ................................................. 1
1.2 Một số phương pháp điều khiển máy bay không người lái ......................... 3
1.3 Kết luận chương 1........................................................................................ 5
CHƢƠNG 2. CƠ SỞ LÝ THUYẾT .................................................................... 6
2.1 Mô hình quadrotor ....................................................................................... 6
2.2 Học tăng cường .......................................................................................... 10
2.2.1 Tìm hiểu về học tăng cường ....................................................... 10
2.2.2 Một vài thuật toán học tăng cường với mô hình Markow.......... 11
2.2.3 Học tăng cường trong bài toán tối ưu......................................... 18
2.3 Thuật toán học tăng cường Data-Driven ................................................... 19
2.3.1 Thuật toán điều khiển vị trí ........................................................ 19
2.3.2 Thuật toán điều khiển trạng thái ................................................. 21
2.3.3 Phân tích tính ổn định................................................................. 24
2.4 Kết luận chương 2...................................................................................... 25
CHƢƠNG 3. MÔ PHỎNG ĐIỀU KHIỂN QUADROTOR ........................... 26
3.1 Đầu vào mô phỏng ..................................................................................... 26
3.2 Điều khiển quadrotor sử dụng thuật toán học tăng cường Data-Driven ... 26
3.3 Điều khiển quadrotor sử dụng bộ điều khiển PID ..................................... 28
3.4 So sánh kết quả thiết kế với hai bộ điều khiển .......................................... 32
3.5 Kết luận chương 3...................................................................................... 33
CHƢƠNG 4. KẾT LUẬN .................................................................................. 34
4.1 Kết luận ...................................................................................................... 34
4.2 Hướng nghiên cứu, phát triển tiếp theo ..................................................... 34
TÀI LIỆU THAM KHẢO.................................................................................. 35
PHỤ LỤC ............................................................................................................ 37
A1. Chương trình mô phỏng điều khiển vị trí sử dụng Data-Driven ............... 37
A2. Chương trình mô phỏng điều khiển góc trạng thái sử dụng Data-Driven ........ 40
iv
DANH MỤC HÌNH VẼ
Hình 1.1 Quadrotor ................................................................................................. 1
Hình 1.2 UAV cánh cố định ................................................................................... 1
Hình 1.3 UAV có cấu trúc lai ................................................................................. 2
Hình 1.4 UAV đập cánh ......................................................................................... 2
Hình 2.1 Các hệ tọa độ ........................................................................................... 6
Hình 2.2 Các góc Euler .......................................................................................... 6
Hình 2.3 Minh họa một vận động viên (tác nhân PG) ......................................... 16
Hình 2.4 Thuật toán Actor-Critic ......................................................................... 17
Hình 2.5 Cấu trúc thuật toán Actor-Critic ............................................................ 18
Hình 3.1 Điều khiển vị trí sử dụng thuật toán Data-Driven ................................. 26
Hình 3.2 Tín hiệu điều khiển vị trí sử dụng thuật toán Data-Driven ................... 27
Hình 3.3 Điều khiển trạng thái sử dụng thuật toán Data-Driven ......................... 27
Hình 3.4 Tín hiệu điều khiển trạng thái sử dụng thuật toán Data-Driven ............ 28
Hình 3.5 Cấu trúc điều khiển đối tượng sử dụng bộ điều khiển PID ................... 29
Hình 3.6 Điều khiển vị trí sử dụng bộ điều khiển PID ......................................... 30
Hình 3.7 Tín hiệu điều khiển vị trí sử dụng bộ điều khiển PID ........................... 31
Hình 3.8 Điều khiển trạng thái sử dụng bộ điều khiển PID ................................. 31
Hình 3.9 Tín hiệu điều khiển trạng thái sử dụng bộ điều khiển PID.................... 32
Hình 3.10 So sánh điều khiển vị trí giữa hai bộ điều khiển ................................. 32
Hình 3.11 So sánh điều khiển trạng thái giữa hai bộ điều khiển .......................... 33
v
DANH MỤC BẢNG BIỂU
Bảng 3.1 Các tham số đối tượng .......................................................................... 26
Bảng 3.2 Các tham số bộ điều khiển PID ............................................................. 30
vi
DANH MỤC TỪ VIẾT TẮT
UAV : Unmanned Aerial Vehicle - Phương tiện bay không người lái
UAS : Unmanned Aircraft System - Hệ thống máy bay không người lái
RL : Reinforcement Learning - Học tăng cường
MDP : Markov Decision Process - Quá trình Markov
DP : Dynamic Program - Quy hoạch động
ADP : Adaptive Dynamic Program - Quy hoạch động thích nghi
ARE : Algebraic Riccati Equation - Phương trình Riccati
HJB : Hamilton-Jacobi-Bellman
HJI : Hamilton-Jacobi-Isaacs
PG : Policy Gradient
AC : Actor-Critic
PE : Persistence of Excitation
PID : Proportional Integral Derivative
LQR : Linear Quadratic Regulator
CNF : Composite Nonlinear Feedback
MPC : Model Predictive Control
SISO : Single Input, Single Output
MIMO : Multi Inputs, Multi Outputs
vii
CHƢƠNG 1. GIỚI THIỆU
1.1 Tổng quan về hệ máy bay không ngƣời lái
UAV là phương tiện bay không có phi công trên buồng lái. UAV là bộ phận
cấu thành của một UAS, một hệ thống bao gồm UAV, kiểm soát viên mặt đất và
hệ thống liên lạc giữa UAV và kiểm soát viên. Các chuyến bay của UAV có thể
vận hành với các mức độ tự chủ khác nhau như điều khiển từ xa bởi một người
vận hành hay bay tự động bởi máy tính dựa vào một hệ thống tự động.
Các UAV có thể được chia làm ba dạng chính:
- UAV có nhiều cánh quạt: quadrotor, hexacopter, bicopter …
Hình 1.1 Quadrotor
- UAV cánh cố định.
Hình 1.2 UAV cánh cố định
1
- UAV có cấu trúc lai.
Hình 1.3 UAV có cấu trúc lai
Ngoài ra các dạng trên, UAV thiết kế lấy cảm hứng từ sinh học đã được
nghiên cứu, phát triển trong phòng thí nghiệm và có nhiều tiềm năng ứng dụng
trong thực tế.
Hình 1.4 UAV đập cánh
Đặc điểm của các dạng UAV trên:
- UAV có nhiều cánh quạt có khả năng bay cơ động nhất và bay đứng im tại
một vị trí cố định trong không gian.
- UAV cánh cố định có khả năng bay với vận tốc bay cao nhất do sử dụng
cánh cố định và hệ thống động lực.
- UAV có cấu trúc lai có cả hai ưu điểm của những loại UAV nêu trên là
khả năng bay nhanh cũng như khả năng cơ động, tuy nhiên khả năng cơ động của
nó không thể so được với UAV có nhiều cánh quạt.
UAV có ứng dụng vô cùng lớn trong cuộc sống, trải rộng trên nhiều lĩnh
vực. Ban đầu nó tham gia vào nhiệm vụ tốn kém hoặc nguy hiểm cho con người
là ứng dụng trong quân sự, sau đó được mở rộng nhanh chóng tới thương mại,
khoa học, giải trí, nông nghiệp… Các ứng dụng của nó là tác chiến, trinh sát, tình
báo, giám sát; hỗ trợ ngành báo chí, truyền thông; vận chuyển đồ cứu trợ, cứu
người; hỗ trợ tìm kiếm cứu nạn; giám sát động vật hoang dã; ứng dụng trong
nông nghiệp; kiểm tra cơ sở hạ tầng, khảo sát công trình xây dựng; dịch vụ trắc
địa, lập bản đồ, kiểm soát, phát triển tài nguyên đất đai; giao hàng; chụp ảnh,
quay phim giải trí từ trên không; tham gia tạo ra các tác phẩm nghệ thuật ... Một
số UAV trong ứng dụng của chúng:
- Ứng dụng trong dân sự:
+ Thu thập dữ liệu thời tiết: Aerosonde.
2
+ Nhiệm vụ viễn thám: Global Observer.
+ Giám sát phát hiện cháy rừng: Patroller.
+ Tìm kiếm cứu nạn, giám sát và tuần tra hàng hải: AR5 Life Ray.
+ Tìm kiếm cá trên biển: Fulmar X.
+ Giao thông (vận chuyển, taxi): SureFly.
+ Quay phim giải trí từ trên không; hỗ trợ ngành báo chí, truyền thông;
tham gia tạo ra các tác phẩm nghệ thuật; dịch vụ trắc địa: Mavic 3, Mini 3
Pro, Air 2S.
- Ứng dụng trong quân sự:
+ Tình báo, giám sát, thu thập mục tiêu và trinh sát: Aladin, Anka, Arrow
Lite, AR4 Light Ray Evolution, Bat, Bird Eye 400, Black Hornet,
Dominator XP, Falco Evo, Firebird, Hermes 90, Hermes 450, Harfang,
Hermes 900, Heron 1, Jump 20, Luna X-2000, MQ-8B Fire Scout, Orbiter
1/2/3, P.1HH Hammerhead, RQ-20B Puma AE, Ranger, RQ-4 Global
Hawk Block 40, RQ-7 Shadow, RQ-21a Blackjack, ScanEagle, Searcher,
Seeker, SD-150 Hero, Shahpar, Skylark I, Sperwer Mk.2, T-20, RQ-16 T-
Hawk, Wasp III, Watchkeeper, Zephyr-S.
+ Tình báo, giám sát, thu thập và trinh sát mục tiêu trên biển: AR3 Net Ray,
Apid one.
+ Thực hiện nhiệm vụ tác chiến: Aerostar, Apex, Bird Eye 650D, Cabure
III, Camcopter S-100, Fury, MQ-1 Predator, MQ-1C Gray Eagle, MQ-9
Reaper, Neuron, Predator C Avenger, Taranis, X-47B.
+ Xác định các mối đe dọa di động, cung cấp vị trí mục tiêu cho pháo binh,
kiểm soát hỏa lực: KZO, Vulture.
+ Hỗ trợ trong cuộc chiến chống khủng bố: Desert Hawk III.
Trong các UAV trên, quadrotor là một phương tiện bay không người lái có
ứng dụng hữu ích nhờ tính cơ động và khả năng bay đứng im tại một vị trí cố
định trong không gian. Do đó, tác giả lựa chọn quadrotor là đối tượng nghiên cứu
trong luận văn, sử dụng để thiết kế và mô phỏng bộ điều khiển.
1.2 Một số phƣơng pháp điều khiển máy bay không ngƣời lái
Có nhiều phương pháp điều khiển được nghiên cứu, phát triển và sử dụng
cho các UAV phụ thuộc vào tính chất, đặc tính đối tượng và nhiệm vụ bay khác
nhau. Một số phương pháp điều khiển đã được nghiên cứu, thử nghiệm thực tế cụ
thể như sau.
- Điều khiển PID: Bộ điều khiển PID được áp dụng để điều khiển SISO
tách kênh đối với trạng thái, vận tốc, vị trí và bay lơ
lửng với sai lệch 0,2 m [1].
Bộ điều khiển PID được áp dụng để điều khiển tách
kênh đối với trạng thái, vận tốc và vị trí. Bài thử
nghiệm bay theo quỹ đạo từ điểm đến điểm được
thực hiện để đánh giá hiệu quả của bộ điều khiển [2].
3
Hai bộ điều khiển PID điều khiển tách kênh mô hình
6-DOF bao gồm kênh dọc và kênh ngang [3].
Tuyến tính hóa mô hình và áp dụng bộ điều khiển
PID cho từng đối tượng [19].
- LQR (Điều Bộ điều khiển LQR được áp dụng để điều khiển
khiển tối ưu) quadrotor về vận tốc, vị trí với sự hỗ trợ của hệ
thống bắt bám trong nhà [4].
Bộ điều khiển LQR được áp dụng để điều khiển tách
kênh bao gồm kênh dọc và kênh ngang. Bài bay tự
động trên biển được thực hiện để chứng minh độ tin
cậy của hệ thống điều khiển bay [5].
- (Điều khiển Bộ điều khiển được thiết kế để điều khiển
bền vững) MIMO đan kênh về trạng thái, góc hướng và được
kiểm tra qua bay thử nghiệm với các bài bay hành
trình, bay lùi, bay sang ngang với vận tốc vừa phải
[6].
- μ-synthesis μ-synthesis điều khiển trạng thái cho UAV cánh cố
(Điều khiển bền định loại nhỏ, trong đó kết hợp với bộ điều khiển
vững) dẫn đường vòng ngoài PID. Thiết kế được đánh giá
trong bài thử nghiệm bay theo quỹ đạo từ điểm đến
điểm [7].
- Điều khiển Kỹ thuật điều khiển thích nghi được áp dụng để điều
thích nghi khiển vị trí. Việc lựa chọn điểm cực được sử dụng để
tách dải tần cho vòng trong và vòng ngoài. Bộ điều
khiển có khả năng xử lý mô mình động học chưa
chính xác và điều khiển bám chính xác vị trí đặt [8].
Cấu trúc điều khiển thích nghi mô hình mẫu được sử
dụng, trong đó, bộ điều khiển thích nghi bao gồm
vòng ổn định trạng thái và tăng tính logic dẫn đường.
Hệ thống điều khiển bay được thử nghiệm đối với
UAV cánh cố định [9].
- Backstepping Kỹ thuật Backstepping được áp dụng để điều khiển
ổn định trạng thái và bám vị trí. Bài bay thử nghiệm
theo quỹ đạo từ điểm đến điểm được thực hiện và
tính ổn định vòng kín đã được chứng minh [10].
- Điều khiển Bộ điều khiển CNF được áp dụng để điều khiển
CNF SISO tách kênh đối với vị trí và góc hướng [11].
- Gain scheduling Kỹ thuật Gain scheduling xử lý khi chuyển giữa các
bộ điều khiển PID được thiết kế cho các chế độ bay
khác nhau. Thực hiện thử nghiệm bay ở chế độ giữ
vị trí, độ cao sang chế độ bay tiến về phía trước [12].
- MPC Bộ điều khiển phi tuyến MPC điều khiển vị trí của
4
quadrotor bằng cách tối thiểu hóa hàm chi phí sử
dụng phương pháp gradient-descent. Thử nghiệm
bay bám vị trí được thực hiện để đánh giá tính khả
thi của thiết kế [13].
- Fuzzy logic Bộ điều khiển Fuzzy logic điều khiển tách kênh roll,
pitch, heading đối với mô hình UAV có một động cơ
và thử nghiệm bay hơn 300 lần để đảm bảo độ tin
cậy [14].
- Apprenticeship Thiết kế điều khiển cho UAV có một động cơ kết
learning hợp Apprenticeship learning và sử dụng mô hình 6-
(learning control) DOF. Apprenticeship learning cải tiến các tham số ở
các chế độ bay. Bộ điều khiển LQR được thiết kế và
thử nghiệm. Các chế độ bay được thử nghiệm thành
công [15].
- Feedback Thiết kế bộ điều khiển cho quadrotor. Thiết kế từng
linearization phần, trong đó kỹ thuật động học ngược được sử
dụng khi thiết kế bộ điều khiển [16]. Các bài thử
nghiệm bay với các chế độ khác nhau như bám trạng
thái, dẫn đường theo quỹ đạo từ điểm đến điểm được
thực hiện [18].
Kết hợp phép nghịch đảo và mạng nơ-ron đưa ra
nguyên lý điều khiển thích nghi, sau đó áp dụng trên
UAV cánh cố định. Bộ điều khiển được đánh giá sau
khi UAV bay thử nghiệm thực tế ở chế độ bay hành
trình sang chế độ giữ vị trí, độ cao và ngược lại [17].
1.3 Kết luận chƣơng 1
Chương 1 giới thiệu kiến thức tổng quan về hệ máy bay không người lái và
một số phương pháp điều khiển máy bay không người lái.
Hiện nay, có nhiều phương pháp điều khiển UAV đã được nghiên cứu, phát
triển và thử nghiệm thực tế. Trong các phương pháp đó, điều khiển UAV sử dụng
học tăng cường là một cách tiếp cận mới và theo xu hướng điều khiển thông
minh gần đây. Do đó, trong luận văn này, tác giả sẽ đi nghiên cứu điều khiển
UAV sử dụng học tăng cường, thiết kế bộ điều khiển và mô phỏng với một thuật
toán học tăng cường, cụ thể là thuật toán Data-Driven [21]. Kết quả thiết kế được
so sánh với bộ điều khiển PID [19]. UAV được chọn làm đối tượng nghiên cứu là
quadrotor.
Tiếp theo, ta sẽ xây dựng cơ sở lý thuyết về mô hình quadrotor, học tăng
cường và thuật toán học tăng cường Data-Driven được sử dụng để điều khiển
quadrotor.
5
CHƢƠNG 2. CƠ SỞ LÝ THUYẾT
2.1 Mô hình quadrotor
Trước khi xây dựng mô hình động học của quadrotor [19], ta định nghĩa hai
hệ tọa độ là hệ tọa độ quán tính gắn với mặt đất và hệ tọa độ gắn với vật thể. Các
hệ tọa độ được thể hiện tại Hình 2.1.
Hình 2.1 Các hệ tọa độ
Trong đó:
OXYZ {E} là hệ tọa độ quán tính với chiều dương của OX theo hướng
chuyển động của đối tượng, chiều dương của OZ hướng lên trên, OY tạo với OZ
và OX thành một tam diện thuận. Hệ tọa độ này được sử dụng để nghiên cứu
chuyển động tương đối giữa mặt đất và quadrotor.
oxyz {B} là hệ tọa độ gắn với vật thể với gốc tọa độ „o‟ đặt tại trọng tâm
quadrotor, chiều dương của ox hướng từ trọng tâm đến động cơ số 1, chiều
dương của oy hướng từ trọng tâm đến động cơ số 4, oz tạo với ox và oy thành
một tam diện thuận.
Hai hệ tọa độ trên quan hệ với nhau qua ma trận R.
Hình 2.2 Các góc Euler
6
Hình 2.2 mô tả các góc Euler tương ứng với các ma trận xoay
từ hệ tọa độ gắn với vật thể sang hệ tọa độ quán tính và ma trận R là
ma trận tổng hợp từ ba ma trận đó.
( ) (1)
( ) (2)
( ) (3)
[ ] (4)
Để xây dựng mô hình động học của quadrotor, không mất tính tổng quát, ta
giả thiết:
 Đối tượng có thân đối xứng.
 Gốc của hệ tọa độ quán tính gắn với đối tượng trùng với tâm hình học và
trọng tâm.
 Lực cản và trọng lực không ảnh hưởng đến trạng thái bay và các yếu tố
khác.
 Ứng lực theo các hướng tỷ lệ với bình phương tốc độ quay của cánh
quạt.
Theo các trục tọa độ của quadrotor, ta định nghĩa là thành phần
của ⃗ ; là thành phần của ⃗⃗.
Trên Hình 2.1 ta có:
Trọng lực
Lực cản
Lực nâng của từng động cơ
Định luật II Newton và phương trình động học của quadrotor như sau:
⃗⃗
⃗ (5)
⃗⃗
⃗⃗⃗ (6)
Trong đó ⃗ là ngoại lực tác dụng lên quadrotor, m là khối lượng, ⃗⃗ là vận
tốc, ⃗⃗⃗ là mô-men tác dụng lên quadrotor, ⃗⃗ là mô-men động lượng.
Khai triển phương trình định luật II Newton:
7
̈ ̇ ∑ ̇
̈ ̇ ∑ ̇ (7)
̈ ̇ ∑ ̇
{
Các góc Euler và vận tốc góc của quadrotor quan hệ với nhau như sau:
̇
[ ] [ ] [ ̇] (8)
̇
̇
[ ̇] [ ][ ] (9)
̇
Giả thiết quadrotor đối xứng như trên, ma trận mô-men quán tính là ma trận
đường chéo:
[ ] (10)
Ta có:
⃗⃗
⃗⃗⃗ (11)
thì
̇
∑ [ ̇] (12)
̇
Mô-men theo các trục của quadrotor:
̇ ̇ ( )
[ ] [ ̇ ] (13)
̇ ̇ ( )
Sau khi đơn giản hóa, ta có:
̇
[ ̇] [ ] (14)
̇
Kết hợp các phương trình chuyển động thẳng và chuyển động quay ta được
hệ phương trình chuyển động của quadrotor:
8
̈ ̇ ∑ ̇
̈ ̇ ∑ ̇
̈ ̇ ∑ ̇
(15)
̇
̇
̇
̇
̇
{ ̇
Trong đó, là hệ số lực cản.
Định nghĩa là bốn kênh điều khiển động lập cho quadrotor:


[ ] [ ] (16)

[ ]
Trong đó điều khiển tốc độ theo phương đứng, điều khiển góc roll,
điều khiển góc pitch, điều khiển góc yaw, là tốc độ quay của động cơ,
là lực của động cơ.
Như vậy, mô hình của quadrotor trong trường hợp không có gió và bỏ qua
lực cản:
̈
̈
̈ (17)
̈ ̇ ̇
̈ ̇ ̇
9
̈ ̇ ̇
Với là khoảng cách từ trọng tâm của động cơ đến gốc tọa độ O.
2.2 Học tăng cƣờng
2.2.1 Tìm hiểu về học tăng cƣờng
RL là một nhánh trong các phương pháp học của học máy [20]. Khác với
phương pháp học có giám sát và không có giám sát thường sử dụng các tập dữ
liệu tĩnh thì học tăng cường làm việc với dữ liệu từ một môi trường động. Mục
tiêu của học tăng cường là tìm ra trình tự tốt nhất cho các hành động để đạt được
kết quả đầu ra tốt nhất. Để làm được điều này, học tăng cường sử dụng một thành
phần được gọi là tác nhân để khám phá, tương tác với môi trường và học từ môi
trường.
Bên trong mỗi tác nhân sẽ có một hàm gọi là chính sách để nhận các đầu
vào từ môi trường sau đó sẽ tính toán để đưa ra các hành động tương tác với môi
trường. Khi tương tác với môi trường, tác nhân sẽ nhận lại được một phần
thưởng (tương đương với định nghĩa hàm phạt trong điều khiển tối ưu). Nếu
hành động tốt sẽ được phần thưởng nhiều, hành động sai sẽ nhận phần thưởng ít
hoặc nhận điểm phạt. Căn cứ vào mức thưởng mà tác nhân sẽ rút ra được “kinh
nghiệm” cho các lần hoạt động sau.
Nếu ta thiết kế được một chính sách hoàn hảo để tạo ra những tác động
đúng ở mỗi trạng thái thì công việc thiết kế coi như hoàn thành. Nhưng điều này
không hề dễ dàng bởi vì cho dù có thể thiết kế được chính sách hoàn hảo rồi
nhưng môi trường bên ngoài thay đổi thì các phản ứng cũng sẽ khác đi. Do đó, để
có được chính sách tối ưu thì chính sách phải được thay đổi dựa vào hành động
đã thực hiện, phản hồi của môi trường và phần thưởng nhận được. Đây chính là
nguyên lý hoạt động của các thuật toán học tăng cường.
Trong điều khiển học tăng cường, mục tiêu và yêu cầu tương tự như với
điều khiển truyền thống, chỉ khác ở cách thức thực hiện. Với học tăng cường,
việc tạo ra tín hiệu điều khiển (hành động) phù hợp chỉ có thể có được sau một
quá trình học. Quá trình học này được thực hiện bởi máy tính thông qua việc
tương tác với môi trường mà không cần biết mô hình cụ thể của đối tượng và môi
trường. Do vậy, học tăng cường thường được áp dụng trong các hệ thống có mô
hình bất định hoặc có số lượng trạng thái và hành động lớn.
Như vậy, máy sẽ học thế nào? Câu trả lời là ở cách xây dựng chính sách.
Chính sách về bản chất là một hàm toán học được xây dựng dựa trên một thuật
toán và có các tham số có thể thay đổi được. Với mỗi chính sách được xây dựng,
sẽ có một tập các tham số làm cho hành động sinh ra là tối ưu. Nhiệm vụ của việc
“học” là thay đổi các tham số sẵn có một cách có hệ thống để hội tụ dần đến giá
trị tối ưu. Quá trình học được máy tính thực hiện thông qua các thuật toán, ví dụ
đơn giản như một quá trình thử và sai.
10
2.2.2 Một vài thuật toán học tăng cƣờng với mô hình Markow
a) Mô hình Markov
MDP cung cấp nền tảng cho nghiên cứu học tăng cường. Trước hết, ta bắt
đầu với quyết định tuần tự tối ưu, tức là các quyết định được đưa ra ở các trạng
thái của quá trình xuyên suốt theo thời gian. Tiếp theo bàn về quy hoạch động,
đây là công cụ để giải quyết các bài toán về việc ra quyết định tối ưu bằng cách
tính toán ngược từ trạng thái cuối đến trạng thái đầu. Quy hoạch động là một
phương pháp ngoại tuyến nên không thể áp dụng cho các ứng dụng yêu cầu trực
tuyến tuần tự xuôi theo thời gian. Cốt lõi của vấn đề này là phương trình
Bellman.
Xét MDP (X, U, P, R) trong đó X là tập các trạng thái và U là tập các hành
động hay điều khiển. P: X × U × X → [0,1] là xác suất để trạng thái x ∈ X dưới
tác động của u ∈ U chuyển đến trạng thái x’ ∈ X, { | } . R: X × U ×
X → R là phần thưởng mong đợi nhận được khi chuyển từ trạng thái x ∈ X đến
trạng thái x’ ∈ X dưới tác động của u ∈ U. Có thể thấy rằng xác suất chỉ phụ
thuộc vào trạng thái hiện tại x chứ không quan tâm đến việc làm thế nào MDP
đạt đến trạng thái đó.
Vấn đề cơ bản của MDP là tìm ra ánh xạ π: X × U → [0,1] cho biết xác suất
{ | } của việc chọn hành động u khi MDP đang ở trạng thái x. Một
ánh xạ như thế được coi như là một chiến lược hay chính sách điều khiển vòng
kín. Chiến lược { | } được gọi là ngẫu nhiên nếu xác suất để lựa
chọn nhiều hơn một hành động tại trạng thái x là lớn hơn 0. Nếu ánh xạ π: X × U
→ [0,1] chỉ cho phép một hành động với xác suất bằng 1 đối với bất kỳ trạng thái
x nào thì ánh xạ được gọi là tất định. Khi đó { | } tương ứng với
một hàm ánh xạ các trạng thái đến các hành động μ(x): X → U.
Các MDP với các trạng thái và hành động hữu hạn được gọi là các MDP
hữu hạn.
1 - Quyết định tuần tự tối ƣu
Các hệ thống động học thường là nhân quả theo thời gian. Ta xét các bài
toán ra quyết định tuần tự đang ở trạng thái k với các giá trị trạng thái và hành
động là xk, uk.
Định nghĩa một chi phí tại thời điểm k là . Như vậy,
với E{.} là toán tử giá trị mong muốn thì:
{ | } (18)
Định nghĩa chỉ số hiệu quả là tổng của các chi phí tương lai trong khoảng
thời gian [k, k+T]:
∑ ∑ (19)
Trong đó, là hệ số suy giảm làm giảm trọng lượng của các chi
phí phát sinh trong tương lai.
11
Giá trị của một chính sách được định nghĩa là giá trị mong muốn của các
chi phí tương lai khi bắt đầu từ trạng thái x ở thời điểm k và tuân theo chính sách
:
{ | } {∑ | } (20)
Trong đó, { } là giá trị mong muốn khi tác tử tuân theo chính sách
, còn được gọi là hàm giá trị cho hàm chính sách .
Nếu ta chỉ quan tâm đến các quá trình xác định và bỏ qua các quá trình
ngẫu nhiên thì hàm giá trị sẽ có dạng đơn giản như sau:
∑ | ∑ (21)
Nhiệm vụ chính của MDP là tính toán một chính sách để tối thiểu
chi phí tương lai mong muốn:
{∑ | } (22)
Chính sách này được gọi là chính sách tối ưu, tương ứng với chính sách tối
ưu này là hàm tối ưu:
{∑ | } (23)
2 - Dạng đệ quy của hàm giá trị
Hàm giá trị của chính sách có thể được viết như sau:
∑ ∑ (24)
Khi bỏ qua quá trình ngẫu nhiên:
(25)
Đây là dạng đệ quy lùi của hàm giá trị ở thời điểm k dựa vào giá trị ở thời
điểm k+1.
3 - Quy hoạch động
Hàm giá trị tối ưu có dạng như sau:
(26)
Quy tắc tối ưu Bellman chỉ ra rằng: “Một chính sách tối ưu có tính chất là các
tác động điều khiển tạo thành chính sách tối ưu đó chỉ liên quan đến trạng thái
nhận được từ tác động điều khiển trước đó mà không phụ thuộc vào bản thân tác
động điều khiển đó”. Với tính chất đó, hàm giá trị tối ưu được viết lại như sau:
(27)
12
Giả sử rằng một tác động điều khiển u bất kỳ được áp dụng ở thời điểm thứ
k và chính sách tối ưu được áp dụng từ thời điểm k+1 trở đi. Theo đó, quy tắc tối
ưu Bellman chỉ ra rằng chính sách điều khiển tối ưu ở thời điểm k sẽ là:
(28)
Giả sử rằng mỗi MDP có chính sách tối ưu tiền định thì ta có thể tối thiểu
hóa một cách tương đương tác động điều khiển u cho mọi trạng thái x. Do đó:
(29)
4- Phƣơng trình Bellman và phƣơng trình tối ƣu Bellman
Quy hoạch động là một kỹ thuật vòng ngược để tìm hàm và chính sách tối
ưu. Ngược lại, học tăng cường quan tâm đến việc tìm ra chính sách tối ưu dựa
vào kết quả thu được từ việc thực thi các quyết định một cách tuần tự để cải thiện
các tác động điều khiển thông qua các kết quả thu được từ chính sách hiện hành.
Chuỗi hành động này sử dụng các phương pháp để tìm hàm tối ưu và các chính
sách tối ưu. Gốc của vấn đề này là phương trình Bellman.
Với các phương pháp sử dụng kỹ thuật vòng xuôi để tìm các hàm tối ưu và
các chính sách tối ưu, ta coi thời gian T là vô cùng và định nghĩa chi phí vô cùng:
∑ ∑ (30)
Hàm giá trị vô cùng cho chính sách là:
{ | } {∑ | } (31)
Khi T = , hàm giá trị với chính sách thỏa mãn phương trình
Bellman:
∑ ∑ (32)
Hay:
(33)
Khi sử dụng phương trình Bellman trên trong học tăng cường, thành phần
được coi là đặc tính được dự báo, ∑ ∑ hay
là phần thưởng ước lượng của một bước, là giá trị ước lượng ở hiện tại
cho đáp ứng tương lai.
Nếu MDP là giới hạn với N trạng thái thì phương trình Bellman là một hệ
thống gồm N phương trình tuyến tính tức thời của hàm giá trị ứng với mỗi
trạng thái x và chính sách .
Hàm giá trị tối ưu thỏa mãn:
13