Phát hiện đối tượng chuyển động sử dụng camera toàn hướng

  • 70 trang
  • file .pdf
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Phát hiện đối tượng chuyển động
sử dụng camera toàn hướng
NGUYỄN ANH DUY
Ngành Kỹ thuật Y sinh
Giảng viên hướng dẫn: TS. Nguyễn Việt Dũng
Viện: Điện tử - Viễn thông
HÀ NỘI, 2021
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Phát hiện đối tượng chuyển động
sử dụng camera toàn hướng
NGUYỄN ANH DUY
Ngành Kỹ thuật Y sinh
Giảng viên hướng dẫn: TS. Nguyễn Việt Dũng
Chữ ký của GVHD
Viện: Điện tử - Viễn thông
HÀ NỘI, 2021
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lập – Tự do – Hạnh phúc
BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN THẠC SĨ
Họ và tên tác giả luận văn : Nguyễn Anh Duy
Đề tài luận văn: Phát hiện đối tượng chuyển động sử dụng camera
toàn hướng
Chuyên ngành: Kỹ thuật Y sinh
Mã số SV: CB180182
Tác giả, Người hướng dẫn khoa học và Hội đồng chấm luận văn xác nhận
tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày
22/4/2021 với các nội dung sau:
- Điều chỉnh lại vị trí một số mục trong luận văn cho phù hợp.
- Thống nhất lại tên và các cụm từ sử dụng trong luận văn
Ngày tháng năm 2021
Giáo viên hướng dẫn Tác giả luận văn
CHỦ TỊCH HỘI ĐỒNG
LỜI CẢM ƠN
Đầu tiên em xin gửi lời cảm ơn chân thành nhất đến quý thầy, cô Viện Điện
tử - Viễn thông, trường Đại Học Bách Khoa Hà Nội. Những người đã hết lòng dìu
dắt tận tình, đã truyền đạt cho em những kiến thức cũng như những kinh nghiệm
quý báu trong suốt thời gian em học tập ở trường.
Đặc biệt em cũng xin trân trọng cảm ơn Thầy giáo, TS. Nguyễn Việt Dũng,
Người đã tận tình chỉ bảo và hết lòng giúp đỡ em hoàn thành luận văn này.
Xin trận trọng cảm ơn!
Hà Nội, ngày tháng năm 2021
Tác giả
Nguyễn Anh Duy
MỤC LỤC
MỤC LỤC .............................................................................................................. i
DANH MỤC BẢNG ............................................................................................. ii
DANH MỤC HÌNH ẢNH ................................................................................... iii
CHƯƠNG 1. TỔNG QUAN ................................................................................ 1
1.1 Nhu cầu thực tiễn và lý do chọn đề tài ....................................................... 1
1.2 Chấn thương do ngã của người cao tuổi .................................................... 1
1.3 Hệ thống giám sát....................................................................................... 3
1.4 Các khái niệm cơ bản ................................................................................. 3
1.4.1. Camera toàn hướng so với camera truyền thống ............................ 3
1.4.2. Các giải pháp ngày càng phát triển ................................................ 4
1.4.3. Mắt cá so với đa cảm biến ............................................................... 5
CHƯƠNG 2. PHÂN TÍCH THIẾT KẾ HỆ THỐNG ..................................... 29
2.1 Các nghiên cứu liên quan ......................................................................... 29
2.2 Phương pháp đề xuất ................................................................................ 32
2.2.1. Phép biến đổi từ hệ tọa độ trục sang tọa độ decarte ..................... 34
2.2.2. Thuật toán xóa nền hình ảnh ......................................................... 35
2.2.3. Trích xuất đặc trưng ...................................................................... 39
2.2.4. Các phương pháp nhận dạng và phân loại hình ảnh .................... 39
CHƯƠNG 3. XÂY DỰNG GIẢI PHÁP THỰC HIỆN .................................. 42
3.1 Kịch bản thử nghiệm ................................................................................ 42
3.2 Các công cụ sử dụng ................................................................................ 43
3.3 Kết quả và nhận xét .................................................................................. 43
3.3.1. Xóa nền hình ảnh ........................................................................... 43
3.3.2. Nhận dạng và phân loại ................................................................. 53
TÀI LIỆU THAM KHẢO ................................................................................. 61
i
DANH MỤC BẢNG
Bảng 3. 1. Dải thông số đề xuất cho phương pháp xóa nền hình ảnh ................. 47
Bảng 3. 2. Kết quả của mục tiêu đi bộ sử dụng các phương pháp xóa nền khác nhau
.............................................................................................................................. 48
Bảng 3. 3. Kết quả của mục tiêu ngồi với camera treo tường sử dụng các phương
pháp xóa nền khác nhau ....................................................................................... 49
Bảng 3. 4. Kết quả của mục tiêu ngất xỉu với camera treo tường sử dụng các
phương pháp xóa nền khác nhau.......................................................................... 50
Bảng 3. 5. Kết quả của 02 mục tiêu có hình ảnh chồng lên nhau với camera treo
trần sử dụng các phương pháp xóa nền khác nhau .............................................. 51
Bảng 3. 6. Độ chính xác của nhận dạng............................................................... 60
ii
DANH MỤC HÌNH ẢNH
Hình 1.1. Biểu đồ số ca cấp cứu............................................................................. 2
Hình 1.2. Cảm biến hình ảnh đơn .......................................................................... 7
Hình 1.3. a) Camera toàn hướng được phát triển bởi Giáo sư Shree K. Nyar b)
Camera thông thường với gương hyperbol c) Ống kính O-360 d) ODVS từ đại học
Wakayama .............................................................................................................. 9
Hình 1.4. a) Hệ thống trực giao b) Hệ thống phối cảnh ....................................... 12
Hình 1.5. So sánh các loại hình chiếu khác nhau a) dọc; b) ngang; c) góc ......... 16
Hình 1.6. a) Mô tả chuẩn bị hệ thống với camera thông thường và giá giữ gương
b) vị trí cài đặt thấu kính và camera ..................................................................... 17
Hình 1.7. Hệ quy chiếu không gian của vật thể và hệ quy chiếu mặt phẳng hình
ảnh ........................................................................................................................ 20
Hình 1.8. Điểm chính ........................................................................................... 20
Hình 1.9. Mô hình ảnh của camera toàn cảnh trung tâm với gương hypebol ...... 23
Hình 1.10. Trường dọc của vùng nhìn ................................................................. 24
Hình 1.11. Góc chiếu của tia đi qua tâm gương................................................... 26
Hình 1.12. Mô hình ảnh của hệ thống catadioptric không tâm ............................ 27
Hình 2.1. Sơ đồ khối thuật toán xử lý hình ảnh hệ thống “Fallert” ..................... 29
Hình 2.2. Sơ đồ khối phương pháp đào tạo. a) nhận dạng người. b) nhận dạng sự
cố ngã ................................................................................................................... 31
Hình 2.3 Sơ đồ khối phương pháp đề xuất........................................................... 32
Hình 2.4. Sơ đồ khối thể hiện các bước xử lý hình ảnh thu được ........................ 33
Hình 2.5: Biến đổi tháo cuộn tròn đơn giản ......................................................... 34
Hình 3.1. Sơ đồ bố trí phòng dàn dựng kịch bản ................................................. 42
Hình 3.2: Kết quả sau khi chuyển đổi không gian màu và sử dụng làm mờ Gaussian
(Gaussian Blur). a) Hình ảnh ban đầu b) Chuyển đổi sang hệ màu xám c) Sau khi
sử dụng Guassian Blur ......................................................................................... 43
Hình 3.3: Hình ảnh sau khi xóa nền (ảnh ban đầu – sử dụng GMG – MOG – MOG2
– KNN .................................................................................................................. 44
Hình 3.4: Hình ảnh sau khi loại bỏ bóng. a) Ảnh ban đầu. b) Ảnh trước khi loại bỏ
bóng. c) Sau khi loại bỏ bóng............................................................................... 44
Hình 3.5: Sơ đồ khối các bước xử lý xóa nền ...................................................... 45
iii
Hình 3.6. Giá trị tham số history: trái: history = 100, giữa: history = 300, phải:
history = 500 ........................................................................................................ 46
Hình 3.7. Hình dạng kernel: a) vuông, b) chữ thập, c) elip. ................................ 46
Hình 3.8. Kích thước kernel: a) 1 x 1, b) 5 x 5, c) 11 x 11. ................................. 46
Hình 3.9. a) Iterations = 1, b) Iterations = 5. ....................................................... 47
Hình 3.10. Tham số ngưỡng bóng: a) ảnh chưa lọc ngưỡng, b) ngưỡng = 200, c)
ngưỡng = 100 ....................................................................................................... 47
Hình 3.11. Kết quả của các kịch bản sử dụng các phương pháp xóa nền GMG -
MOG - MOG2 - KNN.......................................................................................... 48
Hình 3.12. Ảnh dewrap ........................................................................................ 53
Hình 3.13. R = 70 ................................................................................................. 54
Hình 3.14. R = 50 ................................................................................................. 54
Hình 3.15. R = 90 ................................................................................................. 54
Hình 3.16. Ví dụ về đường viền và sự chia khung hình để xử lý dựa trên bán kính
R ........................................................................................................................... 55
Hình 3.17. Xử lý trong vùng Panorama ............................................................... 55
Hình 3.18. Xử lý trong vùng Fisheyes ................................................................. 55
Hình 3.19. Đối tượng được phát hiện: vùng ngoài (ảnh trái), vùng trong (ảnh phải)
của camera toàn hướng ........................................................................................ 56
Hình 3.20. Đường viền (ảnh trái), Đường kẻ phù hợp với đường viền (ảnh giữa),
Đường viền bị xoay (ảnh phải) ............................................................................ 56
Hình 3.21. Nhận dạng đối tượng bị ngã............................................................... 57
Hình 3.22. Nhận dạng đối tượng đang ngồi......................................................... 57
Hình 3.23. Nhận dạng đối tượng đang đứng........................................................ 58
Hình 3.24. Không nhận dạng được đối tượng ..................................................... 58
Hình 3.25. Nhận dạng đối tượng đang rửa tay thành đứng ................................. 59
Hình 3.26. Nhận dạng đối tượng đang mở cửa thành đang ngồi ......................... 59
iv
CHƯƠNG 1. TỔNG QUAN
1.1 Nhu cầu thực tiễn và lý do chọn đề tài
Sự cải thiện của việc chăm sóc sức khỏe trong những thập kỷ qua đã
dẫn đến tỷ lệ tử vong thấp hơn và sống lâu hơn, nhiều người có tuổi thọ dài
hơn 100 năm. Tuy nhiên, dân số già đòi hỏi nhiều điều chỉnh cả về kinh tế
và xã hội, đặc biệt là trong lĩnh vực lao động, lương hưu và các viện chăm
sóc sức khỏe. Sự tăng trưởng dự kiến của người cao tuổi sẽ dẫn đến tỷ lệ số
người cao tuổi nhiều hơn người trẻ tuổi, cùng với đó, chi phí chăm sóc sức
khỏe tăng cao, nhưng với số lượng người trẻ tuổi giảm, nhân viên điều dưỡng
giảm, nhiều người cao tuổi sẽ không được chăm sóc sức khỏe đầy đủ. Việc
này dẫn đến xu hướng mới khi dịch vụ chăm sóc người cao tuổi được chuyển
từ các viện chăm sóc sức khỏe tập trung (viện dưỡng lão) sang chăm sóc sức
khỏe tại nhà. Bên cạnh những lợi ích về tài chính, người cao tuổi cũng duy
trì sự độc lập của họ, cho phép họ sống trong môi trường gia đình của chính
họ. Để đáp ứng sự chuyển dịch này cần có các hệ thống công nghệ mới có
thể cung cấp thông tin cần thiết cho việc chăm sóc sức khỏe đầy đủ. Các hệ
thống giám sát như vậy sẽ cải thiện chất lượng cuộc sống cho người cao tuổi
và trì hoãn thời điểm chuyển sang các cơ sở đắt tiền.
1.2 Chấn thương do ngã của người cao tuổi
Một vấn đề phổ biến trên toàn thế giới, sẽ gia tăng do dân số già, là
chấn thương do ngã của người cao tuổi. Khoảng 30% những người từ 65 tuổi
trở lên sống trong cộng đồng và hơn 50% những người sống trong các cơ sở
chăm sóc nội trú hoặc viện dưỡng lão bị ngã hàng năm, và khoảng một nửa
số người rơi vào tình trạng như vậy nhiều lần [1]. Mặc dù không phải tất cả
các cú ngã đều dẫn đến chấn thương, nhưng khoảng 20% cần được chăm sóc
y tế, 5% dẫn đến gãy xương và các chấn thương nghiêm trọng khác, chẳng
hạn như chấn thương nặng ở đầu, biến dạng khớp và trật khớp, phát sinh các
vết bầm tím, va chạm và rách mô mềm trong 5–10% số ca phát sinh. Tỷ lệ
phần trăm này có thể tăng hơn gấp đôi đối với phụ nữ từ 75 tuổi trở lên (xem
Hình 1.1) [2] Chấn thương là nguyên nhân gây tử vong đứng hàng thứ năm
ở người cao tuổi, và hầu hết các chấn thương gây tử vong này đều liên quan
đến ngã. Ngã chiếm hơn 80% số ca nhập viện liên quan đến chấn thương của
1
những người trên 65 tuổi. Một cú ngã và chấn thương liên quan, hoặc thậm
chí là nỗi sợ hãi về hậu quả của chúng, chẳng hạn như không còn khả năng
tiếp xúc xã hội, mất tính độc lập và tự tin, cần đưa vào cơ sở chăm sóc dài
hạn, có thể gây ra trầm cảm và lo lắng nghiêm trọng.
Hình 1.1. Biểu đồ số ca cấp cứu
Các yếu tố rủi ro
Gần một nửa số vụ té ngã của người cao tuổi diễn ra trong nhà của họ.
Có rất nhiều yếu tố khác nhau làm tăng khả năng xảy ra sự cố. Do lực cơ và
tốc độ di chuyển giảm dần nên việc giữ thăng bằng cho cơ thể sẽ khó hơn.
Bên cạnh đó, thời gian phản ứng giảm khiến người cao tuổi không thể phán
đoán kịp thời các tình huống nguy hiểm. Hầu hết người cao tuổi ngã do vấp
hoặc va chạm vào đồ vật. Các yếu tố rủi ro có thể được chia thành các yếu
tố bên trong và bên ngoài.
Các yếu tố rủi ro nội sinh:
+ Sinh lý
+ Thần kinh
+ Bệnh lý
Các yếu tố rủi ro ngoại sinh:
2
+ Môi trường sống của ngôi nhà
+ Phong cách sống
+ Phòng công cộng
+ Phản ứng bất lợi với thuốc
1.3 Hệ thống giám sát
Nhiều cơ sở chăm sóc gia đình và chăm sóc đã triển khai các loại hệ
thống báo động khác nhau. Các cảnh báo thường được sử dụng nhất là các
nút áp suất có thể đeo và dây kéo được gắn vào sẽ báo động cho người chăm
sóc khi được kích hoạt. Tuy nhiên, những thiết bị này yêu cầu người cao tuổi
kích hoạt bằng tay, điều này trong một số trường hợp là không thể. Các hệ
thống tiên tiến hơn được thiết kế để tự động nhận ra các tình huống báo động.
Ưu điểm chính của các hệ thống như vậy là chúng không cần người dùng
kích hoạt báo động, khi tình huống báo động xảy ra. Những hệ thống này sẽ
bảo vệ người cao tuổi và có thể giúp đỡ khi cần thiết. Khi sử dụng hệ thống
giám sát tích cực, người ta cũng có thể áp dụng chăm sóc phòng ngừa cho
người cao tuổi. Người cao tuổi được theo dõi và cảnh báo khi có hành động
nguy hiểm hoặc bất thường. Luận án này chủ yếu tập trung vào việc xử lý
hình ảnh tín hiệu sau khi thu nhận được từ camera giám sát
1.4 Các khái niệm cơ bản
So sánh camera toàn hướng và camera thông thường
Cách đây vài năm, camera toàn hướng là một điều mới lạ. Tuy nhiên,
ngày nay, công nghệ này đã có bước nhảy vọt trở thành xu hướng chủ đạo.
Camera 360 độ đại diện cho một trong những lĩnh vực phát triển mạnh nhất
trong công nghệ giám sát, với lượng xuất xưởng toàn cầu theo dự báo của
IHS sẽ tăng hơn 60% so với cùng kỳ năm ngoái.
1.4.1. Camera toàn hướng so với camera truyền thống
Cả hai camera giám sát 360 và 180 độ đều cung cấp tầm nhìn toàn
cảnh, giúp giảm số lượng camera trường quan sát hẹp truyền thống cần thiết
trong một lần lắp đặt. Camera toàn hướng cũng có thể được sử dụng kết hợp
với camera PTZ hoặc thay thế chúng hoàn toàn tùy thuộc vào ứng dụng. Điều
này không chỉ giúp nâng cao nhận thức về tình huống mà còn giảm chi phí
tổng thể của camera, lắp đặt và bảo trì.
3
So với camera PTZ, camera toàn hướng có lợi thế là có thể xoay,
nghiêng và phóng to xung quanh trong cả video trực tiếp, cũng như video
được lưu trữ, có nghĩa là người vận hành có thể xác định chính xác các vấn
đề trong thời gian thực, đảm bảo các sự cố có thể được giải quyết nhanh
chóng và hiệu quả, đồng thời quay lại video 360 độ đã lưu trữ để tiến hành
điều tra.
Tùy chọn phủ sóng 180 và 360 độ từ một camera đơn được phân phối
qua ống kính chuyên dụng trên một cảm biến hoặc camera tích hợp nhiều
cảm biến với các ống kính thông thường được căn chỉnh để cung cấp phạm
vi bao phủ góc siêu rộng. Camera một ống kính hoặc “mắt cá” sử dụng một
ống kính chuyên dụng gọi là ống kính mắt cá, khi so sánh với ống kính thông
thường, sử dụng các kỹ thuật thiết kế quang học khác nhau có thể dẫn đến
sự biến dạng của hình ảnh đã chụp khi xem ngoài trường ngang 90 độ -của
tầm nhìn. Với điều này, "sự biến dạng thùng" có thể xảy ra, khi một hình ảnh
tròn được tạo ra và một đường thẳng trong hình ảnh đã chụp có vẻ cong.
Phần mềm ‘Dewarping’ phải được sử dụng để điều chỉnh ảo ảnh quang học
này.
Do đặc điểm riêng của thiết kế ống kính trong camera mắt cá 180 và
360 độ, hình bầu dục hoặc hình tròn được tạo ra. Vì cảm biến hình ảnh được
sử dụng trong camera giám sát là hình vuông hoặc hình chữ nhật, một số bộ
phận của cảm biến không được sử dụng.
1.4.2. Các giải pháp ngày càng phát triển
Khi công nghệ của những loại camera này tiếp tục được cải thiện,
chúng ngày càng trở nên có giá cả phải chăng hơn đối với một phân khúc
rộng lớn hơn của thị trường giám sát video. Tương tự, độ phân giải cao hơn
và dung lượng lưu trữ phù hợp hơn cho dữ liệu video giúp giá cả phải chăng
hơn để có được mức độ phủ sóng và chi tiết tăng cùng một lúc.
Như đã đề cập trước đây, việc tiết kiệm chi phí cũng có thể được thực
hiện khi một camera 360 độ duy nhất thay thế ba đến bốn camera cố định,
kết quả có thể được tái tạo ở các khu vực hoặc phòng ban khác trong tổ chức
để giúp tiết kiệm thêm chi phí.
4
1.4.3. Mắt cá so với đa cảm biến
Camera mắt cá và camera đa cảm biến đều tạo ra hình ảnh toàn cảnh,
nhưng theo cách khác nhau. Camera mắt cá ghi lại toàn bộ cảnh trong một
chế độ xem duy nhất mà không cần phải ghép ảnh, do đó chế độ xem đầy đủ
của cảnh quay video đã chụp có độ sáng, độ sắc nét và độ tương phản nhất
quán trên toàn bộ cảnh. Camera mắt cá cũng mang lại một số lợi ích khác:
độ tin cậy cao hơn do bố trí một cảm biến, camera và ống kính duy nhất;
không có điểm mù; tiêu điểm cố định, giúp cài đặt nhanh hơn; chi phí thấp
hơn; và một hệ số hình thức nhỏ hơn, ít gây khó chịu hơn. Ngoài ra, việc làm
cong hình ảnh được thực hiện trong hệ thống quản lý video hoặc máy ghi
video mạng, cho phép tốc độ khung hình cao hơn ở bất kỳ băng thông nhất
định nào. Tuy nhiên, camera mắt cá có thể có ít điểm ảnh hơn trên mỗi foot,
tùy thuộc vào tổng độ phân giải và các loại camera này yêu cầu làm mờ phía
máy khách để đạt được đầy đủ lợi ích của việc điều chỉnh hình ảnh hồi cứu
- nghĩa là làm mờ video được lưu trữ để kiểm tra.
Mặt khác, camera đa cảm biến có thể cung cấp tổng độ phân giải cao
hơn tùy thuộc vào độ phân giải riêng của từng cảm biến trong máy ảnh. Ở
đây, không bắt buộc phải làm cong vì mỗi cảm biến về bản chất là một
camera trường nhìn hẹp. Tuy nhiên, camera đa cảm biến có nhiều cảm biến,
điều này có thể dẫn đến chi phí bảo trì tổng thể cao hơn và với bốn camera
trở lên cần thiết để bao phủ một khu vực cụ thể, sẽ tăng nguy cơ một hoặc
nhiều cảm biến có thể hoạt động sai - về bản chất, độ tin cậy thấp hơn. Việc
lắp đặt camera đa cảm biến cũng phức tạp hơn và tốn nhiều thời gian hơn.
Ngoài ra, bản thân các đơn vị có thể lớn và cồng kềnh, và phức tạp để vận
hành và quản lý - mỗi chế độ xem phải được ghép lại với nhau, có nghĩa là
hình ảnh được chụp phải được hiệu chỉnh cẩn thận với độ sáng, màu sắc, độ
tương phản và độ sắc nét chính xác để hình ảnh được rõ ràng và liền mạch
khi nó cần cho mục đích xem và làm bằng chứng.
Hiển thị và thu nhận hình ảnh
Hình ảnh kỹ thuật số là một tín hiệu rời rạc hai chiều (2D). Về mặt
toán học, các tín hiệu như vậy có thể được biểu diễn dưới dạng hàm của hai
biến độc lập - ví dụ, hàm độ sáng của hai biến không gian. Hình ảnh kỹ thuật
số đơn sắc f(x,y) là một dãy các giá trị độ chói 2D. Mỗi phần tử của mảng
được gọi là một pel (phần tử ảnh), hay phổ biến hơn là một điểm ảnh. Hình
5
ảnh kỹ thuật số màu thường được biểu thị bằng bộ ba giá trị, một giá trị cho
mỗi kênh màu, như trong bảng màu RGB thường được sử dụng. Các giá trị
màu riêng lẻ hầu như là giá trị 8 bit, dẫn đến tổng cộng 3 byte (hoặc 24 bit)
trên mỗi điểm ảnh. Điều này làm tăng gấp ba lần yêu cầu lưu trữ cho hình
ảnh màu so với đơn sắc. Đương nhiên, có một số phương pháp thay thế để
lưu trữ dữ liệu hình ảnh. Được sử dụng rộng rãi nhất là cái gọi là định dạng
điểm ảnh xen kẽ (hoặc lưới) và xen kẽ màu (hoặc phẳng). Phương pháp xen
kẽ theo hàng hoặc theo cột ít được sử dụng hơn. Ở định dạng xen kẽ điểm
ảnh, mỗi điểm ảnh hình ảnh được biểu diễn bằng danh sách ba giá trị.
Các cảm biến hình ảnh đóng vai trò quan trọng trong việc thu nhận
hình ảnh. Cấu tạo và hoạt động của mắt rất giống với camera điện tử, thường
được sử dụng để thu hình ảnh trong thế giới thực. Cả hai đều dựa trên hai
thành phần chính: cụm ống kính và cảm biến hình ảnh. Cụm ống kính thu
nhận một phần ánh sáng phát ra từ một vật thể và tập trung nó vào cảm biến
hình ảnh. Sau đó, cảm biến hình ảnh chuyển dạng ánh sáng thành tín hiệu
video, điện tử hoặc thần kinh. Thuật ngữ tiêu điểm có nghĩa là có một đối
sánh một của mọi điểm trên đối tượng với một điểm tương ứng trên màn
hình. Ví dụ, hãy xem xét một vùng 1mm trên đối tượng. Trong ánh sáng rực
rỡ, có khoảng 100 nghìn tỷ photon ánh sáng chiếu vào khu vực một milimét
vuông mỗi giây. Tùy thuộc vào các đặc điểm của bề mặt, từ 1 đến 99 phần
trăm các photon ánh sáng tới sẽ bị phản xạ theo các hướng ngẫu nhiên. Chỉ
một phần nhỏ các photon phản xạ sẽ đi qua thấu kính. Ví dụ, chỉ khoảng một
phần triệu ánh sáng phản xạ sẽ đi qua một thấu kính có đường kính một cm
nằm cách vật thể 3 mét.
Sự khúc xạ trong thấu kính thay đổi hướng của các photon riêng lẻ,
tùy thuộc vào vị trí và góc mà chúng chạm vào mặt phân cách thủy tinh /
không khí. Những thay đổi hướng này làm cho ánh sáng mở rộng từ một
điểm để trở lại một điểm trên màn hình chiếu. Tất cả các photon phản xạ từ
vật thể và đi qua thấu kính được đưa trở lại "vật thể" trong ảnh được chiếu.
Theo cách tương tự, một phần ánh sáng đến từ bất kỳ điểm nào trên vật thể
sẽ đi qua thấu kính và được hội tụ đến một điểm tương ứng trong hình ảnh
được chiếu.
Cảm biến hình ảnh phổ biến nhất được sử dụng trong camera điện tử
là thiết bị ghép nối điện tích (CCD). CCD là một mạch tích hợp thay thế hầu
6
hết các camera ống chân không trong những năm 1980, giống như các bóng
bán dẫn đã thay thế các bộ khuếch đại ống chân không hai mươi năm trước.
Trái tim của CCD là một tấm mỏng silicon, thường khoảng 1cm hình vuông.
Tuy nhiên, cảm biến hình ảnh CMOS mới hứa hẹn cuối cùng sẽ trở thành
cảm biến hình ảnh được lựa chọn. Cả hai cảm biến hình ảnh CCD và CMOS
đều thu ánh sáng trên một lưới các điểm ảnh nhỏ trên bề mặt của chúng.
Hình 1.2. Cảm biến hình ảnh đơn
Đầu ra của hầu hết các cảm biến là tín hiệu điện liên tục có biên độ và
hành vi không gian liên quan đến hiện tượng vật lý được cảm nhận. Để tạo
một hình ảnh kỹ thuật số, chúng ta cần chuyển đổi dữ liệu cảm nhận liên tục
sang dạng kỹ thuật số. Điều này liên quan đến hai quá trình: lấy mẫu và lượng
tử hóa. Một hình ảnh có thể liên tục đối với các tọa độ x và y- và cả theo biên
độ. Để chuyển nó sang dạng số, chúng ta phải lấy mẫu hàm theo cả tọa độ
và biên độ. Số hóa các giá trị tọa độ được gọi là lấy mẫu. Số hóa các giá trị
biên độ được gọi là lượng tử hóa. Kết quả của việc lấy mẫu và lượng tử hóa
là một ma trận các số thực. Mỗi phần tử của mảng ma trận này được gọi là
phần tử ảnh, phần tử ảnh hoặc điểm ảnh như đã nêu ở trên.
Cảm biến hình ảnh đen trắng và camera chỉ có thể làm điều này đối
với cảm giác độ sáng; nhận thức rất phong phú về màu sắc đòi hỏi thông tin
bổ sung. Để có hiệu suất tốt nhất, camera màu được chế tạo bằng cách cung
cấp quang học tách chùm tia đặc biệt và bằng cách bố trí ba cảm biến hình
ảnh đen trắng để chúng nhìn thấy một phần giống hệt nhau của một cảnh.
Mỗi cảm biến hình ảnh được bao phủ bởi bộ lọc màu riêng, như vừa mô tả
và ba cảm biến hình ảnh cùng nhau thu thập thông tin đo màu đầy đủ về một
cảnh. Camera màu ba chip như vậy được sử dụng trong camera chuyên
nghiệp và studio. Chúng khá đắt. Vì những lý do này, rất mong muốn nhận
7
ra một camera màu chỉ có một cảm biến hình ảnh đen trắng duy nhất và một
mẫu bộ lọc màu riêng lẻ từng điểm ảnh phù hợp. Trong số các bộ lọc được
sử dụng nhiều nhất thuộc về bộ lọc màu khảm 2-D hoặc mẫu Bayer. Loại
cảm biến hình ảnh này chủ yếu được sử dụng ngày nay.
Cảm biến toàn cảnh
Một loạt các hệ thống toàn hướng đã được phát triển cho các mục đích
điều hướng robot di động, giám sát hình ảnh hoặc tham khảo từ xa. Các hệ
thống được trình bày bao gồm camera và gương cầu lồi trên các loại giá đỡ
khác nhau. Cảm biến toàn cảnh được hiểu là cảm biến có trường nhìn rất lớn.
Những cảm biến mới này giới thiệu khả năng thú vị mới trong việc tạo ra các
hình ảnh đại diện môi trường lớn hơn nhiều so với những gì có thể có với
các camera tiêu chuẩn.
Phòng thí nghiệm Thị giác Máy tính của Khoa Khoa học Máy tính tại
Đại học Columbia do Giáo sư Shree K. Nayar đứng đầu đã phát triển
OMNICAMERA [Hình. 1.3a]. Hệ thống quang học của cảm biến đã được
thiết kế để đảm bảo rằng tất cả các điểm đều được chiếu qua một tâm chiếu
duy nhất. Điều này cho phép phần mềm của họ tạo ra hình ảnh phối cảnh
thuần túy ở tốc độ video cho bất kỳ hướng xem và độ phóng đại nào do người
dùng lựa chọn. Trung tâm Nhận thức máy ở Praha đã cố gắng tích hợp công
nghệ quang học, quang điện tử, phần cứng và phần mềm để tạo ra một cảm
biến thị giác thông minh [Hình. 1.3b]. Đặc biệt, ý định của họ là thiết kế và
hiện thực hóa một camera kỹ thuật số thu nhỏ, chi phí thấp thu được hình
ảnh toàn cảnh (360 độ) [Hình. 1.3c] và thực hiện xử lý mức thấp hữu ích đối
với luồng hình ảnh đến trong thời gian thực. Các ứng dụng mục tiêu bao gồm
giám sát, kiểm soát chất lượng và điều hướng xe và robot di động. Cảm biến
tầm nhìn toàn hướng (ODVS) được phát triển bởi Khoa Khoa học Máy tính
& Truyền thông, Đại học Wakayama, Nhật Bản gần đúng trực tiếp đại diện
toàn cảnh của môi trường.
Rất nhiều công ty sản xuất các hệ thống bổ sung để thu được trường
xem lớn hơn. Ống kính 0-360 có thể là một trong số đó. Thiết bị này [Hình.
1.3d] là phần đính kèm ống kính toàn cảnh của camera được thiết kế đặc biệt,
với bộ phản xạ quang học độc quyền giúp chụp toàn bộ toàn cảnh 360 độ chỉ
với một lần chụp.
8
Hình 1.3. a) Camera toàn hướng được phát triển bởi Giáo sư Shree K.
Nyar b) Camera thông thường với gương hyperbol c) Ống kính O-360 d)
ODVS từ đại học Wakayama
Chương này chỉ trình bày một phần của tất cả các hệ thống hiện có.
Nhiều trường đại học, phòng thí nghiệm và công ty khác nhau tham gia vào
việc phát triển và khai thác camera toàn cảnh và sản xuất một số loại hệ thống
như vậy.
Tình trạng hiện đại của hệ thống toàn hướng
Máy quay video toàn hướng ngày càng trở nên phổ biến trong thị giác
máy tính. Ngày nay, các hệ thống giám sát và giám sát video chủ yếu dựa
vào các hệ thống hình ảnh thông thường như là nguồn thông tin trực quan.
Hệ thống hình ảnh thông thường bị hạn chế nghiêm trọng trong trường nhìn
của nó. Nó chỉ có khả năng thu được thông tin trực quan thông qua một góc
cố định tương đối nhỏ được đặt phía trước máy dò hình ảnh. Để giảm bớt
vấn đề này, các hệ thống camera xoay / nghiêng / thu phóng thường được sử
dụng. Mặc dù điều này cho phép người dùng từ xa điều khiển hướng xem
của cảm biến, tại bất kỳ thời điểm nào, trường nhìn vẫn rất hạn chế. Tóm lại,
các hệ thống thông thường có vùng mù lớn hơn nhiều vùng nhìn thấy của
chúng. Mục tiêu của chương trình nghiên cứu toàn hướng tại Đại học
Columbia và Đại học Lehigh là tạo ra các cảm biến video toàn hướng mới,
phát triển các thuật toán để xử lý hình ảnh toàn hướng và sử dụng các cảm
biến và thuật toán này để xây dựng các hệ thống giám sát thông minh [3].
Cách tiếp cận của họ [4] là kết hợp các bề mặt phản xạ (gương) vào các hệ
thống hình ảnh thông thường sử dụng thấu kính . Đây là hệ thống hình ảnh
catadioptric. Dễ dàng nhận thấy rằng trường nhìn trong hệ thống đo cảm ứng
có thể thay đổi bằng cách thay đổi hình dạng của gương được sử dụng. Tuy
9
nhiên, toàn bộ hệ thống hình ảnh phải có một điểm nhìn hiệu quả duy nhất
để cho phép tạo ra các hình ảnh phối cảnh thuần túy từ một hình ảnh cảm
biến. Tại Đại học Columbia, một camera mới với trường nhìn bán cầu đã
được phát triển. Hai camera như vậy có thể được đặt ngược nhau mà không
vi phạm giới hạn điểm nhìn duy nhất, để tạo ra một cảm biến toàn hướng
thực sự. Camera của Columbia sử dụng thiết kế quang học tối ưu bao gồm
một gương parabol và một ống kính viễn tâm. Nó chỉ ra rằng, để đạt được
hiệu suất quang học cao (độ phân giải chẳng hạn), gương và hệ thống ống
kính chụp ảnh phải phù hợp và thiết bị phải được thực hiện cẩn thận.
Gần đây, có thể ghi nhận sự quan tâm ngày càng tăng đến tầm nhìn
toàn hướng đối với các ứng dụng trong chế tạo người máy. Viện Fraunhofer
giải quyết vấn đề bản địa hóa robot trong môi trường văn phòng trong nhà
bằng cách sử dụng camera toàn hướng. Sau khi tìm hiểu môi trường văn
phòng từ các hình ảnh đào tạo, được chụp tại các vị trí nhất định đã biết, hình
ảnh hiện tại được so sánh với hình ảnh đào tạo được đặt ra bằng cách tiếp
cận gọi là “Đối sánh dựa trên ngoại hình”. Các chiến lược phân loại phù hợp
mang lại ước tính về vị trí hiện tại của robot. Đối với tác phẩm này, các hình
ảnh catadioptric ban đầu đã được chỉnh sửa và cắt bớt. Việc chia nhỏ các
hình ảnh đã được chỉnh sửa thành các khu vực đơn lẻ, được kết hợp riêng
biệt dẫn đến tăng cường độ chắc chắn đối với hai hiện tượng: sự sai lệch một
phần của cảnh và sự khác biệt xoay giữa tư thế của robot ở vị trí hiện tại so
với tư thế của robot ở vị trí tham chiếu tiếp theo của quá trình đào tạo giai
đoạn. Một trong những mục đích của công việc này là nghiên cứu các phương
pháp tính toán luồng quang học đáng tin cậy trên các hình ảnh catadioptric
bị bóp méo. Điều khiển robot trong môi trường năng động cao là một nhiệm
vụ thu thập và xử lý dữ liệu giác quan theo thời gian thực. Khung cảnh xung
quanh của robot đang thay đổi nhanh chóng và cần phải liên tục tìm kiếm
thông tin liên quan nhất đến nhiệm vụ điều hướng của robot. Sự tổng hợp
thông tin cảm quan bằng cách sử dụng trọng tài bên ngoài, ví dụ, luồng quang
học được tính toán từ hệ thống nhìn toàn diện, trong trường hợp này có thể
định hướng các tín hiệu cảm giác nhanh hoạt động trên các trường nhìn nhỏ
hơn. Trong các thí nghiệm ban đầu, việc tích hợp các phần tử xử lý VLSI
tương tự và quang học cho thấy kết quả đầy hứa hẹn và mục tiêu nghiên cứu
10
là điều tra loại triển khai này cho các ứng dụng robot di động dựa trên thị
giác phản ứng nhanh [4] [5] [6] [7].
Trung tâm Cảm nhận Máy móc ở Praha quan tâm đến một số dấu hiệu
liên quan đến tầm nhìn toàn hướng. Họ tập trung vào nền tảng của tầm nhìn
toàn cảnh âm thanh nổi bằng cách trình bày phân tích hình học biểu sinh cho
camera toàn cảnh. Các camera toàn cảnh với gương cầu lồi hoặc gương
parabol, còn được gọi là camera toàn cảnh trung tâm, cho phép hình học biểu
sinh như camera phối cảnh. Ước tính chuyển động từ hình ảnh toàn cảnh đòi
hỏi người ta phải thiết kế một camera toàn cảnh thực tế với một mô hình toán
học đơn giản. Nó đề xuất phương pháp hiệu chuẩn, phát triển hình học biểu
sinh cho hình ảnh toàn cảnh và sử dụng các thuật toán để ước tính chuyển
động. Trong một nỗ lực để tăng tốc độ tìm kiếm và khám phá các phương
pháp tìm kiếm hiệu quả cho sự tương ứng của các hình ảnh toàn cảnh, người
ta yêu cầu phân tích hình dạng của các đường cong biểu thức để xác định vị
trí các điểm tương ứng và nghiên cứu sự liên kết giữa các hình ảnh toàn cảnh.
Nhiệm vụ khác là ước tính mô hình camera toàn hướng từ hình học biểu sinh.
Các tác giả cố gắng ước tính các thông số của mô hình camera toàn hướng
phi tuyến từ các tương ứng hình ảnh được thiết lập tự động [8] [9] trong khi
không có giả định nào về cảnh, ngoài độ cứng (ví dụ: không có đối tượng
hiệu chuẩn) được đề cập. Trong vài năm qua, nhiều nhà nghiên cứu đã cố
gắng tìm ra nhiều cách khác nhau để giảm bớt vấn đề trong các cuộc họp.
Xerox đã phát triển một phòng họp hỗ trợ truyền thông được trang bị camera
và micrô để ghi lại nội dung nghe nhìn. Phòng thí nghiệm Không gian Thông
minh NIST đã thiết lập một phòng họp thông minh khác. Trong nghiên cứu
của Microsoft, một số nghiên cứu đã được tiến hành về việc ghi lại các cuộc
họp nhóm nhỏ bằng camera vòng. Đại học California, San Diego cũng đã
phát triển một hệ thống họp được trang bị một số camera hiệu chỉnh cố định,
một số camera hoạt động và một số camera toàn hướng. Hệ thống này có thể
theo dõi mọi người trong phòng và nhận dạng khuôn mặt của họ. Phòng thí
nghiệm Hệ thống tương tác của Đại học Carnegie Mellon và Đại học
Karlsruhe đã phát triển công nghệ cho phòng họp thông minh từ năm 1997
bằng cách khai thác các hệ thống toàn hướng để theo dõi người tham gia
cuộc họp. Công việc này sẽ tiếp tục theo hướng này.
11
Các loại camera catadioptric trung tâm
Có hai loại camera toàn cảnh khác nhau thường được sử dụng. Loại
đầu tiên là một camera toàn cảnh trung tâm bao gồm một camera phối cảnh
thông thường và một gương hypebol. Loại thứ hai do một camera trực quan
và parabol tạo ra. Phép chiếu trực giao trong Hình 1.4 có thể được mô hình
hóa bằng các tia đi song song với trục quang học. Hình thứ hai trong Hình
1.4 mô tả phép chiếu phối cảnh qua một điểm được gọi là lỗ kim. Chỉ hệ
thống bao gồm camera phối cảnh và gương được tập trung xem xét đánh giá.
Hình 1.4. a) Hệ thống trực giao b) Hệ thống phối cảnh
Tính đối xứng quay của các hình ảnh toàn hướng ngay lập tức gợi ý
sự thích hợp của việc sử dụng phân bố điểm ảnh phân cực. Một khả năng là
sử dụng cảm biến log-polar SVAVISCA được phát triển tại DIST, Đại học
Genova, được đặc trưng bởi sự phân bố điểm ảnh log-polar. Do đó, sử dụng
cảm biến hình ảnh này có hai ưu điểm chính:
Hình ảnh toàn cảnh có thể được đọc trực tiếp từ cảm biến mà không
cần bất kỳ phép biến đổi hình học nào. Hình ảnh toàn cảnh sẽ có độ phân
giải ngang không đổi do thực tế là cảm biến log-polar được tổ chức thành
các vòng đồng tâm với số lượng điểm ảnh không đổi. Mặt khác, loại cảm
biến này rất đắt tiền và độ nhạy sáng phụ thuộc vào kích thước điểm ảnh. Nó
không đảm bảo sự trùng khớp giữa camera và gương, phát sinh biến dạng
hình ảnh và không thể loại bỏ.
Thiết kế gương
Mô hình hình ảnh của camera toàn hướng catadioptric được xác định
bởi hình dạng của gương. Người ta có thể thiết kế hình dạng của gương theo
cách mà các đặc tính hình học nhất định của thế giới sang hình ảnh được bảo
toàn - mà chúng ta sẽ gọi là đặc tính chiếu tuyến tính. Hình dạng của gương
xác định hướng mà tia bắt nguồn từ camera bị phản xạ.
12