Try   HackMD

Hồ Chí Minh, 04-11-2023
Võ Duy Nguyên, UIT-Together Research Group

Bài toán Phát hiện đối tượng

Mục lục

Giới thiệu

Bài toán phát hiện đối tượng trong ảnh là một trong những bài toán cơ bản của lĩnh vực thị giác máy tính.

Đầu vào của bài toán là: ảnh
Đầu ra của bài toán là: nhãn và vị trí các đối tượng (nếu có) trong ảnh.

Minh họa đầu vào, đầu ra của bài toán phát hiện đối tượng.

Image Not Showing Possible Reasons
  • The image was uploaded to a note which you don't have access to
  • The note which the image was originally uploaded to has been deleted
Learn More →

Đầu vào là ảnh, đầu ra nhãn (cat) và vị trí (x,y,w,h). [Nguồn ảnh cs221n]

Vị trí của đối tượng khi trực quan trên ảnh có dạng hình hộp bao đối tượng (bounding box - bbox). Có nhiều cách để lưu trữ thông tin (tọa độ trên ảnh) của bbox. Trong ví dụ trên, bbox sử dụng định dạng MS-COCO gồm (x,y,w,h). Trong đó, (x,y) là điểm trái trên của bbox, w là chiều rộng của bbox, h là chiều cao của bbox.
Xem thêm các định dạng pascal voc, yolo

Minh họa một số bài toán phát hiện đối tượng

Ví dụ 01: Phát hiện đối tượng trong ảnh

Ví dụ 02: Phát hiện đối tượng trong không ảnh

Ví dụ 03: Phát hiện đối tượng trong tài liệu dạng ảnh

Tài liệu hướng dẫn dùng cho nhóm UIT-Together Research Group