Mẹo nhỏ: Để tìm kiếm chính xác các bài viết của Vuihecungchocopie.vn, hãy search trên Google với cú pháp: "Từ khóa" + "vuihecungchocopie". (Ví dụ: công thức giải rubik 3x3 vuihecungchocopie). Tìm kiếm ngay
7 lượt xem

Tìm hiểu về YOLO trong bài toán real-time object detection

Bạn đang xem: Tìm hiểu về YOLO trong bài toán real-time object detection Tại Vuihecungchocopie                        

Bạn đang quan tâm đến Tìm hiểu về YOLO trong bài toán real-time object detection phải không? Nào hãy cùng Vuihecungchocopie đón xem bài viết này ngay sau đây nhé, vì nó vô cùng thú vị và hay đấy!

Trong bài đăng này, tôi muốn chia sẻ một chút những gì tôi biết về yolo với hy vọng rằng nó sẽ giúp bạn trong vấn đề phát hiện đối tượng của mình. Phát hiện đối tượng là một vấn đề quan trọng trong lĩnh vực thị giác máy tính. Các thuật toán phát hiện đối tượng chủ yếu được chia thành hai loại:

  • Một họ các mô hình rcnn (mạng nơ-ron tích tụ dựa trên vùng) để giải quyết các vấn đề về bản địa hóa và nhận dạng đối tượng.
  • họ mô hình yolo (bạn chỉ nhìn thấy nó một lần) để nhận dạng đối tượng để xác định các đối tượng trong thời gian thực

Yolo là một mô hình mạng CNN cho việc phát hiện, nhận dạng, phân loại đối tượng. Yolo được tạo ra từ việc kết hợp giữa các convolutional layers và connected layers.Trong đóp các convolutional layers sẽ trích xuất ra các feature của ảnh, còn full-connected layers sẽ dự đoán ra xác suất đó và tọa độ của đối tượng. Tìm hiểu về YOLO trong bài toán real-time object detection

Bạn đang xem: Yolo là gì mcreater

Đầu vào của mô hình là một ảnh, mô hình sẽ nhận dạng ảnh đó có đối tượng nào hay không, sau đó sẽ xác định tọa độ của đối tượng trong bức ảnh. ẢNh đầu vào được chia thành thành S×SStimes SS×S ô thường thì sẽ là 3×33times33×3, 7×77times77×7, 9×99times99×9… việc chia ô này có ảnh hưởng tới việc mô hình phát hiện đối tượng, mình xin trình bày ở phần sau. Tìm hiểu về YOLO trong bài toán real-time object detection Với Input là 1 ảnh, đầu ra mô hình là một ma trận 3 chiều có kích thước S×S×(5×N+M)Stimes Stimes(5times N+ M)S×S×(5×N+M) với số lượng tham số mỗi ô là (5×N+M)(5times N + M)(5×N+M) với N và M lần lượt là số lượng Box và Class mà mỗi ô cần dự đoán. Ví dụ với hình ảnh trên chia thành 7×77times77×7 ô, mỗi ô cần dự đóan 2 bounding box và 3 object : con chó, ô tô, xe đạp thì output là 7×7×137times7times137×7×13, mỗi ô sẽ có 13 tham số, kết quả trả về (7×7×2=98)(7times7times2 = 98)(7×7×2=98) bounding box. Chúng ta sẽ cùng giải thích con số (5×N+M)(5times N + M)(5×N+M) được tính như thế nào. Dự đoán mỗi bounding box gồm 5 thành phần : (x, y, w, h, prediction) với (x, y ) là tọa độ tâm của bounding box, (w, h) lần lượt là chiều rộng và chiều cao của bounding box, prediction được định nghĩa Pr⁡(Object)∗ IOU(pred,truth)Pr(Object) * IOU(pred, truth)Pr(Object)∗ IOU(pred,truth) xin trình bày sau. Với hình ảnh trên như ta tính mỗi ô sẽ có 13 tham số, ta có thể hiểu đơn giản như sau tham số thứ 1 sẽ chỉ ra ô đó có chứa đối tượng nào hay không P(Object), tham số 2, 3, 4, 5 sẽ trả về x, y ,w, h của Box1. Tham số 6, 7, 8, 9, 10 tương tự sẽ Box2, tham số 11, 12, 13 lần lượt là xác suất ô đó có chứa object1( P(chó|object), object2(P(ô tô|object)), object3(P( xe đạp|object)). Lưu ý rằng tâm của bounding box nằm ở ô nào thì ô đó sẽ chứa đối tượng, cho dù đối tượng có thể ở các ô khác thì cũng sẽ trả về là 0. Vì vậy việc mà 1 ô chứa 2 hay nhiều tâm của bouding box hay đối tượng thì sẽ không thể detect được, đó là một hạn chế của mô hình YOLO1, vậy ta cần phải tăng số lượng ô chia trong 1 ảnh lên đó là lí do vì sao mình nói việc chia ô có thể làm ảnh hưởng tới việc mô hình phát hiện đối tượng.

XEM THÊM:  Chuyên viên nhân sự tiếng anh là gì

Trên ta có đề cập prediction được định nghĩa Pr⁡(Object)∗ IOU(pred,truth)Pr(Object) * IOU(pred, truth)Pr(Object)∗ IOU(pred,truth), ta sẽ làm rõ hơn IOU(pred, truth) là gì. IOU (INTERSECTION OVER UNION) là hàm đánh giá độ chính xác của object detector trên tập dữ liệu cụ thể. IOU được tính bằng: Tìm hiểu về YOLO trong bài toán real-time object detection

Trong đó khu vực chồng chéo là khu vực nơi hộp giới hạn dự đoán và hộp giới hạn chân lý cơ bản giao nhau và khu vực liên kết là khu vực nơi hộp giới hạn dự đoán và hộp giới hạn chân lý mặt đất giao nhau . Được đánh dấu thủ công trong tập huấn luyện và hộp giới hạn tập thử nghiệm. Dự đoán được coi là tốt nếu iu> 0,5.

Xem thêm: PNR hay Số tham chiếu Booking là gì?

Hàm lỗi trong yolo được tính toán từ các dự đoán và nhãn mô hình. Cụ thể hơn, nó là tổng của ba thành phần con:

  • Lỗi dự đoán mất phân loại nhãn đối tượng
  • Lỗi dự đoán tâm của hộp giới hạn, tọa độ chiều dài và chiều rộng (x, y, w, h) – mất vị trí
  • Lỗi của hộp giới hạn dự đoán chứa đối tượng so với nhãn thực tế tại hình vuông đó – mất độ tin cậy

Mất phân loại

mất phân loại —— Lỗi dự đoán loại nhãn của đối tượng, hàm báo lỗi này chỉ tính các ô vuông mà đối tượng xuất hiện, các ô vuông khác chúng ta không quan tâm. Tổn thất phân loại được tính theo công thức sau:

XEM THÊM:  in witness whereof nghĩa là gì

Mất vị trí

Localization loss là hàm lỗi dùng để tính giá trị lỗi cho boundary box được dự đoán bao gồm tọa độ tâm, chiều rộng, chiều cao của so với vị trí thực tế từ dữ liệu huấn luyện của mô hình. Lưu ý rằng chúng ta không nên tính giá trị hàm lỗi này trực tiếp từ kích thức ảnh thực tế mà cần phải chuẩn hóa về [0, 1] so với tâm của bounding box. Việc chuẩn hóa này kích thước này giúp cho mô hình dự đoán nhanh hơn và chính xác hơn so với để giá trị mặc định của ảnh. Hãy cùng xem một ví dụ: Tìm hiểu về YOLO trong bài toán real-time object detection

Giá trị hàm Localization loss được tính trên tổng giá trị lỗi dự đoán toạ độ tâm (x, y) và (w, h) của predicted bounding box với grouth-truth bounding box. Tại mỗi ô có chưa object, ta chọn 1 boundary box có IOU (Intersect over union) tốt nhất, rồi sau đó tính độ lỗi theo các boundary box này. Giá trị hàm lỗi dự đoán tọa độ tâm (x, y) của predicted bounding box và (x̂, ŷ) là tọa độ tâm của truth bounding box được tính như sau : Tìm hiểu về YOLO trong bài toán real-time object detection

GIá trị hàm lỗi dự đoán (w, h ) của predicted bounding box so với truth bounding box được tính như sau :Tìm hiểu về YOLO trong bài toán real-time object detection Với ví dụ trên thì S =7, B =2, còn λcoord là trọng số thành phần trong paper gốc tác giả lấy giá trị là 5

Mất lòng tin

Xem thêm: Sedlauncher.exe là gì? Bạn có nên loại bỏ nó?

XEM THÊM:  Thị Tẩm Là Gì? Vua Thị Tẩm Như Thế Nào?

Mất độ tin cậy là lỗi giữa dự đoán rằng hộp giới hạn chứa đối tượng và nhãn thực tế tại hình vuông đó. Lỗi này được tính trên các ô vuông có và không có đối tượng.

Trong ví dụ trên, s = 7, b = 2, λnoobject là trọng lượng của thành phần trong bài báo gốc và tác giả lấy giá trị là 0,5. Đối với ô j của ô thứ i, nếu một đối tượng được phát hiện thì ci = 1 và ngược lại

Tổng thiệt hại

Tổng lại chúng ta có hàm lỗi là tổng của 3 hàm lỗi trên : Tìm hiểu về YOLO trong bài toán real-time object detection hay:

Tìm hiểu về YOLO trong bài toán real-time object detection

Như ta đã nói ở trên mô hình mạng YOLO là một mô hình mạng CNN thông thường gồm các convolutional layers kết hợp maxpooling layers và cuối cùng là 2 lớp fully connected layers, với hàm kích hoạt cho layer cuối cùng là một linear activation function và tất cả các layers khác sẽ sử dụng leaky RELU : Tìm hiểu về YOLO trong bài toán real-time object detection

Xem thêm: Cotton là gì? Khám phá chất liệu vải Cotton có những ưu điểm gì?

Tham khảo:

Công khai: VUIHECUNGCHOCOPIE.VN là trang web Tổng hợp Ẩm Thực - Game hay và Thủ Thuật hàng đầu VN, thuộc Chocopie Vietnam. Mời thính giả đón xem.

Chúng tôi trân trọng cảm ơn quý độc giả luôn ủng hộ và tin tưởng!

Trả lời

Email của bạn sẽ không được hiển thị công khai.