Mẹo nhỏ: Để tìm kiếm chính xác các bài viết của Vuihecungchocopie.vn, hãy search trên Google với cú pháp: "Từ khóa" + "vuihecungchocopie". (Ví dụ: công thức giải rubik 3x3 vuihecungchocopie). Tìm kiếm ngay
752 lượt xem

Vấn đề Overfitting & Underfitting trong Machine Learning – Trí tuệ nhân tạo

Bạn đang quan tâm đến Vấn đề Overfitting & Underfitting trong Machine Learning – Trí tuệ nhân tạo phải không? Nào hãy cùng Vuihecungchocopie đón xem bài viết này ngay sau đây nhé, vì nó vô cùng thú vị và hay đấy!

Vấn đề Overfitting & Underfitting trong Machine Learning - Trí tuệ nhân tạo

Khi xây dựng mỗi mô hình học máy, chúng ta cần phải chú ý hai vấn đề: Overfitting (quá khớp) và Underfitting (chưa khớp). Đây chính là nguyên nhân chủ yếu khiến mô hình có độ chính xác thấp.

Hãy cùng tìm hiểu kiến ​​thức cơ bản về máy học và các vấn đề liên quan đến trang bị quá nhiều và trang bị thiếu.

Bạn đang xem: Overfitting là gì

Đánh giá các chức năng mục tiêu trong học máy

Học tập có giám sát là phương pháp học chính xác nhất trong học máy. Mô hình ước lượng hàm mục tiêu (f) ánh xạ từng phần tử của tập hợp đầu vào (x) với phần tử tương ứng (gần đúng) của tập hợp (y)

y = f (x)

Dựa trên các thuộc tính đầu vào, chúng tôi có thể biểu diễn các thẻ đầu ra. Dự đoán nhãn, chúng tôi thậm chí có thể xác định giá trị của nhãn thông qua học máy.

Mô hình học máy được xây dựng dựa trên tập dữ liệu đào tạo. Kỳ vọng của mô hình là tổng quát hóa chính xác nhất (gần đúng) đại diện cho tổng thể. Điều này là đáng kể. Vì dữ liệu đầu vào cho mỗi mô hình chỉ là một tập mẫu trong tổng thể, nên nó có thể không mang tính đại diện cao và chứa nhiều nhiễu.

Đại học Máy học

Trong học máy, hàm mục tiêu được xây dựng trên tập dữ liệu đào tạo thông qua các phương pháp đệ quy. Đây là một phương pháp giúp tìm ra tính tổng quát (tổng quát hóa) từ một tập dữ liệu mẫu cụ thể. Vậy tính phổ quát là gì?

Chung (phổ quát) là thước đo mức độ tốt của mô hình học máy. Nó có thể hiện ở câu hỏi liệu một mô hình học máy có thể rút ra các quy tắc chung từ một tập dữ liệu mẫu hay không? Một mô hình chung chung sẽ hoạt động tốt cho bất kỳ tập dữ liệu mới nào.

Tuy nhiên, trong quá trình học máy, chúng ta cần chú ý đến hai vấn đề. Đó là trang bị quá mức và trang bị thấp. Đây là hai lý do chính dẫn đến độ chính xác thấp của các mô hình học máy. Nói cách khác, nó không thể hiện tính khái quát của vấn đề.

Phù hợp thống kê

Sự phù hợp thống kê là sự xấp xỉ của hàm mục tiêu bởi hàm tạo. Các phương pháp được sử dụng trong thống kê khác với các phương pháp được sử dụng trong học máy. Ví dụ, trong thống kê, phương pháp ước lượng thường được sử dụng để ước lượng hàm mục tiêu. Tuy nhiên, trong học máy, chúng tôi không sử dụng cách tiếp cận này. Máy học dựa trên việc học từ dữ liệu và chúng tôi đưa ra mô hình gần đúng chính xác nhất từ ​​dữ liệu mẫu có thể bị nhiễu.

Xem thêm: Iphone chưa active trôi bảo hành là gì

Sự phù hợp thống kê cũng được sử dụng trong học máy làm thước đo. Một số kỹ thuật thống kê cũng được áp dụng cho học máy (ví dụ: tính toán lỗi).

Vấn đề Overfitting & Underfitting trong Machine Learning - Trí tuệ nhân tạo

Overfitting trong học máy

Overfitting là một hiện tượng khi một mô hình được xây dựng hiển thị chi tiết của tập dữ liệu đào tạo. Điều này có nghĩa là lựa chọn và học hỏi từ dữ liệu nhiễu hoặc ngoại lệ trong tập huấn luyện để tạo ra các quy tắc mô hình. Các quy tắc này sẽ không có nhiều ý nghĩa khi áp dụng cho các bộ dữ liệu mới có thể có nhiều loại dữ liệu nhiễu khác nhau. Sau đó, nó thường ảnh hưởng tiêu cực đến độ chính xác của mô hình.

Việc trang bị quá mức thường xảy ra trong các mô hình phi tham số hoặc phi tuyến tính và có mức độ linh hoạt cao trong việc xây dựng hàm mục tiêu.

Do đó, nhiều thuật toán học máy phi tham số sẽ chứa các tham số và kỹ thuật để hạn chế và giới hạn việc học chi tiết của mô hình.

Ví dụ: vấn đề cây quyết định là một thuật toán học máy phi tham số. Đây là một thuật toán thường quá lợi. Điều này có thể tránh được bằng cách cắt tỉa.

Phù hợp với Học máy

Không phù hợp (không phù hợp) là hiện tượng khi một mô hình được xây dựng không có độ chính xác cao trong tập dữ liệu đào tạo và tổng quát hóa thành dữ liệu tổng thể. Khi trang bị thiếu xảy ra, mô hình sẽ không thể xử lý tốt bất kỳ tập dữ liệu có vấn đề nào.

Sự cố ít xảy ra hơn. Khi trang bị thiếu xảy ra, chúng tôi có thể khắc phục bằng cách thay đổi thuật toán hoặc thêm nhiều dữ liệu đầu vào.

Hoàn hảo cho học máy

Sự vừa vặn nằm ở đâu đó giữa trang phục thiếu và trang phục quá mức. Mô hình đã cho kết quả hợp lý trên cả tập dữ liệu đào tạo và tập dữ liệu mới. Đây là một mô hình lý tưởng chung có thể phù hợp với nhiều dữ liệu mẫu và dữ liệu mới.

Một sự phù hợp tốt là mục tiêu của mọi vấn đề. Tuy nhiên, trong thực tế, điều này rất khó thực hiện. Để tìm điểm phù hợp tốt, chúng ta phải theo dõi hiệu suất của thuật toán học máy theo thời gian khi thuật toán thực hiện học tập trên tập dữ liệu đào tạo. Chúng ta có thể mô tả và biểu diễn các thông số của mô hình, độ chính xác của mô hình trên các tập dữ liệu huấn luyện và đào tạo.

Theo thời gian, tùy thuộc vào quá trình học tập, lỗi của mô hình trên tập dữ liệu đào tạo giảm dần. Tuy nhiên, nếu quá trình đào tạo quá lâu, độ chính xác của mô hình có thể giảm xuống do trang bị quá nhiều và học trên cả dữ liệu nhiễu và bất thường trong nhóm đào tạo. Đồng thời, khi khả năng tổng quát hóa của mô hình giảm đi, thì lỗi đối với tập dữ liệu kiểm tra cũng tăng lên.

Xem thêm: Natri clorit NaClO2 – mua Sodium chlorite giá tốt nhất 2022

Chúng tôi hy vọng rằng tại thời điểm trước khi lỗi trên tập dữ liệu có dấu hiệu gia tăng, mô hình tốt nhất là trên cả tập dữ liệu đào tạo và thử nghiệm.

Bạn có thể sử dụng bất kỳ thuật toán nào để triển khai ví dụ này. Đây không phải là một kỹ thuật hữu ích trong thực tế, vì việc chọn điểm dừng trong quá trình huấn luyện yêu cầu phải biết giá trị trên mẫu thử nghiệm, tức là tập dữ liệu thử nghiệm không còn hợp lệ. Được coi là “vô hình” hoặc khách quan độc lập với tập dữ liệu đào tạo. Bất kỳ kiến ​​thức nào về bộ dữ liệu mà dữ liệu bị rò rỉ trong quá trình đào tạo.

Bạn có thể sử dụng hai kỹ thuật để tìm các điểm ngắt tối ưu trong quá trình đào tạo, phương pháp lấy mẫu lại và kỹ thuật xác thực.

Làm cách nào để tránh mặc trang phục quá lố?

Cả trang bị quá nhiều và trang bị thiếu đều có thể dẫn đến độ chính xác của việc xây dựng mô hình kém. Nhưng bây giờ, vấn đề phổ biến nhất phát sinh là trang phục quá mức.

Việc trang bị quá mức thực sự là một vấn đề quan trọng, vì việc đánh giá mô hình học máy trên tập dữ liệu đào tạo sẽ khác với đánh giá độ chính xác của tập hợp (dữ liệu mà mô hình chưa bao giờ gặp phải trước đây. Giờ).

Có hai kỹ thuật quan trọng để đánh giá mô hình học máy và tránh trang bị quá nhiều:

  • Sử dụng kỹ thuật lấy mẫu lại để ước tính độ chính xác của mô hình
  • Sử dụng bộ kiểm tra xác thực

Phương pháp lấy mẫu lại là kỹ thuật phổ biến hơn. Sau đó, chúng ta chia tập dữ liệu thành k tập con. Đây được gọi là k-lần xác thực chéo. Điều này cho phép bạn thực hiện k đào tạo trên các tập dữ liệu khác nhau và sau đó sử dụng dữ liệu mới để xây dựng ước tính độ chính xác cho mô hình học máy của bạn.

Sử dụng xác thực chéo là một tiêu chuẩn tốt trong học máy để ước tính độ chính xác của mô hình với bộ dữ liệu mới. Nhưng nếu bạn có nhiều dữ liệu, sử dụng tập hợp xác nhận sẽ là một cách tiếp cận tốt.

Tóm tắt

Bài viết này đã giới thiệu cho bạn các vấn đề về máy học được giải quyết bằng phương pháp thống kê.

Bạn đã biết rằng tổng quát hóa mô hình là việc tìm ra các quy tắc của tập dữ liệu và áp dụng chúng vào tập dữ liệu mới để đạt được độ chính xác cao. Cuối cùng, bạn sẽ học thuật ngữ của mô hình học máy.

  • Overfitting: Khi mô hình có độ chính xác cao trên tập dữ liệu huấn luyện, nhưng độ chính xác thấp trên tập dữ liệu mới (hoặc dữ liệu dân số).
  • Trang bị phù hợp: tập dữ liệu đào tạo và tập dữ liệu mô tả dân số mới khi mô hình có độ chính xác thấp trên cả hai tập dữ liệu.

Nguồn: https://machinelearningmastery.com

Xem thêm: Khí canh là gì? Mô hình trồng rau theo phương pháp khí canh

Công khai: VUIHECUNGCHOCOPIE.VN là trang web Tổng hợp Ẩm Thực - Game hay và Thủ Thuật hàng đầu VN, thuộc Chocopie Vietnam. Mời thính giả đón xem.

Chúng tôi trân trọng cảm ơn quý độc giả luôn ủng hộ và tin tưởng!

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *