Mẹo nhỏ: Để tìm kiếm chính xác các bài viết của Vuihecungchocopie.vn, hãy search trên Google với cú pháp: "Từ khóa" + "vuihecungchocopie". (Ví dụ: công thức giải rubik 3x3 vuihecungchocopie). Tìm kiếm ngay
9 lượt xem

Giới thiệu về Reinforcement Learning (RL)

Bạn đang xem: Giới thiệu về Reinforcement Learning (RL) Tại Vuihecungchocopie                        

Bạn đang quan tâm đến Giới thiệu về Reinforcement Learning (RL) phải không? Nào hãy cùng Vuihecungchocopie đón xem bài viết này ngay sau đây nhé, vì nó vô cùng thú vị và hay đấy!

Trong lĩnh vực trí tuệ nhân tạo nói chung và học máy nói riêng, học tăng cường (rl) là cách tiếp cận tập trung vào việc học để đạt được mục tiêu bằng cách tương tác trực tiếp với môi trường.

1. Học tập củng cố (rl):

rl là học những gì phải làm, tức là đưa ra một hành động nhất định từ tình hình thực tế, miễn là phần thưởng được tối đa hóa. Máy không được cho biết những hành động cần thực hiện, nhưng phải phát hiện ra hành động mang lại nhiều phần thưởng nhất. Trong thế giới của rl, chúng ta có một khái niệm được gọi là đại lý, ngụ ý rằng bạn muốn đào tạo một thực thể để thực hiện một nhiệm vụ cụ thể mà bạn ủy quyền (tất nhiên). Nó sẽ theo cách mang lại hiệu quả cao nhất cho số tiền của bạn).

Bạn đang xem: Reinforcement learning là gì

Vì rl được sử dụng rất nhiều trong các chương trình và trò chơi, tôi sẽ lấy một ví dụ từ đây để bạn tưởng tượng. Đây là một trò chơi nhỏ mà tôi muốn bạn xem. Làm thế nào để chơi, tôi nghĩ nó sẽ được dễ dàng cho bạn hiểu. Nó được gọi là tàu tuần duyên

Nhiệm vụ của bạn là hoàn thành cuộc đua thuyền buồm càng nhanh càng tốt và nếu có thể, hãy phấn đấu về vị trí đầu tiên. Giả sử bạn muốn huấn luyện một đặc vụ để nó có thể hoàn thành cuộc đua nhanh nhất, thì về cơ bản bạn phải thiết kế một chức năng phần thưởng, và sau đó bạn sẽ huấn luyện nhân viên dựa trên chức năng phần thưởng đó. Bạn có thể coi nó như một hàm mất mát, nhưng thay vì giảm thiểu hàm mất mát như mạng nơ-ron truyền thống, chúng ta phải tối đa hóa nó như tôi đã nói ở trên. Việc chọn chức năng phần thưởng thoạt nhìn rất đơn giản, vì nó chỉ dựa trên một tiêu chí rất rõ ràng cho một nhiệm vụ cụ thể, như trong trò chơi ở trên, chúng tôi sử dụng thời gian để hoàn thành một giai đoạn, chẳng hạn như đua xe. (Thiết kế cụ thể tôi muốn để sau trong một bài viết khác). Tuy nhiên, nếu bạn đưa ra tiêu chí sai, đặc vụ mà bạn đào tạo có thể hành xử theo những cách tương đối kỳ lạ, chẳng hạn như nhóm openai đã trải qua khi phần thưởng được chọn của họ dựa trên tiêu chí. Thay vì thời gian hoàn thành trận đấu điểm số trong trò chơi. Đây là kết quả.

Nhân viên không cần phải kết thúc trò chơi nhưng vẫn đạt được điểm cao.

Thoạt nhìn, điều này có vẻ “vui nhộn” trong bối cảnh trò chơi điện tử, nhưng trong lĩnh vực tự động hóa hoặc robot, chẳng hạn, những hành động này có thể dẫn đến chuyển động không mong muốn hoặc thậm chí tử vong. Sự nguy hiểm. Nói rộng hơn, các tác nhân này (ví dụ như được nhúng trong bot) có thể hoạt động thất thường hoặc không tuân theo các nền tảng kỹ thuật chung, điều này có thể dẫn đến các tình huống rất nguy hiểm. .

agent

Bạn có thể đọc thêm về cái mà họ gọi là AI An toàn trong bài viết của openai

2. Mô hình toán học của rl:

Bây giờ, tôi sẽ giới thiệu cho bạn các khái niệm chính trong rl: |.

Xem thêm: Tìm hiểu về thành ngữ Nhân định thắng thiên 人定胜天

Hình ảnh sau đây là từ khóa học Học sâu giới thiệu 6.s191 của mit

2.1 Sau đây là ví dụ trực quan về tác nhân:

2.2 Enviroment xung quang của Agent, nơi mà agent tồn tại và tương tác: Giới thiệu về Reinforcement Learning (RL)

2.3 Dựa trên State S(t) của enviroment hiện tại mà agent sẽ đưa ra action a(t): Giới thiệu về Reinforcement Learning (RL)

2.4 Sau khi nhận được sự tương tác từ agent thì enviroment có sự chuyển đổi trạng thái đối với agent: Giới thiệu về Reinforcement Learning (RL)

2.5 Trạng thái môi trường hiện tại là s (t + 1) , tức là thời điểm t + 1:

2.6 Lúc này, agent nhận được reward r(t). Reward này phụ thuộc vào action a(t) của agent và State S(t) của enviroment ở thời điểm trước đó, tức là ở thời điểm t: Giới thiệu về Reinforcement Learning (RL)

2.7 Vì ta không biết thời điểm kết thúc của sự lặp đi lặp lại này nên tổng reward sẽ là một chuỗi vô hạn của các reward thành phần tại các thời điểm khác nhau kể từ thời điểm t (lúc đầu): Giới thiệu về Reinforcement Learning (RL)

2.8 Chúng ta có thể khai triển chuỗi vô hạn này như sau: Giới thiệu về Reinforcement Learning (RL)

2.9 Vì chuỗi này không hội tụ, các nhà nghiên cứu thực sự có thể sử dụng một thủ thuật để làm cho chuỗi hội tụ. Như được hiển thị bên dưới, họ đã thêm một thuật ngữ thường được gọi là tỷ lệ chiết khấu để làm cho chuỗi hội tụ.

Xem thêm: Ơn Toàn Xá Hay Đại Xá Là Ơn Gì? | Hội Dòng Mến Thánh Giá Gò Vấp

* Hãy nhớ rằng cần có sự hội tụ nếu bạn muốn đào tạo thành công một đại lý cụ thể hoặc một mạng nơ-ron nói chung.

Mọi thứ tôi vừa phác thảo đều dựa trên một khuôn khổ được gọi là Quy trình Quyết định Markov (mdps). Về cơ bản, mdp cung cấp một khung toán học để mô hình hóa các tình huống ra quyết định. Ở đây, phần kết quả là ngẫu nhiên, và phần còn lại phụ thuộc vào hành động của các tác nhân (hoặc người ra quyết định) được tạo ra trước đó. Phần thưởng mà người ra quyết định nhận được phụ thuộc vào hành động do người ra quyết định lựa chọn và dựa trên ( s (t + 1) ) và cũ ( s (t) ) môi trường.

Khi tác nhân chọn hành động aia_iai ở trạng thái sjs_jsj và làm cho môi trường chuyển đổi từ trạng thái để nhận phần thưởng rai (sj, sk) r_ {ai} (s_j, s_k) rai (sj, sk ) Sjs_jsj thành sks_ksk. Proxy nó tuân theo chính sách π piπ. Tức là, π (⋅): s → a pi ( cdot): mathcal {s} rightarrow mathcal {a} π (⋅): s → a sao cho mỗi trạng thái sj∈ss_j in mathcal {s} sj ∈s, mà tác nhân chọn một hành động ai∈aa_i in mathcal {a} ai ∈a. Vì vậy, chiến lược là cho agent biết hành động mà nó nên chọn trong mỗi trạng thái.

Để đào tạo đại lý, mục tiêu của chúng tôi là tìm ra chính sách π piπ sao cho:

Giới thiệu về Reinforcement Learning (RL)

* β betaβ là hệ số chiết khấu, β betaβ

1

Về cơ bản, chúng tôi đang cố gắng tối đa hóa tổng số phần thưởng (liên quan đến hệ số chiết khấu được đề cập ở trên) cho từng trạng thái cụ thể từ đầu đến cuối (ngay cả khi t → rightarrow → ∞ infty∞, bởi vì chúng tôi không biết điều này khi quá trình kết thúc, luôn là một chuỗi vô hạn), tất nhiên phải dựa trên chính sách π piπ, vì đại lý của chúng tôi chọn phần thưởng tốt nhất dựa trên đó. Đây thực chất là một vấn đề tối ưu hóa.

Trên đây là các tiêu chí chúng tôi có thể sử dụng để tối ưu hóa chính sách tối ưu. Cụ thể, chúng tôi gọi tiêu chí này là Tiêu chí Tổng phần thưởng Không giới hạn . Có một vài tiêu chí khen thưởng khác mà tôi sẽ không để lại trong bài viết này ngay bây giờ.

Theo các tiêu chí khác nhau, chúng tôi sẽ có các thuật toán khác nhau để tìm ra chính sách tối ưu. Với tiêu chí thưởng tổng vô hạn của đường chân trời n , chúng ta có thể giải quyết vấn đề này bằng cách sử dụng thuật toán rl khá cổ điển, q-learning (tôi sẽ thảo luận trong một bài đăng khác).

Bây giờ tôi muốn để lại lý thuyết sơ bộ của mình ở đây. Hẹn gặp lại các bạn trong các bài viết tiếp theo về q-learning và cách thực hiện.

Xem thêm: sinh viên năm cuối tiếng anh là gì

3. Tham khảo:

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *