Vina Technology at AI time - Công nghệ Việt Nam thời AI
News:Business News
Episode 1733 - Apr 25 - Chương 2 - Phần 7 - Các khái niệm thực tế về học máy - Vina Technology at AI time
Chương 2 - Các khái niệm thực tế về học máy – Phần 7
(Trích từ sách Học máy cho những người ra quyết định (Machine Learning for Decision Makers, tác giả: Patanjali Kashyap - Bangalore, Karnataka, Ấn Độ) – Nhà xuất bản Apress. Lê Quang Văn dịch, giải thích và thực hiện phần kỹ thuật số.
Mô hình ngôn ngữ lớn như ChatGPT sử dụng Học tăng cường từ phản hồi của con người (RLHF) như thế nào?
Với hiệu suất vượt trội trong nhiều nhiệm vụ ngôn ngữ, bao gồm mô hình hóa ngôn ngữ, dịch máy và trả lời câu hỏi, các mô hình ngôn ngữ lớn đã tự khẳng định mình là một công cụ chính trong xử lý ngôn ngữ tự nhiên. Mặc dù có sức mạnh lớn, các mô hình ngôn ngữ lớn cũng có những hạn chế, chẳng hạn như xu hướng sản xuất nội dung phụ, không liên quan hoặc thậm chí phản cảm.
Có được dữ liệu đào tạo chất lượng cao là một trong những vấn đề lớn nhất vì các mô hình ngôn ngữ lớn đòi hỏi nhiều dữ liệu để hoạt động tốt. Ngoài ra, học tập có giám sát đòi hỏi người chú thích của con người để phân loại dữ liệu, đây là một hoạt động tốn thời gian và tốn kém.
Để giải quyết những vấn đề này, học tăng cường từ phản hồi của con người đã được trình bày như một khuôn khổ có thể tạo ra các nhãn cao cấp cho dữ liệu đào tạo. Để tạo ra văn bản chất lượng cao, thích hợp, gắn kết trong khuôn khổ này, các mô hình ngôn ngữ lớn trước tiên được đào tạo trước bằng cách sử dụng học tập không giám sát và sau đó được tinh chỉnh bằng học tăng cường từ phản hồi của con người.
Các mô hình ngôn ngữ lớn có thể học hỏi từ sở thích của người dùng và tạo ra kết quả đầu ra phù hợp hơn với mục tiêu và ý định của người dùng, nhờ học tăng cường từ phản hồi của con người, có thể có tác động lớn đến nhiều ứng dụng xử lý ngôn ngữ tự nhiên. Các mô hình ngôn ngữ lớn có thể được đào tạo hiệu quả với dữ liệu ít được gắn nhãn hơn và thực hiện tốt hơn một số nhiệm vụ nhất định bằng cách sử dụng học tăng cường từ phản hồi của con người, kết hợp học tăng cường và phản hồi của con người. Do đó, học tăng cường từ phản hồi của con người là một khuôn khổ hiệu quả để tăng cường năng lực của các mô hình ngôn ngữ lớn và tăng cường khả năng hiểu và tạo ra ngôn ngữ tự nhiên của họ.
Trong học tăng cường từ phản hồi của con người, một kho dữ liệu văn bản khá lớn được sử dụng để dạy các mô hình ngôn ngữ lớn , sau đó được đào tạo trước. Để tạo ra các đầu ra mạch lạc và dễ hiểu, mô hình phải học các mẫu và cấu trúc cơ bản của ngôn ngữ. Học tăng cường từ phản hồi của con người có thể được sử dụng để tinh chỉnh các mô hình ngôn ngữ lớn sau khi đào tạo trước, điều này tốn kém về mặt tính toán nhưng cung cấp một cơ sở mạnh mẽ.
Sự phát triển của một mô hình phần thưởng, một mô hình học máy đánh giá tầm cỡ của văn bản được tạo ra bởi các mô hình ngôn ngữ lớn , là giai đoạn thứ hai. Mô hình phần thưởng tạo ra một số vô hướng cho biết chất lượng đầu ra từ đầu ra của các mô hình ngôn ngữ lớn làm đầu vào của nó. Một các mô hình ngôn ngữ lớn khác đã được thay đổi để tạo ra một giá trị vô hướng duy nhất thay vì một loạt các mã thông báo văn bản có thể đóng vai trò là mô hình phần thưởng
Một bộ dữ liệu văn bản do các mô hình ngôn ngữ lớn tạo ra được gắn nhãn chất lượng bởi những người đánh giá con người để đào tạo mô hình phần thưởng. Khi được đưa ra một gợi ý, các mô hình ngôn ngữ lớn tạo ra một số kết quả đầu ra mà các giám khảo con người chấm điểm từ xuất sắc đến tệ nhất. Chất lượng của văn bản được tạo ra bởi các mô hình ngôn ngữ lớn sau đó được dự đoán bởi mô hình phần thưởng. Bằng cách học hỏi từ đầu ra của các mô hình ngôn ngữ lớn và điểm xếp hạng được đưa ra bởi các nhà đánh giá con người, mô hình phần thưởng phát triển một mô tả toán học về sở thích của con người
Các mô hình ngôn ngữ lớn trở thành tác nhân học tăng cường trong giai đoạn cuối, thiết lập một vòng lặp học tăng cường. Trong mỗi tập đào tạo, các mô hình ngôn ngữ lớn tạo văn bản bằng cách sử dụng một số tín hiệu từ tập dữ liệu đào tạo. Mô hình phần thưởng sau đó nhận được đầu ra của nó và chỉ định điểm dựa trên mức độ phù hợp với sở thích của con người
Create your
podcast in
minutes
It is Free