Cuối cùng cũng có người nói rõ về hiện trạng của GPT! Bài phát biểu mới nhất của OpenAI Daniel rất nổi tiếng và nó phải là một thiên tài do chính tay Musk chọn

2023-05-29 08:56:22

Nguồn: Qubit

Sau khi phát hành Windows Copilot, sự phổ biến của hội nghị Microsoft Build đã được kích nổ bởi một bài phát biểu.

Cựu giám đốc AI của Tesla, Andrej Karpathy, đã tin tưởng trong bài phát biểu của mình rằng cây suy nghĩ tương tự như Tìm kiếm trên cây Monte Carlo (MCTS) của AlphaGo!

Cư dân mạng hét lên: Đây là hướng dẫn chi tiết và thú vị nhất về cách sử dụng mô hình ngôn ngữ lớn và mô hình GPT-4!

Ngoài ra, Karpathy tiết lộ rằng do mở rộng đào tạo và dữ liệu, LLAMA 65B "mạnh hơn đáng kể so với GPT-3 175B" và giới thiệu đấu trường ẩn danh mô hình lớn ChatBot Arena:

Điểm số của Claude giữa ChatGPT 3.5 và ChatGPT 4.

Cư dân mạng cho rằng những bài phát biểu của Karpathy luôn rất hay và lần này, cũng như mọi lần, nội dung không làm mọi người thất vọng.

Điều trở nên phổ biến với bài phát biểu cũng là một ghi chú do cư dân mạng Twitter tổng hợp dựa trên bài phát biểu, có tổng cộng 31 ghi chú và số lượt đăng lại đã vượt quá 3000+:

Vì vậy, những gì đã được đề cập cụ thể trong bài phát biểu được theo dõi nhiều này?

Làm cách nào để đào tạo trợ lý GPT?

Bài phát biểu của Karpathy lần này chủ yếu được chia thành hai phần.

Phần Một, anh nói về cách đào tạo một "trợ lý GPT".

Karpathy chủ yếu mô tả bốn giai đoạn đào tạo trợ lý AI: đào tạo trước, tinh chỉnh có giám sát, mô hình hóa phần thưởng và học tăng cường.

Mỗi giai đoạn yêu cầu một bộ dữ liệu.

Trong giai đoạn tiền đào tạo, cần có một lượng lớn tài nguyên máy tính để thu thập một lượng lớn tập dữ liệu. Huấn luyện một mô hình cơ sở trên một tập dữ liệu lớn không được giám sát.

Karpathy bổ sung nó với nhiều ví dụ hơn:

Bằng cách sử dụng tập dữ liệu được giám sát nhỏ hơn, tinh chỉnh mô hình cơ sở này bằng tính năng học có giám sát sẽ tạo ra một mô hình trợ lý có thể trả lời các câu hỏi.

Anh ấy cũng cho thấy quá trình tiến hóa của một số mô hình, tôi tin rằng nhiều người đã nhìn thấy bức tranh "cây tiến hóa" ở trên trước đây.

Karpathy tin rằng mô hình mã nguồn mở tốt nhất hiện tại là dòng LLaMA của Meta (vì OpenAI chưa mã nguồn mở bất cứ thứ gì về GPT-4).

Điều cần nói rõ ở đây là mô hình cơ sở không phải là mô hình trợ lý.

Mặc dù mô hình cơ sở có thể trả lời câu hỏi, nhưng câu trả lời mà nó đưa ra không đáng tin cậy và chính mô hình trợ lý mới có thể được sử dụng để trả lời câu hỏi. Một mô hình trợ lý được đào tạo trên mô hình cơ sở, với sự tinh chỉnh được giám sát, sẽ hoạt động tốt hơn mô hình cơ sở trong việc tạo phản hồi và hiểu cấu trúc văn bản.

Học tăng cường là một quá trình quan trọng khác khi đào tạo các mô hình ngôn ngữ.

Bằng cách đào tạo với dữ liệu chất lượng cao do con người dán nhãn, mô hình phần thưởng có thể được sử dụng để tạo hàm mất mát nhằm cải thiện hiệu suất của nó. Sau đó, đào tạo củng cố được thực hiện bằng cách tăng nhãn tích cực và giảm xác suất của nhãn tiêu cực.

Trong các nhiệm vụ sáng tạo, việc sử dụng phán đoán của con người là rất quan trọng để cải thiện các mô hình AI và việc thêm phản hồi của con người có thể đào tạo các mô hình hiệu quả hơn.

Sau khi học tập chuyên sâu với phản hồi của con người, có thể thu được mô hình RLHF.

Sau khi mô hình được đào tạo, bước tiếp theo là làm thế nào để sử dụng hiệu quả các mô hình này để giải quyết vấn đề.

Làm thế nào để sử dụng mô hình tốt hơn?

Trong Phần hai, Karpathy tập trung vào các chiến lược gợi ý, tinh chỉnh, hệ sinh thái công cụ đang phát triển nhanh chóng và khả năng mở rộng trong tương lai.

Karpathy đã đưa ra những ví dụ cụ thể để minh họa:

Khi viết một bài báo, chúng ta sẽ thực hiện rất nhiều hoạt động trí óc, và chúng ta cần cân nhắc xem phát biểu của mình có đúng không. Đối với GPT, đây chỉ là một chuỗi mã thông báo.

Và hint() có thể bù đắp cho sự khác biệt về nhận thức này.

Karpathy giải thích thêm về cách thức hoạt động của gợi ý Chuỗi suy nghĩ.

Đối với các vấn đề suy luận, nếu bạn muốn Transformer hoạt động tốt hơn trong xử lý ngôn ngữ tự nhiên, bạn cần để nó xử lý thông tin từng bước một, thay vì trực tiếp ném cho nó một vấn đề rất phức tạp.

Nếu bạn cho nó một vài ví dụ, nó sẽ bắt chước khuôn mẫu của ví dụ này và kết quả tạo ra cuối cùng sẽ tốt hơn.

Mô hình chỉ có thể trả lời các câu hỏi theo trình tự của nó và nếu những gì nó tạo ra là sai, bạn có thể nhắc nó tạo lại.

Nếu bạn không yêu cầu nó kiểm tra, nó sẽ không tự kiểm tra.

Điều này liên quan đến câu hỏi 1 và 2.

Daniel Kahneman, người đoạt giải Nobel về kinh tế, đã đề xuất trong cuốn sách "Tư duy nhanh và chậm" rằng hệ thống nhận thức của con người bao gồm hai hệ thống con, 1 và 2. 1 chủ yếu dựa vào trực giác, còn 2 là hệ thống phân tích logic.

Theo thuật ngữ của giáo dân, 1 là một quy trình nhanh chóng và tự động, và 2 là một phần được cân nhắc kỹ lưỡng.

Điều này cũng được đề cập trong một bài báo phổ biến gần đây "Cây tư tưởng".

Chu đáo đề cập đến, không chỉ đơn giản là đưa ra câu trả lời cho một câu hỏi, mà giống như được sử dụng với mã keo Python, xâu chuỗi nhiều câu hỏi lại với nhau. Mô hình phải duy trì nhiều gợi ý và nó phải thực hiện một số thuật toán tìm kiếm cây để tìm gợi ý nào cần mở rộng.

Karpathy cho rằng lối suy nghĩ này rất giống với AlphaGo:

Khi AlphaGo đang chơi cờ vây, nó cần cân nhắc vị trí đặt quân tiếp theo. Ban đầu nó học bằng cách bắt chước con người. Nhưng trên hết, nó thực hiện tìm kiếm cây Monte Carlo, dẫn đến các chiến lược có nhiều khả năng. Nó có thể đánh giá nhiều nước đi có thể và chỉ giữ lại những chiến lược tốt hơn. Tôi nghĩ nó tương đương với AlphaGo.

Về vấn đề này, Karpathy cũng đã đề cập đến AutoGPT:

Tôi không nghĩ rằng nó hoạt động tốt vào lúc này và tôi không khuyên bạn nên sử dụng nó trong thực tế. Tôi chỉ nghĩ rằng theo thời gian, chúng ta có thể lấy cảm hứng từ nơi nó sẽ đến.

Thứ hai, có một cuộc đảo chính nhỏ khác là thế hệ nâng cao truy xuất (thế hệ retri agumented) và gợi ý hiệu quả.

Nội dung của ngữ cảnh cửa sổ là bộ nhớ làm việc của các máy biến áp trong thời gian chạy và nếu bạn có thể đưa thông tin liên quan đến tác vụ vào ngữ cảnh, nó sẽ hoạt động rất tốt vì nó có quyền truy cập ngay vào thông tin này.

Nói tóm lại, dữ liệu liên quan có thể được lập chỉ mục để các mô hình có thể được truy cập một cách hiệu quả.

Nó sẽ hoạt động tốt hơn nếu Transformers cũng có một tài liệu chính để tham khảo.

Cuối cùng, Karpathy đã nói ngắn gọn về Ràng buộc và tinh chỉnh trong các mô hình ngôn ngữ lớn. Các mô hình ngôn ngữ lớn có thể được cải thiện thông qua các gợi ý ràng buộc và tinh chỉnh. Gợi ý ràng buộc thực thi các mẫu trong đầu ra của các mô hình ngôn ngữ lớn, trong khi tinh chỉnh sẽ điều chỉnh các trọng số của mô hình để cải thiện hiệu suất.

Tôi khuyên bạn nên sử dụng các mô hình ngôn ngữ lớn cho các ứng dụng ít rủi ro, luôn kết hợp chúng với sự giám sát của con người, coi chúng là nguồn cảm hứng và lời khuyên, xem xét các phi công phụ thay vì biến chúng thành các tác nhân hoàn toàn tự chủ.

Giới thiệu về Andrej Karpathy

Công việc đầu tiên của Tiến sĩ Andrej Karpathy sau khi tốt nghiệp là nghiên cứu thị giác máy tính tại OpenAI.

Sau đó, Musk, một trong những người đồng sáng lập OpenAI, đã thích Karpathy và lôi kéo mọi người đến với Tesla. Nhưng cũng vì sự cố này mà Musk và OpenAI hoàn toàn bất hòa, cuối cùng bị đuổi. Tại Tesla, Karpathy là người đứng đầu các dự án như Autopilot và FSD.

Vào tháng Hai năm nay, bảy tháng sau khi rời Tesla, Karpathy lại gia nhập OpenAI.

Gần đây, anh ấy đã tweet rằng hiện đang có rất nhiều sự quan tâm đến việc phát triển một hệ sinh thái mô hình ngôn ngữ lớn mã nguồn mở, điều này giống như một dấu hiệu của sự bùng nổ kỷ Cambri sớm.

Cổng thông tin: [1] video bài phát biểu) [2] tư tưởng” tiểu luận)

Liên kết tham khảo: [1]

Xem bản gốc

Nội dung chỉ mang tính chất tham khảo, không phải là lời chào mời hay đề nghị. Không cung cấp tư vấn về đầu tư, thuế hoặc pháp lý. Xem Tuyên bố miễn trừ trách nhiệm để biết thêm thông tin về rủi ro.

Phần thưởng
Thích
Bình luận
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#BTC#
231k Trạng thái
#PI#
199k Trạng thái
#ETH#
147k Trạng thái
4#GateioInto11#
80k Trạng thái
5#ContentStar#
66k Trạng thái
6#GT#
64k Trạng thái
7#BOME#
61k Trạng thái
8#DOGE#
58k Trạng thái
9#MAGA#
52k Trạng thái
10#SLERF#
51k Trạng thái

Ghim

sơ đồ trang web