Після випуску Windows Copilot популярність конференції Microsoft Build підірвалася промовою.
Колишній директор Tesla зі штучного інтелекту Андрій Карпаті у своїй промові вірив, що дерево думок схоже на Monte Carlo Tree Search (MCTS) AlphaGo!
Користувачі мережі кричали: це найдокладніший і найцікавіший посібник із використання великої мовної моделі та моделі GPT-4!
Крім того, Карпати розповіли, що завдяки розширенню тренувань і даних, LLAMA 65B «значно потужніша, ніж GPT-3 175B», і представили велику модель анонімної арени ChatBot Arena:
Оцінка Клода між ChatGPT 3,5 і ChatGPT 4.
Користувачі мережі відзначили, що виступи «Карпат» завжди були чудовими, і цього разу, як завжди, контент не розчарував усіх.
Популярною з виступу стала також замітка, складена користувачами мережі Twitter на основі промови.Всього 31 замітка, а кількість репостів перевалила за 3000+:
Отже, що конкретно було згадано в цій гучній промові?
Як навчити асистента GPT?
Промова Карпат цього разу в основному поділена на дві частини.
Частина перша, він розповідав про те, як навчити «асистента GPT».
Karpathy в основному описує чотири етапи навчання помічників ШІ: попереднє навчання, контрольована точна настройка, моделювання винагороди та навчання з підкріпленням.
Для кожного етапу потрібен набір даних.
На етапі попереднього навчання потрібна велика кількість обчислювальних ресурсів для збору великої кількості наборів даних. Навчання базової моделі на великому неконтрольованому наборі даних.
Karpathy доповнює його іншими прикладами:
Використовуючи менший контрольований набір даних, точне налаштування цієї базової моделі за допомогою контрольованого навчання створює допоміжну модель, яка може відповідати на запитання.
Він також показав процес еволюції деяких моделей.Я вважаю, що багато людей бачили наведене вище зображення «дерева еволюції» раніше.
Karpathy вважає, що найкращою моделлю з відкритим вихідним кодом наразі є серія LLaMA від Meta (оскільки OpenAI не має відкритого коду нічого про GPT-4).
Тут слід чітко зазначити, що базова модель не є моделлю помічника.
Хоча базова модель може відповісти на запитання, відповідь, яку вона дає, не є надійною, і для відповіді на запитання можна використовувати модель помічника. Модель помічника, навчена на базовій моделі з контрольованим тонким налаштуванням, перевершить базову модель у створенні відповідей і розумінні структури тексту.
Навчання з підкріпленням є ще одним важливим процесом під час навчання мовних моделей.
Завдяки навчанню з високоякісними даними, позначеними людиною, моделювання винагороди можна використовувати для створення функції втрат для покращення її продуктивності. Потім проводиться тренування з підкріпленням шляхом збільшення позитивної мітки та зменшення ймовірності негативної мітки.
У творчих завданнях використання людського судження має вирішальне значення для вдосконалення моделей штучного інтелекту, а додавання людського відгуку може ефективніше навчати моделі.
Після інтенсивного навчання зі зворотним зв'язком людини можна отримати модель RLHF.
Після навчання моделі наступним кроком є те, як ефективно використовувати ці моделі для вирішення проблем.
Як краще використовувати модель?
У Частині другій Karpathy зосереджується на стратегіях підказок, тонкому налаштуванні, екосистемі інструментів, що швидко розвивається, і майбутньому розширенні.
Карпати навів конкретні приклади для ілюстрації:
Коли ми пишемо статтю, ми будемо виконувати багато розумової діяльності, і нам потрібно подумати, чи правильне наше твердження. Для GPT це лише послідовність токенів.
І hint() може компенсувати цю когнітивну різницю.
Карпаті далі пояснює, як працює підказка Ланцюжок думок.
Для проблем логічного висновку, якщо ви хочете, щоб Transformer краще працював у обробці природної мови, вам потрібно дозволити йому обробляти інформацію крок за кроком, замість того, щоб безпосередньо кидати її дуже складною проблемою.
Якщо ви наведете кілька прикладів, він імітуватиме шаблон цього прикладу, і кінцеві згенеровані результати будуть кращими.
Модель може відповідати лише на питання у своїй послідовності, і якщо те, що вона генерує, є неправильним, ви можете запропонувати їй генерувати повторно.
Якщо ви не попросите його перевірити, він сам не перевірить.
Це стосується запитань 1 і 2.
Даніель Канеман, лауреат Нобелівської премії з економіки, припустив у «Мисленні швидко і повільно», що когнітивна система людини включає дві підсистеми, 1 і 2. 1 в основному базується на інтуїції, тоді як 2 є системою логічного аналізу.
Говорячи простою мовою, 1 — це швидкий і автоматичний процес, а 2 — це добре продумана частина.
Про це також йдеться в останній популярній статті «Дерево думки».
Продуманий стосується не просто надання відповіді на запитання, а більше схожого на використання з кодом Python, що об’єднує багато разом. Модель має підтримувати кілька підказок і виконувати певний алгоритм пошуку дерева, щоб знайти підказки для розширення.
Karpathy вважає, що ця лінія мислення дуже схожа на AlphaGo:
Коли AlphaGo грає в Go, йому потрібно враховувати, де буде розміщено наступну фігуру. Спочатку він навчився, наслідуючи людей.
Але на додаток до цього, він виконує пошук дерева Монте-Карло, що призводить до стратегій із багатьма можливостями. Він може оцінити кілька можливих ходів і залишити лише ті стратегії, які є кращими. Я думаю, що це щось на зразок AlphaGo.
З цього приводу Карпати також згадали про AutoGPT:
Я не думаю, що на даний момент це працює дуже добре, і я не рекомендую його для практичного використання. Я просто думаю, що з часом ми зможемо черпати натхнення з того, до чого це йде.
По-друге, є ще один невеликий переворот, а саме генерація з посиленим пошуком (генерація з повторними аргументами) та ефективні підказки.
Вміст контексту вікна є робочою пам’яттю трансформаторів під час виконання, і якщо ви можете помістити інформацію, пов’язану із завданням, у контекст, він працюватиме дуже добре, оскільки має миттєвий доступ до цієї інформації.
Коротше кажучи, пов’язані дані можна індексувати, щоб можна було ефективно отримувати доступ до моделей.
Це було б краще, якби у Трансформерів також був основний документ, на який можна посилатися.
Нарешті, Карпаті коротко розповів про обмеження та тонке налаштування у великих мовних моделях. Великі мовні моделі можна вдосконалити за допомогою підказок щодо обмежень і тонкого налаштування. Підказка обмежень забезпечує застосування шаблонів у виводі великих мовних моделей, тоді як точне налаштування налаштовує ваги моделі для підвищення продуктивності.
Я рекомендую використовувати великі мовні моделі для програм із низькими ставками, завжди поєднуючи їх із людським наглядом, розглядаючи їх як джерело натхнення та порад, розглядаючи спільних пілотів, а не роблячи їх повністю автономними агентами.
Про Андрія Карпатого
Першою роботою д-ра Андрія Карпаті після закінчення навчання було вивчення комп’ютерного зору в OpenAI.
Пізніше Маск, один із співзасновників OpenAI, захопився Карпатами і докопав людей до Tesla. Але також через цей інцидент Маск і OpenAI повністю посварилися і, нарешті, були вигнані. У Tesla Карпати є керівником таких проектів, як Autopilot і FSD.
У лютому цього року, через сім місяців після відходу з Tesla, Карпати знову приєдналися до OpenAI.
Нещодавно він написав у Твіттері, що зараз існує великий інтерес до розробки екосистеми великої мовної моделі з відкритим кодом, що трохи нагадує ознаку раннього кембрійського вибуху.
Портал: [1] відео виступу) [2] думка" твір)
Посилання на посилання: [1]
Переглянути оригінал
Контент має виключно довідковий характер і не є запрошенням до участі або пропозицією. Інвестиційні, податкові чи юридичні консультації не надаються. Перегляньте Відмову від відповідальності , щоб дізнатися більше про ризики.
Нарешті хтось дав зрозуміти статус-кво GPT! Остання промова Деніела OpenAI дуже популярна, і вона має бути геніальною, підібраною Маском
Джерело: Qubit
Після випуску Windows Copilot популярність конференції Microsoft Build підірвалася промовою.
Колишній директор Tesla зі штучного інтелекту Андрій Карпаті у своїй промові вірив, що дерево думок схоже на Monte Carlo Tree Search (MCTS) AlphaGo!
Користувачі мережі кричали: це найдокладніший і найцікавіший посібник із використання великої мовної моделі та моделі GPT-4!
Популярною з виступу стала також замітка, складена користувачами мережі Twitter на основі промови.Всього 31 замітка, а кількість репостів перевалила за 3000+:
Як навчити асистента GPT?
Промова Карпат цього разу в основному поділена на дві частини.
Частина перша, він розповідав про те, як навчити «асистента GPT».
Karpathy в основному описує чотири етапи навчання помічників ШІ: попереднє навчання, контрольована точна настройка, моделювання винагороди та навчання з підкріпленням.
Для кожного етапу потрібен набір даних.
Karpathy доповнює його іншими прикладами:
Тут слід чітко зазначити, що базова модель не є моделлю помічника.
Хоча базова модель може відповісти на запитання, відповідь, яку вона дає, не є надійною, і для відповіді на запитання можна використовувати модель помічника. Модель помічника, навчена на базовій моделі з контрольованим тонким налаштуванням, перевершить базову модель у створенні відповідей і розумінні структури тексту.
Навчання з підкріпленням є ще одним важливим процесом під час навчання мовних моделей.
Завдяки навчанню з високоякісними даними, позначеними людиною, моделювання винагороди можна використовувати для створення функції втрат для покращення її продуктивності. Потім проводиться тренування з підкріпленням шляхом збільшення позитивної мітки та зменшення ймовірності негативної мітки.
У творчих завданнях використання людського судження має вирішальне значення для вдосконалення моделей штучного інтелекту, а додавання людського відгуку може ефективніше навчати моделі.
Після інтенсивного навчання зі зворотним зв'язком людини можна отримати модель RLHF.
Після навчання моделі наступним кроком є те, як ефективно використовувати ці моделі для вирішення проблем.
Як краще використовувати модель?
У Частині другій Karpathy зосереджується на стратегіях підказок, тонкому налаштуванні, екосистемі інструментів, що швидко розвивається, і майбутньому розширенні.
Карпати навів конкретні приклади для ілюстрації:
І hint() може компенсувати цю когнітивну різницю.
Карпаті далі пояснює, як працює підказка Ланцюжок думок.
Для проблем логічного висновку, якщо ви хочете, щоб Transformer краще працював у обробці природної мови, вам потрібно дозволити йому обробляти інформацію крок за кроком, замість того, щоб безпосередньо кидати її дуже складною проблемою.
Даніель Канеман, лауреат Нобелівської премії з економіки, припустив у «Мисленні швидко і повільно», що когнітивна система людини включає дві підсистеми, 1 і 2. 1 в основному базується на інтуїції, тоді як 2 є системою логічного аналізу.
Говорячи простою мовою, 1 — це швидкий і автоматичний процес, а 2 — це добре продумана частина.
Про це також йдеться в останній популярній статті «Дерево думки».
Karpathy вважає, що ця лінія мислення дуже схожа на AlphaGo:
З цього приводу Карпати також згадали про AutoGPT:
Вміст контексту вікна є робочою пам’яттю трансформаторів під час виконання, і якщо ви можете помістити інформацію, пов’язану із завданням, у контекст, він працюватиме дуже добре, оскільки має миттєвий доступ до цієї інформації.
Коротше кажучи, пов’язані дані можна індексувати, щоб можна було ефективно отримувати доступ до моделей.
Нарешті, Карпаті коротко розповів про обмеження та тонке налаштування у великих мовних моделях. Великі мовні моделі можна вдосконалити за допомогою підказок щодо обмежень і тонкого налаштування. Підказка обмежень забезпечує застосування шаблонів у виводі великих мовних моделей, тоді як точне налаштування налаштовує ваги моделі для підвищення продуктивності.
Про Андрія Карпатого
Пізніше Маск, один із співзасновників OpenAI, захопився Карпатами і докопав людей до Tesla. Але також через цей інцидент Маск і OpenAI повністю посварилися і, нарешті, були вигнані. У Tesla Карпати є керівником таких проектів, як Autopilot і FSD.
У лютому цього року, через сім місяців після відходу з Tesla, Карпати знову приєдналися до OpenAI.
Нещодавно він написав у Твіттері, що зараз існує великий інтерес до розробки екосистеми великої мовної моделі з відкритим кодом, що трохи нагадує ознаку раннього кембрійського вибуху.
Посилання на посилання: [1]