A16Z: 4 Terobosan dalam Generatif AI

Model bahasa besar (LLM) telah menjadi topik hangat di industri teknologi, memberi kami beberapa pengalaman luar biasa — mulai dari menulis kode selama satu minggu dalam hitungan detik, hingga menghasilkan percakapan yang lebih berempati daripada yang kami lakukan dengan manusia. Dilatih dengan triliunan token data menggunakan puluhan ribu GPU, LLM menunjukkan pemahaman bahasa alami yang luar biasa dan mengubah bidang seperti copywriting dan coding, mendorong kita ke era AI generatif yang baru dan menarik. Seperti teknologi apa pun yang muncul, AI generatif mendapat banyak kritik. Meskipun kritik ini sebagian mencerminkan keterbatasan kemampuan LLM saat ini, kami memandang hambatan ini sebagai peluang untuk inovasi lebih lanjut daripada sebagai kekurangan mendasar dari teknologi tersebut.

Untuk lebih memahami terobosan teknologi terbaru dalam LLM dan mempersiapkan para pendiri dan operator untuk masa depan, kami berbicara dengan beberapa peneliti AI generatif terkemuka yang secara aktif membangun dan melatih beberapa model terbesar dan paling mutakhir, termasuk Dario Amodei, CEO dari Anthropic, Aidan Gomez, CEO Cohere, Noam Shazeer, CEO Character.AI, dan Yoav Shoham dari AI21 Labs. Percakapan ini mengidentifikasi 4 arah inovasi utama untuk masa depan: panduan, ingatan, "tangan dan kaki", dan multimodalitas. Dalam artikel ini, kami membahas bagaimana inovasi utama ini akan berkembang selama 6 hingga 12 bulan ke depan dan bagaimana, bagi para pendiri yang tertarik untuk mengintegrasikan AI ke dalam bisnis mereka sendiri, mereka dapat memanfaatkan perkembangan baru ini. **

memandu

Banyak pendiri menyatakan keprihatinan tentang penggunaan LLM dalam produk dan alur kerja mereka karena potensi halusinasi dan bias reproduksi dari model ini. Untuk mengatasi masalah ini, beberapa perusahaan pemodelan terkemuka berupaya meningkatkan teknik kemudi—sebuah metode untuk mengontrol hasil model dengan lebih baik dalam keluaran LLM, memungkinkan model untuk lebih memahami dan menjalankan kebutuhan pengguna yang kompleks. Noam Shazeer menyebutkan kesamaan antara LLM dan anak-anak dalam hal ini: "Ini adalah pertanyaan tentang cara bootstrap [model] yang lebih baik... Masalah yang kami hadapi dengan LLM adalah kami memerlukan cara yang tepat untuk memberi tahu mereka cara mengikuti Bertindak di Tuntutan. Anak kecil juga sama - mereka terkadang mengada-ada dan tidak memiliki pemahaman yang jelas tentang fantasi dan kenyataan." Meskipun setelah munculnya penyedia model dan alat seperti Pagar Pembatas dan LMQL, dalam hal kemampuan orientasi [1] Kemajuan luar biasa telah dibuat, dan para peneliti masih membuat kemajuan, yang kami yakini sangat penting untuk menghasilkan LLM dengan lebih baik bagi pengguna akhir.

Peningkatan orientasi sangat penting di perusahaan enterprise, di mana konsekuensi dari perilaku yang tidak dapat diprediksi dapat menjadi mahal. Amodei menunjukkan bahwa LLM yang tidak dapat diprediksi dapat membuat orang tidak nyaman, dan sebagai penyedia API, dia ingin dapat "mengatakan kepada pelanggan 'tidak, model tidak melakukan ini,' atau setidaknya jarang melakukannya." Dengan meningkatkan LLM output, pendiri dapat lebih percaya diri memastikan bahwa kinerja model sesuai dengan kebutuhan pelanggan. Orientasi yang lebih baik juga akan membuka jalan bagi adopsi secara luas di industri lain yang membutuhkan ketelitian dan keandalan yang lebih tinggi, seperti industri periklanan, di mana taruhan penempatan iklannya tinggi. Amodei juga percaya peningkatan orientasi dapat berlaku untuk "kasus penggunaan hukum, kasus penggunaan medis, menyimpan informasi keuangan dan mengelola taruhan keuangan, dan skenario di mana Anda perlu melindungi merek perusahaan Anda. Anda tidak ingin teknologi yang Anda integrasikan menjadi tidak dapat diprediksi atau sulit diprediksi atau dicirikan."Dengan berorientasi lebih baik, LLM juga akan dapat menyelesaikan tugas yang lebih kompleks dengan sedikit rekayasa petunjuk, karena mereka akan dapat lebih memahami maksud keseluruhan."

Kemajuan dalam orientasi LLM juga berpotensi membuka kemungkinan baru dalam aplikasi konsumen yang sensitif di mana pengguna mengharapkan respons yang disesuaikan dan akurat. Sementara pengguna mungkin mentolerir keluaran yang kurang akurat saat terlibat dalam percakapan atau interaksi kreatif dengan LLM, saat pengguna menggunakan LLM untuk membantu tugas sehari-hari, memandu keputusan penting, atau menambah profesional seperti pelatih kehidupan, terapis, dan dokter, Mereka menginginkan keluaran yang lebih akurat. Telah ditunjukkan bahwa LLM diharapkan untuk menggantikan aplikasi konsumen yang sudah mapan seperti pencarian, tetapi sebelum ini menjadi kemungkinan nyata, kami mungkin memerlukan panduan yang lebih baik untuk meningkatkan keluaran model dan membangun kepercayaan pengguna.

  • Poin terobosan utama: pengguna dapat menyesuaikan keluaran LLMS dengan lebih baik. *

Penyimpanan

Aplikasi copywriting dan pembuatan iklan yang didorong oleh LLM telah mencapai kesuksesan besar, dengan cepat mendapatkan popularitas di kalangan pemasar, pengiklan, dan pengusaha. Namun, output dari sebagian besar LLM saat ini relatif digeneralisasikan, yang membuatnya sulit digunakan untuk kasus penggunaan yang memerlukan personalisasi dan pemahaman kontekstual. Sementara rekayasa petunjuk dan penyempurnaan dapat memberikan tingkat personalisasi, rekayasa petunjuk kurang dapat diskalakan, dan penyempurnaan seringkali mahal karena memerlukan beberapa tingkat pelatihan ulang dan biasanya memerlukan kerja sama yang erat dengan sebagian besar LLM sumber tertutup. Menyempurnakan model untuk setiap pengguna individu biasanya tidak layak atau tidak diinginkan.

Pembelajaran kontekstual adalah cawan suci untuk mewujudkannya, di mana LLM mengambil informasi dari konten yang dihasilkan perusahaan Anda, jargon khusus perusahaan Anda, dan konteks khusus untuk membuat hasil yang lebih terperinci, khusus kasus penggunaan. Untuk mencapai tujuan ini, LLM membutuhkan kemampuan memori yang ditingkatkan. Memori LLM memiliki dua komponen utama: jendela konteks dan pengambilan. Jendela konteks adalah teks yang dapat diproses dan digunakan model untuk memandu keluarannya, selain korpus data yang dilatihkan. Pengambilan mengacu pada pengambilan dan referensi informasi dan dokumen yang relevan ("data kontekstual") dari kumpulan data selain korpus data pelatihan model. Saat ini, sebagian besar LLM memiliki jendela konteks terbatas dan tidak dapat mengambil informasi tambahan secara bawaan, sehingga menghasilkan keluaran yang kurang personalisasi. Namun, dengan jendela konteks yang lebih besar dan pengambilan yang lebih baik, LLM dapat secara langsung memberikan output yang lebih terperinci dan khusus kasus penggunaan.

Secara khusus, dengan memperluas jendela konteks, model akan mampu menangani volume teks yang lebih besar dan menjaga konteks dengan lebih baik, termasuk mempertahankan koherensi dalam dialog. Hal ini secara signifikan akan meningkatkan kemampuan model dalam tugas-tugas yang membutuhkan pemahaman yang lebih mendalam tentang masukan yang lebih panjang, seperti meringkas teks yang panjang atau menghasilkan tanggapan yang koheren dan akurat secara kontekstual selama percakapan yang panjang. Dalam hal jendela konteks, kami telah melihat peningkatan yang signifikan - GPT-4 memiliki jendela konteks token 8k dan 32k, dibandingkan dengan token 4k dan 16k untuk GPT-3.5 dan ChatGPT, dan Claude baru-baru ini memindahkan Jendela konteksnya meluas hingga 100k yang mengejutkan token [2] 。

Memperluas jendela konteks saja tidak cukup meningkatkan memori, karena biaya dan waktu skala inferensi semu linier atau bahkan kuadrat dengan panjang petunjuk. [3] Mekanisme pengambilan menambah dan menyempurnakan korpus pelatihan asli LLM dengan data kontekstual yang terkait dengan isyarat. Karena LLM dilatih tentang kumpulan informasi dan seringkali sulit diperbarui, pengambilan memiliki dua manfaat utama, menurut Shoham: "Pertama, ini memungkinkan Anda untuk mengakses sumber informasi yang tidak Anda miliki pada waktu pelatihan. Kedua, ini memungkinkan Anda untuk Memfokuskan model bahasa pada informasi yang menurut Anda relevan dengan tugas." Database vektor seperti Pinecone telah menjadi standar de-facto untuk mengambil informasi yang relevan secara efisien, dan berfungsi sebagai lapisan memori untuk LLM, membuatnya lebih mudah untuk model untuk dengan cepat dan akurat mencari dan mereferensikan sejumlah besar informasi data yang benar dalam .

Jendela konteks yang ditingkatkan dan pengambilan akan menjadi sangat penting dalam kasus penggunaan perusahaan, seperti menavigasi basis pengetahuan yang besar atau database yang kompleks. Perusahaan akan dapat memanfaatkan data hak milik mereka dengan lebih baik, seperti pengetahuan internal, riwayat tiket dukungan pelanggan, atau hasil keuangan, sebagai masukan untuk LLM tanpa penyempurnaan. Meningkatkan memori LLM akan membawa peningkatan dan kemampuan penyesuaian yang mendalam di berbagai bidang seperti pelatihan, pelaporan, pencarian internal, analitik data dan intelijen bisnis, serta dukungan pelanggan.

Di ruang konsumen, jendela kontekstual yang ditingkatkan dan pengambilan akan memungkinkan kemampuan personalisasi yang kuat yang akan merevolusi pengalaman pengguna. Menurut Noam Shazeer, "Salah satu terobosan besar adalah mengembangkan model yang memiliki kapasitas memori sangat tinggi yang dapat disesuaikan untuk setiap pengguna sambil tetap hemat biaya dalam skala besar. Anda ingin terapis Anda mengetahui Setiap aspek dari hidup; Anda ingin guru Anda mengetahui apa yang sudah Anda ketahui; Anda ingin pelatih kehidupan Anda dapat menasihati Anda tentang apa yang sedang terjadi. Mereka semua membutuhkan konteks.” Aidan Gomez juga bersemangat dengan perkembangan ini. "Dengan memberi model akses ke data yang secara unik relevan bagi Anda, seperti email, kalender, atau pesan langsung Anda," katanya, "model akan belajar tentang hubungan Anda dengan orang lain untuk membantu Anda dengan cara terbaik dalam situasi tersebut. ."

  • Terobosan utama: LLM akan dapat mempertimbangkan sejumlah besar informasi yang relevan dan memberikan keluaran yang lebih pribadi, disesuaikan, dan bermanfaat. *

** "Lengan dan Kaki": Memberi model kemampuan untuk menggunakan alat**

Kekuatan sebenarnya dari LLM terletak pada menjadikan bahasa alami sebagai media tindakan. LLM memiliki pemahaman yang canggih tentang sistem umum dan terdokumentasi dengan baik, tetapi mereka tidak dapat menerapkan informasi apa pun yang diambil dari sistem ini. Misalnya, ChatGPT dari OpenAI, Claude dari Anthropic, dan Lily dari Character AI dapat menjelaskan secara detail cara memesan penerbangan, tetapi mereka tidak dapat memesan penerbangan secara native sendiri (walaupun kemajuan teknologi seperti plugin ChatGPT mendorong batasan ini). "Otak ini secara teoretis memiliki semua pengetahuan ini, hanya saja tidak ada pemetaan dari nama hingga tombol. Tidak perlu banyak pelatihan untuk menghubungkan kabel-kabel ini. Anda memiliki otak tanpa tubuh yang tahu cara bergerak, tapi itu belum menempel di lengan dan kaki."

Seiring waktu, kami telah melihat perusahaan meningkatkan kemampuan LLM untuk menggunakan alat tersebut. Perusahaan mapan seperti Bing dan Google dan startup seperti Perplexity dan You.com meluncurkan API pencarian. AI21 Labs memperkenalkan Jurassic-X, yang mengatasi banyak kekurangan LLM mandiri dengan menggabungkan model dengan seperangkat alat yang telah ditentukan sebelumnya, termasuk kalkulator, API cuaca, API Wikipedia, dan database. OpenAI meluncurkan versi beta plugin untuk ChatGPT yang memungkinkan ChatGPT berinteraksi dengan alat seperti Expedia, OpenTable, Wolfram, Instacart, Speak, browser web, dan juru kode, sebuah terobosan yang diyakini menyerupai momen "App Store" Apple. Baru-baru ini, OpenAI memperkenalkan panggilan fungsi di GPT-3.5 dan GPT-4 [4] , memungkinkan pengembang menautkan kemampuan GPT dengan alat eksternal apa pun.

Kemampuan untuk menambahkan lengan dan kaki menjanjikan untuk mengaktifkan berbagai kasus penggunaan di berbagai perusahaan dan tipe pengguna dengan beralih dari penambangan pengetahuan ke orientasi tindakan. Untuk konsumen, LLM akan segera dapat menyarankan resep dan memesan bahan yang Anda butuhkan, atau menyarankan tempat makan siang dan memesankan meja untuk Anda. Di ruang perusahaan, pendiri dapat membuat aplikasi mereka lebih mudah digunakan dengan memasukkan LLM. Seperti yang ditunjukkan Amodei: "Untuk fungsi yang sangat sulit digunakan dari perspektif antarmuka pengguna, kami mungkin hanya perlu mendeskripsikannya dalam bahasa alami untuk mencapai operasi yang kompleks." Misalnya, untuk aplikasi seperti Salesforce, integrasi LLM harus memungkinkan pengguna untuk menggunakan bahasa Alami untuk melakukan pembaruan dan membuat model secara otomatis membuat perubahan tersebut, secara drastis mengurangi waktu yang diperlukan untuk mempertahankan CRM Anda. seperti berpadu [5] dan Adept [6] Startup semacam itu sedang berupaya mengintegrasikan LLM ke dalam alat yang begitu rumit.

Gomez percaya bahwa meskipun LLM semakin mungkin dapat menggunakan aplikasi seperti Excel dalam 2 tahun, "masih banyak penyempurnaan yang harus dilakukan. Kami akan memiliki model generasi pertama yang dapat menggunakan alat, dan itu akan menarik." Tapi rapuh. Pada akhirnya kita akan memiliki sistem impian di mana kita dapat menyerahkan perangkat lunak apa pun ke model dengan beberapa deskripsi seperti 'inilah yang dilakukan alat ini, inilah cara menggunakannya' dan itu akan menjadi dapat menggunakannya ...setelah kami dapat menyediakan LLM dengan alat khusus dan umum, otomatisasi yang dibawanya akan menjadi puncak bidang kami."

*Terobosan utama: LLM akan dapat berinteraksi lebih efektif dengan alat yang kita gunakan saat ini. *

multimodal

Meskipun antarmuka obrolan menarik dan intuitif bagi banyak pengguna, manusia dapat mendengar dan berbicara bahasa sesering mereka menulis atau membacanya, atau lebih. Seperti yang ditunjukkan Amodei: "Ada batasan untuk apa yang dapat dilakukan oleh sistem AI karena tidak semuanya berupa teks." Model dengan kemampuan multimoda dapat memproses dan menghasilkan konten dengan mulus dalam berbagai format audio atau visual , memperluas interaksi ini di luar bahasa. Model seperti GPT-4, Character.AI, dan Meta's ImageBind sudah mampu memproses dan menghasilkan gambar, audio, dan modalitas lainnya, tetapi kemampuannya di bidang ini relatif mendasar, meskipun kemajuannya pesat. Dalam kata-kata Gomez, model kita benar-benar buta hari ini, dan itu perlu diubah. Kami membuat banyak antarmuka pengguna grafis (GUI) yang seharusnya dapat dilihat oleh pengguna.

Saat LLM berkembang untuk lebih memahami dan berinteraksi dengan berbagai modalitas, mereka akan dapat menggunakan aplikasi yang sudah ada yang mengandalkan GUI, seperti browser. Mereka juga dapat memberi konsumen pengalaman yang lebih menarik, koheren, dan holistik, memungkinkan interaksi pengguna melampaui antarmuka obrolan. “Banyak integrasi model multimoda yang hebat dapat membuat hal-hal menjadi lebih menarik dan lebih terhubung dengan pengguna,” kata Shazeer. Dia juga berkata, “Saya pikir sebagian besar kecerdasan inti saat ini berasal dari teks, tetapi audio dan video dapat membuat Hal-Hal ini lebih menarik.” Dari obrolan video dengan tutor AI hingga iterasi dan penulisan skrip drama TV yang berkolaborasi dengan AI, multimodalitas memiliki potensi untuk mengubah hiburan, pembelajaran dan pengembangan, serta pembuatan konten di berbagai kasus penggunaan konsumen dan perusahaan.

Multimodalitas erat kaitannya dengan penggunaan alat. Meskipun LLM awalnya dapat berinteraksi dengan perangkat lunak eksternal melalui API, multimodalitas akan memungkinkan LLM menggunakan alat yang dirancang untuk konsumsi manusia tetapi tanpa integrasi khusus, seperti sistem perencanaan sumber daya perusahaan (ERP) tradisional, aplikasi desktop, perangkat medis, atau mesin manufaktur. Kami telah melihat kemajuan yang menggembirakan dalam hal ini: misalnya, model Google Med-PaLM-2 dapat menyintesis gambar mamografi dan sinar-X. Dan dalam jangka panjang, multimodalitas (terutama integrasi dengan visi komputer) dapat memperluas LLM ke realitas fisik kita sendiri melalui robotika, kendaraan otonom, dan aplikasi lain yang memerlukan interaksi waktu nyata dengan dunia fisik.

*Terobosan Utama: Model multimoda dapat bernalar tentang gambar, video, dan bahkan lingkungan fisik tanpa penyesuaian yang signifikan. *

Terlepas dari beberapa keterbatasan praktis dari LLM, para peneliti telah membuat perbaikan yang mencengangkan pada model ini dalam waktu singkat. Fakta bahwa kami telah memperbaruinya beberapa kali hingga tulisan ini dibuat merupakan bukti pesatnya perkembangan teknologi di bidang ini. Gomez setuju: "Suatu kali dari 20 LLM membuat fakta bahwa itu jelas masih terlalu tinggi. Tapi saya benar-benar yakin bahwa ini adalah pertama kalinya kami membangun sistem seperti ini. Harapan orang cukup tinggi , jadi tujuannya adalah Dari 'Komputer itu bodoh, mereka hanya bisa mengerjakan matematika' hingga 'Manusia mungkin bisa berbuat lebih baik.' Kami telah cukup menjembatani kesenjangan sehingga kritik berfokus pada apa yang bisa dilakukan manusia."

Kami sangat senang dengan empat inovasi berikut yang berada di titik kritis dalam mengubah cara pengusaha membangun produk dan menjalankan perusahaan. Dalam jangka panjang, potensinya bahkan lebih besar. Amodei memprediksi: "Pada titik tertentu, kita mungkin memiliki model yang dapat membaca semua data biologis dan menemukan obat untuk kanker." Kenyataannya adalah aplikasi baru yang terbaik mungkin masih belum diketahui. Di Character.AI, Shazeer memungkinkan pengguna mengembangkan kasus penggunaan ini: "Kita akan melihat banyak aplikasi baru yang dibuka. Sulit bagi saya untuk mengetahui aplikasi apa itu. Akan ada jutaan aplikasi, dan jumlah pengguna melebihi jumlah sedikit." Insinyur lebih baik dalam mencari tahu cara menggunakan teknologi." Kami tidak sabar untuk melihat bagaimana kemajuan ini akan memengaruhi cara kita hidup dan bekerja sebagai pengusaha dan perusahaan, karena alat dan kemampuan baru ini memberdayakan kita.

*Terima kasih kepada Matt Bornstein, Guido Appenzeller, dan Rajko Radovanović atas komentar dan masukan mereka selama proses penulisan. *

Lihat Asli
Konten ini hanya untuk referensi, bukan ajakan atau tawaran. Tidak ada nasihat investasi, pajak, atau hukum yang diberikan. Lihat Penafian untuk pengungkapan risiko lebih lanjut.
  • Hadiah
  • 1
  • Bagikan
Komentar
0/400
GateUser-b2fd1107vip
· 03-18 19:31
1000x Vibes 🤑
Balas0
  • Sematkan
Perdagangkan Kripto Di Mana Saja Kapan Saja
qrCode
Pindai untuk mengunduh aplikasi Gate.io
Komunitas
Indonesia
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)