Büyük dil modelleri (LLM'ler) teknoloji endüstrisinde sıcak bir konu haline geldi ve bize saniyeler içinde bir haftalık kod yazmaktan insanlarla yaptığımızdan daha empatik konuşmalar oluşturmaya kadar inanılmaz deneyimler sunuyor. On binlerce GPU kullanılarak trilyonlarca token veri üzerinde eğitilen LLM'ler, dikkate değer bir doğal dil anlayışı sergiliyor ve metin yazarlığı ve kodlama gibi alanları dönüştürerek bizi yeni ve heyecan verici üretken yapay zeka çağına itiyor. Gelişmekte olan herhangi bir teknoloji gibi, üretken yapay zeka da adil bir eleştiri payına sahiptir. Bu eleştiriler kısmen LLM'lerin mevcut yeteneklerinin sınırlamalarını yansıtsa da, bu engelleri teknolojinin temel eksiklikleri olarak değil, daha fazla yenilik için fırsatlar olarak görüyoruz.
LLM'lerdeki son teknolojik atılımları daha iyi anlamak ve kurucuları ve operatörleri geleceğe hazırlamak için, en büyük ve en ileri modellerden bazılarını aktif olarak oluşturan ve eğiten önde gelen üretken yapay zeka araştırmacılarından bazılarıyla konuştuk. Bunlar arasında CEO Dario Amodei yer alıyor. Anthropic'ten Cohere CEO'su Aidan Gomez, Character.AI CEO'su Noam Shazeer ve AI21 Labs'tan Yoav Shoham. Bu sohbetler, gelecek için 4 temel yenilik yönü belirledi: rehberlik, hafıza, "eller ve ayaklar" ve çok modluluk. Bu makalede, bu önemli yeniliklerin önümüzdeki 6 ila 12 ay içinde nasıl gelişeceğini ve yapay zekayı kendi işletmelerine entegre etmekle ilgilenen kurucuların bu yeni gelişmelerden nasıl yararlanabileceklerini tartışıyoruz. **
rehber
Birçok kurucu, halüsinasyon potansiyeli ve bu modellerden kaynaklanan üreme yanlılığı nedeniyle LLM'leri ürünlerinde ve iş akışlarında kullanma konusundaki endişelerini dile getiriyor. Bu sorunları ele almak için bazı önde gelen modelleme şirketleri yönlendirme tekniklerini geliştirmeye çalışıyorlar; bu, modellerin karmaşık kullanıcı gereksinimlerini daha iyi anlamasına ve yürütmesine olanak tanıyan, LLM'lerin çıktılarında model sonuçlarını daha iyi kontrol etmeye yönelik bir yöntem. Noam Shazeer bu konuda LLM'ler ve çocuklar arasındaki benzerliklerden bahsediyor: "Bu [modelleri] nasıl daha iyi önyükleyeceğimizle ilgili bir soru... LLM'lerle ilgili sorunumuz, onlara Oyunculuğu nasıl izleyeceklerini doğru şekilde söylememiz gerektiğidir. Küçük çocuklar aynıdır - bazen bir şeyler uydururlar ve fantezi ile gerçeklik hakkında net bir anlayışa sahip olmazlar." Her ne kadar yönlendirme yeteneği açısından Guardrails ve LMQL gibi model sağlayıcıların ve araçların ortaya çıkmasından sonra [1] Kayda değer bir ilerleme kaydedildi ve araştırmacılar, son kullanıcılar için LLM'leri daha iyi ürün haline getirmek için kritik olduğuna inandığımız ilerleme kaydetmeye devam ediyor.
İyileştirilmiş oryantasyon, öngörülemeyen davranışların sonuçlarının maliyetli olabildiği kurumsal şirketlerde özellikle önemlidir. Amodei, LLM'lerin öngörülemezliğinin insanları rahatsız edebileceğine işaret etti ve bir API sağlayıcısı olarak "müşterilere 'hayır, modeller bunu yapmıyor' diyebilmek veya en azından nadiren yapıyor" diyebilmek istiyor. Çıktı, kurucular, modelin performansının müşterilerin ihtiyaçlarına uygun olduğundan daha emin bir şekilde emin olabilir. İyileştirilmiş yönlendirme, reklam yerleşimi için risklerin yüksek olduğu reklamcılık sektörü gibi daha fazla hassasiyet ve güvenilirlik gerektiren diğer sektörlerde de yaygın olarak benimsenmesinin yolunu açacaktır. Amodei, iyileştirilmiş yönlendirmenin "yasal kullanım durumlarına, tıbbi kullanım durumlarına, finansal bilgilerin saklanması ve finansal bahislerin yönetilmesine ve şirketinizin markasını korumanız gereken senaryolara" uygulanabileceğine de inanıyor. "Daha iyi yönlendirilerek, LLM'ler az miktarda ipucu mühendisliği ile daha karmaşık görevleri başarabilecekler, çünkü genel amacı daha iyi anlayabilecekler."
LLM'lerin oryantasyonundaki ilerlemeler, kullanıcıların özelleştirilmiş ve doğru yanıtlar beklediği hassas tüketici uygulamalarında da yeni olanaklar açma potansiyeline sahiptir. Kullanıcılar, LLM'lerle sohbete dayalı veya yaratıcı etkileşimlerde bulunurken daha az doğru çıktıları tolere edebilirken, kullanıcılar LLM'leri günlük görevlere yardımcı olmak, önemli kararlara rehberlik etmek veya yaşam koçları, terapistler ve doktorlar gibi profesyonelleri desteklemek için kullandıklarında daha doğru çıktılar isterler. LLM'lerin arama gibi yerleşik tüketici uygulamalarının yerini almasının beklendiğine dikkat çekildi, ancak bu gerçek bir olasılık haline gelmeden önce, model çıktısını iyileştirmek ve kullanıcı güveni oluşturmak için daha iyi rehberliğe ihtiyacımız olabilir.
Kilit atılım noktası: kullanıcılar LLMS'nin çıktısını daha iyi özelleştirebilir. *
hafıza
LLM'ler tarafından yönlendirilen metin yazarlığı ve reklam oluşturma uygulamaları, pazarlamacılar, reklamcılar ve girişimciler arasında hızla popülerlik kazanarak büyük bir başarı elde etti. Bununla birlikte, mevcut LLM'lerin çoğunun çıktısı nispeten genelleştirilmiştir, bu da bunların kişiselleştirme ve bağlamsal anlayış gerektiren kullanım durumları için kullanılmasını zorlaştırır. İpucu mühendisliği ve ince ayar, bir dereceye kadar kişiselleştirme sağlayabilirken, ipucu mühendisliği daha az ölçeklenebilirdir ve ince ayar, bir düzeyde yeniden eğitim gerektirdiğinden ve genellikle çoğu kapalı kaynak LLM ile yakın işbirliği gerektirdiğinden genellikle maliyetlidir. Her bir kullanıcı için bir modele ince ayar yapmak genellikle mümkün veya istenmez.
LLM'lerin şirketiniz tarafından oluşturulan içerikten, şirketinize özgü jargondan ve daha ayrıntılı, kullanım durumuna özel çıktılar oluşturmak için belirli bağlamdan bilgi aldığı bağlamsal öğrenme, bunu gerçekleştirmenin kutsal kâsesidir. Bu hedefe ulaşmak için LLM'lerin gelişmiş bellek özelliklerine ihtiyacı vardır. LLM belleğinin iki ana bileşeni vardır: bağlam pencereleri ve alma. Bağlam penceresi, bir modelin üzerinde eğitildiği veri topluluğuna ek olarak işleyebileceği ve çıktısını yönlendirmek için kullanabileceği metindir. Alma, ilgili bilgi ve belgelerin ("bağlamsal veriler"), modelin eğitim verileri korpusu dışındaki bir veri grubundan alınması ve bunlara atıfta bulunulması anlamına gelir. Şu anda çoğu LLM'nin sınırlı bağlam pencereleri vardır ve yerel olarak ek bilgileri alamazlar, bu nedenle kişiselleştirmeden yoksun çıktılar üretirler. Bununla birlikte, daha büyük bağlam pencereleri ve geliştirilmiş geri alma ile LLM'ler doğrudan daha ayrıntılı, kullanım durumuna özel çıktılar sağlayabilir.
Özellikle, bağlam penceresini genişleterek model, daha büyük hacimli metinleri işleyebilecek ve diyalogda tutarlılığı korumak da dahil olmak üzere bağlamı daha iyi koruyabilecektir. Bu, uzun metinleri özetlemek veya uzun konuşmalar sırasında tutarlı ve bağlamsal olarak doğru yanıtlar oluşturmak gibi daha uzun girdilerin daha derinden anlaşılmasını gerektiren görevlerde modelin yeteneğini önemli ölçüde artıracaktır. Bağlam pencereleri açısından önemli gelişmeler gördük - GPT-3.5 ve ChatGPT için 4k ve 16k belirteçlere kıyasla GPT-4, 8k ve 32k belirteçlerden oluşan bağlam pencerelerine sahip ve Claude kısa süre önce taşındı Bağlam penceresi şaşırtıcı bir şekilde 100k'ya çıkıyor belirteçler [2] .
Çıkarımın maliyeti ve süresi, ipucunun uzunluğuyla yarı-doğrusal veya hatta karesel olarak ölçeklendiğinden, bağlam penceresini tek başına genişletmek belleği yeterince iyileştirmez. [3] Geri alma mekanizması, LLM'nin orijinal eğitim korpusunu işaretle ilgili bağlamsal verilerle zenginleştirir ve geliştirir. Shoham'a göre LLM'ler bir bilgi bütünü üzerinde eğitildiğinden ve genellikle güncellenmesi zor olduğundan, almanın iki ana faydası vardır: "Birincisi, eğitim sırasında sahip olmadığınız bilgi kaynaklarına erişmenizi sağlar. İkincisi, Dil modelini görevle ilgili olduğunu düşündüğünüz bilgilere odaklamanız gerekir." Pinecone gibi vektör veritabanları, ilgili bilgileri verimli bir şekilde almak için fiili standart haline geldi ve LLM'ler için bellek katmanı görevi görerek modellerin çalışmasını kolaylaştırdı. .
Artan bağlam pencereleri ve geri alma, büyük bilgi tabanlarında veya karmaşık veritabanlarında gezinme gibi kurumsal kullanım durumlarında özellikle önemli olacaktır. Şirketler, ince ayar yapmadan LLM'lere girdi olarak dahili bilgi, geçmiş müşteri destek biletleri veya finansal sonuçlar gibi özel verilerini daha iyi kullanabilecekler. LLM'lerin hafızasının iyileştirilmesi, eğitim, raporlama, dahili arama, veri analitiği ve iş zekası ve müşteri desteği gibi alanlarda iyileştirmeler ve derin özelleştirme yetenekleri getirecektir.
Tüketici alanında, geliştirilmiş bağlamsal pencereler ve alma, kullanıcı deneyiminde devrim yaratacak güçlü kişiselleştirme yetenekleri sağlayacaktır. Noam Shazeer'e göre, "Büyük atılımlardan biri, her kullanıcı için özelleştirilebilen ve aynı zamanda ölçekte uygun maliyetli olan çok yüksek bir bellek kapasitesine sahip bir model geliştirmek olacaktır. Terapistinizin her yönünüzü bilmesini istiyorsunuz." Öğretmenlerinizin zaten bildiklerinizi bilmesini istiyorsunuz, yaşam koçlarınızın neler olup bittiği konusunda size tavsiyelerde bulunabilmesini istiyorsunuz. Hepsinin bağlama ihtiyacı var.” Aidan Gomez de bu gelişmeden heyecan duyuyor. "Modele, e-postanız, takviminiz veya doğrudan mesajlarınız gibi sizinle benzersiz şekilde ilgili verilere erişim sağlayarak," dedi, "model, bu koşullar altında size mümkün olan en iyi şekilde yardımcı olmak için farklı kişilerle olan ilişkilerinizi öğrenecektir. ."
*Önemli atılım: LLM'ler büyük miktarda ilgili bilgiyi dikkate alabilecek ve daha kişisel, özelleştirilmiş ve faydalı çıktılar sağlayabilecektir. *
** "Kollar ve Bacaklar": Modele alet kullanma yeteneği verir**
LLM'lerin gerçek gücü, doğal dili bir eylem aracı haline getirmekte yatar. LLM'ler, yaygın ve iyi belgelenmiş sistemler konusunda gelişmiş bir anlayışa sahiptir, ancak bu sistemlerden çıkarılan herhangi bir bilgiyi uygulayamazlar. Örneğin, OpenAI'den ChatGPT, Anthropic'ten Claude ve Character AI'den Lily, nasıl uçuş rezervasyonu yapılacağını ayrıntılı olarak açıklayabilir, ancak kendi başlarına yerel olarak uçuş rezervasyonu yapamazlar (ChatGPT'nin eklentileri gibi teknolojik gelişmeler bu sınırı zorluyor olsa da). Amodei, "Bu beyin teorik olarak tüm bu bilgilere sahip, sadece isimlerden düğmelere giden eşlemeyi kaçırıyor. Bu kabloları bağlamak için çok fazla eğitim gerekmiyor. Nasıl hareket edeceğini bilen bedensiz bir beyniniz var, ancak henüz kollara ve bacaklara bağlı değil."
Zamanla, şirketlerin LLM'lerin araçları kullanma becerisini geliştirdiğini gördük. Bing ve Google gibi yerleşik şirketler ve Perplexity ve You.com gibi girişimler, arama API'lerini başlattı. AI21 Labs, modelleri hesap makineleri, hava durumu API'leri, Wikipedia API'leri ve veritabanları dahil olmak üzere bir dizi önceden belirlenmiş araçla birleştirerek bağımsız LLM'lerin birçok eksikliğini gideren Jurassic-X'i tanıttı. OpenAI, ChatGPT'nin Apple'ın "App Store" anına benzediğine inanılan Expedia, OpenTable, Wolfram, Instacart, Speak, web tarayıcıları ve kod yorumlayıcıları gibi araçlarla etkileşime girmesine izin veren bir ChatGPT eklentisinin beta sürümünü başlattı. Son zamanlarda OpenAI, GPT-3.5 ve GPT-4'te işlev çağrılarını tanıttı [4] , geliştiricilerin GPT'nin yeteneklerini herhangi bir harici araçla ilişkilendirmesine olanak tanır.
Kolları ve bacakları ekleme yeteneği, bilgi madenciliğinden eylem yönelimine geçerek çok çeşitli şirketlerde ve kullanıcı türlerinde bir dizi kullanım durumu sağlamayı vaat ediyor. Tüketiciler için, LLM'ler yakında tarifler önerebilir ve ardından ihtiyacınız olan malzemeleri sipariş edebilir veya bir brunch yeri önerebilir ve sizin için bir masa ayırabilir. Kurumsal alanda, kurucular, LLM'leri takarak uygulamalarının kullanımını kolaylaştırabilir. Amodei'nin belirttiği gibi: "Kullanıcı arayüzü açısından kullanımı çok zor olan işlevler için, karmaşık işlemleri gerçekleştirmek için bunları yalnızca doğal dilde açıklamamız gerekebilir." Örneğin, Salesforce gibi uygulamalar için LLM entegrasyonu, kullanıcılara izin vermelidir. güncellemeler yapmak ve modelin bu değişiklikleri otomatik olarak yapmasını sağlamak için Doğal dili kullanmak, CRM'nizi korumak için gereken süreyi büyük ölçüde azaltmak. tutarlı gibi [5] ve usta [6] Bu tür girişimler, LLM'leri bu tür karmaşık araçlara entegre etmek için çalışıyor.
Gomez, LLM'lerin 2 yıl içinde Excel gibi uygulamaları kullanabilecek olma ihtimalinin giderek arttığına inanıyor, "Hala çok iyileştirme yapılması gerekiyor. Araçları kullanabilen ilk nesil modellere sahip olacağız, ve bu zorlayıcı olacak." Ama kırılgan. Sonunda, 'alet ne yapar, işte nasıl kullanılır' gibi bir açıklamayla modele herhangi bir yazılımı teslim edebileceğimiz rüya sistemine sahip olacağız ve LLM'lere özel ve genel araçlar sağlayabildiğimizde, getirdiği otomasyon alanımızın zirvesi olacak."
*Önemli atılım: LLM'ler bugün kullandığımız araçlarla daha etkili bir şekilde etkileşim kurabilecek. *
çok modlu
Sohbet arayüzleri birçok kullanıcı için heyecan verici ve sezgisel olsa da, insanlar dili yazdıkları veya okudukları sıklıkta veya daha fazlasını duyabilir ve konuşabilir. Amodei'nin işaret ettiği gibi: "Bir yapay zeka sisteminin yapabileceklerinin bir sınırı vardır çünkü her şey metin değildir." Çok modlu yeteneklere sahip bir model, birden fazla işitsel veya görsel formatta içeriği sorunsuz bir şekilde işleyebilir ve üreterek bu etkileşimi dilin ötesine taşıyabilir. GPT-4, Character.AI ve Meta'nın ImageBind'i gibi modeller halihazırda görüntü, ses ve diğer modaliteleri işleme ve üretme yeteneğine sahiptir, ancak ilerleme hızlı olmasına rağmen bu alandaki yetenekleri nispeten basittir. Gomez'in sözleriyle, modellerimiz bugün kelimenin tam anlamıyla kör ve bunun değişmesi gerekiyor. Kullanıcı tarafından görülmesi gereken çok sayıda grafik kullanıcı arabirimi (GUI) oluşturduk.
LLM'ler birden çok modaliteyi daha iyi anlamak ve bunlarla etkileşim kurmak için geliştikçe, tarayıcılar gibi GUI'lere dayanan mevcut uygulamaları kullanabilecekler. Ayrıca tüketicilere daha ilgi çekici, tutarlı ve bütünsel bir deneyim sunarak kullanıcı etkileşimlerinin sohbet arayüzlerinin ötesine geçmesini sağlayabilirler. Shazeer, "Çok modlu modellerin pek çok harika entegrasyonu, işleri daha ilgi çekici ve kullanıcılarla daha bağlantılı hale getirebilir" dedi. Ayrıca, "Bence şu anda temel zekanın çoğu metinden geliyor, ancak ses ve video bu Şeyleri yapabilir. yapay zeka eğitmenleriyle görüntülü sohbetten yapay zeka ile işbirliği içinde TV dizisi senaryolarını yinelemeye ve yazmaya kadar çok modluluk, çeşitli tüketici ve kurumsal kullanım durumlarında eğlenceyi, öğrenmeyi ve geliştirmeyi ve içerik oluşturmayı dönüştürme potansiyeline sahiptir.
Multimodalite, araç kullanımıyla yakından ilgilidir. LLM'ler başlangıçta API'ler aracılığıyla harici yazılımlarla arayüz oluşturabilse de, multimodalite LLM'lerin geleneksel kurumsal kaynak planlama (ERP) sistemleri, masaüstü uygulamaları, tıbbi cihazlar veya üretim makineleri gibi özel entegrasyon olmaksızın insan tüketimi için tasarlanmış araçları kullanmasını sağlayacaktır. Bu konuda şimdiden heyecan verici ilerlemeler gördük: örneğin Google'ın Med-PaLM-2 modeli, mamografi ve röntgen görüntülerini sentezleyebiliyor. Ve daha uzun vadede, çok modluluk (özellikle bilgisayar görüşüyle entegrasyon), LLM'leri robotik, otonom araçlar ve fiziksel dünyayla gerçek zamanlı etkileşim gerektiren diğer uygulamalar aracılığıyla kendi fiziksel gerçekliğimize genişletebilir.
*Önemli Atılım: Çok modlu modeller, önemli bir özelleştirme olmaksızın resimler, videolar ve hatta fiziksel ortamlar hakkında akıl yürütebilir. *
LLM'lerin bazı pratik kısıtlamalarına rağmen, araştırmacılar bu modellerde kısa sürede şaşırtıcı iyileştirmeler yaptılar. Bu yazıdan itibaren birkaç kez güncellemiş olmamız, bu alanda teknolojinin hızla geliştiğinin bir kanıtıdır. Gomez aynı fikirde: "20 kişiden bir kez LLM, bunun hala çok yüksek olduğu gerçeğini uydurdu. Ancak bunun gibi bir sistemi ilk kez oluşturduğumuza gerçekten çok eminim. İnsanların beklentileri oldukça yüksek , bu yüzden amaç "Bilgisayarlar aptal, onlar sadece matematik yapabilirler"den "Bir insan muhtemelen daha iyisini yapabilir"e dönüştü. Aradaki boşluğu yeterince kapattık ve eleştiri insanların neler yapabileceğine odaklanıyor."
Girişimcilerin ürün oluşturma ve şirketleri yönetme şeklini değiştirme noktasında olan aşağıdaki dört yenilik bizi özellikle heyecanlandırıyor. Uzun vadede potansiyel daha da büyük. Amodei şu öngörüde bulunuyor: "Bir noktada, tüm biyolojik verileri okuyabilen ve kansere çare bulan bir modelimiz olabilir." Gerçek şu ki, en iyi yeni uygulamalar hâlâ bilinmiyor olabilir. Character.AI'de Shazeer, kullanıcıların şu kullanım örneklerini geliştirmelerine izin veriyor: "Kilidi açılmış pek çok yeni uygulama göreceğiz. Bu uygulamaların ne olduğunu söylemek benim için zor. Milyonlarca uygulama olacak ve kullanıcıların sayısı tüm dünyadan fazla olacak. birkaçı." Mühendisler teknolojiyi nasıl kullanacaklarını anlamakta daha iyiler." Bu yeni araçlar ve yetenekler bize güç verirken, bu ilerlemelerin girişimciler ve şirketler olarak yaşama ve çalışma şeklimizi nasıl etkileyeceğini görmek için sabırsızlanıyoruz.
*Yazım sürecindeki yorumları ve geri bildirimleri için Matt Bornstein, Guido Appenzeller ve Rajko Radovanović'e teşekkürler. *
View Original
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
A16Z: Üretken Yapay Zekada 4 Atılım
Büyük dil modelleri (LLM'ler) teknoloji endüstrisinde sıcak bir konu haline geldi ve bize saniyeler içinde bir haftalık kod yazmaktan insanlarla yaptığımızdan daha empatik konuşmalar oluşturmaya kadar inanılmaz deneyimler sunuyor. On binlerce GPU kullanılarak trilyonlarca token veri üzerinde eğitilen LLM'ler, dikkate değer bir doğal dil anlayışı sergiliyor ve metin yazarlığı ve kodlama gibi alanları dönüştürerek bizi yeni ve heyecan verici üretken yapay zeka çağına itiyor. Gelişmekte olan herhangi bir teknoloji gibi, üretken yapay zeka da adil bir eleştiri payına sahiptir. Bu eleştiriler kısmen LLM'lerin mevcut yeteneklerinin sınırlamalarını yansıtsa da, bu engelleri teknolojinin temel eksiklikleri olarak değil, daha fazla yenilik için fırsatlar olarak görüyoruz.
LLM'lerdeki son teknolojik atılımları daha iyi anlamak ve kurucuları ve operatörleri geleceğe hazırlamak için, en büyük ve en ileri modellerden bazılarını aktif olarak oluşturan ve eğiten önde gelen üretken yapay zeka araştırmacılarından bazılarıyla konuştuk. Bunlar arasında CEO Dario Amodei yer alıyor. Anthropic'ten Cohere CEO'su Aidan Gomez, Character.AI CEO'su Noam Shazeer ve AI21 Labs'tan Yoav Shoham. Bu sohbetler, gelecek için 4 temel yenilik yönü belirledi: rehberlik, hafıza, "eller ve ayaklar" ve çok modluluk. Bu makalede, bu önemli yeniliklerin önümüzdeki 6 ila 12 ay içinde nasıl gelişeceğini ve yapay zekayı kendi işletmelerine entegre etmekle ilgilenen kurucuların bu yeni gelişmelerden nasıl yararlanabileceklerini tartışıyoruz. **
rehber
Birçok kurucu, halüsinasyon potansiyeli ve bu modellerden kaynaklanan üreme yanlılığı nedeniyle LLM'leri ürünlerinde ve iş akışlarında kullanma konusundaki endişelerini dile getiriyor. Bu sorunları ele almak için bazı önde gelen modelleme şirketleri yönlendirme tekniklerini geliştirmeye çalışıyorlar; bu, modellerin karmaşık kullanıcı gereksinimlerini daha iyi anlamasına ve yürütmesine olanak tanıyan, LLM'lerin çıktılarında model sonuçlarını daha iyi kontrol etmeye yönelik bir yöntem. Noam Shazeer bu konuda LLM'ler ve çocuklar arasındaki benzerliklerden bahsediyor: "Bu [modelleri] nasıl daha iyi önyükleyeceğimizle ilgili bir soru... LLM'lerle ilgili sorunumuz, onlara Oyunculuğu nasıl izleyeceklerini doğru şekilde söylememiz gerektiğidir. Küçük çocuklar aynıdır - bazen bir şeyler uydururlar ve fantezi ile gerçeklik hakkında net bir anlayışa sahip olmazlar." Her ne kadar yönlendirme yeteneği açısından Guardrails ve LMQL gibi model sağlayıcıların ve araçların ortaya çıkmasından sonra [1] Kayda değer bir ilerleme kaydedildi ve araştırmacılar, son kullanıcılar için LLM'leri daha iyi ürün haline getirmek için kritik olduğuna inandığımız ilerleme kaydetmeye devam ediyor.
İyileştirilmiş oryantasyon, öngörülemeyen davranışların sonuçlarının maliyetli olabildiği kurumsal şirketlerde özellikle önemlidir. Amodei, LLM'lerin öngörülemezliğinin insanları rahatsız edebileceğine işaret etti ve bir API sağlayıcısı olarak "müşterilere 'hayır, modeller bunu yapmıyor' diyebilmek veya en azından nadiren yapıyor" diyebilmek istiyor. Çıktı, kurucular, modelin performansının müşterilerin ihtiyaçlarına uygun olduğundan daha emin bir şekilde emin olabilir. İyileştirilmiş yönlendirme, reklam yerleşimi için risklerin yüksek olduğu reklamcılık sektörü gibi daha fazla hassasiyet ve güvenilirlik gerektiren diğer sektörlerde de yaygın olarak benimsenmesinin yolunu açacaktır. Amodei, iyileştirilmiş yönlendirmenin "yasal kullanım durumlarına, tıbbi kullanım durumlarına, finansal bilgilerin saklanması ve finansal bahislerin yönetilmesine ve şirketinizin markasını korumanız gereken senaryolara" uygulanabileceğine de inanıyor. "Daha iyi yönlendirilerek, LLM'ler az miktarda ipucu mühendisliği ile daha karmaşık görevleri başarabilecekler, çünkü genel amacı daha iyi anlayabilecekler."
LLM'lerin oryantasyonundaki ilerlemeler, kullanıcıların özelleştirilmiş ve doğru yanıtlar beklediği hassas tüketici uygulamalarında da yeni olanaklar açma potansiyeline sahiptir. Kullanıcılar, LLM'lerle sohbete dayalı veya yaratıcı etkileşimlerde bulunurken daha az doğru çıktıları tolere edebilirken, kullanıcılar LLM'leri günlük görevlere yardımcı olmak, önemli kararlara rehberlik etmek veya yaşam koçları, terapistler ve doktorlar gibi profesyonelleri desteklemek için kullandıklarında daha doğru çıktılar isterler. LLM'lerin arama gibi yerleşik tüketici uygulamalarının yerini almasının beklendiğine dikkat çekildi, ancak bu gerçek bir olasılık haline gelmeden önce, model çıktısını iyileştirmek ve kullanıcı güveni oluşturmak için daha iyi rehberliğe ihtiyacımız olabilir.
hafıza
LLM'ler tarafından yönlendirilen metin yazarlığı ve reklam oluşturma uygulamaları, pazarlamacılar, reklamcılar ve girişimciler arasında hızla popülerlik kazanarak büyük bir başarı elde etti. Bununla birlikte, mevcut LLM'lerin çoğunun çıktısı nispeten genelleştirilmiştir, bu da bunların kişiselleştirme ve bağlamsal anlayış gerektiren kullanım durumları için kullanılmasını zorlaştırır. İpucu mühendisliği ve ince ayar, bir dereceye kadar kişiselleştirme sağlayabilirken, ipucu mühendisliği daha az ölçeklenebilirdir ve ince ayar, bir düzeyde yeniden eğitim gerektirdiğinden ve genellikle çoğu kapalı kaynak LLM ile yakın işbirliği gerektirdiğinden genellikle maliyetlidir. Her bir kullanıcı için bir modele ince ayar yapmak genellikle mümkün veya istenmez.
LLM'lerin şirketiniz tarafından oluşturulan içerikten, şirketinize özgü jargondan ve daha ayrıntılı, kullanım durumuna özel çıktılar oluşturmak için belirli bağlamdan bilgi aldığı bağlamsal öğrenme, bunu gerçekleştirmenin kutsal kâsesidir. Bu hedefe ulaşmak için LLM'lerin gelişmiş bellek özelliklerine ihtiyacı vardır. LLM belleğinin iki ana bileşeni vardır: bağlam pencereleri ve alma. Bağlam penceresi, bir modelin üzerinde eğitildiği veri topluluğuna ek olarak işleyebileceği ve çıktısını yönlendirmek için kullanabileceği metindir. Alma, ilgili bilgi ve belgelerin ("bağlamsal veriler"), modelin eğitim verileri korpusu dışındaki bir veri grubundan alınması ve bunlara atıfta bulunulması anlamına gelir. Şu anda çoğu LLM'nin sınırlı bağlam pencereleri vardır ve yerel olarak ek bilgileri alamazlar, bu nedenle kişiselleştirmeden yoksun çıktılar üretirler. Bununla birlikte, daha büyük bağlam pencereleri ve geliştirilmiş geri alma ile LLM'ler doğrudan daha ayrıntılı, kullanım durumuna özel çıktılar sağlayabilir.
Özellikle, bağlam penceresini genişleterek model, daha büyük hacimli metinleri işleyebilecek ve diyalogda tutarlılığı korumak da dahil olmak üzere bağlamı daha iyi koruyabilecektir. Bu, uzun metinleri özetlemek veya uzun konuşmalar sırasında tutarlı ve bağlamsal olarak doğru yanıtlar oluşturmak gibi daha uzun girdilerin daha derinden anlaşılmasını gerektiren görevlerde modelin yeteneğini önemli ölçüde artıracaktır. Bağlam pencereleri açısından önemli gelişmeler gördük - GPT-3.5 ve ChatGPT için 4k ve 16k belirteçlere kıyasla GPT-4, 8k ve 32k belirteçlerden oluşan bağlam pencerelerine sahip ve Claude kısa süre önce taşındı Bağlam penceresi şaşırtıcı bir şekilde 100k'ya çıkıyor belirteçler [2] .
Çıkarımın maliyeti ve süresi, ipucunun uzunluğuyla yarı-doğrusal veya hatta karesel olarak ölçeklendiğinden, bağlam penceresini tek başına genişletmek belleği yeterince iyileştirmez. [3] Geri alma mekanizması, LLM'nin orijinal eğitim korpusunu işaretle ilgili bağlamsal verilerle zenginleştirir ve geliştirir. Shoham'a göre LLM'ler bir bilgi bütünü üzerinde eğitildiğinden ve genellikle güncellenmesi zor olduğundan, almanın iki ana faydası vardır: "Birincisi, eğitim sırasında sahip olmadığınız bilgi kaynaklarına erişmenizi sağlar. İkincisi, Dil modelini görevle ilgili olduğunu düşündüğünüz bilgilere odaklamanız gerekir." Pinecone gibi vektör veritabanları, ilgili bilgileri verimli bir şekilde almak için fiili standart haline geldi ve LLM'ler için bellek katmanı görevi görerek modellerin çalışmasını kolaylaştırdı. .
Artan bağlam pencereleri ve geri alma, büyük bilgi tabanlarında veya karmaşık veritabanlarında gezinme gibi kurumsal kullanım durumlarında özellikle önemli olacaktır. Şirketler, ince ayar yapmadan LLM'lere girdi olarak dahili bilgi, geçmiş müşteri destek biletleri veya finansal sonuçlar gibi özel verilerini daha iyi kullanabilecekler. LLM'lerin hafızasının iyileştirilmesi, eğitim, raporlama, dahili arama, veri analitiği ve iş zekası ve müşteri desteği gibi alanlarda iyileştirmeler ve derin özelleştirme yetenekleri getirecektir.
Tüketici alanında, geliştirilmiş bağlamsal pencereler ve alma, kullanıcı deneyiminde devrim yaratacak güçlü kişiselleştirme yetenekleri sağlayacaktır. Noam Shazeer'e göre, "Büyük atılımlardan biri, her kullanıcı için özelleştirilebilen ve aynı zamanda ölçekte uygun maliyetli olan çok yüksek bir bellek kapasitesine sahip bir model geliştirmek olacaktır. Terapistinizin her yönünüzü bilmesini istiyorsunuz." Öğretmenlerinizin zaten bildiklerinizi bilmesini istiyorsunuz, yaşam koçlarınızın neler olup bittiği konusunda size tavsiyelerde bulunabilmesini istiyorsunuz. Hepsinin bağlama ihtiyacı var.” Aidan Gomez de bu gelişmeden heyecan duyuyor. "Modele, e-postanız, takviminiz veya doğrudan mesajlarınız gibi sizinle benzersiz şekilde ilgili verilere erişim sağlayarak," dedi, "model, bu koşullar altında size mümkün olan en iyi şekilde yardımcı olmak için farklı kişilerle olan ilişkilerinizi öğrenecektir. ."
*Önemli atılım: LLM'ler büyük miktarda ilgili bilgiyi dikkate alabilecek ve daha kişisel, özelleştirilmiş ve faydalı çıktılar sağlayabilecektir. *
** "Kollar ve Bacaklar": Modele alet kullanma yeteneği verir**
LLM'lerin gerçek gücü, doğal dili bir eylem aracı haline getirmekte yatar. LLM'ler, yaygın ve iyi belgelenmiş sistemler konusunda gelişmiş bir anlayışa sahiptir, ancak bu sistemlerden çıkarılan herhangi bir bilgiyi uygulayamazlar. Örneğin, OpenAI'den ChatGPT, Anthropic'ten Claude ve Character AI'den Lily, nasıl uçuş rezervasyonu yapılacağını ayrıntılı olarak açıklayabilir, ancak kendi başlarına yerel olarak uçuş rezervasyonu yapamazlar (ChatGPT'nin eklentileri gibi teknolojik gelişmeler bu sınırı zorluyor olsa da). Amodei, "Bu beyin teorik olarak tüm bu bilgilere sahip, sadece isimlerden düğmelere giden eşlemeyi kaçırıyor. Bu kabloları bağlamak için çok fazla eğitim gerekmiyor. Nasıl hareket edeceğini bilen bedensiz bir beyniniz var, ancak henüz kollara ve bacaklara bağlı değil."
Zamanla, şirketlerin LLM'lerin araçları kullanma becerisini geliştirdiğini gördük. Bing ve Google gibi yerleşik şirketler ve Perplexity ve You.com gibi girişimler, arama API'lerini başlattı. AI21 Labs, modelleri hesap makineleri, hava durumu API'leri, Wikipedia API'leri ve veritabanları dahil olmak üzere bir dizi önceden belirlenmiş araçla birleştirerek bağımsız LLM'lerin birçok eksikliğini gideren Jurassic-X'i tanıttı. OpenAI, ChatGPT'nin Apple'ın "App Store" anına benzediğine inanılan Expedia, OpenTable, Wolfram, Instacart, Speak, web tarayıcıları ve kod yorumlayıcıları gibi araçlarla etkileşime girmesine izin veren bir ChatGPT eklentisinin beta sürümünü başlattı. Son zamanlarda OpenAI, GPT-3.5 ve GPT-4'te işlev çağrılarını tanıttı [4] , geliştiricilerin GPT'nin yeteneklerini herhangi bir harici araçla ilişkilendirmesine olanak tanır.
Kolları ve bacakları ekleme yeteneği, bilgi madenciliğinden eylem yönelimine geçerek çok çeşitli şirketlerde ve kullanıcı türlerinde bir dizi kullanım durumu sağlamayı vaat ediyor. Tüketiciler için, LLM'ler yakında tarifler önerebilir ve ardından ihtiyacınız olan malzemeleri sipariş edebilir veya bir brunch yeri önerebilir ve sizin için bir masa ayırabilir. Kurumsal alanda, kurucular, LLM'leri takarak uygulamalarının kullanımını kolaylaştırabilir. Amodei'nin belirttiği gibi: "Kullanıcı arayüzü açısından kullanımı çok zor olan işlevler için, karmaşık işlemleri gerçekleştirmek için bunları yalnızca doğal dilde açıklamamız gerekebilir." Örneğin, Salesforce gibi uygulamalar için LLM entegrasyonu, kullanıcılara izin vermelidir. güncellemeler yapmak ve modelin bu değişiklikleri otomatik olarak yapmasını sağlamak için Doğal dili kullanmak, CRM'nizi korumak için gereken süreyi büyük ölçüde azaltmak. tutarlı gibi [5] ve usta [6] Bu tür girişimler, LLM'leri bu tür karmaşık araçlara entegre etmek için çalışıyor.
Gomez, LLM'lerin 2 yıl içinde Excel gibi uygulamaları kullanabilecek olma ihtimalinin giderek arttığına inanıyor, "Hala çok iyileştirme yapılması gerekiyor. Araçları kullanabilen ilk nesil modellere sahip olacağız, ve bu zorlayıcı olacak." Ama kırılgan. Sonunda, 'alet ne yapar, işte nasıl kullanılır' gibi bir açıklamayla modele herhangi bir yazılımı teslim edebileceğimiz rüya sistemine sahip olacağız ve LLM'lere özel ve genel araçlar sağlayabildiğimizde, getirdiği otomasyon alanımızın zirvesi olacak."
*Önemli atılım: LLM'ler bugün kullandığımız araçlarla daha etkili bir şekilde etkileşim kurabilecek. *
çok modlu
Sohbet arayüzleri birçok kullanıcı için heyecan verici ve sezgisel olsa da, insanlar dili yazdıkları veya okudukları sıklıkta veya daha fazlasını duyabilir ve konuşabilir. Amodei'nin işaret ettiği gibi: "Bir yapay zeka sisteminin yapabileceklerinin bir sınırı vardır çünkü her şey metin değildir." Çok modlu yeteneklere sahip bir model, birden fazla işitsel veya görsel formatta içeriği sorunsuz bir şekilde işleyebilir ve üreterek bu etkileşimi dilin ötesine taşıyabilir. GPT-4, Character.AI ve Meta'nın ImageBind'i gibi modeller halihazırda görüntü, ses ve diğer modaliteleri işleme ve üretme yeteneğine sahiptir, ancak ilerleme hızlı olmasına rağmen bu alandaki yetenekleri nispeten basittir. Gomez'in sözleriyle, modellerimiz bugün kelimenin tam anlamıyla kör ve bunun değişmesi gerekiyor. Kullanıcı tarafından görülmesi gereken çok sayıda grafik kullanıcı arabirimi (GUI) oluşturduk.
LLM'ler birden çok modaliteyi daha iyi anlamak ve bunlarla etkileşim kurmak için geliştikçe, tarayıcılar gibi GUI'lere dayanan mevcut uygulamaları kullanabilecekler. Ayrıca tüketicilere daha ilgi çekici, tutarlı ve bütünsel bir deneyim sunarak kullanıcı etkileşimlerinin sohbet arayüzlerinin ötesine geçmesini sağlayabilirler. Shazeer, "Çok modlu modellerin pek çok harika entegrasyonu, işleri daha ilgi çekici ve kullanıcılarla daha bağlantılı hale getirebilir" dedi. Ayrıca, "Bence şu anda temel zekanın çoğu metinden geliyor, ancak ses ve video bu Şeyleri yapabilir. yapay zeka eğitmenleriyle görüntülü sohbetten yapay zeka ile işbirliği içinde TV dizisi senaryolarını yinelemeye ve yazmaya kadar çok modluluk, çeşitli tüketici ve kurumsal kullanım durumlarında eğlenceyi, öğrenmeyi ve geliştirmeyi ve içerik oluşturmayı dönüştürme potansiyeline sahiptir.
Multimodalite, araç kullanımıyla yakından ilgilidir. LLM'ler başlangıçta API'ler aracılığıyla harici yazılımlarla arayüz oluşturabilse de, multimodalite LLM'lerin geleneksel kurumsal kaynak planlama (ERP) sistemleri, masaüstü uygulamaları, tıbbi cihazlar veya üretim makineleri gibi özel entegrasyon olmaksızın insan tüketimi için tasarlanmış araçları kullanmasını sağlayacaktır. Bu konuda şimdiden heyecan verici ilerlemeler gördük: örneğin Google'ın Med-PaLM-2 modeli, mamografi ve röntgen görüntülerini sentezleyebiliyor. Ve daha uzun vadede, çok modluluk (özellikle bilgisayar görüşüyle entegrasyon), LLM'leri robotik, otonom araçlar ve fiziksel dünyayla gerçek zamanlı etkileşim gerektiren diğer uygulamalar aracılığıyla kendi fiziksel gerçekliğimize genişletebilir.
*Önemli Atılım: Çok modlu modeller, önemli bir özelleştirme olmaksızın resimler, videolar ve hatta fiziksel ortamlar hakkında akıl yürütebilir. *
LLM'lerin bazı pratik kısıtlamalarına rağmen, araştırmacılar bu modellerde kısa sürede şaşırtıcı iyileştirmeler yaptılar. Bu yazıdan itibaren birkaç kez güncellemiş olmamız, bu alanda teknolojinin hızla geliştiğinin bir kanıtıdır. Gomez aynı fikirde: "20 kişiden bir kez LLM, bunun hala çok yüksek olduğu gerçeğini uydurdu. Ancak bunun gibi bir sistemi ilk kez oluşturduğumuza gerçekten çok eminim. İnsanların beklentileri oldukça yüksek , bu yüzden amaç "Bilgisayarlar aptal, onlar sadece matematik yapabilirler"den "Bir insan muhtemelen daha iyisini yapabilir"e dönüştü. Aradaki boşluğu yeterince kapattık ve eleştiri insanların neler yapabileceğine odaklanıyor."
Girişimcilerin ürün oluşturma ve şirketleri yönetme şeklini değiştirme noktasında olan aşağıdaki dört yenilik bizi özellikle heyecanlandırıyor. Uzun vadede potansiyel daha da büyük. Amodei şu öngörüde bulunuyor: "Bir noktada, tüm biyolojik verileri okuyabilen ve kansere çare bulan bir modelimiz olabilir." Gerçek şu ki, en iyi yeni uygulamalar hâlâ bilinmiyor olabilir. Character.AI'de Shazeer, kullanıcıların şu kullanım örneklerini geliştirmelerine izin veriyor: "Kilidi açılmış pek çok yeni uygulama göreceğiz. Bu uygulamaların ne olduğunu söylemek benim için zor. Milyonlarca uygulama olacak ve kullanıcıların sayısı tüm dünyadan fazla olacak. birkaçı." Mühendisler teknolojiyi nasıl kullanacaklarını anlamakta daha iyiler." Bu yeni araçlar ve yetenekler bize güç verirken, bu ilerlemelerin girişimciler ve şirketler olarak yaşama ve çalışma şeklimizi nasıl etkileyeceğini görmek için sabırsızlanıyoruz.
*Yazım sürecindeki yorumları ve geri bildirimleri için Matt Bornstein, Guido Appenzeller ve Rajko Radovanović'e teşekkürler. *