Az önce yerli açık kaynak model parametre kaydı yeniden yenilendi!
20 Eylül'de, Şangay Yapay Zeka Laboratuvarı (Şangay Yapay Zeka Laboratuvarı) ve SenseTime, Hong Kong Çin Üniversitesi ve Fudan Üniversitesi ile işbirliği içinde, 20 milyar parametreli InternLM-20B modelini resmi olarak açık kaynaklı hale getirdi.
proje adresi:
Büyü topluluğu:
Bu sefer Shusheng·Puyu büyük modelinin 20 milyar parametreli versiyonunun "fiyatı artırmadan miktarı arttırdığı" söylenebilir.Parametre sayısı üçte birinden az ancak performansı günümüzün referansıyla yarışabilir. açık kaynaklı modeller - Llama2-70B. Mevcut ana akım açık kaynaklı 13B modelleri, tüm boyutlarıyla InternLM-20B'nin gerisinde kalıyor.
Sadece bu değil, büyük model geliştirme ve uygulama için tam zincirli takım sistemi de aynı zamanda yükseltildi.
Açık kaynak modelinin kendisinden tüm açık kaynak araçları zincirine kadar, bu kez Şangay Yapay Zeka Laboratuvarı, araştırmacılara, kurumlara ve sosyal uygulayıcılara yardımcı olmayı umarak kendi büyük ölçekli model araştırma ve geliştirmesinden elde edilen tüm hazineleri ortaya çıkardı. Büyük modellerin getirdiği teknolojik devrime çok düşük maliyet ve eşiklerle herkes katılabiliyor.
Performansı "sınıfında liderdir" ve eşik değeri "kutudan çıktığı gibi kullanıma hazırdır". InternLM-20B, büyük modellerin binlerce sektöre taşınması için katalizör ve yeni dayanak noktasıdır!
Bu büyük model dalgası herkese fayda sağlayacak.
Kullandığımız her şey açık kaynaktır
Hepimizin bildiği gibi, büyük modellerden oluşan Ar-Ge sisteminin tamamında, çok karmaşık bir kapalı döngüler dizisi olan, bir araya getirilmiş birden fazla bağlantı vardır.
Daha standart bir şekilde nasıl organize edilir? Temel modeli aldıktan sonra nasıl kullanılır? Adım adım uygulama sürecinde ne gibi önlemler alınmalıdır? Her yerde sorunlar var.
Günlük çalışmalarda gerçek pratikten sonra, Şangay Yapay Zeka Laboratuvarı ekibi bir dizi değerli deneyim biriktirdi.
Artık açık kaynak ekosistemini zenginleştirmek için veri hazırlamadan ön eğitime, dağıtımdan değerlendirme uygulamalarına kadar modelde yer alan tüm araçları açık kaynak haline getiriyorlar.
"Özel Formül"ün şifresini çözün
Büyük modeller için verinin önemi, üretimin hammaddesi gibidir. Bir güç kaynağı olmadan akıllı yapay zeka sistemlerinin işleyişini yönlendiremez. Özellikle yüksek kaliteli veriler, büyük modellerin sanayileşmesinin temel unsurlarından biridir.
Toplama açısından, web sayfaları, kitaplar, profesyonel raporlar ve makaleler gibi çeşitli kanallardan taranan orijinal materyallerin etkin bir şekilde filtrelenmesi ve temizlenmesinin yanı sıra, model dahili test kullanıcılarının sağladığı geri bildirimlerden tam olarak yararlanmak da gereklidir.
Ancak LLM'nin anlama, programlama ve mantıksal akıl yürütme gibi temel yetenekleri kazanması ve gerçek bir "altıgen savaşçı" haline gelmesi için verileri kendi başına yapılandırmak daha önemlidir.
Bu bağlamda akademik araştırmalar da oldukça aktiftir.Örneğin, Microsoft'un "Ders Kitapları İhtiyacınız Olan Her Şey", veri eğitimli bir phi-1 modeli oluşturarak kıyaslamada göreceli bir liderlik elde edebilir.
Şanghay Yapay Zeka Laboratuvarı ekibi söz konusu olduğunda, verileri tek bir yönden değil, "tam boyuttan" oluşturmayı, tüm bilgi sistemini ayırmayı ve bütünü oluşturmayı seçtiler.
Dolayısıyla bu külliyatlardaki bilgi ve mantık yoğunluğu oldukça yüksektir.
Büyük miktardaki düzenli içeriğe az miktarda "katalizör" eklemek, yalnızca LLM'nin temel yeteneklerini daha iyi teşvik etmekle kalmaz, aynı zamanda modelin ilgili bilgileri daha iyi özümsemesine ve anlamasına da olanak tanır.
Şangay Yapay Zeka Laboratuvarı'nın önde gelen bilim adamlarından Lin Dahua'nın sözleriyle, "Bir bakıma buradaki bir token, 10 hatta 100 geleneksel tokenin etkinliğine eşdeğer olabilir."
Bilgi işlem gücü açısından, bol kaynaklara sahip büyük İnternet şirketleri dışında, açık kaynak topluluğundaki çoğu geliştiricinin daha fazla bilgi işlem gücü elde etmesi zordur.
"Umarım modeli kullanabilecek hafif araçlar olur." Bu, Şangay Yapay Zeka Laboratuvarı'nın topluluktan aldığı en fazla geri bildirimdir.
Açık kaynaklı XTuner hafif ince ayar aracı sayesinde kullanıcılar, Şangay Yapay Zeka Laboratuvarı'nın açık kaynak modeline 8 GB tüketici sınıfı GPU üzerinde ince ayar yapmak için kendi verilerini kullanabilirler.
Ayrıca model uygulaması açısından "sohbet diyaloğu" hala modelin yeteneklerinin çok önemli bir parçası.
Şangay Yapay Zeka Laboratuvarı ayrıca büyük modelin merkezi bir merkez görevi gördüğünü ve Code Interpreter'ın araç çağırmasına benzer şekilde sorunları çözmek için araçlar kullandığını vurgulamak istiyor.
Aynı zamanda bu süreçte büyük model de kendi kendine yansıtma gerçekleştirebilir.Bu, LLM desteğiyle akıllı ajanların büyük potansiyelidir.
Lin Dahua, Ajan'ın keşfedilmesi gereken uzun vadeli gelişim için çok değerli bir yön olacağına inanıyor.
Akıllı etmenlerin son dünyasında, tüm organizasyonel işbölümü gelişmeye ve gelişmeye devam edecek.Gelecekte kesinlikle her biri kendi uzmanlık alanına sahip çok sayıda akıllı etmen bir arada var olacak ve birçok teknoloji olacak. bu aralarındaki iletişimi teşvik edebilir.
Peki bu alet zincirinin spesifik yükseltmesi nerede?
- Veri: OpenDataLab açık kaynak "Scholar·Ten Thousand Volumes" ön eğitim külliyatı
Veriler açısından, Scholar·Wanjuan 1.0 çok modlu eğitim külliyatı 14 Ağustos'ta resmi olarak açık kaynak haline getirildi. Metin veri seti, grafik veri seti ve video veri seti dahil olmak üzere toplam veri hacmi 2 TB'ı aşıyor.
Shusheng serisi modeller, yüksek kaliteli derlemin "sindirilmesi" yoluyla anlamsal anlama, bilgi soru-cevap, görsel anlama ve görsel soru-cevap gibi çeşitli üretken görevlerde mükemmel performans sergilemiştir.
Şu ana kadar 100.000'e yakın indirme gerçekleşti.
- Ön eğitim: InternLM'nin verimli ön eğitim çerçevesi
Ön eğitim aşamasında, InternLM deposu aynı zamanda açık kaynaklı eğitim öncesi çerçevesi InternLM-Train'i de içermektedir.
Bir yandan, eğitim verimliliğini artırmak için Transformer model operatörlerini derinlemesine entegre ederken, diğer yandan, bilgi işlem ve iletişimin verimli bir şekilde örtüşmesini sağlamak için benzersiz Hibrit Sıfır teknolojisini önererek eğitim süreci sırasında düğümler arası iletişim trafiğini büyük ölçüde azaltır.
Üstün performans optimizasyonu sayesinde bu açık kaynak sistem, kilokart paralel hesaplamada yüksek verimlilik elde etti ve eğitim performansı sektör lideri seviyeye ulaştı.
- İnce ayar: InternLM tam parametreli ince ayar, XTuner hafif ince ayar
Düşük maliyetli büyük model ince ayar araç kutusu XTuner da yakın zamanda açık kaynak haline getirildi ve Llama gibi çeşitli açık kaynaklı büyük modellerin yanı sıra LoRA ve QLoRA gibi ince ayar algoritmalarını da destekledi.
Donanım gereksinimleri açısından, XTuner, 7B modelinin düşük maliyetli ince ayarını gerçekleştirmek için yalnızca minimum 8 GB video belleğine ihtiyaç duyar. 20B modelinin ince ayarı, 24G'lik tüketici sınıfı bir grafik kartında da tamamlanabilir. video belleği.
XTuner, çeşitli açık kaynaklı modeller için çeşitli ince ayar çerçeveleri sağlar
- Dağıtım: LMDeploy, milyarlarca ila yüz milyarlarca parametre dili modelinin verimli çıkarımını destekler
Dağıtım açısından LMDeploy, büyük modeller için eksiksiz bir hafif, çıkarım dağıtım ve hizmet çözümleri setini kapsar.
Bir milyardan yüz milyara kadar parametreden verimli model çıkarımını destekler ve verim ve diğer performans açısından topluluğun ana akım açık kaynak projeleri FasterTransformer, vLLM, Deepspeed vb.'yi geride bırakır.
- Değerlendirme: OpenCompass tek noktadan, çok yönlü geniş model değerlendirme platformu
Değerlendirme kısmında ise açık kaynaklı büyük model değerlendirme platformu OpenCompass beş boyutta bir değerlendirme sistemi sunuyor: konu, dil, bilgi, anlama ve muhakeme.
Aynı zamanda 50+ değerlendirme veri setini, 300.000 değerlendirme sorusunu da destekleyerek sıfır örnek, küçük örnek ve düşünme zinciri değerlendirmesini destekler.Şu anda en kapsamlı açık kaynak değerlendirme platformudur.
-Uygulama: Lagent hafif ve esnek aracı çerçevesi
Son uygulama aşamasında, Şangay Yapay Zeka Laboratuvarı ekibi aracıya odaklanarak Lagent'in hafif ve esnek aracı çerçevesini geliştirip açık kaynaklı hale getirdi.
Kullanıcıların büyük bir dil modelini hızlı bir şekilde birden fazla aracı türüne dönüştürmesini destekleyebilir ve büyük dil modellerini güçlendirmek için tipik araçlar sağlayabilir.
Bu açık kaynaklı çerçeve, klasik ReAct, AutoGPT ve ReWoo dahil olmak üzere çeşitli aracı yeteneklerini entegre eder.
Bu çerçevenin kod yapısı sadece açık değil aynı zamanda basittir. Geliştiriciler 20 satırdan az kodla kendilerine ait bir aracı oluşturabilirler.
Ayrıca Lagent, InternLM, Llama, ChatGPT dahil olmak üzere birden fazla büyük modeli destekler.
Lagent'ın desteğiyle bu aracılar, planlama muhakemesi ve araç çağırma için büyük dil modellerini çağırabilir ve yürütme süreci sırasında zamanında yansıma ve kendi kendine düzeltme gerçekleştirebilir.
Yurtiçi ilk 16k bağlam, 20 milyar parametre Llama2-70B ile bağlantılı
Şanghay Yapay Zeka Laboratuvarı, geniş model takım zincirlerinin tam setine ek olarak 20 milyara kadar parametreye sahip yeni açık kaynaklı InternLM-20B'yi de sunuyor.
Değerlendirme sonuçları, aynı büyüklükteki açık kaynak modelleri arasında InternLM-20B'nin en iyi genel performansla hak edildiğini gösteriyor.
- Ekstra uzun içerik desteği
Öncelikle bağlam uzunluğu açısından InternLM-20B, 16K'ya kadar bağlam pencerelerini destekleyebilir.
Aşağıdaki şekilde gösterildiği gibi InternLM-20B, tanınmış bir kahve markası hakkında uzun bir haber okuduktan sonra üç soruyu doğru yanıtlayabildi.
Son derece uzun makaleler ve raporlar için InternLM-20B özetleri de doğru şekilde çıkarabilir.
Örneğin, klasik ResNet makalesini girdikten sonra, hemen ResNet'in temel fikirlerini ve deneysel sonuçlarını doğru bir şekilde özetleyen bir özet yazar.
- Araçları çağırın ve kendi kendinizi eğitin
İkinci olarak, uzun bağlamın desteğiyle modelin yetenekleri büyük ölçüde genişletilir ve araç çağırma, kod açıklaması, yansıma ve düzeltme için daha fazla alan açılır. Ve bu, InternLM-20B'de akıllı gövdeler oluşturmak için önemli bir teknoloji haline geldi.
Artık InternLM-20B yalnızca tarih, hava durumu, seyahat, spor vb. gibi onlarca yöndeki içerik çıktısını ve on binlerce farklı API'yi desteklemekle kalmıyor, aynı zamanda Kod Yorumlayıcıya benzer şekilde araçları da çağırabiliyor. .
Aynı zamanda bu süreçte yansıtıp revize edebilir ve gerçek sahnelerle bağlantı kurabilir.
Tsinghua Üniversitesi ve diğer kurumların ortaklaşa yayınladığı büyük bir model araç çağrısı değerlendirme seti olan ToolBench'te InternLM-20B, ChatGPT'ye kıyasla %63,5'lik bir kazanma oranı elde ederek listedeki en iyi sonucu elde etti.
Ayrıca InternLM-20B modeli belirli sıfır örnek genelleme yetenekleri de sergiliyor. Model, eğitim süreci sırasında bazı araçları öğrenmemiş olsa bile araç açıklamalarına ve kullanıcı sorularına göre araçları çağırabilir.
Aşağıdaki şekilde gösterildiği gibi, eğer ona bazı yapay zeka araçları sağlarsanız, kendi başına planlayıp akıl yürütebilir ve kullanıcı sorunlarını tamamlayabilir.
- Aynı ağırlık sınıfında kapsamlı lider
Çeşitli boyutlarda 50'ye kadar modelden oluşan genel değerlendirme setinde InternLM-20B, aynı büyüklükteki açık kaynak modellerin en iyi genel performansını da elde etti.
Aynı zamanda, ortalama performans açısından daha büyük olan Llama-33B'yi açıkça geride bıraktı ve hatta bazı değerlendirmelerde Llama2-70B'yi kıl payı bile geride bıraktı.
Özellikle InternLM-20B, MMLU, C- ve AGI kapsamlı konu değerlendirmelerinde mükemmel sonuçlara sahiptir ve aynı büyüklükteki açık kaynak modelleri arasında lider konumdadır.
Özellikle Çince konu sınavını da içeren C- ve AGI'de performans Llama2-70B'yi önemli ölçüde aştı.
Gerçek bilgiyi test eden değerlendirmede InternLM-20B, 13B modelini kapsamlı bir şekilde geride bırakıyor ve Llama-33B ile rekabet edebiliyor.
Ancak Llama-65B veya Llama2-70B ile karşılaştırıldığında hala belli bir boşluk var.
Anlama yeteneği açısından InternLM-20B'nin performansı, Llama2-70B dahil tüm açık kaynak modellerini geride bırakarak daha da olağanüstüdür.
Muhakeme, birçok modeli başarısızlığa uğratan "tökezleyen bloktur". Büyük modellerin gerçek para kazanma yeteneğini test eder ve aynı zamanda modelin pratik uygulamaları destekleyip destekleyemeyeceğini de büyük ölçüde belirler.
Aşağıdaki dört çıkarım değerlendirme setinde InternLM-20B'nin sonuçları ana akım 13B açık kaynak modelini geride bıraktı ve hatta Llama-65B'nin çıkarım kapasitesine yaklaştı.
Programlama yetenekleri açısından InternLM-20B de önemli ölçüde geliştirildi. İnsan ve MBPP'nin iki tipik değerlendirme setinde Llama2-70B'ye yakındır.
Not: Yukarıdaki ekran görüntülerindeki kalın yazı tipleri, 13B-33B aralığındaki en iyi sonuçlardır.
HuggingFace tarafından yayınlanan en son Open LLM Leaderboard değerlendirme listesinde InternLM-20B, 60B'den az parametreye sahip temel modeller arasında ortalama puanda lider konumdadır ve aynı zamanda Llama-65B'yi de geride bırakmaktadır.
- Daha güvenli bir açık kaynak modeli
Son olarak, değer uyumu açısından InternLM-20B daha eksiksiz ve daha güvenlidir.
Taraflı bir soru sorarsanız, güvenli olmayan faktörleri anında tespit edecek ve doğru değer rehberliğini sağlayacaktır.
Büyük modeller hiçbir zaman büyük üreticilerin özel koruması olmadı.
Büyük modeller dalgası başladıktan sonra odaklanmamız gereken şey, yalnızca değerlendirme listesinin başında yer almak değil, aynı zamanda "Yapay Zekanın baş tacı"ndan "yeni üretkenliğe" kadar kullanılabilecek büyük modellerin nasıl yapılacağıdır. binlerce endüstri.
Tarih boyunca, çağa gerçekten öncülük eden teknolojiler sadece yıkıcı yenilikler değil, daha da önemlisi düşük maliyetli, düşük eşikli ve herkesin kullanımına açık olmalarıdır. Ancak OpenAI ve Google gibi büyük şirketler, belirli ayrıntıları asla kamuya açıklamayacak.
Ve Şangay Yapay Zeka Laboratuvarı'nın asıl amacı da budur.
Shusheng Puyu, Haziran ayındaki lansmanından bu yana çok sayıda yükseltme turunu tamamladı ve açık kaynak topluluğu ve endüstrisi üzerinde geniş bir etki yarattı.
Dahası, kodu GitHub'da açmanın ve modelleri HuggingFace ve Moda topluluklarına yerleştirmenin yanı sıra, Şangay Yapay Zeka Laboratuvarı, topluluktan gelen geri bildirimleri her gün okumak ve kullanıcı sorularını dikkatle yanıtlamak için özel personel bile gönderiyor.
Daha önce Meta'nın LLaMA modeli açık kaynaklıydı ve ChatGPT'nin değiştirilmesi çılgınlığını tetikledi ve büyük metin modelleri için Kararlı Yayılım anını başlattı.
Tıpkı bugünkü alpaka ailesinin müreffeh ekosistemi gibi, Şanghay Yapay Zeka Laboratuvarı'nın açık kaynak çabaları da topluluğa kesinlikle ölçülemez bir değer getirecek.
Shusheng Puyu, dünya çapındaki aktif geliştiriciler ve araştırmacılar için orta büyüklükte ancak çok güçlü yeteneklere sahip bir temel sağlayacak.
Çoğu şirket, özellikle de küçük ve orta ölçekli işletmeler, büyük modellerin trendini görmüş olsa da, büyük üreticiler gibi bilgi işlem gücü satın almak ve üst düzey yetenekleri çekmek için çok fazla para harcamaları pek mümkün değil.
Aslında, 6 Temmuz'daki Yapay Zeka Konferansı'ndan başlayarak, Şangay Yapay Zeka Laboratuvarı tüm zincir boyunca açık kaynak yapıyor. Örneğin XTuner, kullanıcıların kendi verilerinden yalnızca bazılarını kullanarak kendi modellerini çok hafif bir şekilde eğitmelerine olanak tanır.
Sadece bu da değil, bir ekip açık kaynak topluluğu müşteri hizmetlerini eğitmek için açık kaynak topluluğunun sorularını, derlemini, belgelerini ve XTuner modelini birleştirdi. Bu, açık kaynak topluluğuna gerçek bir katkıdır.
Aslında, Şangay Yapay Zeka Laboratuvarı tüm teknik sistemini (yani yukarıda bahsedilen tam zincirli araç sistemini) toplulukla paylaşmıştır.
Toplumun tamamında pek çok endüstri, pek çok şirket, pek çok kurum ve geliştirici var, eğer büyük modellerin değerinin gerçekten farkına varabilirlerse, bu çok önemli bir güç olacaktır.
Sonsuz yaratıcılıkları var, eksik oldukları tek şey kaynaklar.
Şangay Yapay Zeka Laboratuvarı'nın "ihtiyaç anında yardım etmesi" kesinlikle büyük modellerin uygulama alanında büyük değer yaratmasına olanak tanıyacaktır.
Lin Dahua'nın dediği gibi ——
Bir laboratuvar olarak, çeşitli sektörlerin bilgi birikimini veri ve model yetenekleriyle bütünleştiren temel modeller ve bir dizi araç sağlayabilir, bunların kullanımını çok kolay hale getirebilir ve daha fazla insana bunları kullanmayı öğretebiliriz, böylece kullanılabilirler. çeşitli endüstrilerde çiçekler ve meyveler var.
Tam zincirli araç sistemi açık kaynak bağlantısı
"Bilgili On Bin Cilt" ön eğitim külliyatı:
InternLM ön eğitim çerçevesi:
XTuner ince ayar araç kutusu:
LMDeploy çıkarım aracı zinciri:
OpenCompas büyük model değerlendirme platformu:
Lagent aracı çerçevesi:
View Original
This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.
20B büyük modelin performansı Llama2-70B ile karşılaştırılabilir! Tamamen açık kaynaktır, tabandan araçlara kadar her şey açıkça düzenlenmiştir.
**Kaynak:**Xinzhiyuan
Az önce yerli açık kaynak model parametre kaydı yeniden yenilendi!
20 Eylül'de, Şangay Yapay Zeka Laboratuvarı (Şangay Yapay Zeka Laboratuvarı) ve SenseTime, Hong Kong Çin Üniversitesi ve Fudan Üniversitesi ile işbirliği içinde, 20 milyar parametreli InternLM-20B modelini resmi olarak açık kaynaklı hale getirdi.
proje adresi:
Büyü topluluğu:
Bu sefer Shusheng·Puyu büyük modelinin 20 milyar parametreli versiyonunun "fiyatı artırmadan miktarı arttırdığı" söylenebilir.Parametre sayısı üçte birinden az ancak performansı günümüzün referansıyla yarışabilir. açık kaynaklı modeller - Llama2-70B. Mevcut ana akım açık kaynaklı 13B modelleri, tüm boyutlarıyla InternLM-20B'nin gerisinde kalıyor.
Sadece bu değil, büyük model geliştirme ve uygulama için tam zincirli takım sistemi de aynı zamanda yükseltildi.
Açık kaynak modelinin kendisinden tüm açık kaynak araçları zincirine kadar, bu kez Şangay Yapay Zeka Laboratuvarı, araştırmacılara, kurumlara ve sosyal uygulayıcılara yardımcı olmayı umarak kendi büyük ölçekli model araştırma ve geliştirmesinden elde edilen tüm hazineleri ortaya çıkardı. Büyük modellerin getirdiği teknolojik devrime çok düşük maliyet ve eşiklerle herkes katılabiliyor.
Performansı "sınıfında liderdir" ve eşik değeri "kutudan çıktığı gibi kullanıma hazırdır". InternLM-20B, büyük modellerin binlerce sektöre taşınması için katalizör ve yeni dayanak noktasıdır!
Bu büyük model dalgası herkese fayda sağlayacak.
Kullandığımız her şey açık kaynaktır
Hepimizin bildiği gibi, büyük modellerden oluşan Ar-Ge sisteminin tamamında, çok karmaşık bir kapalı döngüler dizisi olan, bir araya getirilmiş birden fazla bağlantı vardır.
Daha standart bir şekilde nasıl organize edilir? Temel modeli aldıktan sonra nasıl kullanılır? Adım adım uygulama sürecinde ne gibi önlemler alınmalıdır? Her yerde sorunlar var.
Günlük çalışmalarda gerçek pratikten sonra, Şangay Yapay Zeka Laboratuvarı ekibi bir dizi değerli deneyim biriktirdi.
Artık açık kaynak ekosistemini zenginleştirmek için veri hazırlamadan ön eğitime, dağıtımdan değerlendirme uygulamalarına kadar modelde yer alan tüm araçları açık kaynak haline getiriyorlar.
"Özel Formül"ün şifresini çözün
Büyük modeller için verinin önemi, üretimin hammaddesi gibidir. Bir güç kaynağı olmadan akıllı yapay zeka sistemlerinin işleyişini yönlendiremez. Özellikle yüksek kaliteli veriler, büyük modellerin sanayileşmesinin temel unsurlarından biridir.
Toplama açısından, web sayfaları, kitaplar, profesyonel raporlar ve makaleler gibi çeşitli kanallardan taranan orijinal materyallerin etkin bir şekilde filtrelenmesi ve temizlenmesinin yanı sıra, model dahili test kullanıcılarının sağladığı geri bildirimlerden tam olarak yararlanmak da gereklidir.
Ancak LLM'nin anlama, programlama ve mantıksal akıl yürütme gibi temel yetenekleri kazanması ve gerçek bir "altıgen savaşçı" haline gelmesi için verileri kendi başına yapılandırmak daha önemlidir.
Bu bağlamda akademik araştırmalar da oldukça aktiftir.Örneğin, Microsoft'un "Ders Kitapları İhtiyacınız Olan Her Şey", veri eğitimli bir phi-1 modeli oluşturarak kıyaslamada göreceli bir liderlik elde edebilir.
Dolayısıyla bu külliyatlardaki bilgi ve mantık yoğunluğu oldukça yüksektir.
Büyük miktardaki düzenli içeriğe az miktarda "katalizör" eklemek, yalnızca LLM'nin temel yeteneklerini daha iyi teşvik etmekle kalmaz, aynı zamanda modelin ilgili bilgileri daha iyi özümsemesine ve anlamasına da olanak tanır.
Şangay Yapay Zeka Laboratuvarı'nın önde gelen bilim adamlarından Lin Dahua'nın sözleriyle, "Bir bakıma buradaki bir token, 10 hatta 100 geleneksel tokenin etkinliğine eşdeğer olabilir."
Bilgi işlem gücü açısından, bol kaynaklara sahip büyük İnternet şirketleri dışında, açık kaynak topluluğundaki çoğu geliştiricinin daha fazla bilgi işlem gücü elde etmesi zordur.
"Umarım modeli kullanabilecek hafif araçlar olur." Bu, Şangay Yapay Zeka Laboratuvarı'nın topluluktan aldığı en fazla geri bildirimdir.
Açık kaynaklı XTuner hafif ince ayar aracı sayesinde kullanıcılar, Şangay Yapay Zeka Laboratuvarı'nın açık kaynak modeline 8 GB tüketici sınıfı GPU üzerinde ince ayar yapmak için kendi verilerini kullanabilirler.
Ayrıca model uygulaması açısından "sohbet diyaloğu" hala modelin yeteneklerinin çok önemli bir parçası.
Şangay Yapay Zeka Laboratuvarı ayrıca büyük modelin merkezi bir merkez görevi gördüğünü ve Code Interpreter'ın araç çağırmasına benzer şekilde sorunları çözmek için araçlar kullandığını vurgulamak istiyor.
Aynı zamanda bu süreçte büyük model de kendi kendine yansıtma gerçekleştirebilir.Bu, LLM desteğiyle akıllı ajanların büyük potansiyelidir.
Lin Dahua, Ajan'ın keşfedilmesi gereken uzun vadeli gelişim için çok değerli bir yön olacağına inanıyor.
Akıllı etmenlerin son dünyasında, tüm organizasyonel işbölümü gelişmeye ve gelişmeye devam edecek.Gelecekte kesinlikle her biri kendi uzmanlık alanına sahip çok sayıda akıllı etmen bir arada var olacak ve birçok teknoloji olacak. bu aralarındaki iletişimi teşvik edebilir.
Peki bu alet zincirinin spesifik yükseltmesi nerede?
- Veri: OpenDataLab açık kaynak "Scholar·Ten Thousand Volumes" ön eğitim külliyatı
Veriler açısından, Scholar·Wanjuan 1.0 çok modlu eğitim külliyatı 14 Ağustos'ta resmi olarak açık kaynak haline getirildi. Metin veri seti, grafik veri seti ve video veri seti dahil olmak üzere toplam veri hacmi 2 TB'ı aşıyor.
Shusheng serisi modeller, yüksek kaliteli derlemin "sindirilmesi" yoluyla anlamsal anlama, bilgi soru-cevap, görsel anlama ve görsel soru-cevap gibi çeşitli üretken görevlerde mükemmel performans sergilemiştir.
Şu ana kadar 100.000'e yakın indirme gerçekleşti.
- Ön eğitim: InternLM'nin verimli ön eğitim çerçevesi
Ön eğitim aşamasında, InternLM deposu aynı zamanda açık kaynaklı eğitim öncesi çerçevesi InternLM-Train'i de içermektedir.
Bir yandan, eğitim verimliliğini artırmak için Transformer model operatörlerini derinlemesine entegre ederken, diğer yandan, bilgi işlem ve iletişimin verimli bir şekilde örtüşmesini sağlamak için benzersiz Hibrit Sıfır teknolojisini önererek eğitim süreci sırasında düğümler arası iletişim trafiğini büyük ölçüde azaltır.
Üstün performans optimizasyonu sayesinde bu açık kaynak sistem, kilokart paralel hesaplamada yüksek verimlilik elde etti ve eğitim performansı sektör lideri seviyeye ulaştı.
- İnce ayar: InternLM tam parametreli ince ayar, XTuner hafif ince ayar
Düşük maliyetli büyük model ince ayar araç kutusu XTuner da yakın zamanda açık kaynak haline getirildi ve Llama gibi çeşitli açık kaynaklı büyük modellerin yanı sıra LoRA ve QLoRA gibi ince ayar algoritmalarını da destekledi.
Donanım gereksinimleri açısından, XTuner, 7B modelinin düşük maliyetli ince ayarını gerçekleştirmek için yalnızca minimum 8 GB video belleğine ihtiyaç duyar. 20B modelinin ince ayarı, 24G'lik tüketici sınıfı bir grafik kartında da tamamlanabilir. video belleği.
- Dağıtım: LMDeploy, milyarlarca ila yüz milyarlarca parametre dili modelinin verimli çıkarımını destekler
Dağıtım açısından LMDeploy, büyük modeller için eksiksiz bir hafif, çıkarım dağıtım ve hizmet çözümleri setini kapsar.
Bir milyardan yüz milyara kadar parametreden verimli model çıkarımını destekler ve verim ve diğer performans açısından topluluğun ana akım açık kaynak projeleri FasterTransformer, vLLM, Deepspeed vb.'yi geride bırakır.
Değerlendirme kısmında ise açık kaynaklı büyük model değerlendirme platformu OpenCompass beş boyutta bir değerlendirme sistemi sunuyor: konu, dil, bilgi, anlama ve muhakeme.
Aynı zamanda 50+ değerlendirme veri setini, 300.000 değerlendirme sorusunu da destekleyerek sıfır örnek, küçük örnek ve düşünme zinciri değerlendirmesini destekler.Şu anda en kapsamlı açık kaynak değerlendirme platformudur.
Son uygulama aşamasında, Şangay Yapay Zeka Laboratuvarı ekibi aracıya odaklanarak Lagent'in hafif ve esnek aracı çerçevesini geliştirip açık kaynaklı hale getirdi.
Kullanıcıların büyük bir dil modelini hızlı bir şekilde birden fazla aracı türüne dönüştürmesini destekleyebilir ve büyük dil modellerini güçlendirmek için tipik araçlar sağlayabilir.
Bu çerçevenin kod yapısı sadece açık değil aynı zamanda basittir. Geliştiriciler 20 satırdan az kodla kendilerine ait bir aracı oluşturabilirler.
Ayrıca Lagent, InternLM, Llama, ChatGPT dahil olmak üzere birden fazla büyük modeli destekler.
Lagent'ın desteğiyle bu aracılar, planlama muhakemesi ve araç çağırma için büyük dil modellerini çağırabilir ve yürütme süreci sırasında zamanında yansıma ve kendi kendine düzeltme gerçekleştirebilir.
Yurtiçi ilk 16k bağlam, 20 milyar parametre Llama2-70B ile bağlantılı
Şanghay Yapay Zeka Laboratuvarı, geniş model takım zincirlerinin tam setine ek olarak 20 milyara kadar parametreye sahip yeni açık kaynaklı InternLM-20B'yi de sunuyor.
Değerlendirme sonuçları, aynı büyüklükteki açık kaynak modelleri arasında InternLM-20B'nin en iyi genel performansla hak edildiğini gösteriyor.
- Ekstra uzun içerik desteği
Öncelikle bağlam uzunluğu açısından InternLM-20B, 16K'ya kadar bağlam pencerelerini destekleyebilir.
Aşağıdaki şekilde gösterildiği gibi InternLM-20B, tanınmış bir kahve markası hakkında uzun bir haber okuduktan sonra üç soruyu doğru yanıtlayabildi.
Örneğin, klasik ResNet makalesini girdikten sonra, hemen ResNet'in temel fikirlerini ve deneysel sonuçlarını doğru bir şekilde özetleyen bir özet yazar.
İkinci olarak, uzun bağlamın desteğiyle modelin yetenekleri büyük ölçüde genişletilir ve araç çağırma, kod açıklaması, yansıma ve düzeltme için daha fazla alan açılır. Ve bu, InternLM-20B'de akıllı gövdeler oluşturmak için önemli bir teknoloji haline geldi.
Artık InternLM-20B yalnızca tarih, hava durumu, seyahat, spor vb. gibi onlarca yöndeki içerik çıktısını ve on binlerce farklı API'yi desteklemekle kalmıyor, aynı zamanda Kod Yorumlayıcıya benzer şekilde araçları da çağırabiliyor. .
Aynı zamanda bu süreçte yansıtıp revize edebilir ve gerçek sahnelerle bağlantı kurabilir.
Tsinghua Üniversitesi ve diğer kurumların ortaklaşa yayınladığı büyük bir model araç çağrısı değerlendirme seti olan ToolBench'te InternLM-20B, ChatGPT'ye kıyasla %63,5'lik bir kazanma oranı elde ederek listedeki en iyi sonucu elde etti.
Aşağıdaki şekilde gösterildiği gibi, eğer ona bazı yapay zeka araçları sağlarsanız, kendi başına planlayıp akıl yürütebilir ve kullanıcı sorunlarını tamamlayabilir.
Çeşitli boyutlarda 50'ye kadar modelden oluşan genel değerlendirme setinde InternLM-20B, aynı büyüklükteki açık kaynak modellerin en iyi genel performansını da elde etti.
Aynı zamanda, ortalama performans açısından daha büyük olan Llama-33B'yi açıkça geride bıraktı ve hatta bazı değerlendirmelerde Llama2-70B'yi kıl payı bile geride bıraktı.
Özellikle Çince konu sınavını da içeren C- ve AGI'de performans Llama2-70B'yi önemli ölçüde aştı.
Ancak Llama-65B veya Llama2-70B ile karşılaştırıldığında hala belli bir boşluk var.
Aşağıdaki dört çıkarım değerlendirme setinde InternLM-20B'nin sonuçları ana akım 13B açık kaynak modelini geride bıraktı ve hatta Llama-65B'nin çıkarım kapasitesine yaklaştı.
HuggingFace tarafından yayınlanan en son Open LLM Leaderboard değerlendirme listesinde InternLM-20B, 60B'den az parametreye sahip temel modeller arasında ortalama puanda lider konumdadır ve aynı zamanda Llama-65B'yi de geride bırakmaktadır.
Son olarak, değer uyumu açısından InternLM-20B daha eksiksiz ve daha güvenlidir.
Taraflı bir soru sorarsanız, güvenli olmayan faktörleri anında tespit edecek ve doğru değer rehberliğini sağlayacaktır.
Büyük modeller hiçbir zaman büyük üreticilerin özel koruması olmadı.
Büyük modeller dalgası başladıktan sonra odaklanmamız gereken şey, yalnızca değerlendirme listesinin başında yer almak değil, aynı zamanda "Yapay Zekanın baş tacı"ndan "yeni üretkenliğe" kadar kullanılabilecek büyük modellerin nasıl yapılacağıdır. binlerce endüstri.
Tarih boyunca, çağa gerçekten öncülük eden teknolojiler sadece yıkıcı yenilikler değil, daha da önemlisi düşük maliyetli, düşük eşikli ve herkesin kullanımına açık olmalarıdır. Ancak OpenAI ve Google gibi büyük şirketler, belirli ayrıntıları asla kamuya açıklamayacak.
Ve Şangay Yapay Zeka Laboratuvarı'nın asıl amacı da budur.
Shusheng Puyu, Haziran ayındaki lansmanından bu yana çok sayıda yükseltme turunu tamamladı ve açık kaynak topluluğu ve endüstrisi üzerinde geniş bir etki yarattı.
Daha önce Meta'nın LLaMA modeli açık kaynaklıydı ve ChatGPT'nin değiştirilmesi çılgınlığını tetikledi ve büyük metin modelleri için Kararlı Yayılım anını başlattı.
Tıpkı bugünkü alpaka ailesinin müreffeh ekosistemi gibi, Şanghay Yapay Zeka Laboratuvarı'nın açık kaynak çabaları da topluluğa kesinlikle ölçülemez bir değer getirecek.
Çoğu şirket, özellikle de küçük ve orta ölçekli işletmeler, büyük modellerin trendini görmüş olsa da, büyük üreticiler gibi bilgi işlem gücü satın almak ve üst düzey yetenekleri çekmek için çok fazla para harcamaları pek mümkün değil.
Aslında, 6 Temmuz'daki Yapay Zeka Konferansı'ndan başlayarak, Şangay Yapay Zeka Laboratuvarı tüm zincir boyunca açık kaynak yapıyor. Örneğin XTuner, kullanıcıların kendi verilerinden yalnızca bazılarını kullanarak kendi modellerini çok hafif bir şekilde eğitmelerine olanak tanır.
Aslında, Şangay Yapay Zeka Laboratuvarı tüm teknik sistemini (yani yukarıda bahsedilen tam zincirli araç sistemini) toplulukla paylaşmıştır.
Sonsuz yaratıcılıkları var, eksik oldukları tek şey kaynaklar.
Şangay Yapay Zeka Laboratuvarı'nın "ihtiyaç anında yardım etmesi" kesinlikle büyük modellerin uygulama alanında büyük değer yaratmasına olanak tanıyacaktır.
Lin Dahua'nın dediği gibi ——
Bir laboratuvar olarak, çeşitli sektörlerin bilgi birikimini veri ve model yetenekleriyle bütünleştiren temel modeller ve bir dizi araç sağlayabilir, bunların kullanımını çok kolay hale getirebilir ve daha fazla insana bunları kullanmayı öğretebiliriz, böylece kullanılabilirler. çeşitli endüstrilerde çiçekler ve meyveler var.
Tam zincirli araç sistemi açık kaynak bağlantısı
"Bilgili On Bin Cilt" ön eğitim külliyatı:
InternLM ön eğitim çerçevesi:
XTuner ince ayar araç kutusu:
LMDeploy çıkarım aracı zinciri:
OpenCompas büyük model değerlendirme platformu:
Lagent aracı çerçevesi: