You Yang, Singapur Ulusal Üniversitesi: Yüksek performanslı yapay zeka nasıl başarılı olabilir?

2023-08-25 02:06:34

Kaynak: Lei Feng Net

Yazar: Huang Nan

Yapay zeka modellerinin parametreleri son birkaç yılda önemli ölçüde değişti. You Yang, 2016'dan Ocak 2021'e kadar yapay zeka modelinin parametre sayısının her 18 ayda bir 40 kat arttığına dikkat çekti; Ocak 2018'den Ocak 2021'e kadar yapay zeka modelinin parametre sayısının büyük olduğu belirtildi. Dil modeli her 18 ayda bir 340 kat arttı. Buna karşılık Ocak 2016 ile Ocak 2021 arasında GPU'ların belleği her 18 ayda bir yalnızca 1,7 kat artacak.

Büyük modellerin geliştirilmesinde aşılması en zor sorunların yüksek eğitim maliyeti ve uzun döngü olduğu görülmektedir.

Bu soruna yanıt olarak You Yang, aynı ekipman koşulları altında veri hareketini en aza indirmek amacıyla yüksek verimli bellek sistemi, N boyutlu paralel sistem ve büyük ölçekli optimizasyondan oluşan üç seviyeden başlayarak Colossal-AI sistemini önerdi. GPU verimini maksimuma çıkarın, en yüksek noktaya ölçeklendirin.

You Yang ayrıca bu aşamadaki model parametre sayısının 100.000 kat arttığını ancak katman sayısının fazla artmadığını, bunun da günümüzde yapay zekanın gelişiminin artık derin öğrenmeden ziyade derin öğrenme sürecine girdiği anlamına gelebileceğini belirtti. geniş öğrenme çağı. Model genişledikçe, büyük ölçekli ve uzun vadeli GPU eğitim görevleri karşısında, büyük model eğitim sisteminin özü, daha hızlı ve daha uygun maliyetli büyük model hedefine ulaşmak için GPU paralel hesaplamanın nasıl uygulanacağı olacaktır. eğitim.

Leifeng.com'un orijinal amacı değiştirmeden düzenleyip düzenlediği You Yang'ın canlı konuşmasının içeriği aşağıdadır:

Yapay Zeka Büyük Modellerinin Fırsatları ve Zorlukları

Önce bir resim gösterin. Grafikteki apsis zamandır, ordinat ise yapay zeka modelinin parametre miktarıdır.

2016'dan Ocak 2021'e kadar AI büyük modelinin parametre hacmi her 18 ayda bir yaklaşık 40 kat artacak; Ocak 2018'den Ocak 2021'e kadar AI modelinin parametre hacmi her 18 ayda bir 340 kat artacak.

2016 yılında o dönemde dünyanın en iyi modeli ResNet-50 iken bugünün en iyi modeli GPT-4'tür. Mimari açıdan bakıldığında OpenAI, GPT-4'ün mimarisini duyurmamış olsa da ResNet-50'nin 50 katmanlı sinir ağı ve 100'den az katmana sahip GPT-3'ün mimarisi ile karşılaştırıldığında şunu söylemek mümkündür: Yapay zeka modelinin son yıllardaki katman sayısında fazla değişiklik üretilmemesi.

ResNet-50'den GPT-4'e kadar parametre sayısı yaklaşık 100.000 kat artmasına rağmen aslında her katman daha da genişledi. LLaMA-65B versiyonu da dahil olmak üzere onlarca katmanın bulunduğu bir ağdır.

Yani derin öğrenme olmayabiliriz ama kapsamlı öğrenme çağına girdik.

2019'dan bu yana Transformer mimarisinin temelde AI büyük ölçekli model yolunu birleştirdiği ve mevcut en verimli AI büyük ölçekli modellerin hepsinin Transformer mimarileri olduğu görülebilir. Yukarıdaki şekildeki iki noktalı çizgi yalnızca büyük model parametrelerinin değişim eğilimini göstermekle kalmıyor, aynı zamanda GPU'nun değişim eğilimini de gösteriyor.

Her ne kadar Nvidia'nın hisse senedi fiyatı şu sıralar birçok kez artmış olsa da, aralarında Nvidia'nın da bulunduğu üreticilerin GPU belleğinin büyüme hızı, büyük modellerin geliştirme hızının çok gerisinde kalıyor.

Ocak 2016'dan Ocak 2021'e kadar geçen altı yıldaki model parametrelerinin büyüme oranıyla karşılaştırıldığında, NVIDIA GPU'ların bilgi işlem büyüme oranı her 18 ayda yalnızca 1,7 kat arttı.

GPT-3 eğitimi için gereken bellek miktarını hesaplamak için A100 80G'yi örnek olarak alın. GPT-3'ün yaklaşık 175 milyar parametresi vardır. Hesaplama kolaylığı için, 200 çarpı 10'a eşit olan 200 milyar tamsayısını alın. 9. kuvvet ve her bir hassasiyet 4 Bayt kaplar, parametreler tek başına 800G bellek kaplar ve degrade ayrıca 800G bellek kaplar. Mevcut optimizasyon yöntemine göre birinci moment, ikinci moment gibi bilgiler 800G'de saklanmaktadır. Başka bir deyişle, hiçbir şey yapmayan büyük bir modeli eğitiyorsanız, en az birkaç terabayt belleğe ihtiyacınız vardır.Yalnızca 80G belleğe sahip tek bir A100 GPU yeterli olmaktan çok uzaktır.Ayrıca, ara sonuçların toplu boyutu ne kadar büyük olursa, sonuç da o kadar büyük olur. , bellek yükü ne kadar büyük olursa.

Bu nedenle bellek açısından bakıldığında büyük modellerin eğitimi öncelikle binlerce GPU gerektirir.

Ölçülebilir bir örnek verin. PaLM 540 milyarlık büyük bir model. Mevcut bulut bilişim piyasa fiyatına göre, PaLM eğitiminin en az 1.000 GPU ile sözleşme yapması gerekiyor ve maliyeti yaklaşık 9 milyon ABD dolarından fazla. Meta daha önce LLaMA'nın 2.000 A100 GPU kullanması gerektiğini ve bir eğitim seansının tamamlanmasının üç hafta sürdüğünü açıkça belirtmişti.Bu hesaplamadan LLaMA'nın tek bir eğitim seansının maliyetinin 5 milyon ABD doları olduğu sonucuna varılabilir.

Bununla birlikte, büyük bir modeli geliştirmek bir eğitim oturumuyla sınırlı olmadığından, iyi bir büyük model ürünün en az beş veya altı yinelemesini gerektirebilir ve erken aşama tamamen deneme yanılmadan ibarettir. Dolayısıyla kamu kanalı analizlerine göre tek bir GPT-4 eğitim oturumunun maliyeti 60 milyon ABD doları civarındadır ve eğitim en az birkaç ay sürmektedir. Bu nedenle ChatGPT en son sürüme yükseltilmiş olsa bile alt katmanı hala Eylül 2021 sürümünün modelidir. Yani Eylül 2021'den bu yana OpenAI, ürünlerini özünde yükseltmedi. Bunun temel nedeni, her model eğitiminin maliyetinin yüksek olmasının yanı sıra eğitim döngüsünün de çok uzun olması, dolayısıyla eğitim maliyetinin yüksek olmasıdır. Büyük model eğitimi çok yüksek.ciddi.

Bir sorun düşünün, bugün 1 trilyon parametreli, 100 milyar parametreli büyük bir model var, trilyon parametreli büyük modelin 100 milyar parametreli büyük modelden daha iyi olup olmadığını herhangi bir yöntemle tespit edebilir miyiz? Yani model parametre sayısındaki artış ne ölçüde?

Bugün itibarıyla bu sorunun bilimsel olarak yanıtlanmasının şimdilik mümkün olmadığını düşünüyorum. Birkaç sebep var.

Her şeyden önce, sinir ağlarının eğitiminde dışbükey olmayan optimizasyon sorunu vardır.Şu anda eğitimle yakınsayan noktaların çoğu, küresel optimal çözümlerden ziyade yerel optimal çözümlerdir. Bu nedenle, mevcut bilgi işlem kaynaklarıyla doğrulanamayan sinir ağının ne ölçüde eğitildiğini doğrulamamız gerekiyor.

İkinci zorluk, büyük model eğitiminin genellikle yalnızca bir veya iki dönemi eğitmesidir; önceki CNN modelinde ResNet eğitiminin 90 dönemi vardır ve kendi kendini denetleyen öğrenme eğitiminin bile 1000 dönemi vardır, dolayısıyla büyük model yalnızca bir veya iki dönemi eğitir. Yöntem, veri kümesinden yalnızca bir veya iki kez geçmeye eşdeğerdir ve yakınsama daha da yetersizdir. Dolayısıyla eğitim maliyetinin bu kadar yüksek olduğu bir durumda, 1 trilyon parametreli bir modelin mi, yoksa 2 trilyon parametreli bir modelin mi daha iyi olduğunu doğrulamak bizim için zor çünkü bunların potansiyeli deneylerle tam olarak değerlendirilemedi. Dolayısıyla günümüzün büyük yapay zeka modelinin deneysel bir konu olduğunu düşünüyorum.Bu deneyin verimliliğinin etkin bir şekilde nasıl artırılacağı ve maliyetlerin nasıl azaltılacağı, tüm sektörün yaygınlaşmasında temel rol oynayacaktır.

Gerçekliğe dönecek olursak, bugün neden herkes büyük modellerin peşinde? Matematiksel mantık açısından bakıldığında, model parametreleri ne kadar büyük olursa etki o kadar iyi olur ve bu da mutlaktır.

Aynı zamanda maliyetler de artmaya devam etti. Şu anda büyük modellerin eğitimi yüzlerce, binlerce ve hatta onbinlerce GPU gerektiriyor.Onbinlerce GPU'nun maliyetinin nasıl daha da azaltılacağı çok büyük bir zorluk.

20 yıl önce o dönemde ana frekansa dayandığı için tüm programlar seriydi.Donanım hızının 10 kat arttığını varsayarsak, tek bir satır kod değiştirmeden çalışma hızı da 10 kat artırılabilir. Ancak bugün, donanımın zaten 10 kat daha hızlı olduğunu varsayarak kodunuzu 10 kat hızlandırmak istiyorsanız, ancak kodu optimize etmezseniz, muhtemelen daha yavaş olacaktır. Bunun nedeni, GPU'nun içi gibi daha büyük bir makine olması durumunda, GPU belleği ile CPU arasındaki veya GPU'lar arasındaki veri hareketi artı sunucu tarafından uygulanan veri hareketinin çoğunu kaplayacağıdır. tüm sistem zamanı, çoğu zaman veri hareketi için harcanır ve modelin ölçeklenebilirliği zayıflar.

Gelecekte iyi dağıtılmış bir yazılım ile kötü dağıtılmış bir yazılımın binlerce GPU'da, hatta 500 GPU'da 10 kat hız farkı olabileceğini düşünüyorum.

Colossal-AI nasıl çalışır?

Yukarıdaki zorluklara dayanarak, optimizasyon yöntemleri sağlayan, veri taşıma maliyetini azaltan ve model ölçeklenebilirliğinin verimliliğini en üst düzeye çıkaran büyük bir model eğitim sistemi Colossal-AI öneriyoruz.

Spesifik bir veri, GPT-3'ü eğitmek için en basit PyTorch'u kullanmanın maliyeti 10 milyon ABD dolarıdır, Nvidia optimize edildikten sonra Megatron ile maliyet 3 milyon ABD dolarına, Colossal-AI kullanıldıktan sonra maliyet düşürülebilir. 1,3 milyon dolara yükseldi. Aynı ekipman koşullarında veri hareketinin en aza indirilmesinin, veri hareketi oranını en düşük seviyeye indirdiği ve GPU verimini en yüksek noktaya çıkarabildiği görülmektedir.

Yukarıdaki sorunlara yanıt olarak Colossal-AI üç seviye önermektedir. Diğer benzer yazılımlar da bu üç seviyeyi içerir.

İlk katman belleği optimize etmektir.Öncelikle tek bir GPU'nun ve tek bir sunucunun bellek verimliliğinin en yüksek olmasını sağlayın.Bu temeldir.

İkinci düzey N boyutlu paralelliktir. Şu anda binlerce veya onbinlerce GPU kullandığımızda, temel teknoloji Paralel Bilgi İşlem'dir (paralel bilgi işlem). 1 GPU'dan 10 GPU'ya, nispeten küçük ölçeği nedeniyle kolaylıkla 7 kat hızlanma elde edebiliyoruz; 10'dan 100 GPU'ya kadar yalnızca 4 kat hızlanma elde edebiliyoruz çünkü paralel ölçek büyüyor ve iletişim fiyatı uçuyor. yukarı. Ve 100 GPU'dan 1000 GPU'ya, iletişim maliyeti daha da arttığı için muhtemelen yalnızca 2 kat hızlanma elde edilecektir. Ve 1.000 GPU'dan 10.000 GPU'ya geçerken, yazılım zayıf çalışıyorsa, yalnızca hızlanmayabilir, hatta cihaz tüm zamanını daha yüksek yoğunluklu iletişimde harcadığı için daha da yavaşlayabilir.

İkincisi ise optimizasyon problemi. Gelecekte AI büyük modelinin gelişim yönünün iki katmanı olduğunu düşünüyorum. İlk katman, modeli daha akıllı hale getirmek ve daha iyi bir yapı tasarlamak. Örneğin BERT'ten GPT veya ResNet'ten BERT'e vb. sürekli olarak model yapısını değiştirmeye çalışıyor.

Ayrıca optimizasyon yöntemlerinde de gelişmeler var.SGD'den MOMENTUM'a, ADAGRAD'a ve şimdi ADAM'a geçişten, gelecekte verimliliği 10 kat artırabilecek daha iyi optimizasyon yöntemlerine sahip olmak da çok önemli.

Büyük modellerin pratikte eğitilmesine ilişkin paralel soruna özel.

Bunlardan ilki, en basit ve en etkili paralel yöntem olan veri paralelliğidir. Veri paralelliği, 10.000 resim olduğu varsayıldığında her döngüde 1.000 fotoğrafın işlenmesi, 10 makine varsa her makineye 100 fotoğraf tahsis edilmesi ve tüm resimlerin 10 döngüde işlenebilmesi anlamına gelir.

Veri paralelliği sürecinde özetlenmesi gerekir.Her makine farklı gradyanlar elde etmek için farklı veriler kullanır.Makine farklı veriler üzerinde farklı değişiklikleri öğrenir, parametre gradyanını günceller ve son olarak global gradyanı hesaplar.Şu anda toplama yöntemi ve ortalama kullanıldığında, etki çok iyi olmuştur. Daha önce Colossal-AI'nin veri paralelliğindeki LARS yöntemi, ImageNet'in eğitim süresini Google, Meta, Tencent, Sony ve diğer şirketler için bir saatten bir dakikaya kısaltıyordu.

Veri paralelliği en temel ve en kararlı olanıdır. Verileri böldükten sonra, gelecekte 10.000 GPU olacağını varsayarak, birkaç saatte bir dört veya beş GPU'nun çökmesi muhtemeldir. 10.000 GPU'luk bir kümeyi çalıştırmak ve bakımını yapmak zordur, ancak veri paralelliğinin istikrarı Mesele şu ki, bir düzine kadar 10.000 GPU çökse bile genel sonuç değişmeyecektir çünkü bu, degrade toplama ve ortalama alma işlemidir.

Bu düşünceden yola çıkarak veri paralelliğinin temel bir altyapı olduğunu düşünüyorum.

Elbette veri paralelliği tek başına yeterli değildir.Bunun nedeni, veri paralelliğinin modelin her bir GPU'ya veya sunucuya kopyalanması gerektiği ve sunucu veya GPU'nun degrade alışverişinde bulunacağı varsayımına sahip olmasıdır. Ancak GPU'nun sadece 80G belleği varsa, trilyonlarca parametreli bir model, GPU'da depolanamayan onlarca terabaytlık bellek gerektirir.Modeli farklı GPU'lara kesip ardından sonuçları özetlemek gerekir. Bu yaklaşıma model paralelliği denir. İki tür model paralelliği vardır: Birincisi tensör paralelliğidir, yani bir katman içindeki model paralelliğidir. Örneğin GPT-3'ün katman sayısı yaklaşık 80 veya 90 katmandır.Model her katman için bir kez kesilir ve katmandaki hesaplama birden fazla parçaya bölünür.Bir katman hesaplandıktan sonra bir sonraki katman hesaplanır. , vb. Bu tensör paralelliğidir.

Diğer bir yol ise veri paralelliği ile tensör paralelliği arasındaki bir model paralelliği olan Boru Hattı Paralelliğidir (Boru Hattı Paralelliği). Birkaç veri hattı (boru hattı) oluşturularak her veri hattının veri noktaları farklıdır, bu da büyük bir boyutun birden fazla küçük boyuta bölünmesine eşdeğerdir ve boru hesaplaması bu şekilde gerçekleştirilir. 10 boru varsa, 10 boru on farklı veri kümesini temsil eder, birinci boru ilk katmanın verilerini hesaplar, ikinci boru ise ikinci katmanı hesaplar... bu şekilde paralel, bizim binamıza benzer şekilde, 10 mühendislik ekipler 1000 kat inşa ediyor, birinci mühendislik ekibi ilk binanın birinci katını inşa ederken, ikinci mühendislik ekibi ikinci binanın ikinci katını inşa ediyor vb.

Ne kadar çok bina varsa, binalar ile mühendislik ekipleri arasındaki oran da o kadar yüksek olur ve verimlilik de o kadar yüksek olur; bu da 10 mühendislik ekibinin aynı anda çalışmasına eşdeğerdir. Her mühendislik ekibi bir GPU'ya, her bina bir boruya ve binanın katman sayısı sinir ağının katman sayısına eşittir; bu da boru hattı paralelliğinin temel mantığıdır.

Şu anda sektörde bununla ilgili çalışmalar yapılmış, Colossal-AI'nin yanı sıra teknik engelleri en yüksek olan iki şirket olan NVIDIA'nın TensorRT ve Microsoft'un DeepSpeed'i de var.

Ancak Colossal-AI'yi ondan farklı kılan şey Colossal-AI'nin gelecekte büyük modellerin gelişim yönüne odaklanmasıdır. Mevcut modelin hala derinleşmek yerine genişlediği ve tensör paralelliğinin daha önemli olacağı görülüyor ancak en büyük dezavantajı tüm katmanı kestiği için iletişim yükünün çok büyük olmasıdır. Bu nedenle Nvidia CEO'su, GTC zirvesinde ilk kez 3D paralelliği tanıtırken çok fazla iletişim yükü sorununu özellikle açıkladı ve bu yalnızca tek bir sunucuda yapılabilir. Bu nedenle Colossal-AI, hesaplama maliyetini büyüklük sırasına göre azaltan 2 boyutlu tensör paralelliğine ve 2,5 boyutlu tensör paralelliğine odaklanıyor.

Bu, tek boyutlu tensör paralelliğinde her makinenin 10.000 makine arasından 9999 makineyle uğraşması gerektiği, 2 boyutlu tensör paralelliğinde ise onu alt birimlere böldüğü ve her makinenin yalnızca 96 makineyle uğraşması gerektiği anlamına gelir. Temel mantığı, küresel senkronizasyonun (küresel senkronizasyon) yerine bir miktar yerel senkronizasyon (yerel senkronizasyon) kullanmak ve küresel iletişimin yerine daha fazla yerel iletişim kullanmaktır.Bu süreçte tasarım planlama en zor olanıdır.

Aynı şey 3 boyutlu tensör paralelliği için de geçerlidir. Bir boyut her yükseltildiğinde, tasarım karmaşıklığı bir miktar artacak ve iletişim karmaşıklığı eninde sonunda azalacaktır.

Bellek optimizasyonu açısından, mevcut AI büyük model eğitimi, çok fazla bellek yükü gerektirir. Hiçbir şey yapmasanız bile, yine de birkaç terabaytlık belleğe ihtiyacınız vardır. Manuel müdahale yapmazsanız, bir kez kullandığınızda, onlarca, hatta yüzlerce terabaytlık belleğe ihtiyacınız olabilir.

Modelin tahmin etkisini daha iyi hale getirmek için genellikle uzun dizili verilere ihtiyaç duyarız.Mevcut büyük modelin özü, bir kelimenin çıktısı aracılığıyla bir sonraki kelimenin olasılığını tahmin etmektir ve uzun dizili veriler sadece ihtiyaç vardı. Bu bağlamda Colossal-AI ayrıca Sıra Paralelliğini (dizi paralelliği) başlattı.

Spesifik olarak, diziyi kestikten sonra ciddi bir sorunla karşı karşıya kalacaksınız: dikkat puanı gerçekleştirirken, her tokenın global dizideki diğer tokenlarla değerlendirilmesi gerekiyor ve tokenların yalnızca bir kısmı bölünmeden sonra sunucuda kalıyor ve farklı tokenlar ortaya çıkacak. diğer sunuculara dağıtılabilir, böylece her sunucunun çalışması için diğer sunucularla ilgilenmesi gerekir.

Yani bugün odada 200 kişinin bir paket atıştırmalık aldığını varsayarsak, herkesin diğer herkesin atıştırmalıklarını tadabileceğini umuyorum ve herkesin diğer insanların All atıştırmalıklarını tadabilmesi için en az 200 kare alışverişi gerekiyor. O zaman en kolay yol şudur: Herkes bir daire oluşturur, herkes yediği atıştırmalıkları sağdaki kişiye uzatır ve soldaki atıştırmalıkları alır, sadece n-1 kez, yani 199 Finish'i geçer. Böylece genel iletişim maliyeti azalır.

Özetlemek gerekirse, AI büyük model eğitimi için mevcut çekirdek teknoloji yığını aslında paralel hesaplamadır çünkü yüzbinlerce GPU çekirdeğini işlememiz ve tüm GPU'ları paralel olarak kullanmamız gerekiyor. Veri paralelliği, tensör paralelliği, boru hattı paralelliği ve veri dizisi paralelliği paralelliğin temel modülleridir.

Bellek optimizasyonu açısından şu anda çok fazla seçeneğin olmadığı bir ortamdayız, Nvidia GPU en iyisi ve onun yerini alacak daha iyi bir çözümümüz de yok gibi görünüyor. Ancak merhemdeki sinek, Nvidia GPU'nun hafızasının sınırlı olmasıdır.Bu durumda CPU hafızasını ve NVMe hafızasını nasıl kullanacağımızı düşünebilir miyiz?Temel fikir, eğer GPU hafızası depolanamıyorsa taşınacaktır. CPU'ya ve CPU depolanamıyorsa NVMe'ye yerleştirilecektir.Genellikle bir bina inşa ederken ihtiyaç duyulan hammaddeler alt kattaki şantiyeye indirilemez, bu yüzden onları yan taraftaki fabrikaya koyarız. . Teknolojisinin özü aynı zamanda veri hareketini en aza indirmek, yani CPU ile GPU arasındaki veri hareketini en aza indirmek ve CPU ile NVMe arasındaki veri hareketini güçlendirerek üretim hızını en yüksek seviyeye çıkarmaktır.

Açık Kaynağa Geçiş

Colossal-AI açık kaynaklı bir yazılımdır.Aynı zamanda ticari bir platform da oluşturduk.GPU'su olmayan kullanıcılar için doğrudan kendi büyük modellerini platform üzerinde eğitip dağıtabilirler. Ayrıca LLaMA, PaLM ve GPT gibi çeşitli modeller de sağlıyoruz ve modelin ince ayarını en hızlı şekilde tamamlamak yalnızca iki veya üç gün sürüyor. Donanım ve yazılım gibi altyapılarla uğraşmak için haftalar hatta aylar harcayan önceki kullanıcılarla karşılaştırıldığında verimlilik büyük ölçüde arttı. Colossal-AI aynı zamanda kullanıcıların gizliliğini de korur.Platform kullanıcı verilerini saklamaz veya bunlara erişmez.Bu, Colossal-AI ile OpenAI ChatGPT arasındaki temel farktır. Google Cloud'a veri yüklediğimizde Google çoğu durumda verilerimize dokunmaz ancak OpenAI GPT bunları analiz eder ve yorumlanamayan yapay zeka modelleri ve eksik eğitim gibi riskler yaygındır. Bu nedenle gelecekte birçok şirket kendi büyük modellerini eğitecek.Colossal-AI'nin yaptığı şey, büyük model eğitimi için araçlar sağlarken kullanıcı gizliliğinin korunmasını en üst düzeye çıkarmaktır.

Performans açısından Colossal-AI, aynı donanım üzerinde 24 kat daha büyük bir modeli eğitebilir, bu da DeepSpeed'den 3 kat daha hızlıdır.Düşük seviye bir sunucu bile ilgili model eğitimini tamamlamak için Colossal-AI'yi kullanabilir. Örneğin LLaMA-65B'nin eğitimi için aynı kodun Colossal-AI üzerinde kullanılması doğrudan %50'ye yakın hızlanma verimliliği elde edilebiliyor.

Basit bir benzetme, örneğin, şimdi büyük model altın kazmak için ve Nvidia kürek satıyor, sonra eldiven ve kıyafet satıyoruz ve altın kazma verimliliğini en üst düzeye çıkarıyoruz.

View Original

This page may contain third-party content, which is provided for information purposes only (not representations/warranties) and should not be considered as an endorsement of its views by Gate, nor as financial or professional advice. See Disclaimer for details.

1 Likes