Експерт з інвестицій у чипи: Google TPU тимчасово лідирує, але NVIDIA GPU має довгострокову перевагу

Мікросхемний інвестиційний експерт Gavin Baker у найновішому інтерв’ю глибоко аналізує різницю між GPU Hopper(, Blackwell) від NVIDIA та Google TPU, включаючи технічні, продуктивні, витратні та кооперативні аспекти. Він зазначає, що Google TPU у короткостроковій перспективі має тимчасову перевагу, але з довгострокової точки зору екосистема GPU NVIDIA залишається більш монополізуючою.

GPU — це повноцінна платформа, TPU — це однопунктовий ASIC

Baker каже, що розбіжності в AI-акселераторах вже проявляються з найнижчого рівня концепції дизайну. GPU від NVIDIA, від Hopper, Blackwell до майбутнього Rubin, наголошують на тому, що це повноцінна платформа — від GPU-об’єкта, технології двонапрямного з’єднання NVLink, мережевих карт, комутаторів до програмного забезпечення, такого як CUDA, TensorRT, — все це створено NVIDIA. Після купівлі GPU компанією отримає цілком повний комплект середовища, готового до тренування та inference, без необхідності самостійної збірки мережі або переписування софту.

На відміну від цього, Google TPU (v4, v5e, v6, v7) за суттю є спеціалізованими інтегральними схемами ASIC — саме прискорювачами, створеними для конкретних AI-обчислень. Google відповідає за передню логіку дизайну, але задня частина виробляється Broadcom(, а потім передається для виробництва TSMC). Інші необхідні компоненти TPU, такі як комутатори, мережеві карти та екосистема софту, Google має інтегрувати самостійно, що ускладнює ланцюг поставок порівняно з GPU.

Загалом, переваги GPU полягають не у продуктивності окремої чіпа, а у цілій платформі та цілій екосистемі. Це і є початком, що робить різницю у конкуренції між ними все більш очевидною.

Blackwell — значний прорив у продуктивності, TPU v6/v7 стикається з більшою конкуренцією

Baker зазначає, що у 2024–2025 роках різниця у продуктивності між GPU та TPU стане ще очевиднішою. GB200 до GB300 у Blackwell — це значний стрибок у архітектурі, перехід на рідинне охолодження, споживання електроенергії на один сервер до 130 кВт, що робить цю систему ще більш складною в порівнянні з попередніми. Реальна масова розгортка запланована вже за три-чотири місяці, і цей процес перебуває у дуже ранній стадії.

Наступне покоління GB300 може безпосередньо вставлятися у сервери GB200, що прискорить швидкість розширення компаній. Зокрема, xAI, яка швидко створює дата-центри, вважається першим клієнтом, здатним максимально розкрити потенціал Blackwell. Baker порівнює:

«Якщо Hopper можна порівняти з найпрогресивнішим літаком Другої світової війни, то TPU v6/v7 — це F-4 Phantom, тобто літаки наступних двох поколінь. А Blackwell — це F-35, зовсім інший рівень продуктивності.»

Це пояснює різницю у залізі між TPU v6/v7 та Blackwell, і вказує на те, що наразі Google Gemini 3 використовує TPU v6/v7, а не обладнання рівня Blackwell. Хоча Google з TPU v6/v7 може тренувати високорівневі моделі типу Gemini 3, з великим масштабом запуску Blackwell різниця у продуктивності між двома архітектурами стане ще більш помітною.

TPU був найнижчим за вартістю, але GB300 змінить ситуацію

Baker говорить, що раніше головною перевагою TPU була найнижча у світі вартість тренування. І Google дійсно використовував цю перевагу для зменшення можливостей для конкурентів у залученні інвестицій та операційній діяльності.

Але Baker зауважує, що з масовим впровадженням GB300 ринок перейде до компаній, які використовують платформу GB300, зокрема з командами, що мають вертикальну інтеграцію та самостійно створюють свої дата-центри. Якщо OpenAI зможе подолати обмеження обчислювальної потужності та самостійно розробляти апаратне забезпечення, вона також може приєднатися до армії GB300.

Це означає, що коли Google втратить домінування у витратах, попередня стратегія низької ціни стане менш актуальною. Контроль над вартістю тренувань зсередини перейде від TPU до GB300 у довгостроковій перспективі.

Швидкість розширення GPU у кооперативі та складність інтеграції TPU

Зі швидким розвитком великих моделей зростає попит на масштабну кооперацію GPU, що є одним із ключових аспектів, через які GPU за останні роки випереджає TPU. Baker зазначає, що GPU-кластер через NVLink може масштабувати до 200 000–300 000 GPU, що дозволяє тренувати великі моделі з більшими бюджетами. Швидке створення великих дата-центрів для xAI змушує NVIDIA раніше випускати оптимізаційні рішення та прискорювати розвиток GPU-екосистеми.

Щодо TPU, Google самостійно інтегрує комутатори та мережі та має координувати ланцюги постачання Broadcom і TSMC, що робить цей процес складнішим, ніж для GPU.

Перехід GPU до щорічних оновлень, обмеження оновлень TPU через ланцюги постачання

Baker зазначає, що у відповідь на конкуренцію з ASIC NVIDIA та AMD прискорюють оновлення своїх продуктів, і GPU рухається у напрямку «одна нова генерація на рік». Це дуже вигідний ритм для епохи великих моделей, оскільки масштаб моделей майже не переривається.

Однак швидкість оновлень TPU обмежена. Від v1 до v4 і до v6 кожен етап тривав кілька років, і ця тенденція зберігатиметься для future версій v8, v9 через ланцюги постачання, що залучають Google, Broadcom, TSMC та інших виробників. Тому у найближчі 3 роки перевага у швидкості оновлень GPU стане ще більш очевидною.

(Технічні відмінності між GPU NVIDIA, Google TPU та самостійними AI-чіпами Amazon AWS і майбутній ринок)

Три великі гіганти явно зосереджуються навколо NVIDIA, Google залишається самотнім у TPU

Зараз у світі чотири провідні компанії з моделювання — OpenAI, Gemini(Google), Anthropic та xAI, але загальна тенденція дедалі більше схиляється на бік NVIDIA.

Baker зазначає, що Anthropic вже підписала довгостроковий контракт на закупівлю NVIDIA на 5 мільярдів доларів, офіційно приєднавшись до GPU-сектору. xAI є найбільшим раннім клієнтом Blackwell і багато інвестує у створення GPU-ферм. OpenAI через необхідність оренди обчислювальних потужностей зазнає зростання витрат і сподівається вирішити довгострокову проблему обчислень через програму Stargate.

З-поміж цих чотирьох Google є єдиним гравцем, що активно використовує TPU, але також стикається з проблемами знизження конкурентоспроможності TPU за ціною та повільнішою швидкістю оновлень. Загалом формується ситуація «три проти одного», де OpenAI, Anthropic та XAI зосереджені навколо GPU, тоді як Google залишається ізольованим у секторі TPU.

(Фінансовий звіт NVIDIA: високі доходи, вибух бізнесу AI-даних центрів, Хуан Реньхуань: Blackwell розпродано до відсутності запасів)

Ця стаття Мікросхемний інвестиційний експерт: Google TPU тимчасово лідирує, але GPU NVIDIA має довгострокову перевагу з’явилася першою у Chain News ABMedia.

Переглянути оригінал
Ця сторінка може містити контент третіх осіб, який надається виключно в інформаційних цілях (не в якості запевнень/гарантій) і не повинен розглядатися як схвалення його поглядів компанією Gate, а також як фінансова або професійна консультація. Див. Застереження для отримання детальної інформації.
  • Нагородити
  • Прокоментувати
  • Репост
  • Поділіться
Прокоментувати
0/400
Немає коментарів
  • Закріпити