DeepSeek-R1'in güzel üslubu, GPT-4o'nun Ghibli çizim tarzı, OpenAI o3'ün görüntü ile coğrafi konum çıkarımı...
Bu, son iki ayda sürekli olarak gündemde olan fenomen bir AI ürünü. Güçlendirilmiş öğrenmenin nihayet genelleştirilebildiğini ve çok modlu modellerin giderek daha kullanılabilir hale geldiğini açıkça görebilirsiniz. Bu, 2025 yılında gerçekten Agent uygulamalarının hayata geçme ve hızlanma zamanının geldiği anlamına geliyor.
Geçen yılın sonunda Claude 3.5 Sonnet'in uzun vadeli planlama görevleri ve adım adım sorun çözme yeteneklerinin, Agent olmak için gereken seviyeye ulaştığını açıklayan Manus ekibi, daha önce patlayan AI Agent'tır. Bu, Manus'un doğması için bir ön koşuldur.
Artık, derin düşünme modelleri ve çok modlu model yeteneklerinin daha da olgunlaşmasıyla, karmaşık görevleri işleyebilen daha fazla Ajanın ortaya çıkacağı kesin.
Bu değerlendirmeye dayanarak, 17 Nisan'da ByteDance'e ait bulut ve AI hizmet platformu "Volkan Motoru", kurumsal pazara daha güçlü bir model olan "Doubao 1.5・Derin Düşünce Modeli"ni tanıttı. Bu, ByteDance'in AI uygulaması Doubao App'in arkasındaki akıl yürütme modelinin ilk kez ortaya çıkışıdır. Aynı zamanda, Doubao・Metin-Görüntü Modeli 3.0 ve geliştirilmiş görsel anlama modeli de tanıtıldı.
Bu modelin lansmanı için Volkan Motorları CEO'su Tan Dai, "Derin düşünme modeli, Ajan inşa etmenin temelidir. Model, düşünme, planlama ve yansıtma yeteneğine sahip olmalı ve çok modlu desteği de kesinlikle sağlamalıdır; tıpkı insanların görme ve işitme yeteneğine sahip olduğu gibi, Ajan da karmaşık görevleri daha iyi yönetebilir."
Ve AI, uçtan uca otonom karar verme ve uygulama yeteneğine evrildiğinde, temel üretim süreçlerine yöneldiğinde, Volkan Motoru, Agent'ın dijital ve fiziksel dünyayı yönetmesi için mimariler ve araçlar hazırladı - OS Agent çözümü ve AI bulut yerel çıkarım paketi, işletmelerin Agent uygulamalarını daha hızlı ve daha ekonomik bir şekilde inşa etmelerine ve dağıtmalarına yardımcı olmaktadır.
Tan Cheng'in görüşüne göre, bir aracı geliştirmek, bir web sitesi veya APP geliştirmek gibidir, yalnızca model API sorunu tamamen çözemez ve bulutta birçok AI buluta özel bileşen gereklidir. Geçmişte, bulut yerelin kapsayıcılar, esneklik vb. gibi temel tanımları vardı; Şimdi, AI bulut tabanlı benzer temel unsurlara sahip olacak. Volcano Engine, model etrafındaki çeşitli ara yazılımlar, değerlendirme, izleme, gözlemlenebilirlik, veri işleme, güvenlik güvencesi ve kum havuzları gibi ilgili bileşenler gibi AI bulut tabanında sürekli düşünme, keşif ve hızlı eylem yoluyla AI çağında altyapı için en uygun çözüm olmaya kendini adamıştır.
01 Fıstık Torbası Derin Düşünme Modeli, insan gibi bakarken düşünmek ve aramak.
Yılın başında DeepSeek-R1'in piyasaya sürülmesinden bu yana, birçok ToC uygulaması R1 çıkarım modelini entegre etti, yalnızca Doubao App hariç. Mart ayının başında Doubao App'te yayınlanan "Derin Düşünme" modu, arkasında ByteDance'in kendi geliştirdiği Doubao Derin Düşünme modeli bulunmaktadır.
Şimdi, bu akıl yürütme modeli - Doubao 1.5 · Derin Düşünme Modeli resmi olarak yayınlandı ve Vulkan Argo platformunda deneyimlenip çağrılabilir.
Bağlantı moduna tıkladığınızda, Beanbag insan gibi sorunları düşünür, düşünür, araştırır ve ardından tekrar düşünür... Sonunda sorunları çözmeyi amaçlar.
Bu, belirli bir bütçe, boyut gibi kısıtlamalar verildiğinde, Doubao'nun uygun bir kamp ekipmanı seti önermesi için bir alışveriş senaryosudur.
Bu sorunda, Doubao önce önlemleri söktü, gerekli bilgileri planladı ve ardından eksik bilgileri değerlendirdi ve çevrimiçi bir arama yaptı. Burada 3 tur aradı, önce bütçe ve ihtiyaçlara uygun olduğundan emin olmak için fiyat ve performans araştırması yaptı; Çocukların bireysel ihtiyaçları da göz önünde bulunduruldu ve son olarak hava durumu dikkate alınarak detaylı bir inceleme yapıldı. Bir karar vermek için gerekli tüm bağlamı elde edene kadar düşündüğüm gibi araştırdım ve çıkarımsal bir cevap verdim.
Sadece arama yapıp düşünmekle kalmayıp, Doubao derin düşünme modeli görsel akıl yürütme yeteneğine de sahip. İnsanlar gibi, sadece metinlere dayanarak düşünmekle kalmaz, aynı zamanda gördükleri görüntülere dayanarak da düşünebilir.
Örneğin, yemek siparişi verme durumunu ele alalım. 1 Mayıs tatili yaklaşıyor, yurt dışına seyahat eden arkadaşlar menüyü çevirmek için fotoğraf çekip çeviri yazılımına yüklemek zorunda kalmayacaklar, Doubao derin düşünme modeli doğrudan resimden yemek siparişi vermenize yardımcı olabilir.
Aşağıdaki bu örnekte, Doubao derin düşünme modeli önce bütçeyi kontrol etmek için döviz çevirisi yaptı, ardından yaşlılar ve çocukların tercihlerini dikkate aldı ve onların alerjik olduğu yemekleri dikkatlice kaçındı, doğrudan bir menü önerisi sundu.
Bağlantılı, düşünme, akıl yürütme, çoklu modlar, Doubao 1.5・Derin Düşünme Modeli, kapsamlı akıl yürütme yeteneğini sergileyerek daha karmaşık sorunları çözebilmektedir.
Teknik rapora göre, Doubao 1.5 derin düşünme modeli, uzmanlık alanındaki akıl yürütme görevlerinde yüksek bir başarı oranına ulaşmıştır. Örneğin, matematik akıl yürütme AIME 2024 testinde OpenAI o3-mini-high ile eşit puan almıştır; programlama yarışmaları ve bilimsel akıl yürütme testlerinde de o1'e yakın sonuçlar elde edilmiştir. Yaratıcı yazım, beşeri bilimler bilgi soruları gibi genel görevlerde de model, daha geniş kullanım senaryolarında başarılı olabilen mükemmel genelleme yeteneği sergilemiştir.
Doubao derin düşünme modeli ayrıca düşük gecikme özelliklerine sahiptir. Teknik rapor, bu modelin MoE mimarisini benimsediğini ve toplam parametrenin 200B, etkin parametrenin ise yalnızca 20B olduğunu göstermektedir. Daha küçük parametrelerle en üst düzey modellerle karşılaştırılabilir sonuçlar elde edilmektedir. Etkili algoritmalar ve yüksek performanslı çıkarım sistemi üzerine inşa edilen Doubao modeli API hizmeti, yüksek eşzamanlılık sağlarken gecikmeyi 20 milisaniyeye kadar düşürmektedir.
Aynı zamanda, derin düşünme modellerini çeşitli senaryolara uygulayabilen çok modlu bir yeteneğe de sahiptir. Örneğin, karmaşık kurumsal proje yönetim akış şemalarını anlayabilir, kritik bilgilere hızlı bir şekilde ulaşabilir ve güçlü bir talimat izleme yeteneği ile akış şemasına sıkı sıkıya bağlı kalarak müşterilerin sorularını yanıtlayabilir; hava görüntülerini analiz ederken, arazi özelliklerini birleştirerek bölgesel gelişim fizibilitesini değerlendirebilir.
Akıl yürütme modellerinin yanı sıra, bu sefer Doubao büyük model ailesi iki model güncellemesi de getirdi. Metinden görüntüye modeli açısından, Doubao en son 3.0 güncelleme sürümünü tanıttı; bu sürüm daha iyi metin düzenlemesi sunabilir, gerçekçi görüntü oluşturma etkileri sağlayabilir ve 2K yüksek çözünürlüklü görüntü oluşturma yöntemine sahip.
Yeni model, yalnızca küçük metinler ve uzun metinlerin oluşturulması sorununu daha iyi bir şekilde çözmekle kalmayıp, aynı zamanda görsel düzenlemeyi de geliştirmiştir. Örneğin, en soldaki «现形» ve «丰收计划» adlı iki afişin oluşturulma detayları oldukça ince, düzenlemesi de oldukça doğal, hemen kullanılabilir.
Diğer bir güncelleme, Doubao 1.5 görsel anlama modelidir. Yeni sürümde iki ana güncelleme var: görsel konumlandırma daha hassas ve videoların anlaşılması daha akıllı.
Görsel konumlandırma açısından, Doubao 1.5 görsel anlama modeli çoklu hedefler, küçük hedefler ve genel hedefler için çerçeve konumlandırması ve nokta konumlandırması destekler, ayrıca konum sayımı, konum içeriğini tanımlama ve 3D konumlandırma gibi özellikleri de destekler. Görsel konumlandırma yeteneklerinin artırılması, modelin uygulama senaryolarını daha da genişletmesine olanak tanıyabilir; örneğin, fiziksel mağaza denetim senaryoları, GUI ajansı, robot eğitimi, otonom sürüş eğitimi gibi.
Video anlama yeteneği açısından, model hafıza yeteneği, özet anlama yeteneği, hız algılama yeteneği, uzun video anlama vb. gibi büyük ölçüde geliştirildi. Örneğin, ev senaryosunda, video anlama yeteneklerine ve vektör aramasına dayalı olarak evde gözetim videoları üzerinde anlamsal arama yapabiliriz.
Örneğin, aşağıdaki durumda, bir kedi sahibi kedisinin günlük aktivitelerini öğrenmek istiyor. Şimdi "Bugün kedicik evde ne yaptı?" diye aratarak, kullanıcının görüntülemesi için anlam açısından ilgili video kesitlerini hızlıca geri dönebilir.
Görsel anlayışa sahip akıl yürütme modelleri ve daha büyük akıl yürütme kapasitesi ile daha önce yapılamayan birçok şey şimdi gerçekleştirilebilir hale geldi, daha fazla senaryonun kilidini açabilir. Örneğin, bu tür özelliklere sahip kameralar kesinlikle daha popüler olacaktır; AI gözlükleri, AI oyuncakları, akıllı kameralar, kapı kilitleri gibi ürünlerin de yeni gelişim alanları olacaktır.
02 Bulut, Agentic AI Çağı'na Giriş
Son günlerde, OpenAI araştırmacısı Yao Shunyu (Deep Research, Operator ana yazar) "AI'nin İkinci Yarı" başlıklı bir yazısında, pekiştirmeli öğrenmenin nihayet genelleştirilebilecek bir yol bulduğunu belirtti. Bu sadece belirli alanlarda değil, örneğin insan satranç oyuncularını yenen AlphaGo gibi, yazılım mühendisliği, yaratıcı yazım, IMO seviyesindeki matematik, fare ve klavye kullanımı gibi birçok alanda insan yarışmalarına yakın seviyelerde performans gösterilebileceği anlamına geliyor. Böyle bir durumda, sıralama puanlarıyla yarışmak, daha karmaşık sıralamalarda daha yüksek puanlar almak daha kolay olacaktır, ancak bu değerlendirme yöntemi geçmişte kalmıştır.
Şu anda yarışılan, tanım sorununu çözme yeteneğidir. Başka bir deyişle, AI gerçek hayatta ne tür sorunları çözmelidir?
2025 yılında, bu cevap üretkenlik Ajanı. Şu anda, AI'nın uygulama alanları hızla Ajanik AI çağına girmekte, AI giderek daha yüksek uzmanlık gerektiren, zaman alıcı tam görevleri yerine getirebilmektedir. Bu durumda, Volkan Motoru da işletmelere "kendi genel Ajanlarını tanımlama" konusunda bir dizi altyapı oluşturmuştur.
En önemlisi, modelin kendi başına planlama, düşünme, uçtan uca kendi karar verme ve uygulama yeteneğine sahip olmasıdır; böylece temel üretim süreçlerine yönelir. Aynı zamanda, gerçek dünyada kulak, ağız ve göz aracılığıyla görevleri birlikte yerine getirebilmesi için çok modlu akıl yürütme yeteneğine de ihtiyaç vardır.
Modelin ötesinde, Infra teknoloji yığını da sürekli evrim geçirmelidir. Örneğin, MoE mimarisi daha verimli avantajlar gösterdikçe, giderek modelin ana akım mimarisi haline gelmektedir; bununla birlikte, MoE modeline uyum sağlamak için daha karmaşık ve esnek bir bulut bilişim mimarisi ve araçları gerekmektedir.
Şu anda kurumsal genel Agent senaryosunda, Volkan Motoru daha iyi bir mimari ve araçlar sunuyor - OS Agent çözümü, dijital ve fiziksel dünyayı yönetmek için büyük modelleri destekliyor. Örneğin, Agent'ın tarayıcıyı kullanarak ürün sayfalarını araması, iPhone fiyat karşılaştırma görevini gerçekleştirmesi, hatta Agent'ın uzaktaki bir bilgisayarda Clipchamp kullanarak video düzenlemesi, müzik eklemesi gibi işlemleri yapması mümkün.
Şu anda, Volcano OS Agent çözümü, Doubao UI-TARS modelinin yanı sıra veFaaS işlev hizmetlerini, bulut sunucularını, bulut telefonlarını ve kod, tarayıcılar, bilgisayarlar, cep telefonları ve diğer aracılar üzerinde işlemleri uygulamak için diğer ürünleri içerir. Bunlar arasında, Doubao UI-TARS modeli, ekran görsel anlayışını, mantıksal akıl yürütmeyi, arayüz elemanı konumlandırmayı ve çalıştırmayı entegre ederek, önceden belirlenmiş kurallara dayanan geleneksel otomasyon araçlarının sınırlamalarını aşar ve aracının akıllı etkileşimi için insan operasyonuna daha yakın bir model temeli sağlar.
Genel tip Agent senaryosunda, Volkan Motoru bu OS Agent çözümüyle şirket içi, bireysel veya belirli alanlarda ihtiyaçlara göre Agent tanımlaması ve keşfi yapılmasını sağlar.
Dikey türdeki Agent'lar üzerinde, Volkan Motoru kendi avantajlı alanlarına dayanarak keşif yapacak, örneğin daha önce tanıtılan "Akıllı Programlama Asistanı Trae" ve veri ürünü "Data Agent" gibi. İkincisi, veri işleme yeteneklerini maksimuma çıkarmak için veri döngüsü oluşturarak çalışmaktadır.
Diğer yandan, Agent'in nüfuz etmesi, daha fazla model çıkarım tüketimi de getirecektir. Büyük ölçekli çıkarım talepleriyle başa çıkmak için, Volkan Motoru özel olarak AI Bulut Yerel ServingKit çıkarım paketi geliştirdi; bu, model dağıtımını daha hızlı hale getirir ve çıkarım maliyetlerini düşürür, GPU tüketimi geleneksel çözümlere kıyasla %80 oranında azalmıştır.
Tan Dài'ya göre, AI çağının ihtiyaçlarını karşılamak için Volkan Motoru üç alanda sürekli olarak çalışacak: Modeli sürekli optimize etmek, rekabet gücünü korumak; maliyetleri, gecikmeleri düşürmek ve verimliliği artırmak; ürünleri daha kolay uygulanabilir hale getirmek, örneğin düğmeler, geliştiricilere yönelik HiAgent araçları ve bulut yerel bileşenler OS Agent gibi. Ürün ve teknoloji liderliğini koruyarak, pazar payı da önde olacak. Daha önce IDC tarafından yayınlanan "Çin Kamu Bulut Büyük Model Hizmetleri Pazar Analizi, 1Q25" raporuna göre, Volkan Motoru %46.4 pazar payıyla birinci sırada yer alıyor.
Geçen yıl Aralık ayında, Doubao büyük modelinin günlük token çağrı miktarı 40 trilyondu. Bu yıl Mart ayı sonu itibarıyla, bu sayı 12.7 trilyonu geçti ve Doubao büyük modelinin ilk yayımlandığı zamana kıyasla, kısa bir süre içinde 106 katlık hızlı bir artış sağlandı. Gelecekte, derin düşünce modellerinin ve görsel akıl yürütmenin daha da olgunlaşması ve AI bulut altyapısının optimizasyonuyla birlikte, Agent daha büyük token çağrı miktarlarını da tetikleyecektir.
The content is for reference only, not a solicitation or offer. No investment, tax, or legal advice provided. See Disclaimer for more risks disclosure.
Byte Ai Agent hızlandırma tuşuna basın
Yazar: Wanchen
DeepSeek-R1'in güzel üslubu, GPT-4o'nun Ghibli çizim tarzı, OpenAI o3'ün görüntü ile coğrafi konum çıkarımı...
Bu, son iki ayda sürekli olarak gündemde olan fenomen bir AI ürünü. Güçlendirilmiş öğrenmenin nihayet genelleştirilebildiğini ve çok modlu modellerin giderek daha kullanılabilir hale geldiğini açıkça görebilirsiniz. Bu, 2025 yılında gerçekten Agent uygulamalarının hayata geçme ve hızlanma zamanının geldiği anlamına geliyor.
Geçen yılın sonunda Claude 3.5 Sonnet'in uzun vadeli planlama görevleri ve adım adım sorun çözme yeteneklerinin, Agent olmak için gereken seviyeye ulaştığını açıklayan Manus ekibi, daha önce patlayan AI Agent'tır. Bu, Manus'un doğması için bir ön koşuldur.
Artık, derin düşünme modelleri ve çok modlu model yeteneklerinin daha da olgunlaşmasıyla, karmaşık görevleri işleyebilen daha fazla Ajanın ortaya çıkacağı kesin.
Bu değerlendirmeye dayanarak, 17 Nisan'da ByteDance'e ait bulut ve AI hizmet platformu "Volkan Motoru", kurumsal pazara daha güçlü bir model olan "Doubao 1.5・Derin Düşünce Modeli"ni tanıttı. Bu, ByteDance'in AI uygulaması Doubao App'in arkasındaki akıl yürütme modelinin ilk kez ortaya çıkışıdır. Aynı zamanda, Doubao・Metin-Görüntü Modeli 3.0 ve geliştirilmiş görsel anlama modeli de tanıtıldı.
Bu modelin lansmanı için Volkan Motorları CEO'su Tan Dai, "Derin düşünme modeli, Ajan inşa etmenin temelidir. Model, düşünme, planlama ve yansıtma yeteneğine sahip olmalı ve çok modlu desteği de kesinlikle sağlamalıdır; tıpkı insanların görme ve işitme yeteneğine sahip olduğu gibi, Ajan da karmaşık görevleri daha iyi yönetebilir."
Ve AI, uçtan uca otonom karar verme ve uygulama yeteneğine evrildiğinde, temel üretim süreçlerine yöneldiğinde, Volkan Motoru, Agent'ın dijital ve fiziksel dünyayı yönetmesi için mimariler ve araçlar hazırladı - OS Agent çözümü ve AI bulut yerel çıkarım paketi, işletmelerin Agent uygulamalarını daha hızlı ve daha ekonomik bir şekilde inşa etmelerine ve dağıtmalarına yardımcı olmaktadır.
Tan Cheng'in görüşüne göre, bir aracı geliştirmek, bir web sitesi veya APP geliştirmek gibidir, yalnızca model API sorunu tamamen çözemez ve bulutta birçok AI buluta özel bileşen gereklidir. Geçmişte, bulut yerelin kapsayıcılar, esneklik vb. gibi temel tanımları vardı; Şimdi, AI bulut tabanlı benzer temel unsurlara sahip olacak. Volcano Engine, model etrafındaki çeşitli ara yazılımlar, değerlendirme, izleme, gözlemlenebilirlik, veri işleme, güvenlik güvencesi ve kum havuzları gibi ilgili bileşenler gibi AI bulut tabanında sürekli düşünme, keşif ve hızlı eylem yoluyla AI çağında altyapı için en uygun çözüm olmaya kendini adamıştır.
01 Fıstık Torbası Derin Düşünme Modeli, insan gibi bakarken düşünmek ve aramak.
Yılın başında DeepSeek-R1'in piyasaya sürülmesinden bu yana, birçok ToC uygulaması R1 çıkarım modelini entegre etti, yalnızca Doubao App hariç. Mart ayının başında Doubao App'te yayınlanan "Derin Düşünme" modu, arkasında ByteDance'in kendi geliştirdiği Doubao Derin Düşünme modeli bulunmaktadır.
Şimdi, bu akıl yürütme modeli - Doubao 1.5 · Derin Düşünme Modeli resmi olarak yayınlandı ve Vulkan Argo platformunda deneyimlenip çağrılabilir.
Bağlantı moduna tıkladığınızda, Beanbag insan gibi sorunları düşünür, düşünür, araştırır ve ardından tekrar düşünür... Sonunda sorunları çözmeyi amaçlar.
Bu, belirli bir bütçe, boyut gibi kısıtlamalar verildiğinde, Doubao'nun uygun bir kamp ekipmanı seti önermesi için bir alışveriş senaryosudur.
Bu sorunda, Doubao önce önlemleri söktü, gerekli bilgileri planladı ve ardından eksik bilgileri değerlendirdi ve çevrimiçi bir arama yaptı. Burada 3 tur aradı, önce bütçe ve ihtiyaçlara uygun olduğundan emin olmak için fiyat ve performans araştırması yaptı; Çocukların bireysel ihtiyaçları da göz önünde bulunduruldu ve son olarak hava durumu dikkate alınarak detaylı bir inceleme yapıldı. Bir karar vermek için gerekli tüm bağlamı elde edene kadar düşündüğüm gibi araştırdım ve çıkarımsal bir cevap verdim.
Sadece arama yapıp düşünmekle kalmayıp, Doubao derin düşünme modeli görsel akıl yürütme yeteneğine de sahip. İnsanlar gibi, sadece metinlere dayanarak düşünmekle kalmaz, aynı zamanda gördükleri görüntülere dayanarak da düşünebilir.
Örneğin, yemek siparişi verme durumunu ele alalım. 1 Mayıs tatili yaklaşıyor, yurt dışına seyahat eden arkadaşlar menüyü çevirmek için fotoğraf çekip çeviri yazılımına yüklemek zorunda kalmayacaklar, Doubao derin düşünme modeli doğrudan resimden yemek siparişi vermenize yardımcı olabilir.
Aşağıdaki bu örnekte, Doubao derin düşünme modeli önce bütçeyi kontrol etmek için döviz çevirisi yaptı, ardından yaşlılar ve çocukların tercihlerini dikkate aldı ve onların alerjik olduğu yemekleri dikkatlice kaçındı, doğrudan bir menü önerisi sundu.
Bağlantılı, düşünme, akıl yürütme, çoklu modlar, Doubao 1.5・Derin Düşünme Modeli, kapsamlı akıl yürütme yeteneğini sergileyerek daha karmaşık sorunları çözebilmektedir.
Teknik rapora göre, Doubao 1.5 derin düşünme modeli, uzmanlık alanındaki akıl yürütme görevlerinde yüksek bir başarı oranına ulaşmıştır. Örneğin, matematik akıl yürütme AIME 2024 testinde OpenAI o3-mini-high ile eşit puan almıştır; programlama yarışmaları ve bilimsel akıl yürütme testlerinde de o1'e yakın sonuçlar elde edilmiştir. Yaratıcı yazım, beşeri bilimler bilgi soruları gibi genel görevlerde de model, daha geniş kullanım senaryolarında başarılı olabilen mükemmel genelleme yeteneği sergilemiştir.
Doubao derin düşünme modeli ayrıca düşük gecikme özelliklerine sahiptir. Teknik rapor, bu modelin MoE mimarisini benimsediğini ve toplam parametrenin 200B, etkin parametrenin ise yalnızca 20B olduğunu göstermektedir. Daha küçük parametrelerle en üst düzey modellerle karşılaştırılabilir sonuçlar elde edilmektedir. Etkili algoritmalar ve yüksek performanslı çıkarım sistemi üzerine inşa edilen Doubao modeli API hizmeti, yüksek eşzamanlılık sağlarken gecikmeyi 20 milisaniyeye kadar düşürmektedir.
Aynı zamanda, derin düşünme modellerini çeşitli senaryolara uygulayabilen çok modlu bir yeteneğe de sahiptir. Örneğin, karmaşık kurumsal proje yönetim akış şemalarını anlayabilir, kritik bilgilere hızlı bir şekilde ulaşabilir ve güçlü bir talimat izleme yeteneği ile akış şemasına sıkı sıkıya bağlı kalarak müşterilerin sorularını yanıtlayabilir; hava görüntülerini analiz ederken, arazi özelliklerini birleştirerek bölgesel gelişim fizibilitesini değerlendirebilir.
Akıl yürütme modellerinin yanı sıra, bu sefer Doubao büyük model ailesi iki model güncellemesi de getirdi. Metinden görüntüye modeli açısından, Doubao en son 3.0 güncelleme sürümünü tanıttı; bu sürüm daha iyi metin düzenlemesi sunabilir, gerçekçi görüntü oluşturma etkileri sağlayabilir ve 2K yüksek çözünürlüklü görüntü oluşturma yöntemine sahip.
Yeni model, yalnızca küçük metinler ve uzun metinlerin oluşturulması sorununu daha iyi bir şekilde çözmekle kalmayıp, aynı zamanda görsel düzenlemeyi de geliştirmiştir. Örneğin, en soldaki «现形» ve «丰收计划» adlı iki afişin oluşturulma detayları oldukça ince, düzenlemesi de oldukça doğal, hemen kullanılabilir.
Diğer bir güncelleme, Doubao 1.5 görsel anlama modelidir. Yeni sürümde iki ana güncelleme var: görsel konumlandırma daha hassas ve videoların anlaşılması daha akıllı.
Görsel konumlandırma açısından, Doubao 1.5 görsel anlama modeli çoklu hedefler, küçük hedefler ve genel hedefler için çerçeve konumlandırması ve nokta konumlandırması destekler, ayrıca konum sayımı, konum içeriğini tanımlama ve 3D konumlandırma gibi özellikleri de destekler. Görsel konumlandırma yeteneklerinin artırılması, modelin uygulama senaryolarını daha da genişletmesine olanak tanıyabilir; örneğin, fiziksel mağaza denetim senaryoları, GUI ajansı, robot eğitimi, otonom sürüş eğitimi gibi.
Video anlama yeteneği açısından, model hafıza yeteneği, özet anlama yeteneği, hız algılama yeteneği, uzun video anlama vb. gibi büyük ölçüde geliştirildi. Örneğin, ev senaryosunda, video anlama yeteneklerine ve vektör aramasına dayalı olarak evde gözetim videoları üzerinde anlamsal arama yapabiliriz.
Örneğin, aşağıdaki durumda, bir kedi sahibi kedisinin günlük aktivitelerini öğrenmek istiyor. Şimdi "Bugün kedicik evde ne yaptı?" diye aratarak, kullanıcının görüntülemesi için anlam açısından ilgili video kesitlerini hızlıca geri dönebilir.
Görsel anlayışa sahip akıl yürütme modelleri ve daha büyük akıl yürütme kapasitesi ile daha önce yapılamayan birçok şey şimdi gerçekleştirilebilir hale geldi, daha fazla senaryonun kilidini açabilir. Örneğin, bu tür özelliklere sahip kameralar kesinlikle daha popüler olacaktır; AI gözlükleri, AI oyuncakları, akıllı kameralar, kapı kilitleri gibi ürünlerin de yeni gelişim alanları olacaktır.
02 Bulut, Agentic AI Çağı'na Giriş
Son günlerde, OpenAI araştırmacısı Yao Shunyu (Deep Research, Operator ana yazar) "AI'nin İkinci Yarı" başlıklı bir yazısında, pekiştirmeli öğrenmenin nihayet genelleştirilebilecek bir yol bulduğunu belirtti. Bu sadece belirli alanlarda değil, örneğin insan satranç oyuncularını yenen AlphaGo gibi, yazılım mühendisliği, yaratıcı yazım, IMO seviyesindeki matematik, fare ve klavye kullanımı gibi birçok alanda insan yarışmalarına yakın seviyelerde performans gösterilebileceği anlamına geliyor. Böyle bir durumda, sıralama puanlarıyla yarışmak, daha karmaşık sıralamalarda daha yüksek puanlar almak daha kolay olacaktır, ancak bu değerlendirme yöntemi geçmişte kalmıştır.
Şu anda yarışılan, tanım sorununu çözme yeteneğidir. Başka bir deyişle, AI gerçek hayatta ne tür sorunları çözmelidir?
2025 yılında, bu cevap üretkenlik Ajanı. Şu anda, AI'nın uygulama alanları hızla Ajanik AI çağına girmekte, AI giderek daha yüksek uzmanlık gerektiren, zaman alıcı tam görevleri yerine getirebilmektedir. Bu durumda, Volkan Motoru da işletmelere "kendi genel Ajanlarını tanımlama" konusunda bir dizi altyapı oluşturmuştur.
En önemlisi, modelin kendi başına planlama, düşünme, uçtan uca kendi karar verme ve uygulama yeteneğine sahip olmasıdır; böylece temel üretim süreçlerine yönelir. Aynı zamanda, gerçek dünyada kulak, ağız ve göz aracılığıyla görevleri birlikte yerine getirebilmesi için çok modlu akıl yürütme yeteneğine de ihtiyaç vardır.
Modelin ötesinde, Infra teknoloji yığını da sürekli evrim geçirmelidir. Örneğin, MoE mimarisi daha verimli avantajlar gösterdikçe, giderek modelin ana akım mimarisi haline gelmektedir; bununla birlikte, MoE modeline uyum sağlamak için daha karmaşık ve esnek bir bulut bilişim mimarisi ve araçları gerekmektedir.
Şu anda kurumsal genel Agent senaryosunda, Volkan Motoru daha iyi bir mimari ve araçlar sunuyor - OS Agent çözümü, dijital ve fiziksel dünyayı yönetmek için büyük modelleri destekliyor. Örneğin, Agent'ın tarayıcıyı kullanarak ürün sayfalarını araması, iPhone fiyat karşılaştırma görevini gerçekleştirmesi, hatta Agent'ın uzaktaki bir bilgisayarda Clipchamp kullanarak video düzenlemesi, müzik eklemesi gibi işlemleri yapması mümkün.
Şu anda, Volcano OS Agent çözümü, Doubao UI-TARS modelinin yanı sıra veFaaS işlev hizmetlerini, bulut sunucularını, bulut telefonlarını ve kod, tarayıcılar, bilgisayarlar, cep telefonları ve diğer aracılar üzerinde işlemleri uygulamak için diğer ürünleri içerir. Bunlar arasında, Doubao UI-TARS modeli, ekran görsel anlayışını, mantıksal akıl yürütmeyi, arayüz elemanı konumlandırmayı ve çalıştırmayı entegre ederek, önceden belirlenmiş kurallara dayanan geleneksel otomasyon araçlarının sınırlamalarını aşar ve aracının akıllı etkileşimi için insan operasyonuna daha yakın bir model temeli sağlar.
Genel tip Agent senaryosunda, Volkan Motoru bu OS Agent çözümüyle şirket içi, bireysel veya belirli alanlarda ihtiyaçlara göre Agent tanımlaması ve keşfi yapılmasını sağlar.
Dikey türdeki Agent'lar üzerinde, Volkan Motoru kendi avantajlı alanlarına dayanarak keşif yapacak, örneğin daha önce tanıtılan "Akıllı Programlama Asistanı Trae" ve veri ürünü "Data Agent" gibi. İkincisi, veri işleme yeteneklerini maksimuma çıkarmak için veri döngüsü oluşturarak çalışmaktadır.
Diğer yandan, Agent'in nüfuz etmesi, daha fazla model çıkarım tüketimi de getirecektir. Büyük ölçekli çıkarım talepleriyle başa çıkmak için, Volkan Motoru özel olarak AI Bulut Yerel ServingKit çıkarım paketi geliştirdi; bu, model dağıtımını daha hızlı hale getirir ve çıkarım maliyetlerini düşürür, GPU tüketimi geleneksel çözümlere kıyasla %80 oranında azalmıştır.
Tan Dài'ya göre, AI çağının ihtiyaçlarını karşılamak için Volkan Motoru üç alanda sürekli olarak çalışacak: Modeli sürekli optimize etmek, rekabet gücünü korumak; maliyetleri, gecikmeleri düşürmek ve verimliliği artırmak; ürünleri daha kolay uygulanabilir hale getirmek, örneğin düğmeler, geliştiricilere yönelik HiAgent araçları ve bulut yerel bileşenler OS Agent gibi. Ürün ve teknoloji liderliğini koruyarak, pazar payı da önde olacak. Daha önce IDC tarafından yayınlanan "Çin Kamu Bulut Büyük Model Hizmetleri Pazar Analizi, 1Q25" raporuna göre, Volkan Motoru %46.4 pazar payıyla birinci sırada yer alıyor.
Geçen yıl Aralık ayında, Doubao büyük modelinin günlük token çağrı miktarı 40 trilyondu. Bu yıl Mart ayı sonu itibarıyla, bu sayı 12.7 trilyonu geçti ve Doubao büyük modelinin ilk yayımlandığı zamana kıyasla, kısa bir süre içinde 106 katlık hızlı bir artış sağlandı. Gelecekte, derin düşünce modellerinin ve görsel akıl yürütmenin daha da olgunlaşması ve AI bulut altyapısının optimizasyonuyla birlikte, Agent daha büyük token çağrı miktarlarını da tetikleyecektir.