巴比特讯 清华 KEG 实验室近日和智谱 AI 合作,联合推出了新一代图像理解大模型 CogAgent。该模型基于此前推出的 CogVLM,通过视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而作出规划和决策。据悉,CogAgent 可以接受 1120×1120 的高分辨率图像输入,具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,在 9 个经典的图像理解榜单上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成绩。
10.8万 热度
2万 热度
1.2万 热度
17.1万 热度
1599 热度
清华 KEG 实验室联合智谱 AI 推出图像理解大模型 CogAgent
巴比特讯 清华 KEG 实验室近日和智谱 AI 合作,联合推出了新一代图像理解大模型 CogAgent。该模型基于此前推出的 CogVLM,通过视觉 GUI Agent,使用视觉模态(而非文本)对 GUI 界面进行更全面直接的感知,从而作出规划和决策。据悉,CogAgent 可以接受 1120×1120 的高分辨率图像输入,具备视觉问答、视觉定位(Grounding)、GUI Agent 等多种能力,在 9 个经典的图像理解榜单上(含 VQAv2,STVQA, DocVQA,TextVQA,MM-VET,POPE 等)取得了通用能力第一的成绩。