清华 KEG 实验室联合智谱 AI 推出图像理解大模型 CogAgent

2023-12-28 08:27:29

巴比特讯清华 KEG 实验室近日和智谱 AI 合作，联合推出了新一代图像理解大模型 CogAgent。该模型基于此前推出的 CogVLM，通过视觉 GUI Agent，使用视觉模态（而非文本）对 GUI 界面进行更全面直接的感知，从而作出规划和决策。据悉，CogAgent 可以接受 1120×1120 的高分辨率图像输入，具备视觉问答、视觉定位（Grounding）、GUI Agent 等多种能力，在 9 个经典的图像理解榜单上（含 VQAv2，STVQA, DocVQA，TextVQA，MM-VET，POPE 等）取得了通用能力第一的成绩。

VET-3.83%

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论

WendyCS

热门话题查看更多
#美联储降息预测
4.49万热度
#广场发帖领$50
4.45万热度
#加密市场反弹
26.88万热度
#SUIETF正式上线
1.21万热度
#比特币活跃度走高
1.08万热度

热门 Gate Fun查看更多

1
i-in-ingi-in-ing
市值:$3655.17持有人数:1
0.00%
2
ODDCONE DOLLAR DREAM COIN
市值:$3684.66持有人数:2
0.04%
3
GLXGLX
市值:$3634.48持有人数:1
0.00%
4
GGGate Gorila
市值:$3634.48持有人数:1
0.00%
5
MicroBug MicroBug Coin
市值:$3627.58持有人数:1
0.00%