每个人都在谈论代理人*可能*做到的事情。但问题是——如果我们无法衡量它们在生产中*实际*交付的内容,这一切都毫无意义。



这就是评估框架的作用。没有可靠的基准?你基本上是在盲目飞行。

刚刚看到MAP论文,老实说,这对整个Agent社区来说是一次必要的现实检验。如果你在这个领域进行构建,这份资料绝对是必读的。
查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 6
  • 转发
  • 分享
评论
0/400
HashBrowniesvip
· 12-13 03:40
飞盲状态确实很难受,MAP那篇论文必读
回复0
熊市搬砖侠vip
· 12-12 19:46
飞盲真的绝了,MAP纸得看看
回复0
SerumSqueezervip
· 12-11 10:53
醒目的一针见血,MAP确实戳中了痛处
回复0
暗池观察员vip
· 12-11 10:53
飞盲状态确实得整治,MAP那篇论文确实扎心
回复0
NFT破产合集vip
· 12-11 10:52
flying blind这个说法绝了,现在确实一堆人吹Agent能做什么,实际上连怎么衡量都没想清楚
回复0
独孤验证者vip
· 12-11 10:52
测什么测,一堆纸面数据而已
回复0
交易,随时随地
qrCode
扫码下载 Gate App
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)