
重叠的画面里,纯靠语言描述去区分「从左数第三根」和「从右数第二根」,跟你自己不伸手指去数一群挤在一起的人一个道理,注定混乱。 这篇论文指向的方向是:多模态推理的下一步进化在锚定机制上。DeepSeek 用 90 个信息单元就打平了别人用上千 token 的效果,省下来的算力全拿去让模型「一边想一边指」
。他们此前仅有一次对单一对手遭遇顶级联赛三连败,那是在2024年9月至2025年10月期间对阵河南队。
bsp;DeepSeek 的方案:让模型在思考过程中直接输出图片上的坐标。 想象一下,模型看到一张图里有很多人,它的思维链不再是「我看到左边有个穿蓝衣服的人」,而是「我看到这个人」然后附上一个框的坐标,把人圈出来。每数一个人就圈一个框,圈完之后数框的数量就行了。 &
当前文章:http://db337fi.hengmutao.cn/79cxee/bupa8ed.html
发布时间:12:49:23
推荐阅读