原本以为DeepSeek的AI更新已经告一段落了,没想到该公司竟然在上周刚推出V4版本之后,又带来了更大的惊喜。

今天上午,DeepSeek推出了识图模式,并且正在进行灰度测试。这表明备受期待已久的多模态功能终于要面世了!

目前,使用网页版或App更新后的用户有可能被随机选中参与这项测试,APPSO也第一时间进行了体验。
DeepSeek的多模态研究员陈小康在社交平台上发文称:“Now, we see you”,并附上了一张图片,邀请DeepSeek解析这张图背后的意义。

测试结果显示,这款软件能够识别出图像中的隐喻,尽管其中并没有直接提到DeepSeek的名字,它还是通过分析发布者身份及内容来推断这是一条关于其新功能更新的帖子。
最后,给出了一句形象生动的总结:“那只看不见世界的鲸鱼现在终于睁开了眼睛。”

APPSO发现,在回答问题之前,DeepSeek识图模式背后的思考过程更为引人入胜。

上下滑动查看完整的分析步骤
以前的人工智能看到这张推特截图时,大概只会机械地描述:“两只蓝色的鲸鱼,左边戴着眼罩,右边没有。”
然而DeepSeek则会提出疑问:这个人是谁?他为什么要发这个帖子?眼罩又代表着什么?

这正是我们在看到一张梗图时心里真正想的问题。没有人会先数清鲸鱼的数量,我们关心的是谁在和谁说话,以及其中蕴含的深层含义。
并且它还会反复纠正自己的观点。
比如一开始将眼罩联想到了动画《天元突破》中的角色卡米那眼镜,但很快又自我否定:“不对,这太过宅了。”接着再次审视细节,“等等,再看看……”最终得出新的结论。
这些推理、联想和自我纠正的过程非常精彩。然而,在整个思考过程中最令人意外的部分是它在接近结束时突然暂停下来,进行了一次小型的内部讨论会。

它列出三个问题并自问自答,先确认事实基础,再推测事件性质,最后才给出解读。DeepSeek已经将这种我们通常没有意识到的思考方式融入到了识图模式中。
就像我们在得出结论之前,也会在脑海中过一遍:“等等,这个前提正确吗?那个假设站得住脚吗?”
我们还向它提出了经典的AI测试题——数手指。

经历一番思考后,DeepSeek给出了错误的答案,并且抱怨了一句:“我已经数得头晕了。”
不过在我稍微引导一下之后,它就能给出正确的答案。

在另一个数手指的测试中,第一次回答错误后,我没有提供正确答案,只是让它再想想,结果它又能找到正确的解答。


我们还尝试了一个经典的“爱心”图案识别任务,这个图曾经难倒了所有AI,DeepSeek同样未能识别出来。

除了这些高难度的极限测试外,在初步测试中,DeepSeek的识图准确率还是相当高的。如果不开启思考模式的话,甚至能在半秒内给出答案。
比如这张电影剧照已经被收录在数据库中了。

对于抽象图案的理解也非常到位。

优衣库的商品图片也没有问题地被识别出来。

不过这个识图模式似乎没有联网搜索功能,只能依赖现有知识库来回答,因此对于一些新出现的事物,如苹果新的吉祥物Finder酱,它就无法识别了。

此外,上传的文件格式也有一些限制,比如不支持HEIF格式

DeepSeek识图模式的上线标志着这只鲸鱼终于睁开了双眼,但这或许仅仅是一个开始。
随着更多多模态功能的陆续推出,整个国产模型的竞争格局可能会再次发生变化。
APPSO将继续为大家带来DeepSeek识图模式的各种体验分享,并欢迎各位尝试后与我们交流有趣的技巧和细节。
