DeepSeek的「鲸鱼」标志已正式揭开了神秘面纱。
陈小康,一位专注于多模态技术的研究员,在X平台上发布了一条动态:“Now, we see you。”在该帖子中,DeepSeek的标志性鲸鱼图案被去除了眼罩装饰。

不久之后,用户们发现DeepSeek网站上悄然推出了“识图模式”功能。这一新模式允许用户上传图片,并由模型进行内容识别和分析。不过,这项服务目前仅对部分用户开放测试,尚未全面推广。

实际上,在此之前,DeepSeek主要凭借其文本推理的性价比优势赢得了市场认可。V3和R1版本以极低的成本实现了接近甚至超越行业巨头的逻辑推断能力,大幅降低了行业的成本门槛,但同时也存在明显的局限性:无法处理图像信息。
这一限制在日常应用中显得尤为不便,比如当用户尝试上传一张Excel表格截图请求分析数据或向Gemini提供草图以生成代码时,在DeepSeek平台上这些功能都无法实现。虽然它能够编写程序、解答数学问题和撰写大纲,但对于图片内容却束手无策。
要成为真正意义上的平台级AI,视觉理解能力是必不可少的要素之一,这一点同样适用于DeepSeek。
在现实生活中,大量信息并非以文字形式呈现,发票、报告、路标、商品包装以及设计稿等都属于非文本类型的信息。如果一款AI产品无法识别这些内容,则其实际应用价值将大打折扣。
识图模式的引入标志着DeepSeek的产品能力从单纯的文字对话扩展到了图文交互领域,并缩小了与GPT和Gemini等主流多模态模型之间的差距。

尽管如此,DeepSeek面对的竞争压力依然不容小觑。
GPT在视觉识别方面已经相当成熟,而Gemini更是基于原生的多模态架构设计。Claude对图表和文档的理解能力也在不断增强。用户们的需求已经被培养得十分挑剔,要想在这个领域脱颖而出,光具备图像识别功能是不够的,还需要一些独特的技术亮点。
例如,利用其擅长的推理技能来分析一张数据图并预测商业趋势,或是依据电路图给出维修建议等,这些才是真正的差异化优势所在。
可以大胆猜测,在视觉理解能力上线之后,DeepSeek可能会逐步推出图像生成和视频解析等功能。如果能够将专家模式下的深度思考与识图功能相结合,那么在未来复杂图文推理场景中表现如何便值得期待了。

“鲸鱼”摘下了眼罩仅仅是开始,接下来的关键在于它能否利用新获得的视觉能力提供令人惊艳的答案,并在众多竞争者中脱颖而出。
