虽迟但到新技术公开五一长假将至DeepSeek公开新技术。昨天DeepSeek陈小康一个X消息引发大家对DeepSeek多模态的关注。之后部分用户可在DeepSeek网页端和App上体验其多模态能力。刚刚DeepSeek在Github上正式发布多模态模型并公布背后的技术报告。直击多模态大模型软肋论文「Thinking with Visual Primitives以视觉原语思考」指出当前多模态大模型存在「指代鸿沟」问题即模型能「看见」但不一定能「想清楚」。给GPT - 5.4一张密集人群照片问人数或给Claude Sonnet 4.6一张复杂电路图问元件位置它们的回答往往不准确。背景「看清」和「想清」是两码事现有多模态大模型用自然语言构建「思维链」但自然语言模糊导致模型注意力在推理中「漂移」得出错误结论。学术界此前主要解决「感知鸿沟」而DeepSeek论文认为感知能力强也代替不了精确的「指代能力」。架构站在V4 - Flash肩膀上这项工作以DeepSeek刚发布的V4 - Flash为语言主干是一个284B总参数、推理时激活13B参数的混合专家模型MoE。视觉编码部分使用DeepSeek自研的ViT支持任意分辨率输入。团队核心贡献是提出一套「训练哲学」用极少视觉token让模型精确指代视觉对象。核心创新把坐标变成「思维单元」将点坐标和边界框变成推理基本单位穿插在思维链里。模型推理中提到视觉对象时同步输出坐标像人类数东西用手指点让逻辑链稳定。该机制有边界框和点坐标两种「原语」。7056倍的视觉压缩对于一张756×756的图片传统方案需大量视觉tokenDeepSeek经ViT处理、3×3空间压缩和「压缩稀疏注意力」机制整体压缩比达7056倍。一张800×800的图片该模型只需约90个KV缓存条目而Claude Sonnet 4.6约需870个Gemini - 3 - Flash约需1100个。冷启动数据的精心设计团队爬取近10万个目标检测数据集经两轮筛选保留约3.17万个高质量数据源生成超4000万条训练样本。设计了计数、空间推理和视觉问答、迷宫导航、路径追踪四类任务。训练流程「先分家再合体」第一步用边界框数据和点坐标数据分别训练两个专家模型FTwG和FTwP第二步对两个专家模型各自进行强化学习RL使用GRPO算法奖励设计精细第三步用两个专家模型的rollout数据进行统一的强化微调Unified RFT再从预训练模型重新初始化开始训练得到统一模型F第四步用On - Policy Distillation弥合统一模型与专家模型之间的性能差距。实验结果在「最难的那类题」上超越GPT - 5.4论文在11个基准测试上评测与Gemini - 3 - Flash、GPT - 5.4、Claude Sonnet 4.6、Gemma4 - 31B、Qwen3 - VL - 235B等主流模型对比。在计数任务、细粒度计数、空间推理多个基准上表现优秀拓扑推理任务上领先明显如迷宫导航和路径追踪任务中大幅超越GPT - 5.4等模型。局限与未来当前模型需明确「触发词」才启用视觉原语机制受输入分辨率限制视觉原语位置偶尔不够精准用点坐标解决复杂拓扑推理问题的跨场景泛化能力有限。团队认为与现有高分辨率感知方案结合是下一步方向。结语一种新的「思考姿势」这篇论文意义不仅在于榜单排名它指出推理中语言指代歧义是多模态模型瓶颈给出让模型「指更准」的新思路像人类用手指点着想为多模态推理增添新「思考姿势」。