文章目录前言100万上下文不是吹的塞进Claude Code它像个老工程师50万行源码它当小说读读完整部《西游记》还画了个路线图看截图复刻Apple Music设计师要失业了Three.js游戏它连游戏都包了它能替代Claude吗真正打动我的是工程感P.S. 无意间发现了一个巨牛的人工智能教程非常通俗易懂对AI感兴趣的朋友强烈推荐去看看传送门https://blog.csdn.net/HHX_01前言朋友们今天聊个有意思的事儿。现在这大模型发布会啊跟过年似的每个月都有。你方唱罢我登场个个都说自己是全能选手。Coding强、上下文长、多模态牛——这三个词我都听出茧子了耳朵都快磨出包浆了。但问题是很多模型吧就像我那位号称精通八国语言的表弟——英语只会说Hello日语只会说八嘎韩语只会说思密达。你让他真刀真枪干点活儿立马露馅。写个函数还行一遇到大型工程就懵上下文标称一百万真到项目里就开始选择性失明跟得了白内障似的多模态更是离谱看图只会说这是一张图你让它把图变成代码它说臣妾做不到啊语气比甄嬛传还委屈。所以这次MiniMax发布M3我的第一反应是又来又来一个全能选手我信你个鬼你们这些发布会坏得很。但当我把它塞进Claude Code跑了一轮真实工程测试之后——好家伙这模型有点东西。不是那种有点东西但不多的东西是那种东西有点多的东西。100万上下文不是吹的先说这个100万tokens。很多朋友听到这个数字第一反应跟我妈听到我月薪一样真的假的你确定没多写个零在真实工程里长上下文不是锦上添花是生死线。你让模型分析一个大型代码库短上下文模型就像高度近视进图书馆——只能看清眼前这一排书后面的全靠猜猜对了算运气猜错了算你倒霉。MiniMax M3用的是MSA架构官方说百万上下文下每个token计算量只有上一代的1/20。翻译成人话就是以前看100万字要喘半天现在跟刷朋友圈似的大拇指滑两下就完了还不带卡顿的。这意味着什么意味着它真能读项目而不是猜项目更不是蒙项目。**冷知识**100万tokens大约相当于150万字中文或者3本《红楼梦》摞在一起。以前模型看这么多字CPU能烧到可以煎鸡蛋现在M3看完还能给你写个读后感顺便分析人物关系。塞进Claude Code它像个老工程师我把M3接进Claude Code第一个测试项目是OpenClaw——一个代码量很大的开源项目复杂程度堪比北京地铁线路图。我让M3先init项目生成CLAUDE.md做初步理解。然后从issue里挑了个真实bug让它定位注意是定位不是直接修。这时候精彩了。它没一上来就乱改代码而是先分析根因解释问题出在哪拆解触发路径。然后给了三个修复方案每个方案的影响面、改动文件、要不要加配置开关列得清清楚楚。朋友们这像什么这像不像你们公司那个干了十年的老工程师遇到问题不慌先泡杯茶再分析再给方案最后问你“老板选哪个”最怕的是什么最怕模型太积极——你让它修个bug它顺手把半个项目重构了还美其名曰代码优化。等你发现的时候git diff已经红得跟股市暴跌似的。M3在这方面表现出了难得的工程克制感只做精准修复不改无关代码。这种该干嘛干嘛不多管闲事的品质比很多刚毕业的新人都强。**工程克制感三原则**1. 改动尽量小2. 保持原有代码风格3. 不引入不必要的重构。M3这三条全占了堪称AI界的佛系码农。50万行源码它当小说读第二个测试更狠。我让它分析泄露出来的50多万行Claude Code源码找出遥测逻辑。这个任务短上下文模型直接跪了跪得比求婚还干脆。50万行啊相当于把《红楼梦》看了三遍还得找出所有宝玉出场的页码、说了什么话、旁边有谁、当时什么天气。M3的表现让我惊了。它找出了多个出口端点给了具体文件位置和代码行数还整理出控制开关分析了设备ID和身份指纹的生成逻辑。这就好比你在一个超级迷宫里找出口别人还在入口转圈呢它已经画完地图、标好路线、还在出口处摆了个小吃摊等你了。这类任务最考验的不是会不会解释代码而是能不能在巨大代码库中快速定位真正重要的部分。如果上下文不够长它容易只看到局部如果检索能力不好它会漏掉关键文件如果工程理解不够强它会把无关代码也当成核心逻辑。M3把这三件事都办妥了长上下文、代码搜索、结构化总结一气呵成。读完整部《西游记》还画了个路线图接下来我换了个玩法不搞代码了搞文学。把整部《西游记》扔给M3让它生成交互式取经路线图。要求很变态整理国家和地点、列出妖怪、总结剧情、按顺序生成节点、点击弹出详情、还要有古典卷轴风格。这相当于让一个人读完三大名著然后给你做个旅游攻略APP。M3的处理方式很聪明——它没硬读全文而是先搜索定位关键章节再派生多个子代理干活。这就好比一个项目经理接到活儿之后不自己硬扛而是把任务拆给几个小弟最后汇总成果。这种懂得借力的智慧很多职场老油条都不一定有。最后生成的页面点开长安有介绍点开鹰愁涧能看到第15回、危险等级、关键事件。最绝的是狮驼国的危险等级划分得相当准确——毕竟那是三个妖怪的地盘危险系数直接拉满比火焰山还刺激。这说明它不只是能装下长文本还能从里面抽信息、结构化、再变成可交互产品。从读者到导游一步到位。看截图复刻Apple Music设计师要失业了然后测多模态。我给M3三张Apple Music截图让它高保真复刻。这个任务的难点在于模型要先理解截图里的布局、颜色、层级、卡片、封面、导航、按钮然后把视觉理解转化成前端代码最后还要生成可交互UI。相当于给一张餐厅照片让你把菜做出来还得味道一样。几分钟后页面出来了。侧边栏、主页、音乐卡片、封面图、播放器区域还原度我主观判断90%左右。剩下10%不是它不行是我截图不够高清这锅我背。以后产品经理看到喜欢的UI截图丢给M3demo就有了。设计师听完可能想打人但开发者听完想请它吃饭——毕竟以前这种活至少要磨一两天现在几分钟搞定。**独立开发者福音**看到喜欢的网页、App或仪表盘设计截图丢过去高保真原型秒出。从眼馋到拥有只差一个回车键。Three.js游戏它连游戏都包了最后测创意代码直接上硬菜——两个3D游戏。第一个是侏罗纪风格皮卡车狩猎恐龙玩家开车、控制方向、机枪射击恐龙被击中后消失。第二个是墓穴探险第一人称视角头灯照亮前方黑暗中前进、射击、打怪物、捡药箱子弹打墙上冒火光怪物倒下失败能重来。虽然跟专业游戏没法比画面大概相当于十年前的水平但作为一个模型生成的demo它已经具备了交互、状态、视觉效果和游戏机制。这不是写静态页面了这是在做浏览器应用。以前你说AI帮我写个游戏AI给你画个井字棋现在你说AI帮我写个游戏AI给你整出个第一人称射击。这差距比我和吴彦祖的颜值差距还大。它能替代Claude吗这是大家最关心的问题堪比我和你妈掉水里你救谁。我的判断是在很多任务上M3已经具备替代潜力但不能说全面替代。就像电动车和油车市区通勤电动车香长途越野还是油车稳。大型代码库阅读、长文档分析、前端UI生成、多模态截图转代码、工程辅助、成本敏感型任务——M3都很值得尝试。尤其是需要大量tokens的场景它的性价比会非常突出突出到让你觉得以前花的钱有点冤。但如果你极度依赖长期稳定性、复杂推理一致性、极高可靠性的代码审查或者已有成熟的Claude工作流建议把M3作为第二主力来测试。更合理的分工Claude负责最高风险、最高价值的任务M3负责大量长上下文、代码阅读、UI生成、原型开发和成本敏感任务。一个当主治医生一个当全科医生各司其职。**选型建议**Claude继续负责最高风险任务MiniMax M3负责大量长上下文、代码阅读、UI生成、原型开发和成本敏感任务。这样可以在不牺牲质量的前提下大幅降低成本并提升任务吞吐量。真正打动我的是工程感这次M3最让我惊讶的不是100万tokens不是benchmark分数也不是发布会上那些花里胡哨的PPT。真正让我觉得值得关注的是它在真实工程任务中表现出的工程感。它会先理解项目会先定位bug会给出多个修复方案会考虑改动面会尽量避免不必要重构会在大型代码库中找关键文件会把长文本变成结构化产品会把截图变成可运行UI会把创意需求变成浏览器游戏。这已经不是传统意义上的聊天机器人了这更像是一个可以进入真实开发环境、处理复杂上下文、执行多步任务的AI工程助手。所以M3的意义可能不只是又一个国产大模型发布了。它真正代表的是国产模型正在从单纯拼参数、拼榜单进入到拼真实工作流、拼工程能力、拼Agent可用性的阶段。如果你正在用Claude Code、Cursor或其他AI Coding工具M3绝对值得接入测试。因为它可能会成为接下来一段时间里最值得关注的高性价比Coding Agent模型之一。毕竟能干活还便宜的员工哪个老板不喜欢呢P.S. 无意间发现了一个巨牛的人工智能教程非常通俗易懂对AI感兴趣的朋友强烈推荐去看看传送门https://blog.csdn.net/HHX_01