比Codex快4倍！终于有开源模型卷本地Agent执行效率了～

张

张建站

2026/6/10 13:34:05

10分钟阅读

大家好我是袋鼠帝兄弟们现在大家电脑上一定要人手一个本地Agent因为当你搞不定很多事情的时候可以直接丢给本地Agent。比如Codex、Claude CodeOpenClaw或者Hermes等等。然后我发现现在Agent干活越来越稳了。但是干活的效率速度始终提不起来。这期文章我将给大家分享我对如何提高Codex、OpenClaw、Claude Code等Agent的干活效率的探索。我最近看到阶跃新开源的一个叫Step 3.7 Flash模型。据说它的Agent能力很强同时还支持多模态。而且作为Flash模型跑得贼快。https://github.com/stepfun-ai/Step-3.7-Flash初步体验我就把Step 3.7 Flash接入了Codex我就发现它这个输出速度确实是轻松碾压了GPT-5.5的最快形态大概快了4倍左右。CodexGPT-5.5最快速的模式我还专门把它两生成文字复制到飞书文档里面并查看信息都没有达到3000字但字数都差不多step3.7 flash生成了2500多字GPT-5.5生成了2600多字。Step 3.7 Flash是一个198B参数的开源多模态大模型视觉编码器大小为1.8B激活参数11B。原生支持图像理解在工具链配合下可以处理视频素材有256K的长上下文。最高生成速度可达400 Tokens/s。为了提升本地Agent们在我的某些场景下的干活效率我决定尝试把Step 3.7 Flash接入我本地的Claude Code。毕竟官方就有现成的接入指南。本来我是想接入Codex体验的但是为了适配Codex还得装一个叫Codex的中间件麻烦。而且即便加了Codex适配还是不够丝滑废了不少时间最后放弃了。我这几天体验下来发现step3.7 flash在以下几个场景效果都相当nice1. 视频提示词倒推纯提示词复刻视频整个体验过程中我发现Step 3.7 Flash的视觉能力贼强真的就特别适合用来跑一些需要用到视觉理解的任务。比如让它帮我倒推一些精彩视频的提示词用纯提示词复刻视频。整个工作流很简单把一段短视频丢给它分析让它逆向还原出这条视频的提示词然后把提示词拿去新的视频生成AI里重新生成效果出乎意料的好。以后你看到任何一条效果好的短视频你都可以快速解构它、复刻它、再创作它。对于短视频从业者、品牌方、内容创作者来说这可能是一个真正省时间的工具组合。而且它是开源的用API调用成本极低文末有提及。过程是这样的我把Step 3.7的Step Plan接入到Claude Code然后直接调用Step的API在当前工具链支持下我把视频素材交给 Step 3.7 Flash 分析让它给出一份用于复刻原视频的分镜文档得益于Step 3.7的速度真的很快咔咔就分析完毕了生成了快两百行的分镜文档从每个镜头的prompt到音乐节奏考虑甚至每个AI工具使用的注意事项都写进去了。然后我就把整个倒推出来的提示词文档一口气直接丢给Seedance2.0过了一会儿结果就一次性出来了。我觉得可以做成工作流批量复刻有趣的短视频。step3.7 flash可以在整个流程里面节约大量时间和token成本。2. 视频理解找出违反物理规律的地方这是DeepSeek V4 Pro一次性做的小球运动人眼是可以轻易看见是有bug的违反物理学的缺陷的地方。让Step 3.7视频理解来分析看看能不能准确找出问题而且给出精确时间点。结果它还真找出来了时间点定位得相当准。做AI视频生成的团队应该会喜欢这个以前每条视频可能都要人工一帧帧检查物理缺陷现在丢给它先过一遍可以省不少事。3. 视觉分析图片联网推理定位地点不仅能识别视频还能把视觉线索和联网检索结合起来这一点也很不错。比如这张我朋友圈的风景照图片你能一眼看出是哪里吗看到姑娘的服饰如果不告诉我我只能猜是少数民族地区可能是新疆然后试着考考Step 3.7 flash。Step 3.7先是进行了一轮思考发现了后面有CCTV字样这也是我自己乍一看没留意到的地方。然后又发现了露出来的半个招牌公羊二字。然后又结合其他辅助信息进行了一轮搜索然后又思考了一轮直接确定位置详细到具体是新疆伊犁哈萨克自治州伊宁市六星街的黑公羊餐厅店铺有点惊人我本以为知道大概哪个市就不错了没想到精确到店铺了。4. 解决Win11经典Bug一个系统服务的内存泄漏问题最近我把系统更新到了Win11今天一早起来发现内存爆红了。打开任务管理器一看发现一个进程有点奇怪占用了将近2.4GB但是却不使用CPU。于是我把这张截图发给接入了Step 3.7 Flash的Claude Code问了一下。发现原来这是一个系统服务的内存泄漏是Windows 10/11持续了近10年的经典级已知Bug微软多次修复但从未彻底根治。出于系统安全考虑Claude Code我没给最高系统权限可以看见Step 3.7 flash积极采用了多种方式包括重启服务、杀进程、修改注册表等不同的方式尝试帮我解决问题但是因为权限不足它办不到。它很快意识到这一点向我寻求帮助写了代码一步步教我去执行我按着步骤执行完毕后让它检查并且我自己又看了任务管理器确实已经搞定了清除了内存泄漏把这项用不到的服务关闭。以后再也不用担心内存泄漏了又省下2GB内存可以多开好几个Claude Code了。所以我觉得Step 3.7 Flash的干活能力也是不错的。5. GeoGebra专业动画长达一分钟的教学视频导入给Step 3.7理解学习用HTML复刻视频动画。GeoGebra是数学教育专业硕士专门开的一门课需要专门去学习如何制作动画演示给学生进行教学的。其实还是比较复杂的我有个朋友经常为此苦恼上课很可能听不懂需要专门去B站教学视频一点点学习然后一个个步骤跟着做时间一长又忘记了又要重学一遍。然后我去下载了这个B站教学视频导入给Step 3.7 Flash看看能不能直接让它复刻一个。这是B站GeoGebra软件的教学视频长达一分钟感觉能理解一分钟视频国产大模型都不多我也不太确定Step 3.7能不能做得到。1分钟的视频内容还是很丰富了我怕它有可能会理解出错但是最后发现是我低估了它它完全成功理解并且能按我的要求写出每一个函数的动画过程。我同意了这个计划然后它就开始猛猛写代码了。它一边写居然一边自动在我的浏览器上打开了自己写的HTML然后逐个按钮进行测试交互检查。这里其实发生了一个小插曲Step 3.7 Flash太快了我都来不及录屏它就搞定了所以我只能让它再操作一遍我说我要录屏。。所以它就真的再操作一遍再检查一遍给我看逐个按钮点击切换播放动画。如下面录屏所示左边是它操作交互的过程右边是它的思考过程一边思考一边操作。我完全没有点击任何按钮浏览器也都不是我打开的是它自己一边写代码一边操作的。。我也没想到它直接做出来了而且是四个函数一起一口气做出来的虽然没和视频里100%一样但是已经一口气搞定几乎90%了有点东西。关于价格好多次评论区都会问到相关模型、工具的价格索性这次我就一并介绍了。Step 3.7 Flash有个Step Plan价格上算不得特别便宜但是真的好耐用。是按照每5小时的次数来限制的跟Codex的订阅制有点像我觉得按一定时间限制次数这种用起来是最爽的完全不用管token消耗了多少。而且是真的耐用。一开始我还怕便宜一点的套餐不够用心有点大直接上了Pro...结果陆续跑了几天连零头都没用到。。这很适合用在Claude Code、Codex了给Agent们当眼睛关键是识别输出都挺快的。如果用量不大可以直接用API额度「最后」整体用下来我感觉Step 3.7 Flash不算是那种特别强的视觉模型毕竟参数量摆在那。但是视觉理解能力强代码能力也不错推理能力也在线速度非常快也非常的耐用。总的来说在合适的一些场景它算是性价比挺高的一款模型。当然你让它干一些非常复杂的活肯定还是比不上用CodexGPT-5.5。但是我用下来在很多不那么复杂的场景其实是够用的关键是速度快让我这个用惯了Codex老爷车的人一下子还有点不习惯。前两天参加腾讯云的AI峰会被采访的时候被问到了一个问题你觉得今年的Agent跟去年的Agent有什么不一样我简单思考了一下回答到我觉得今年的Agent干活越来越稳了跑任务所需的时间也更长了所以我认为在Agent干活质量越来越稳之后效率一定是Agent的下个阶段所要追求的重要指标。在我看来时间金钱用钱能买来时间一定是划算的。目前我觉得更好的方式是强大的模型负责难题思考快模型负责干活这可能才是Agent的正确打开方式我是袋鼠帝一个致力于帮你把 AI 变成生产力的博主。我们下期见能看到这里的都是凤毛麟角的存在如果觉得不错随手点个赞、在看、转发三连吧~如果想第一时间收到推送也可以给我个星标⭐谢谢你耐心看完我的文章~