越使用 AI，越不担忧

张

张建站

2026/4/23 2:28:23

10分钟阅读

模型能力的一种衡量方法怎么衡量大模型的能力现在的方法是使用一个测试集去计算大模型的分数。它的缺点是只能用于横向比较很难衡量进步速度。最近一篇论文提出了一种新的衡量方法。科学家首先计算人类完成某一项任务需要多少时间。比如计算 4 5 7人类需要2秒而计算 37 * 52 * 19可能需要1分钟。然后测试大模型能否以50%的成功率完成这项任务。研究发现GPT-2 以50%成功率能够完成的任务时间范围是两秒Claude 3.7 Sonnet 是50分钟O3 接近两小时Opus 4.6 约为12小时。也就是说人类需要12小时才能完成的任务Opus 4.6 的成功概率是50%。结果就是上图可以发现大模型的进化速度在对数坐标下是一根直线。每7个月大模型能够以50%成功率完成的任务时间范围扩大一倍。按照这个趋势大模型将在2027年至2031年间以50%的成功率完成人类专家需要一个月才能完成的任务。如果这篇论文正确就意味着年底发布的模型将比年初强一倍。我用 AI 生成了一个 JavaScript 引擎英文作者用六周时间生成了一个100%通过 test262 测试集的 JavaScript 引擎涵盖所有98,426个场景。本文是对这件事的介绍。解剖 .claude/ 目录英文Claude Code 会生成 .claude/ 子目录所有 AI 处理的底层数据都放在里面本文研究这个目录到底有什么。越使用 AI越不担忧因为我发现 AI 编程只是流程的一部分我的工作不仅仅是编写代码。我的真正工作是找出可以用代码解决的问题然后解决它们并验证解决方案是否有效。AI 最终或许能够完全承担中间的编码部分并帮助解决第一部分和最后一部分但无论如何仍然需要有人去发现问题、定义问题并确认问题已经得到解决。这就是我的工作的80%内容。花在 AI 编程的时间越多对自己的职业生涯的担忧就越少即使 AI 的编程能力越来越强。摩尔定律的不可持续性摩尔定律指的是大约每两年芯片上的晶体管数量就会翻一番。但是它还有一个伴生效应很少人提到。那就是大约每五年芯片工厂的建造成本就会翻一番而能承担这种成本的芯片公司数量则会减半。二十五年前大约有40家公司可以建造芯片工厂每个工厂的建造成本约为20亿至40亿美元。如今只剩下两家或三家芯片公司数量取决于你对英特尔的乐观程度可以建造最先进的芯片工厂建造成本飙升到几百亿美元。如果按照这种趋势再过10年芯片工厂的建设成本继续翻倍飙升也许只有一家公司或根本没有公司能够负担这样的成本。目前芯片的制造工艺已经逼近1纳米再往下发展技术壁垒和资金壁垒将同时接近极限。预计摩尔定律很快就会失效未来增长主要在于算力而不是单块芯片的计算能力。未来的芯片将会像二手车行驶速度都差不多只是新旧差异。甚至觉得2035年生产的芯片和2065年生产的芯片之间将几乎没有什么实质性区别。

实战指南：MyBatisPlus核心查询方法selectById、selectOne、selectBatchIds、selectByMap、selectPage的典型业务场景解析

1. MyBatisPlus核心查询方法入门指南第一次接触MyBatisPlus时，我被它强大的查询功能惊艳到了。相比原生MyBatis需要手动编写SQL的繁琐，MyBatisPlus提供了一套开箱即用的查询方法，让日常开发效率提升了至少50%。今天我就来聊聊其中最常用的五…...

2026/4/23 2:25:27 阅读更多 →

用Python模拟Stackelberg博弈：手把手教你构建价格战模型（附完整代码）

用Python模拟Stackelberg博弈：手把手教你构建价格战模型（附完整代码） 在经济学和商业策略中，Stackelberg博弈模型为我们理解市场领导者如何制定策略、追随者如何应对提供了绝佳的分析框架。不同于传统的静态博弈，这种动…...

2026/4/23 2:19:29 阅读更多 →

手把手教你用Logisim搭建5级流水MIPS CPU（附华中科技计组实验避坑指南）

从零构建5级流水MIPS CPU的Logisim实战指南在计算机组成原理的实验课程中，用Logisim搭建一个完整的5级流水MIPS CPU无疑是极具挑战性又充满成就感的项目。不同于单纯的理论学习，这个实验需要你将课本上的流水线原理转化为实际的电路设计，过程…...

2026/4/23 2:19:02 阅读更多 →

新手必看：如何用Coze-Loop快速修复代码Bug与优化逻辑？

新手必看：如何用Coze-Loop快速修复代码Bug与优化逻辑？ 1. 为什么需要代码优化工具？ 写代码就像盖房子，第一版往往只考虑功能实现，就像毛坯房。随着项目发展，我们需要考虑性能、可读性和维护性&#xff0c…...

2026/4/22 22:37:41 阅读更多 →

如何实现SQL视图的灰度发布_版本兼容与双重定义方案

SQL视图无法直接灰度发布，需通过版本化视图名（如user_summary_v1/v2）应用配置路由实现；禁止DROP/CREATE切换，须校验结构兼容性、避免SELECT*及跨schema引用，并警惕嵌套视图的隐式类型转换风险。SQL 视图不能…...

2026/4/22 0:11:36 阅读更多 →

mysql如何进行表空间传输恢复_mysql transport tablespace实战

根本原因是.ibd文件与内存表定义不匹配，需同时满足：用FLUSH TABLES...FOR EXPORT导出（含元数据校验）且目标表结构完全一致（包括ROW_FORMAT、字符集、列序等）。为什么 ALTER TABLE ... IMPORT TABLESPACE 总…...

2026/4/21 3:15:10 阅读更多 →

告别砖头！华大HC32F系列MCU IAP升级中的安全校验与故障恢复机制设计

华大HC32F系列MCU固件升级的防变砖设计实战在智能硬件产品迭代过程中，固件升级功能已成为标配需求。但每当工程师按下"开始升级"按钮时，内心总会闪过一丝不安——万一升级过程中断电怎么办？传输数据出现位错误会导致什么后果&…...

2026/4/21 15:45:41 阅读更多 →

更多精彩文章