模型能力的一种衡量方法怎么衡量大模型的能力现在的方法是使用一个测试集去计算大模型的分数。它的缺点是只能用于横向比较很难衡量进步速度。最近一篇论文提出了一种新的衡量方法。科学家首先计算人类完成某一项任务需要多少时间。比如计算 4 5 7人类需要2秒而计算 37 * 52 * 19可能需要1分钟。然后测试大模型能否以50%的成功率完成这项任务。研究发现GPT-2 以50%成功率能够完成的任务时间范围是两秒Claude 3.7 Sonnet 是50分钟O3 接近两小时Opus 4.6 约为12小时。也就是说人类需要12小时才能完成的任务Opus 4.6 的成功概率是50%。结果就是上图可以发现大模型的进化速度在对数坐标下是一根直线。每7个月大模型能够以50%成功率完成的任务时间范围扩大一倍。按照这个趋势大模型将在2027年至2031年间以50%的成功率完成人类专家需要一个月才能完成的任务。如果这篇论文正确就意味着年底发布的模型将比年初强一倍。我用 AI 生成了一个 JavaScript 引擎英文作者用六周时间生成了一个100%通过 test262 测试集的 JavaScript 引擎涵盖所有98,426个场景。本文是对这件事的介绍。解剖 .claude/ 目录英文Claude Code 会生成 .claude/ 子目录所有 AI 处理的底层数据都放在里面本文研究这个目录到底有什么。越使用 AI越不担忧因为我发现 AI 编程只是流程的一部分我的工作不仅仅是编写代码。我的真正工作是找出可以用代码解决的问题然后解决它们并验证解决方案是否有效。AI 最终或许能够完全承担中间的编码部分并帮助解决第一部分和最后一部分但无论如何仍然需要有人去发现问题、定义问题并确认问题已经得到解决。这就是我的工作的80%内容。花在 AI 编程的时间越多对自己的职业生涯的担忧就越少即使 AI 的编程能力越来越强。摩尔定律的不可持续性摩尔定律指的是大约每两年芯片上的晶体管数量就会翻一番。但是它还有一个伴生效应很少人提到。那就是大约每五年芯片工厂的建造成本就会翻一番而能承担这种成本的芯片公司数量则会减半。二十五年前大约有40家公司可以建造芯片工厂每个工厂的建造成本约为20亿至40亿美元。如今只剩下两家或三家芯片公司数量取决于你对英特尔的乐观程度可以建造最先进的芯片工厂建造成本飙升到几百亿美元。如果按照这种趋势再过10年芯片工厂的建设成本继续翻倍飙升也许只有一家公司或根本没有公司能够负担这样的成本。目前芯片的制造工艺已经逼近1纳米再往下发展技术壁垒和资金壁垒将同时接近极限。预计摩尔定律很快就会失效未来增长主要在于算力而不是单块芯片的计算能力。未来的芯片将会像二手车行驶速度都差不多只是新旧差异。甚至觉得2035年生产的芯片和2065年生产的芯片之间将几乎没有什么实质性区别。