AI Agent Harness Engineering 在游戏中的应用:NPC、策划与测试
AI Agent Harness Engineering 在游戏中的应用:NPC、策划与测试摘要/引言各位游戏行业的开发者、策划大佬、测试同学,还有所有对游戏AI如何从「呆板的脚本工具人」进化成「有生命力、能扛事甚至能省掉人力成本的数字同事**」**感兴趣的朋友,大家好!我是老周,一个在游戏开发和AI Agent技术这两个领域摸爬滚打了近15年的“双栖老油条”——最早在网易做过《梦幻西游》手游版的场景NPC优化,后来在字节跳动AI Lab专门做过通用大语言模型(LLM)+游戏决策模型的Agent原型系统,去年底又加入了一家独立工作室做一款主打「全AI交互叙事」的开放世界RPG项目《星落荒野》的技术负责人。今天我要和大家聊的主题,不是什么玄之又玄的“通用AGI如何统治游戏世界”,而是AI Agent领域最近半年才开始从实验室落地到工业级游戏项目的关键基础技术——「AI Agent Harness Engineering(智能体 harness 工程)」。开门见山的痛点场景先给大家讲三个我在这15年里亲身经历、或者亲眼看到无数次的“游戏人破防时刻”:破防时刻1:开放世界RPG的NPC策划崩溃现场那是2020年左右,我参与的一款开放世界武侠RPG项目《剑影长空》上线前3个月。主策划拍桌子喊:“老周!你看看咱们江南水乡地图里300多个NPC——要么只会机械重复‘客官来碗阳春面’,要么触发对话条件极其苛刻(比如要下雨、子时、身上带3张不同门派的入门令牌、好感度刚好卡在27级这种反人类的组合),要么给玩家的反馈完全驴唇不对马嘴!玩家已经在TapTap预约评论区炸锅了,说咱们的NPC是「移动的木桩配复读机」!我不管,下个月内测必须让这些NPC「活」起来——能和玩家聊武侠、聊天气、聊最近镇上发生的命案、甚至能拒绝玩家不合理的交易、给玩家报私仇!”结果呢?整个AI团队+策划团队熬了整整45天的夜:AI团队给每个有“特殊剧情”的NPC写了上百条嵌套的条件脚本;策划团队每天要对着几千条Excel脚本的测试用例改内容;上线当天还是出了大问题——有个叫“王铁匠”的NPC,被玩家问“你能不能把你的《玄铁剑法》残页卖给我”的时候,居然把自己老婆准备送给儿子的满月金锁当成“残页等价物”给卖了!TapTap评分直接从内测的8.2掉到了公测第一天的5.7,后来用热更改了3天的脚本才勉强拉回6.5,但流失率已经超过了40%……破防时刻2:数值策划的脱发救星梦碎现场再讲一个数值策划的故事,主角是我老同事阿凯,现在在米哈游旗下的某开放世界子公司做数值专家(不方便透露具体项目名)。阿凯以前最大的烦恼是什么?是平衡一款开放世界游戏里100多个职业、500多种武器、2000多件装备、5000多个怪物的数值组合——每次更新一个小版本,比如加一把新的五星武器,都要花2-3周的时间跑Excel模拟、跑内部的黑盒测试服、然后根据测试反馈调系数,调完还要再跑,循环往复,头发掉得比玩家抽不到五星卡还快!2023年GPT-4刚出来的时候,阿凯兴奋得一夜没睡,第二天就来找我:“老周!GPT-4会不会是我的救星?能不能让它帮我跑数值模拟、写测试用例、甚至自动调系数?”我当时泼了他一盆冷水:“GPT-4的逻辑推理能力确实强,但它没有办法直接接入你那个米哈游自研的、有几十万行代码的数值引擎啊!而且,数值平衡是个「约束条件极其复杂、需要严格遵循游戏规则、不能有任何「幻觉」输出」的事情——GPT-4要是哪天玩嗨了,把某个怪物的攻击力改成了999999999,咱们俩都