评价中心严谨却稀缺的人才选拔方法当一家大公司选拔新任CEO时会将候选人关进屋子三天进行模拟董事会、处理危机邮件、带队谈判等活动六位专家在隔壁观察。这就是评价中心Assessment Centers它像人才选拔领域的瑞士钟表精密却昂贵极少有人买得起。评价中心是行业内最严谨的人才选拔方法之一但绝大多数公司从未用过也觉得用不起。其设计逻辑是在与岗位相关的真实情境中观察候选人实际行为由多位受过训练的评鉴师独立打分最后通过整合会议形成最终判断。然而其结果的可信度和可靠性恰恰也是它稀缺的原因。一场为高管或管培生设计的传统评价中心每位候选人成本通常在2000 - 5000美元之间需要场地、多名评鉴师脱产数日、专业角色扮演者以及整合会议整个流程从设计到部署往往以月计。结果是评价中心几乎只服务于金字塔尖的少数候选人绝大多数招聘和晋升决策依旧依赖效度更低的方法。这种稀缺性在中国市场更明显。据现有行业数据估计中国人才测评市场2022年总规模约为31亿元人民币预计到2028年约47亿元国内市场年均增速约10%远低于海外30% - 50%的水平。“人才测评”在中国多数情况下指性格测验、认知能力测验和在线测验的组合而真正意义上的评价中心是多维度、多评鉴师、多情境模拟。目前主要是大型央国企的干部选拔与公开竞聘以及少数将其作为高管继任和领导力发展工具的头部民营企业在使用。北森作为国内市场份额第一的本土厂商客户覆盖约70%的中国500强但在中型企业的渗透率明显偏低政企行业整体渗透率约30%已是各行业中最高的。AI改写的是经济学在人才评估场景中AI虽目前还不能比人类打分更准确但能以传统方法做不到的成本和规模复刻评价中心最有价值的基于行为的标准化观察。一个原本需要三周协调、六位评鉴师、专门场地的流程理论上可浓缩成候选人在家完成的90分钟模拟。资本市场相信这件事。乔什·伯辛公司The Josh Bersin Company在2024年的市场分析中估计全球HR技术市场规模已达约2000亿美元其中人才获取talent acquisition与人才智能talent intelligence是AI投入最为活跃的子市场之一。过去几年围绕情境模拟评估的代表性公司接连发生重大资本动作。2019年凯雷集团The Carlyle Group取得HireVue多数股权2023年5月HireVue又收购了原Riverside Company旗下的Modern Hire专注沉浸式角色扮演的Mursion也在2019 - 2020年间完成多轮千万美元级融资。在中国市场本土厂商从单一测评工具向AI驱动的一体化人才管理SaaS平台转型。例如北森通过AI视频面试与在线评价中心等产品推动情境模拟评估的数字化与规模化应用。值得管理者注意的是资本不需要科学完美就能赢得市场份额它需要的是科学“看起来够好、够用”外加快速集成、流畅UI和高管喜欢的仪表盘。在企业采购流程中看起来可信、流畅的演示往往比严谨的效度证据更具说服力。AI没有改写的是效度问题同一种生成式AI在承诺规模化评估的同时引入了测量问题即相同的输入会得到不同的输出。哈尔达Haldar和霍肯迈尔Hockenmaier在2025年发表的研究中系统证明把LLM当作评分者使用时多次运行之间的一致性极低最差情境下接近“随机”。斯图尔博格Stureborg等人2024年的进一步研究则记录了LLM评估者的多种系统性偏差包括熟悉度偏好、评分尺度偏差、整数化评分倾向、锚定效应等。在评估场景中同一份候选人转录稿跑五次可能得到五个不同的分数这是当前生成式模型的固有属性。更深层的问题是偏见。亚马逊在2018年关停了其试验中的AI简历筛选工具原因是该系统在以男性为主的十年历史简历数据上训练后系统性地降级了包含“women’s”一词或女子学院毕业生的简历。HireVue在2019年被EPIC电子隐私信息中心投诉至FTC美国联邦贸易委员会后于2021年宣布停止使用面部表情分析评估候选人但仍保留基于语言、语音和其他行为特征的分析这些做法同样面临公平性、透明性和科学有效性的质疑。工业与组织心理学几十年积累的核心教训之一是模型从历史数据中学到的不是“什么是好员工”而是“过去谁被录用了”。当历史本身有偏见模型只是把偏见自动化、规模化并把它隐藏在算法不透明性之后。监管时钟在走如果上述科学问题还能被产品营销暂时绕过监管的脚步不会等。欧盟《AI法案》Regulation (EU) 2024/1689附件III明确将“用于招募、筛选、评估候选人”以及“影响劳动关系条款、晋升、解除雇佣的AI系统”列为高风险类别要求供应商和部署方满足风险管理、数据治理、有意义的人工监督、技术文档、欧盟数据库注册等一系列义务核心条款于2026年8月2日起强制执行。在美国科罗拉多州AI法案Colorado AI Act, SB 24 - 205是首部综合性州级AI立法把雇佣和晋升明确纳入“重大决策”consequential decision要求开发者和部署者承担“合理注意义务”reasonable care以避免算法歧视。该法原定2026年2月1日生效经过激烈产业博弈后由SB 25B - 004推迟至2026年6月30日目前仍面临联邦层面的法律挑战。中国的监管路径与欧美不同但方向并不相反。由国家网信办等四部门发布、2022年3月1日施行的《互联网信息服务算法推荐管理规定》是国内首部针对算法应用的综合性部门规章其中专门要求向劳动者提供算法服务时“应当建立完善平台订单分配、报酬构成及支付、工作时间、奖惩等相关算法”并赋予用户算法知情权与选择权。这一条款的逻辑同样适用于AI招聘和晋升系统。更直接相关的是2023年8月15日生效的《生成式人工智能服务管理暂行办法》。该办法第四条明确要求服务提供者“在算法设计、训练数据选择、模型生成和优化、提供服务等过程中采取有效措施防止产生民族、信仰、国别、地域、性别、年龄、职业、健康等歧视”。把这条规定和AI评估场景对照来看训练数据中的历史招聘偏差、模型对某些行业用语的偏好、对地域口音或学历背景的隐性区分都可能落入“歧视”范畴。同时《办法》还要求具有舆论属性或社会动员能力的服务提供者履行算法备案和安全评估义务目前监管对这两个概念的解释呈扩张趋势AI招聘类系统是否会被纳入备案范围目前业内并无定论但风险显然存在。对中国企业来说采购AI测评工具时不能只看准确率和案例数还需要至少回答两个问题第一供应商能否提供训练数据来源、模型偏差测试报告和算法审计文档第二如果一名被淘汰的候选人主张算法歧视企业能否拿出符合《暂行办法》要求的合规证据这两个问题在国资委监管的央企和涉外业务的大型民企中尤其关键因为它们既要满足国内合规要求也要在涉欧业务中应对EU AI Act的域外效力。对所有企业而言这些法律的真正意义不是该不该用AI而是用了AI之后是否能向监管者、法院和被拒绝的候选人解释清楚它做了什么、为什么这么做、对哪些群体可能造成差异化影响。这正是当前绝大多数AI评估产品最薄弱的地方。业界目前最常被提到的折中方案是混合模型hybrid model即人和AI各做一部分。但把混合简化成一个人类评鉴师 一个AI评鉴师各打一分然后取平均值的做法回避了真正的设计问题——什么任务该交给AI什么任务必须留给人。更有用的拆解是按“判断的边际成本和容错性”来分层。AI在结构化、可观察、有清晰行为锚点的维度上具备相当大的优势如生成符合岗位分析的模拟情境、起草评分量表和行为锚定示例BARS、把候选人发言对照预设维度做初步标注、对大规模数据做一致性检查。而人在含有情境理解和反事实推理的复杂行为评估以及任何会显著影响候选人职业生涯的最终决策上目前依然不可替代。一位资深评鉴师讲过的案例显示基于上下文的理解是当前AI仍难以稳定胜任的事情也正是欧盟法规中“有意义的人工监督”想要保护的内容。给领导者的三个判断对正在评估AI测评工具的高管来说真正值得问的可能已经不只是“它能不能降低成本”甚至也不只是“它准不准”而是三个更具体、也更关键的问题。第一这个工具能否让你向监管者以及你自己的法务部门清晰说明“它在做什么决策、基于什么训练数据、对哪些群体可能产生差异化影响”无论是EU AI Act、Colorado AI Act还是中国《生成式人工智能服务管理暂行办法》对“可解释性”和“反歧视”的要求在文本表述上各有不同但底层逻辑趋同。一套今天回答不出这三个问题的工具很有可能会在未来两到三年内变成合规债务。第二你是在用AI替代评估还是在用AI扩大评估的覆盖范围前者把AI放在原本由人类评鉴师把关的位置继承了所有效度风险后者把AI放在原本根本没有评估的环节例如海量初筛或内部人才盘点的初稿在这些环节即使中等质量的判断也比“什么都没有”要好。两者的风险与收益完全不同。第三谁拥有最终的判断权这并不只是一个算法问题更是一个组织治理问题。一旦AI输出被视为“默认正确”或者对评鉴师形成强烈锚定再专业的人类判断也可能逐渐退化为对机器建议的确认。测量与决策研究早已反复发现这种“自动化偏向”automation bias如今它开始影响招聘、晋升和领导者选拔等后果高度敏感的组织决策。真正的代价评价中心是少数被严谨研究、效度可被复现的选拔方法之一它的问题从来不是科学而是规模和可及性。AI能否解决这个问题在某些环节上大概率是可以的。但AI是否能在不损害科学严谨性的前提下解决这个问题这一点远未确定。未来几年真正的竞争不是“AI还是人类”这种二选一而是谁来定义这套混合系统的标准是把分发渠道、用户界面和采购预算握在手里的科技公司还是那些理解构念信度效度、偏见检测和心理测量学的专业群体。如果后者继续把自己定位成“慢工出细活的反对派”答案不言自明但如果他们能学会用业务语言、监管语言、产品语言把科学翻译出来那么这套系统的标准就还有可能由专业判断、而非营销叙事来定义。评价中心未来叫什么名字、长什么样其实并不重要。重要的是它依然让对的人被看见、让错的人被识别而这一点从来都不只是一个技术问题。