1. 项目概述为什么VTOL飞行员工作负荷评估如此重要如果你曾关注过城市空中交通UAM或电动垂直起降eVTOL飞行器的新闻可能会被其酷炫的外形和“打飞的”的便捷愿景所吸引。然而作为一名在航空人因工程领域摸爬滚打多年的从业者我看到的不仅是机遇更是背后严峻的挑战如何确保这些新型飞行器的飞行安全其中一个核心症结就在于飞行员的工作负荷管理。传统固定翼飞机或直升机其操作模式相对固定飞行员训练体系成熟。但VTOL飞行器是个“混血儿”它结合了直升机的垂直起降能力和固定翼飞机的高速巡航能力。这意味着飞行员在单次飞行中需要频繁地在两种截然不同的气动模式间切换思维和操作——想象一下你刚以直升机模式悬停避开一栋楼下一秒就要切换到飞机模式加速巡航这种认知转换的负荷是巨大的。更关键的是为了追求效率和轻量化许多商用VTOL设计为单飞行员驾驶舱。这就意味着一旦飞行员因高负荷导致判断迟缓或操作失误缺乏副驾驶的冗余备份后果可能是灾难性的。因此对VTOL飞行员的工作负荷进行客观、实时、准确的评估不再是锦上添花的研究课题而是保障未来空中交通安全运营的刚需。过去评估负荷主要依赖飞行员事后的主观问卷如NASA-TLX但这就像问一个刚跑完马拉松的人“你累不累”不仅滞后还可能因记忆偏差或主观感受不同而不准确。我们需要的是像汽车仪表盘一样能实时显示“认知引擎”转速的监控系统。这就是我们这项研究的出发点利用多模态生理与行为信号结合机器学习为VTOL飞行员构建一个客观、连续的工作负荷评估系统。我们不再仅仅询问飞行员“你感觉怎么样”而是通过他们身体无意识发出的信号——心跳的节奏、手心的微汗、大脑前额叶的血氧变化、甚至握杆的力度和视线的轨迹——来“听”出他们的真实负荷状态。2. 研究整体设计从信号到洞察的完整链路构建这样一个系统远不是简单地把几个传感器绑在飞行员身上然后跑个算法那么简单。它是一套从任务设计、数据采集、信号处理到模型构建的完整工程链条。我们的核心思路是“多模态融合”与“任务生态效度”。2.1 核心设计思路为何选择多模态与模拟器单一信号如心率易受干扰且信息片面。紧张、兴奋、体力活动都会让心跳加速你无法区分这是高认知负荷导致的还是仅仅因为飞行员中午喝了杯浓咖啡。因此我们采用了多模态传感器阵列从生理心、脑、皮肤、行为眼、手、身体姿态、情境在看什么和飞行衍生数据飞机状态四个维度交叉验证。这就像医生诊断需要结合验血、CT、问诊等多种信息才能做出准确判断。为了在可控且安全的环境下复现真实VTOL飞行的复杂负荷我们选择了在X-Plane 12飞行模拟平台上进行实验。别小看模拟器我们搭建了一个拥有225度水平视场的五屏沉浸式座舱飞行员操作的是基于真实Beta ALIA-250 eVTOL模型改编的操控设备。这种“中保真度”模拟既能精确控制实验变量、确保数据可重复性又能提供足够的沉浸感诱发接近真实的心理生理反应。我们设计的飞行任务清单严格参考了美国联邦航空管理局FAA的 Powered Lift动力升力飞行员认证标准涵盖了从滑行、垂直起飞、模式转换、爬升、转向到垂直/滑跑着陆等VTOL全流程核心机动动作。2.2 传感器选型与部署穿戴式设备的实战考量在传感器选型上我们平衡了预测效力、佩戴舒适度和对飞行操作的干扰最小化原则。以下是我们的传感器矩阵及其部署考量传感器测量信号部署位置人因考量与原理Empatica E4腕带血容量脉冲BVP、心率HR、心率变异性IBI、腕部加速度ACC非利手手腕通常为左手无创、佩戴便捷。PPG原理测量BVP可提取HRV心率变异性后者是评估自主神经系统活动、反映心理负荷的黄金指标之一。高负荷下HRV通常会降低。Shimmer GSR皮肤电反应GSR非利手食指与中指专门测量皮肤电导比E4内置的GSR模块更稳定、抗运动伪影能力更强。GSR反映交感神经兴奋度出汗对突发性压力或认知需求激增非常敏感。BIOPAC fNIRS头带前额叶皮层血氧水平前额相比EEG脑电图fNIRS功能性近红外光谱技术抗运动伪影能力极强且佩戴像发带舒适度高。前额叶皮层与高级认知功能如工作记忆、决策紧密相关其血氧动力学变化是认知负荷的直接神经指标。Tobii Pro 3眼动仪注视点坐标、瞳孔直径眼镜形式佩戴完全不影响视野。眼动模式扫视与注视是视觉注意力分配的窗口。高负荷下飞行员可能呈现“视觉隧道效应”注视点更集中扫视范围变窄。薄膜压力传感器FSR握杆力驾驶杆握把直接测量操作输入强度。紧张或高负荷下飞行员可能无意识增大握力。这是将物理行为与心理状态关联的关键桥梁。Microsoft Kinect V2上半身关节三维姿态飞行员前方非接触式测量。身体姿态的僵硬程度、动作幅度与认知负荷和情境意识相关。例如在紧张进近时飞行员身体可能更前倾、更紧绷。X-Plane数据接口飞机状态空速、高度、姿态角、操纵面输入等模拟器软件提供客观任务难度背景。飞机状态的不稳定如高度波动大本身可能就是高工作负荷的结果或原因。实操心得传感器部署的“隐形”艺术在真实飞行或高沉浸模拟中任何让飞行员感到不适或分心的设备都是失败的。我们的原则是“感知而不干扰”。线缆管理是生命线所有设备线缆都用魔术贴和束线带精心固定防止缠绕在操纵装置上。fNIRS和眼动仪的线缆从座椅后方引出预留足够活动余量。校准流程化制定标准操作程序SOP。飞行员就位后按固定顺序佩戴和校准设备先生理后行为。例如眼动仪校准必须在飞行员坐定、视线与主屏平齐后进行只需30秒。基线采集不可省正式任务前让飞行员静坐观看空白屏幕上的一个点30秒采集静息状态下的生理基线。这个数据至关重要用于后续归一化处理消除个体差异比如有些人基础心率就偏高。3. 数据炼金术从原始信号到机器学习特征采集到的原始数据是嘈杂且高维的直接扔给模型效果肯定不好。我们需要进行一系列的信号处理和特征工程将原始波形“提炼”成能表征认知状态的信息“金块”。3.1 生理信号的处理去噪与特征提取以fNIRS信号为例它非常容易受到头部轻微移动运动伪影和生理噪声如心跳、呼吸的污染。我们的处理流水线如下低通滤波2Hz首先滤除高频噪声。运动伪影校正SMAR算法利用fNIRS设备自带的加速度计信号检测并修正因头部运动导致的信号骤变。这是保证数据质量的关键一步。计算血氧浓度根据修正后的光强信号利用修正的比尔-朗伯定律MBLL计算出血氧血红蛋白和脱氧血红蛋白的相对浓度变化。我们主要关注前额叶皮层特定通道的氧合血红蛋白浓度因为它与神经活动激活正相关。对于心率HR和皮肤电反应GSR我们主要计算时域和频域特征时域均值、标准差反映波动性、最小值、最大值。频域将心率信号转换到频域后计算低频功率LF、高频功率HF及其比值LF/HF这些指标与交感/副交感神经的平衡有关。3.2 行为与情境信号的深度解析眼动信号的处理更具挑战性。我们首先从原始的注视点坐标时间序列中检测扫视和注视事件。简单来说当眼球移动速度超过一个经验阈值通过人工复核视频确定时判定为扫视速度低于阈值且持续一段时间则为注视。从中我们提取了三个关键特征平均每秒扫视次数反映视觉搜索的活跃度。平均注视时长反映信息处理的深度。通常高负荷下因时间压力注视时长会缩短。平均扫视距离反映视觉注意转移的幅度。在复杂环境中扫视距离可能更短、更频繁。更有趣的是注视语义分析。我们想知道飞行员到底在看什么。流程如下视线映射利用特征匹配算法如基于SIFT的FLANN匹配器将眼动仪视频中的二维注视点精确映射到三块主飞行显示器屏幕的对应像素位置。场景理解使用一个预训练的视觉模型如OneFormer对模拟器屏幕录像的每一帧进行语义分割识别出“天空”、“地面”、“建筑物”、“仪表盘”、“跑道”等物体类别。注意力权重计算当注视点落在多个物体交界处时我们设计了一个优先级加权算法。例如“仪表盘”的优先级权重远高于“天空”因为看仪表是主动的信息获取行为。最终为每一帧生成一个长度为88个语义类别的概率分布向量表示飞行员注意力在不同物体上的分配。身体姿态和握力数据则相对直接我们计算了关节角度的均值、方差以及握力的均值和峰值。这些特征能捕捉到飞行员身体的紧张程度和操作力度。3.3 特征汇总与缺失值处理将所有模态的特征汇总后我们得到了一个高维特征向量参见原文表II。然而在真实实验中数据缺失不可避免设备临时故障、接触不良等。我们采用了K近邻KNN插补法来处理缺失值。其原理是为每个有缺失值的样本在特征空间中寻找与之最相似的K个“邻居”基于其他未缺失的特征然后用这些邻居的该特征值的均值或中位数来填充缺失值。这种方法比直接删除样本或简单用均值填充能更好地保持数据分布结构。4. 机器学习模型构建从通用到个性化的负荷分类我们的目标是将工作负荷分为低、中、高三个等级。标签来源于飞行员在每组任务后填写的NASA-TLX量表中的“脑力需求”维度评分。我们采用了个体内标准化方法计算每位飞行员所有任务评分的均值和标准差将低于均值0.6个标准差的定义为“低”高于0.6个标准差的定义为“高”中间为“中”。这样避免了不同飞行员评分尺度不一的问题。4.1 通用模型一个模型适配所有飞行员首先我们尝试构建一个通用模型。将所有28名飞行员的数据混合按飞行员ID进行5折交叉验证即每次用22-23人的数据训练用另外5-6人数据验证。我们测试了多种经典算法线性判别分析LDA准确率约42%。支持向量机SVM准确率约48%。随机森林RF准确率约51%。XGBoost准确率约51%。XGBoost和随机森林表现最佳但51%的三分类准确率仅略高于随机猜测33%并不理想。这说明不同飞行员在面对相同任务时其生理和行为反应模式存在巨大的个体差异。用一个“平均”模型去套所有人效果有限。4.2 个性化模型为每位飞行员“量身定制”既然通用模型不行我们转向个性化建模。思路是为每位目标飞行员训练一个专属模型训练数据由“大量其他飞行员的数据”“少量该飞行员自身的数据”组成。数据构成假设目标飞行员是A。我们从A的数据中取一部分比如80%作为他的个人训练集剩下的20%作为测试集。同时将其他所有飞行员的数据作为通用训练集。上采样技巧直接混合会导致A的个人数据被淹没。因此我们对A的个人训练集进行上采样例如复制几份使其在混合训练集中的比例提升到约20%。这相当于告诉模型“请多关注一下这个人的独特模式。”训练与验证用这个混合数据集训练一个XGBoost模型然后在A的专属测试集上验证。结果令人振奋采用个性化方法后平均分类准确率提升至63%相比通用模型提高了12个百分点。图7原文显示了一个关键规律当目标飞行员数据在训练集中占比为0%即纯通用模型时准确率约52%随着其个人数据比例增加准确率迅速上升在20%左右达到峰值之后继续增加个人数据比例准确率反而下降这是因为模型过度拟合了该飞行员有限的样本丧失了泛化到其未见过任务状态的能力。核心洞见个性化是关键这个实验清晰地表明有效的飞行员状态监控系统必须是个性化校准的。在未来实际应用中可以设想这样一个流程新飞行员上岗前先在模拟器上完成一套标准化的“校准飞行”任务耗时可能仅1-2小时系统在此期间收集其基线数据快速训练或微调出一个属于他的个性化负荷评估模型。这比试图寻找一个“放之四海而皆准”的通用模型要可行得多。4.3 特征重要性分析哪些信号最“有用”我们通过消融实验来评估每个模态特征的重要性依次从完整特征集中移除某一类特征如全部身体姿态特征观察模型准确率的下降幅度。下降越多说明该特征越重要。结果有些出乎意料又合乎情理最具预测力的模态飞行衍生数据飞机状态和身体姿态。这很好理解飞机操纵品质如高度波动、姿态角速度本身就是工作负荷的客观输出身体姿态的僵硬或频繁调整直接反映了生理紧张度和情境意识。中等预测力模态心率HR和眼动Gaze。这是传统人因研究中的主力军我们的结果再次验证了其有效性。预测力较弱或甚至起反作用的模态皮肤电GSR、握力FSR和腕部加速度ACC。GSR和ACC信号可能对运动过于敏感在飞行模拟中飞行员不可避免会有肢体动作引入了大量噪声。握力特征则可能过于个性化且与操纵动作本身强相关未必能稳定反映认知负荷。新晋黑马注视语义Gaze Semantics表现出不错的预测力。这为我们打开了一扇新窗飞行员在看哪里比仅仅看“他看了多久”更能揭示其认知状态。复盘视频我们发现低负荷巡航时飞行员视线长时间稳定在主要仪表上而在高负荷的着陆阶段视线则在跑道、空速表、高度表、外界环境之间快速、频繁地切换扫描。5. 工程化挑战与未来展望虽然本研究在实验室环境下取得了有希望的成果63%的个性化分类准确率但要将其转化为驾驶舱内可靠的“飞行员状态监控系统”还有漫长的路要走。5.1 当前局限与挑战数据规模与多样性我们仅有28名飞行员的数据对于复杂的机器学习模型如我们尝试过的Transformer网络来说远远不够容易导致过拟合。未来需要更大规模、覆盖更多样化飞行员群体不同经验、年龄、文化背景和更复杂飞行场景恶劣天气、特情处置的数据集。实时性与计算负载本研究是离线分析。真正的实时监控要求信号处理、特征提取和模型推理必须在毫秒级完成并且计算设备必须小型化、低功耗能集成到机载系统中。这需要对算法进行大幅优化和轻量化。传感器侵入性与可靠性目前使用的科研级传感器如fNIRS头带、贴片式GSR在真实飞行环境中仍显笨重。未来需要向更微型、更坚固、更无感的穿戴设备甚至非接触式传感如基于摄像头的生理测量发展。因果与解释性机器学习模型是一个“黑箱”它能告诉我们负荷是高是低但无法解释“为什么”。结合飞行阶段、操纵输入、外部环境等信息进行多维度关联分析才能为改进训练、优化界面设计提供具体洞见。5.2 未来应用场景构想尽管有挑战但这项技术的应用前景非常清晰飞行员训练与评估在模拟训练中实时反馈学员的认知负荷帮助教员精准发现其薄弱环节例如是否在模式转换时负荷激增。也可用于评估不同操作程序或新型驾驶舱设计对工作负荷的影响。自适应人机交互当系统检测到飞行员负荷过高时可以自动简化界面信息、提供更明确的决策支持、甚至暂时接管部分低级任务扮演一个“贴心的副驾驶”角色。飞行安全预警与飞行数据管理系统FDMS结合建立飞行员状态-飞行性能关联模型。在发生不安全事件前系统可提前预警机组或地面指挥员。健康管理与排班长期监测数据可用于评估飞行员的疲劳累积状况为科学排班提供依据。我个人在实际操作中的体会是这项研究最迷人的地方在于它架起了一座桥梁——一座连接冰冷的飞行数据、细微的生理信号与飞行员主观的、难以言表的“飞行感受”之间的桥梁。我们不再只能事后访谈而是能“看到”负荷的起伏。那次实验中我看到一位资深飞行员在完成一次高难度垂直着陆后他的fNIRS前额叶氧合信号出现了一个明显的尖峰而他自己在TLX问卷中只给了“中等”评分。他后来解释说“习惯了不觉得特别难。”但身体信号却诚实地说出了大脑那一刻的“全力以赴”。这种主客观之间的差异正是我们需要技术去填补的认知鸿沟。最后一个小建议给想进入这个领域的朋友别只盯着算法精度。航空人因工程是典型的交叉学科理解飞行任务、懂得信号处理、熟悉机器学习这三者缺一不可。多和飞行员交流去模拟器上亲自体验一下那些机动动作你才能真正理解哪些特征是有意义的才能设计出真正有用的系统。毕竟我们的最终目标不是让模型在测试集上多一个百分点而是让每一次起降都更加安全。