149期目录 黄大年茶思屋“难题揭榜”第149期--云核心网领域第四期
难题 1视频通话场景下的基于 3DGS 的人体重建一、技术背景沉浸式视频通话要实现更强的空间感和临场体验本质上需要依托空间计算等技术比如对人和环境进行三维重建和呈现这类能力显著提升远程交流的体验上限。当前微软、谷歌、苹果纷纷推出了相关技术原型和产品进一步验证了行业发展方向。但目前方案对设备形态和算力条件仍具有较高要求难以在大众家庭场景普及。谷歌 Beam基于定制裸眼 3D 屏幕和多摄像头快速 3D 重建算法可支持双目视差 移动端的 3D 效果但造价高昂面向高端 To C。苹果 VRVision Pro 支持基于 3DGS 机器学习算法快速对人脸等区域重建接近 95% 相似度但头显普及率极低且佩戴体验是痛点。微软 VoluMe原型在单张 RTX 4090 上端到端实现基于前馈 3DGS 算法还原人脸区域端到端处理速度 28fps对终端算力要求高。业务启发当前 3DGS 和视觉大模型等技术发展迅猛已具备基于单目视频流的实时 3D 重建和渲染潜力。依托云核心网网络的超低时延和稳定传输等核心能力这类计算和呈现可以在网络侧完成从而将原来依赖高算力终端的自由视角 3D 视频通话体验下沉至普通终端实现真正的大众化可用。二、技术挑战单目场景下的几何一致性和语义稳健性不足在单目条件下缺乏多视角约束前馈 3DGS 或 3DGS 数字人等技术都容易出现几何漂移语义结构错位等问题从而出现不符合真实生理结构的结果破坏通话体验。面向视频通话场景的泛化能力有限在家庭视频通话等高即时 高动态场景下用户会做出快速头动丰富的表情和手势变化等且环境在光照和背景布局等上面具有高速随机性导致训练数据难以充分覆盖影响算法泛化性。实时交互的端到端时延要求极其苛刻现有技术实际端到端处理速度难以满足沉浸式通话的低延迟需求30fps。三、技术诉求整体场景分为三个一。对人脸和肩部以上区域重建二。对人体全身重建三。对人体和背景进行联合重建基于 3DGS 提供有限角度内的人体重建方案。可视范围要求阶段一支持左右 40 度的可视范围阶段二和阶段三支持左右 15 度的可视范围。精度要求重建结果要实现 PSNR30dBSSIM0.95LPIPS (VGG)0.1同时满足以下评分要求身份一致性 (结构 / 动作 / 表情)采用 5 分制从 “明显不是本人” 到 “全程角度完全一致”需要达到 4 分以上可视角度内保持一致边缘角度偶尔出现细微身份偏差。无恐怖谷效应采用 5 分制从 “强烈不适” 到 “全程无任何不适”需要达到 5 分。清晰度 (纹理和边缘细节)采用 5 分制从 “极度模糊” 到 “纹理清晰边缘锐利”需要达到 3 分以上 (皮肤、衣服、头发等纹理大体可辨边缘较为清楚)。时序稳定性采用 5 分制从 “频繁闪烁跳动” 到 “全程连贯完全稳定”需要达到 4 分以上 (动作、表情持续顺畅跳动和闪烁极少且不易察觉)。采样要求如果存在离线采样建模阶段用户数据采集时长需控制在 3min 以内不含训练时间如果在视频通话开始前的一次性更新阶段比如在线预热或模型更新等处理时长需小于 10 秒。性能要求在单张 V100 / 单张 RTX5000 上端到端处理速度大于 30fps。验证步骤基于国内视频通话场景进行方案设计与自验证→基于华为提供的视频通话采集数据进行验证→真实视频通话环境中进行测试评估。难题 2AIoT无源物联的高精定位技术一、技术背景5G-A AIoT 首次把无源物联技术引入到 5G 当中在 3GPP 全球 R19 标准中进行定义AIoT 定位为仓储、物流、工业生产、城市治理提供万亿级低成本物联服务主要聚焦资产、物料、成品、作业人员的管理定位根据应用场景主要集中的 5\10 米、3\5 米和 1\3 级定位需求。当前支持 5\7 米的定位精度无法满足绝大部分应用场景。AIoT 定位是通过交换机供能采集 反向散射通信构建无需维护的普适感知网络。利用环境中的既有能量如射频信号、光、热等为终端设备供能 反向散射通信实现无源终端又称标签无电池、极低成本、超微型化的物联网通信技术。基本原理是利用环境射频信号的反射特征分析信号强度RSSI实现定位服务。二、技术挑战复杂环境中的信号特征不稳定仓储环境复杂堆叠、遮挡情况严重仓库中存放大量物品存在多径干扰金属物品存在反射基于时间域测量的定位算法精度低AIoT 为窄带通信带宽仅有 180K信号分辨率低传统基于时间域定位算法时时钟同步精度要求较高难以在实际生产中应用基于指纹定位算法基于指纹库需要采集大量的数据定期维护成本高环境和场景变化对算法精度影响大基于三角场强定位算法依赖与场强信号的测量受遮挡和多径影响大精度低。三、技术诉求定位算法采用不限于信号处理、信道建模、数据合成等方法提供低成本可实施的采样方案可以考虑结合别的手段来采集构建面向无源定位的低成本高精度定位算法提供 3 米级定位估计精度90%。 验证完成方案设计 - 基于华为实验室数据测试验证 - 基于真实环境数据验证上述性能指标。难题 3[确定性] AI Agent 任务成功率的确定性保证技术一、技术背景电信领域基于 AI Agent 构筑体验保障、运维表单填充、告警日志分析及处理等能力同时也通过构筑 AI Agent 服务自主完成算力主机进行伴学、伴老、家居智控等任务。面对这些真实环境的长时任务AI Agent 的成功率并不高。 如果 Agent 工作流的每一步有 95% 的可靠性那么5 步下来成功率是 77%20 步下来成功率是 36%。Agent 复杂任务超过了 100 步OSWorld 评测成功率保证存在巨大挑战。 模型输出结果存在不可复现性Reproducibility、不一致性Unconsistency和不确定性NondeterminismAI Agent 任务依赖模型进行任务分解、步骤规划、工具调用、记忆检索等每一次决策均会引入不确定性导致任务端到端成功率很难有确定性保证。二、技术挑战Agentic 模型幻觉导致输出不确定语言或多模态大模型预训练的数据本身包含错误或偏见信息数据存在固有边界训练过程存在不合适的激励机制大模型本身的局限性包括自回归单向表征、注意力稀释、不完美解码策略等均会带来幻觉。Agentic 模型推理过程的不确定推理过程中浮点数有限精度和舍入误差、浮点数非结合性与并行计算以及推理负载批组合变化性等均会带来不确定导致推理结果不确定。Agent 任务失败传播单 Agent 内除了模型输出不确定工具、记忆等也会带来错误多 Agent 之间还存在协同失调、信息未对齐等问题当交互轮次变多时错误会被放大。三、当前方案模型幻觉缓解提升训练数据质量剔除错误信息扩大知识边界等训练过程增强对齐提升上下一致多模态模型特征空间维度的引导 / 纠正。模型推理的确定性保证推理 temperature、top-k 等超参设置消除 MoE 专家路由随机性使用确定性算子重写算子提升数据精度推理批处理不变性高精度计算硬件。Harness 工程Claude Code/OpenClaw 等尝试通过建立 Agent Loop 方式提高任务执行的鲁棒性上下文驱动模型循环尝试可行路径确保任务不因为方案失败而终止一定程度上提高了成功率的确定性。四、技术诉求多 Agent 系统任务端到端成功率确定性保证针对多 Agent 任务从系统架构、Harness 工程和模型免重训练等多个维度提供理论支撑的标准定义及方案性能及场景限定下确保任务成功率稳定地保持在一个阈值内比如任务成功率 80% 的确定性误差是 99.999%可以表达为 P99.99980%。成功率确定性的评价及失败拦截定义成功率确定性的评价标准给出确定性评测方案提供失败监测能力实现失败结果的 100% 拦截如果是 Agent Loop 提升确定性需要明确迭代次数限制。验证步骤针对华为提供的家庭智控等工具调用闭环场景提供标准与方案设计 - 基于华为提供的开源、业务白盒自验证 - 业务黑盒验收成功率场景相关的确定性满足 99.9%失败拦截 100%。难题 4XRM 帧识别技术以及业务类型识别技术一、技术背景XR 等实时音视频业务的视频流按帧传输逐帧周期到达帧与帧之间到达间隔是几十 ms与帧率相关。基站需要在 10ms 内将到达帧的全部数据发送给终端。 帧内任何一个 IP 包丢失端侧整帧无法解码形成卡顿参考帧传输失败关联帧也无法解码形成花屏。 10X 微突发导致空口丢包或时延增大形成缺帧 / 滞帧严重影响业务体验。 RTC 应用与网络互不感知无法最大化利用网络资源提供更优质服务。帧依赖关系帧内依赖帧内全部包收到才能解码丢包导致帧丢失画面跳帧。帧间依赖B 帧解码和 P 帧解码都依赖 I 帧帧依赖帧I 帧影响0.5 秒画面体验。 业务实例35Mbps 60ps 云 VR10ms 级码率显示。二、技术挑战帧信息加密及私有协议端侧生态对 R18 XRM 的协议栈支持度欠缺标准化加密协议、私有协议应用多仅通过明文解析方式难以达成目标。超低资源开销帧级识别请求量巨大需要在极低的资源开销下完成大量的帧识别。高实时性体验不达标门槛是 XR 产业痛点需要模型具备极高的识别实时性提供带宽保障消除时延不确定性。三、当前结果协议和明文解析采用标准 RTP 协议且未加密的流量可以通过协议解析识别帧以及帧的类型但明文应用数量少。基于流量特征识别根据包到达的时间间隔识别帧包关系基于帧大小识别帧类型识别准确率未达标且受网络环境影响大。保障效果仅对 I 帧进行保障如果 P 帧丢包仍对用户体验影响较大分层编解码应用可仅对基础层流量进行保障但难以区分应用是否有使用分层解码。四、技术诉求帧识别技术完成 XRM 识别涵盖 RTP、SRTPRTP 载荷加密、私有 UDP 协议支持国内主流 13 个 APP 的 XRM 识别详见应用列表。完成帧包和帧类型标注和识别在华为数据集识别准确率 95%识别帧首包和尾包无需进行报文缓存。高性能推理ARM/X86 CPU 架构算力等同于昇腾 920C单核推理时延 10us。验证步骤方案设计 - 语料构建与标注 - 方案自验证 - 基于华为提供数据进行效果测试 - 在对应硬件上完成性能测试同时达成以上技术诉求。难题 5面向云手机复杂任务的高效可靠 GUI VLA 模型技术一、技术背景GUI 操控是当前 AI 自动化领域的热门方向通过视觉理解和自主操作能力这类智能体能够像人类一样理解和操作各种软件界面推动着人机交互范式创新。GUI VLAVision-Language-Action模型给定用户目标需求、一系列 GUI 历史图片及历史 Action 操作记录要求预测当前页面下应执行的最优 Action。在高效方面业界两种主流方案难以在准确率与时延 / 成本之间实现最优平衡VLA 模型端到端执行技术特点要求单一模型同时具备强规划、感知、决策三重能力性能瓶颈通常需要大尺寸模型如 UI-TARS-72B、Seed-VL-208B-A20B才能达到实用效果且仍需要针对特定场景进行后续强化能力业务痛点单步调用时延高、成本昂贵难以满足商用场景的实时性和经济性要求规划 VLA 执行技术特点将规划和执行解耦主要考验规划模型的能力性能瓶颈VLA 执行依赖一个强大的规划模型如 GPT-4o、GPT-5生成 SOP然后再让单步 VLA 执行每步的规划算力消耗大业务痛点单步规划调用成本高同时单步 VLA 的适应性和泛化能力不足在可靠方面业界方案普遍 “只管执行、不管对错”难以应对真实业务的复杂性意图层面缺乏结合 GUI 状态的动态澄清能力模糊指令下易误解用户真实意图盲目执行导致任务失败。执行层面缺乏决策不确定性估计与 OOD 感知能力长尾界面或高风险操作时无法触发人工接管存在安全隐患。二、技术挑战长序列任务多步决策的累积误差传播长链条执行中的任何单步错误都会导致后续步骤失效对系统的精度和鲁棒性要求高。动态复杂环境的适应性云手机视频流压缩画质损失、伪影和网络延迟的抗干扰能力APP 页面状态动态变化的适应能力权限拒绝、系统弹窗等异常场景的处理能力。高时延与实时体验瓶颈GUI 交互要求极高的实时响应速度以保障用户体验需要打破大模型高精度与低时延的跷跷板效应兼顾复杂决策的高精度与端到端体验。三、当前结果主流开源模型在领域自建评测集153 个测试用例上的评测结果用例数量涉及 APP模型指定场景准确率泛化场景准确率指定场景 54京东、淘宝、美团、携程、高德Qwen2.5-VL-7B UI-TARS-1.5-7B Qwen3-VL-8B Qwen3-VL-30B-A3B Qwen3-VL-235B-A22B20.37% 57.41% 62.96% 53.70% 74.07%31.31% 65.66% 72.73% 70.71% 75.76%泛化场景 99拼多多、饿了么、滴滴、去哪儿、抖音、头条、腾讯视频、QQ 音乐、今日头条、小红书、大众点评、支付宝———备注指定场景为业主务打的核心应用场景泛化场景为评估模型通用能力的覆盖更广的场景。四、技术诉求高精度与低时延的 GUI VLA 模型技术基于主流开源模型构建兼顾高精度与低时延的 GUI VLA 模型技术包括但不限于模型压缩、动态推理、超长上下文、Token 压缩等技术路线实现任务执行成功率 95%高频常规交互的单步决策时延 800ms在全局全任务步骤中占比 80%复杂推理的单步输出限制在 180 tokens。面向模糊指令的动态交互澄清与意图补全技术构建结合动态 GUI 页面状态的意图消歧能力。针对任务执行过程中缺失关键参数如规格、无法推进的场景能够主动发起澄清实现模糊指令下的意图补全率 95%。面向开放环境的不确定性感知与可信执行技术构建 VLA 模型决策不确定性估计与分布外 OOD 检测能力。在长尾未知界面或高风险操作模型能够主动触发二次验证或人工接管实现高风险 / 未知场景下的人工介入触发准确率 95%误报率 5%。验证步骤方案设计 - 基于华为提供的 GUI 任务评测集自验证 - 真实云手机 / 物理手机中进行验证达成以上诉求。