LPM 1.0:从 talking head 到实时对话角色 Performance Model

LPM 1.0:从 talking head 到实时对话角色 Performance Model

论文:LPM 1.0: Video-based Character Performance Model
作者:Ailing Zeng et al.
时间 / 版本:arXiv v1 2026-04-09,v2 2026-04-14
类别:Video generation / Character performance / Audio-visual conversation
链接:Paper / arXiv / Project
检索日期:2026-05-24


开篇点评:它不是在做更好的 talking head,而是在定义一个更难的任务

这篇论文真正有意思的地方,不是“又做了一个音频驱动人物视频模型”,而是把任务边界从 talking head 往外推了一圈:一个可交互角色不只需要张嘴同步,还要在沉默时能听、能反应、能维持人格化动作节奏,并且在实时流式生成里不丢身份。

作者把这个约束称为 Performance Trilemma:expressive quality、real-time inference、long-horizon stability 很难同时满足。我的判断是,这个三角说法有一定营销包装,但它确实抓住了当前 avatar / digital human 系统的真实矛盾:高质量离线扩散模型通常慢,实时模型常常动作保守,长序列自回归又容易身份漂移或结构崩坏。

LPM 1.0 的路线不是单点模块创新,而是系统工程式组合:先构造包含 speaking / listening / idle 的人类对话视频数据,再训练一个多模态条件化的 17B Base LPM,最后把离线 bidirectional 生成器蒸馏成 causal streaming 的 Online LPM。它的价值主要在这个全栈闭环:数据定义了任务,Base model 学到行为空间,Online model 把能力压到可交互延迟。

LPM teaser

图:论文 teaser。它想展示的不是单帧照片级质量,而是三类能力同时成立:表达性动作、多角色/多风格泛化,以及长时身份稳定。图源为官方 arXiv source 中的 imgs/teaser.pdf


Paper Card

项目信息
PaperLPM 1.0: Video-based Character Performance Model
AuthorsAiling Zeng et al., 25 authors
Date / Versionsubmitted 2026-04-09, revised 2026-04-14, arXiv:2604.07823v2
Projectlarge-performance-model.github.io
Code / Modelas of 2026-05-24, project page exposes demos and paper link; official code/checkpoint not publicly specified
Datasetinternal curated multimodal human-centric dataset; raw data, split, labels and LPM-Bench data are not publicly released in the paper
Backbonepaper consistently states final Base LPM is 17B; backbone wording is not perfectly consistent: introduction says 14B pretrained image-to-video foundation model, training/eval sections refer to Wan2.1-I2V (16B)
Core claimfull-duplex conversational character performance can be learned from video and served online with low latency
复现状态method-level readable, system-level hard to reproduce because data, model, benchmark, training schedule details and weights are mostly closed

Abstract:论文摘要解读

论文对 “performance” 的定义很关键:它不是单纯的面部动画,而是意图、情绪、人格在视觉、声音和时间行为上的外化。换句话说,角色是否“活着”,不只看口型是否对齐,还看它是否在对话节奏中持续表现出注意、迟疑、反应、情绪和姿态。

作者认为从视频中学习 performance 是传统 3D pipeline 的一种替代路径。传统角色制作依赖建模、绑定、动画和渲染,优点是可控,但扩展到大量身份、行为、情绪和交互场景时成本很高。大规模视频模型则可能把这种 authoring effort 摊薄到一个统一模型里。

但现有视频模型同时卡在三个维度:表达丰富度、实时推理、长时身份稳定。LPM 1.0 选择最苛刻的 conversational performance 作为目标,因为对话里角色要在 speaking、listening、reacting、emoting 之间不断切换。它给出的系统方案包括三层:构造 speaking-listening 对齐的数据和多粒度身份参考;训练 17B Diffusion Transformer 作为 Base LPM;再蒸馏成 causal streaming generator 作为 Online LPM,用于低延迟、无限长度的交互生成。

这段摘要隐含了一个判断:conversation 不是 talking-head 的子集,而是 human performance 的压力测试。 如果一个模型只能在“角色说话”时工作,它还没有真正解决交互角色生成。


Motivation

论文的动机可以拆成四个缺口。

第一,现有 speech-driven 头像模型通常忽略 listening。现实对话里,一半时间角色可能不说话,但它依旧要通过眼神、点头、身体姿态和微表情表达“我在听”。如果模型把沉默等同于静止,交互感会立刻消失。

第二,多模态控制仍然粗糙。对话角色不是由单一路音频决定的:speaking audio 约束口型、节奏和说话时动作;listening audio 触发对用户语音的非语言反应;text prompt 控制情绪、动作、视线、场景和风格。三者对应的时序粒度不同,不能简单拼在一起。

第三,单张参考图对身份约束不足。一个正脸 reference 不告诉模型角色侧脸、后脑、牙齿、笑纹、衣服背面 logo 长什么样。短视频里这种幻觉可能不明显,长对话里每一次转头、笑、皱眉都会暴露不一致。

第四,缺少面向 human-centric video 的大规模基座。很多 talking-head 数据集只覆盖窄域脸部或短视频,无法支撑全身动作、互动场景、长时稳定和多风格角色泛化。

因此,LPM 的核心假设是:Performance Trilemma 不是单靠一个 attention trick 能解决的架构问题,而是数据、条件控制、训练、推理系统必须一起设计的问题。


直观效果:先看它能做什么

项目页给了大量 demo,论文 teaser 和 qualitative figures 想证明三件事:第一,角色不仅说话,还可以表现倾听、唱歌、情绪表达和全身动作;第二,输入角色可以是写实人物、动画角色、3D 渲染风格或艺术风格;第三,长视频里身份和场景不要随时间明显漂移。

这里要分清证据强度。Demo 和 qualitative examples 能帮助理解目标任务和视觉效果,但它们不能替代完整 benchmark。真正支撑论文主张的是后面的 LPM-Bench 人评:GSB pairwise preference 和 1-5 Likert absolute score。


方法总览:三层系统,而不是单个模型

LPM 1.0 可以按三个层次理解。

  1. Data layer:从 raw video 中过滤出高质量 human-centric clips,做 speaking / listening / idle 三状态标注,构造 speaker-only / listener-only audio,并生成文本 caption 与多粒度身份参考图。
  2. Base LPM:一个离线高质量生成模型。它在 DiT 里同时接收 noisy video latent、first frame、identity reference images、text、speak audio、listen audio,学习可控且身份稳定的 conversational performance。
  3. Online LPM:一个实时流式模型。它把 Base LPM 蒸馏成 causal backbone + causal refiner,用 chunk-wise causal attention、KV cache、sink tokens 和流水线执行,支持固定延迟的在线输出。

Base LPM architecture

图:Base LPM 架构。官方图强调 visual tokens 走 self-attention,text/audio 走 cross-attention,identity references 被注入到视觉 token 序列中。图源为 arXiv source imgs/framework.png

这张图里最重要的不是 “DiT blocks” 这个框,而是条件信号怎么进入模型。视频 latent、first frame 和多参考图处在同一个 visual latent/token 空间;text、speak audio、listen audio 则通过各自 encoder 变成条件 embedding,再在 DiT block 中注入。


数据全流程:输入、表示、shape 和语义

论文的数据部分写得很重,这不是偶然。LPM 的目标任务依赖“谁在说、谁在听、谁只是 idle”的精确区分,如果数据里只有说话人,模型就不可能学到自然 listening。

Data filtering pipeline

图:官方数据过滤漏斗。Raw videos 经过 single-shot extraction、quality filtering + cropping、conversation + clipping、captioning + embeddings,最终得到 31M trainable clips,约 11.52% 留存。图源为 arXiv source imgs/video_filter_pipeline_realnumber.pdf

阶段对象Shape / Dim语义主要消费者
Raw videosheterogeneous long videosnot specified原始人类表演、对话、动作和场景来源filtering pipeline
Single-shot clipstemporally coherent clipsduration > 3s after filtering去掉镜头切换和过短片段human detection / quality filters
Person-centric clipsper-person tracks / cropsbbox trajectory; exact crop resolution not specified把多人镜头拆成单人视角,便于角色条件化LR-ASD, semantic verifier
Frame labelsspeak / listen / idleframe-level class sequence角色在每一帧的音频状态audio separation, training data curation
Audio variantsspeaker-only / listener-only tracksaudio length aligned to clip; exact feature dim not specified区分说话驱动和倾听驱动speak / listen audio encoder
Captions / tagsdense natural language + structured tagsfixed-length clip and sentence-bounded segment动作、情绪、环境、镜头、人格/关系等控制语义text encoder / prompt distribution
Identity refsglobal refs, 1-4 body views, 1-8 expression refsimage resolution not specified; encoded by same 3D VAE/patch embedding外观、视角和表情身份约束visual self-attention tokens
Video latent$x_t$, symbolic shape B x C x T x H x Wpaper specifies symbolic shape, not exact C/T/H/Wdenoising target spaceBase / Online DiT
Output videogenerated character performance720P Base, 480P Online in eval说话、倾听、对话和长时表演视频user-facing output

Speaking / Listening / Idle 三状态标注

论文把 conversational audio-video labeling 建成一个三状态问题:

音频状态口型/视觉状态标签
有语音,当前人物口型与语音同步synchronized lip motionspeaking
有语音,当前人物口型静止但行为与语音相关still mouth + reactive behaviorlistening
无语音,口型静止silenceidle
有语音但口型运动不同步,或无语音但口型异常运动inconsistentdiscard

作者在 LR-ASD 上做迁移学习,用 20K single-shot clips、约 95 小时人工帧级标注训练三状态分类器。测试时在两个 domain 的 2K 人工标注 clips 上评估,Domain 1 frame-level accuracy 为 89.75%,Domain 2 为 87.63%。更有意思的是失败模式:Domain 2 的 speak recall 到 94.05%,但 listen recall 只有 81.05%,说明噪声、画外音、低能量语音会把真实 listening 搅乱。

为了解决这种低层同步信号不够语义化的问题,论文又加了一个 fine-tuned Qwen3-Omni 做六类 semantic verification:Conversation、Listen_dialogue、Listen_nondialogue、Silence、Speak、Unknown。它在 overall F1 上达到 78.37,比 Gemini 2.5 Pro baseline 高 +7.90 absolute。最明显的收益在 Silence 和 Speak,分别 +19.40 和 +10.67。

Conversational data pipeline

图:对话数据处理流程。multi-person clips 先被 tracking/cropping 成 per-person clips,再由 LR-ASD 给出三状态帧级标签,最后经过 reranking、idle merge 和 semantic verification,输出 speaker/listener audio variants。图源为 arXiv source imgs/conversation_pipeline_illustration_updated.pdf

Listener 数据为什么要特殊处理

论文指出 listener-centric segments 只占 conversational segments 约 10%,而且 3.5M listener clips 里 70% 以上集中在 neutral / cognitive 类别,约 90% 是低 motion intensity。直接训练会把 listening 学成“安静坐着”。

所以作者筛出约 470K 高表现力或高参与度 listener clips 做 SFT,并按 emotion、expression、energy、motion 做重采样。这个设计很关键:listening 的难点不是让嘴别动,而是让身体和表情对语音内容产生低幅度但有语义的反应。

另一个细节是 listener captions 只保留 time-invariant attributes,例如外貌、人格、关系,而不是逐帧行为描述。原因很现实:在线推理时用户音频刚到,系统没有时间先生成 frame-level caption 再驱动视频。模型必须直接学习 audio -> visual reaction 的映射。

多粒度身份参考图

LPM 用三类 reference images 解决单图身份欠规约:

Reference 类型数量解决的问题
Global appearance referenceseveral candidates, exact count not specified整体外观、服装、场景和身份锚点
Multi-view body references1-4侧面、背面、转身时的结构和衣物细节
Facial expression references1-8笑容、牙齿、皱纹、表情形变等个体特征

Multi-view body references 的构造用 GVHMR 估计人体朝向,用 DROID-SLAM 估计相机姿态,再按相机和 SMPL root joint Z-axis 的夹角分成 frontal、rear、left-profile、right-profile。Expression references 则只从原始分辨率 >= 1080P 的视频中选,先用 EmotiEffLib 找 8 类表情,再用 Gemini 2.5 Pro 做二次语义验证。

这部分最像工程生产系统:它不追求一个漂亮模块,而是承认“身份稳定”本质上需要更多观测证据。


Base LPM:离线高质量生成器

Base LPM 是一个基于 continuous patchified video latent 的 Diffusion Transformer。给定 noisy video latent $x_t$、diffusion timestep $t$、text condition $c_{text}$、speak audio $c_{speak}$、listen audio $c_{listen}$ 和 reference images ${I_k}$,模型预测噪声:

\[\epsilon_\theta(x_t, t, c_{text}, c_{speak}, c_{listen}, \{I_k\})\]

每个 DiT block 包含三段:self-attention with AdaLN、multi-modal cross-attention、FFN with AdaLN。

交错双音频注入

最值得拆开的设计是 interleaved dual-audio injection。Speaking 和 listening 是两类不同运动分布:

Audio 分支主要驱动时序特性需要的 attention 范围
Speak audio口型、面部局部高频运动、说话节奏frame-level precise alignmentlocal audio window
Listen audio点头、眼神、姿态、情绪微反应低频、语义驱动、有延迟larger audio context

如果把两路 audio 都注入所有层,cross-attention 参数和 FLOPs 会增加,且两种信号会在同一表示空间里竞争。LPM 的做法是偶数层注入 speak audio,奇数层注入 listen audio:

\[K_s = W_k^{spk} c_{speak}, \quad V_s = W_v^{spk} c_{speak}\] \[K_l = W_k^{lis} c_{listen}, \quad V_l = W_v^{lis} c_{listen}\]

text attention 和 audio attention 的输出用独立 projection 合并:

\[out = W_o^{txt} A_{text} + W_o^{aud} A_{audio}\]

这个设计的机制意义是把 speaking/listening 的梯度路径拆开,同时保留同一个 DiT 主干。它不是纯粹为了省参数;更重要的是让相邻层的 self-attention 和 FFN 可以自然形成 speak-tuned / listen-tuned 的子网络。

身份参考图如何进入模型

参考图没有走额外 cross-attention,而是 encode 成 visual tokens 后直接拼到 video token sequence 末尾,参与 self-attention。这样身份约束和视频生成共享同一套 visual attention 权重。

为了区分 expression refs 和 body-view refs,论文使用 segment-wise 3D RoPE,把不同 reference type 和 subtype 分配到不同 temporal offset:

\[RoPE_{ij} = RoPE(t + o_i + so_j, h, w)\]

其中 $i$ 是 reference type,$j$ 是 subtype,例如不同 expression 类别。这个设计比较轻:不额外引入 reference type embedding,而是让位置编码成为弱条件。它的风险是可解释性有限,但参数效率高,且适合可变数量 reference images。


Training:Base 与 Online 的训练目标不同

Base LPM 训练目标是高质量、可控、身份一致;Online LPM 训练目标是把这种能力迁移到低延迟 causal rollout。两者不能混为一谈。

Base LPM 训练流程

阶段训练内容目的
Speak audio alignmentspeaking-only + silence data,audio value projection zero-init先学口型和说话动作,不破坏预训练视觉能力
Listen audio alignmentbalanced mixture of speak/listen data学用户语音驱动的非语言反应
Multi-reference identity trainingglobal reference always; expression/body refs on 30% clips after audio alignment让模型在 reference 缺失或组合变化时都能工作
Temporal extension trainingclean global reference latent + random drop first 2-5 GT video latents缓解 chunk-wise continuation 的 training-inference mismatch
DPO post-trainingpreference pairs from multiple seeds + Flow Matching regularization减少手部/肢体伪像,提高 listening 自然性,防止 color shifting

DPO 阶段的动机很明确:Flow Matching reconstruction loss 对“手是否合理”“听的时候是否僵硬”“动作是否自然”这类感知偏好不敏感。作者用多个 noise seed 生成候选,再用 Pareto-efficient selection 选 preferred sample:至少一个维度更好,且没有其他维度变差。这个标准比简单挑最漂亮样本更保守。

Online LPM 的训练:把 rollout 错误纳入训练分布

Online LPM 面临的问题不是“少采样几步”这么简单,而是因果自回归时历史上下文本身来自模型输出,误差会进入下一步条件。论文把它称为 self-induced history shift。

它的核心设计是 sequential relaxation:先用 backbone 维持轨迹稳定,再用 refiner 恢复细节。

Online LPM architecture

图:Online LPM 架构。Backbone 使用 noisy-history KV cache 生成稳定粗轨迹,Refiner 使用 clean-history KV cache 恢复最终 clean video chunks。图源为 arXiv source imgs/online_model.png

Stage模型输入分布Loss / 目标作用
1. ODE-based initialization2NFE causal backboneteacher denoising trajectories$L_2$ regression to clean latent给 causal student 一个稳定初始化
2. Off-policy DMDbackbonere-noised teacher clean latentsDMD + LPIPS从 teacher manifold 上学分布匹配,降低 mode collapse
3. On-policy DMDbackbonecurrent backbone autoregressive rolloutsDMD让训练输入分布等于推理 rollout 分布,缓解 exposure bias
4. Refinement DMD1NFE causal refinerre-noised backbone outputsDMD to clean teacher target在真实 online 误差上恢复高频细节

这里最关键的是 Stage 3。很多蒸馏工作只从 teacher 轨迹采样,推理时 student 却必须面对自己的历史错误。LPM 明确把 backbone rollout 放回训练输入,让模型学会从自己的偏差中恢复。这个设计和 offline-to-online 的任务匹配度很高。


Inference:Base 是长视频续写,Online 是实时服务

Base LPM 和 Online LPM 的推理边界不同。

Base LPM 的输入准备包括三步:生成或给定角色 first-frame portrait 和多粒度 reference images;为每个片段准备 dual-stream audio,speaking track 来自目标台词的 speech generation,listening track 来自用户语音;再由 LLM 生成每 125 frames 的 chunk-level text prompt。它可以开关 speak/listen 分支,支持 speaking-only、listening-only、conversation。虽然训练 clips 只有 3-8 秒,但通过 latent-level chunk-wise continuation 和 overlap blending,论文称可生成约 10 分钟视频而无明显退化。

Online LPM 解决的是另一件事:控制信号流式到达,未来不可见,输出必须持续播放。它使用 1 秒 chunk、24 fps 的单位做流水线:

组件论文报告的延迟
Generator / Backbone, 2-stepabout 700 ms
Refiner, 1-stepabout 700 ms
VAE decodeabout 180 ms
Text/audio encodersnegligible in reported runtime

系统通过流水线并行让 Generator 处理当前 chunk、Refiner 处理上一 chunk、VAE decode 再上一 chunk。为了长时稳定,Online LPM 还用 pre-RoPE KV caching、sliding-window decoding 和 attention sink tokens。上下文结构是 sink tokens spanning 3 chunks + sliding window 2 chunks + current chunk,总共 5 chunks 的有效上下文,内存不会随会话长度线性增长。

音频流式处理也有单独设计:audio encoder 每次处理 3 秒窗口,其中 2 秒历史 + 1 秒当前,stride 为 1 秒,并在 600K streaming-formatted samples 上微调。这个 overlap-aware audio encoding 是为了减少 chunk boundary artifacts。


Evaluation:LPM-Bench 是否支撑 claim

LPM-Bench 有 1000 个 test cases,分成 functional layer 和 generalization layer。

子集数量关注点
Speaking~40078 emotions、22 expression bases、co-speech gesture、singing、bilingual pronunciation、full-body motion
Listening~200关系、人格、语音内容、情绪背景、双语场景下的非语言反应
Conversation~200多轮说/听切换、单轮到 extended multi-turn dialogues
Diverse Human Motion~100对话外的人体动作、物体/环境交互
Character Generalization~100写实、anime、3D-rendered、artistic characters

评估维度包括 Motion Dynamics、Identity Consistency、Text Controllability、Audio-Video Synchronization。协议包括 GSB pairwise human preference 和 1-5 Likert absolute scoring。每对视频由 3 个独立评审员判断,最终多数投票。

Base LPM absolute scores

图:Base LPM 在 Speak、Listen、Conversation 三类场景上的 1-5 Likert 绝对评分分布。Listen 的 A-V Sync 达到 5.00,而 Conversation 的 Motion Dynamics 和 A-V Sync 是明显短板。图源为 arXiv source imgs/base_model_evaluation_absolute.pdf

主要结果

模型 / 对比结论论文解释
Base LPM vs Kling-Avatar-2Overall 64.3% preferred身份一致性、动作动态和 text controllability 更强
Base LPM vs OmniHuman-1.5Overall 42.5% preferred,30.1% same,27.5% other对 OmniHuman 的优势较小,但 identity/text 更稳
Online LPM vs LiveAvatarOverall 82.5% preferredMotion dynamics 和 A-V sync 优势大
Online LPM vs SoulXOverall 64.1% preferred,但 SoulX 在 identity consistency 上更占优SoulX 更保守,近正脸小幅动作更稳;Online LPM 行为更丰富
Online LPM vs Base LPMSpeak 大体接近;Listen Base 更好;Conversation Online identity 更稳Online distillation 牺牲部分低幅度 listening 表现,但提升长时 rollout 鲁棒性

我认为实验基本支撑两个 claim:第一,LPM 的任务定义确实比单纯 speech-driven 头像更宽;第二,Online LPM 不是简单降质加速,而是在某些长时对话维度上重新分配质量。不过,“state-of-the-art” 仍要谨慎读:benchmark、测试集和评审协议都是作者自建,LPM-Bench 没有公开,外部复核难度很高。


实验与证据:哪些 claim 强,哪些还不够

强证据:listening 是一个真实数据问题。 论文不仅说缺 listening,还展示了 listener data 的分布偏斜、LR-ASD 的误差结构、semantic verifier 的 F1 改善,以及 listener SFT 数据的再平衡策略。这条证据链比较扎实。

强证据:多参考图对身份有帮助。 Ablation 中 emotion references 改善笑容、牙齿、微表情这类 person-specific expressive traits;view references 改善转身时身体结构和背部衣物细节。这个结论符合任务机制,也有 qualitative ablation 支撑。

中等证据:interleaved dual-audio injection 是必要的。 论文给了明确机制解释和参数/FLOPs 优势,但公开材料里对“交错注入 vs 双路全层注入 vs 单路融合”的定量 ablation 不够完整。它是合理设计,但必要性证据没有数据 pipeline 那么强。

中等证据:Online backbone-refiner 分解有效。 Base vs Online 的人评说明 few-step causal generation 能保留不少质量,Conversation identity 甚至更稳;但 DMD 四阶段每个 stage 的单独 ablation 没有充分展开。读者能理解它为什么合理,但很难判断每一阶段的边际贡献。

弱证据:安全措施的实际有效性。 论文写了 invisible watermarking、检测模型、input filtering、tiered access control,但没有给出 watermark 鲁棒性、detector ROC、绕过攻击或真实部署审计结果。这部分更像责任声明,不是技术验证。


复现与工程风险

这篇论文的工程信息量很大,但复现门槛也很高。

风险具体原因影响
数据不可复现31M trainable clips、1.7T multimodal tokens、95h frame-level labels、15K semantic verifier labels、470K listener SFT clips 都是内部构建外部团队很难复现 listening 能力和 long-horizon 稳定性
Benchmark 不公开LPM-Bench 的 1000 cases、评审界面、具体 prompts/audio/reference 未公开无法独立验证 SOTA claim
模型权重未公开Project page 当前只有 demos/paper,无 code/checkpoint/data release只能做 paper-level 分析,不能 smoke test
Backbone scale 表述不一致paper 同时出现 14B pretrained model、Wan2.1-I2V (16B)、17B final model 等说法复现时无法准确确定初始化模型和新增参数规模
Online 系统细节不足DMD fake score estimator、timestep schedule、chunk latent layout、KV cache implementation、serving scheduler 未完全展开难以复现低延迟长时服务
人评偏主观Overall realism、motion dynamics、listening appropriateness 依赖主观评审结果方向可信,但精确数值需要外部复核

如果只想从这篇论文借工程思路,最值得复用的不是 17B 模型本身,而是三件事:三状态 conversational data labeling、multi-reference identity specification、offline teacher -> online causal student 的 on-policy distillation 思路。


总结

LPM 1.0 是一篇系统论文。它的主要贡献不是某个孤立模块,而是把 conversational character performance 拆成一个完整链条:任务定义、数据标注、身份 reference、Base DiT、多模态条件、DPO 偏好对齐、DMD 在线蒸馏、流式 runtime、LPM-Bench 评估。

我觉得它最有价值的地方是重新校准了数字人视频生成的目标。过去很多工作把“能说话”当作完成任务;LPM 把“能参与对话”作为目标。参与对话意味着角色在 speaking 和 listening 之间不断切换,在长时间里维持身份、动作风格和情绪连贯性。这比口型同步难得多。

问题也同样清楚:它高度依赖闭源数据和闭源系统,外部可复现性弱;Performance Trilemma 和 LPM-Bench 都是作者自定义框架,需要未来公开 benchmark 或第三方复核;Online LPM 在 subtle listening motion 上仍然有质量损失;安全部分还没有达到技术验证级别。

对后续研究来说,最有潜力的切入点不是“再做一个更大模型”,而是围绕 LPM 暴露出的真实瓶颈继续拆:如何公开构建可复现的 listening data,如何评价 listening appropriateness,如何让低延迟 causal rollout 不压制低幅度非语言反应,以及如何把对话记忆、多人互动和 3D/world consistency 纳入同一个 performance model。


参考来源

Recommended citation: Ailing Zeng et al. LPM 1.0: Video-based Character Performance Model. arXiv:2604.07823v2, 2026.
Download Paper