每周重点总结

本周新增全双工交互 A/B 分级：端到端音视频基础模型进入 A 级，数字人产品链路进入 B 级。
主线拆成三类：实时世界/视频生成、端到端全双工模型、多模型数字人 Pipeline。
下周优先补齐访问状态、官方延迟口径、开源/论文链接和可复现 demo。

重点判断：真正值得拉高优先级的是“自研模型 + 原生流式 + 可打断交互”；纯产品链路先按工程成熟度和可集成性观察。

厂商追踪

厂商 / 模型 / 产品总表

更新于 2026-06-29

关键词类型时间窗口26 / 26

ID名称 / 厂商类型技术方向状态技术路径更新时间FPS延迟效果Review

V026

Alibaba

自研模型

实时视频生成模型

论文公开

输入音频、视频和文字 → 一个统一模型同时理解和生成 → 输出可打断的实时音视频对话。

2026-06-2325 FPS总交互约 0.55s

V025

Catnip AI

自研模型

实时视频生成模型

模型开放

输入实时音视频 → 模型持续预测下一段声音和画面 → 输出可连续互动的 AI-native 社交场景。

2026-06-16最高 47.5 FPS未公开

V024

Latent Spatial Memory

Microsoft Research

自研模型

交互式世界模型

研究阶段

给视频世界模型加一层空间记忆机制 → 记住用户去过的区域和物体位置 → 长时间探索时画面不容易前后矛盾。

2026-06-08未公开未公开

V023

PixVerse

自研模型

交互式世界模型

平台可用

输入文字、图片或视频参考 → 生成可连续调整的视频世界 → 在创作画布和 API 中支持互动式内容生产。

2026-05-27未公开未公开

V022

NVIDIA / MIT

自研模型

实时视频生成模型

研究阶段

按时间顺序一帧帧生成视频 → 复用前面画面的记忆来降低成本 → 支持中途换提示词并继续输出长视频。

2026-05-1320.7 FPS；2.0 最高 45.7 FPS未公开

V021

Alibaba

自研模型

交互式世界模型

早期访问

输入文字、语音、图片或键盘操作 → 实时生成可探索世界 → 用户可以边看边改、边操作边继续生成。

2026-04-16未公开未公开

V020

miHoYo / Anuttacon

自研模型

实时视频生成模型

论文公开

输入用户语音和角色形象 → 模型判断角色正在听还是说 → 输出带表情、口型和动作的角色视频。

2026-04-09未公开未公开

V019

Decart

链路组合

实时视频改写

产品化中

输入实时摄像头或直播画面 → 按指定风格/语义改写每一帧 → 输出低延迟的新视频流。

2026-01-27旧版 20 FPS旧版约 0.1s

V018

研究团队

自研模型

实时视频生成模型

论文公开

输入对话音频和角色状态 → 同步生成听、说、反应中的头像视频 → 强调非语言反馈和可打断互动。

2026-01-0225 FPS约 0.5s

V017

World Labs RTFM

World Labs

自研模型

交互式世界模型

研究预览

输入图片或场景条件 → 生成可实时探索的 3D/视频世界 → 用户移动视角时模型持续补全环境。

2025-10-16未公开未公开

V016

Odyssey

自研模型

交互式世界模型

研究预览

输入场景和用户动作 → 生成可交互的视频世界 → 重点探索通用世界模型在实时体验中的稳定性。

2025-09-29未公开未公开

V015

bitHuman

链路组合

数字人链路组合

SDK/API 可用

输入实时语音或文本 → Avatar SDK 生成口型、表情和视频流 → 可通过本地或云端链路接入互动应用。

2025-08-1325 FPS<0.2s

V014

Matrix-Game 2.0

Skywork / 昆仑万维

自研模型

交互式世界模型

开放研究

输入当前画面和玩家动作 → 在内部空间预测后续画面 → 连续生成更稳定、可操作的游戏世界视频。

2025-08-1225 FPS未公开

V013

Google DeepMind

自研模型

交互式世界模型

研究预览

输入一段文字设定 → 模型生成一个可进入的 3D/视频世界 → 用户可以实时移动、探索，并用提示词触发新事件。

2025-08-0520-24 FPS未公开

V012

研究团队

自研模型

实时视频生成模型

论文公开

输入说话人与交互信号 → 低延迟生成头像动作和口型视频 → 面向实时数字人对话的基础模型研究。

2025-06-0645-78 FPS0.14-0.22s

V011

Vivix AI

自研模型

实时视频生成模型

官网可访问

输入文字、图片、视频或语音 → 快速生成或调整视频画面 → 支持边对话边创作的互动视频体验。

2025-04-10未公开未公开

V010

Microsoft WHAMM

Microsoft Research

自研模型

交互式世界模型

研究 Demo

输入游戏画面和操作指令 → 世界模型预测下一帧画面 → 在浏览器 demo 中形成可玩的实时游戏体验。

2025-04-0510+ FPS未公开

V009

Tavus

链路组合

数字人链路组合

API 可用

用户说话或视频输入 → 语音识别/大模型规划/语音合成分模块处理 → 渲染成实时数字人回复。

2025-01-15未公开<0.5s

V008

Decart + Etched

自研模型

交互式世界模型

可玩 demo

读取当前画面和键鼠操作 → 预测下一刻画面 → 持续生成一个可玩的游戏式视频世界。

2024-10-3120 FPS未公开

V007

NVIDIA

链路组合

实时视频生成模型

平台型产品

输入传感器、场景或任务条件 → 生成符合物理规律的仿真画面/数据 → 主要服务机器人、自动驾驶和 Physical AI，不是消费级实时互动视频。

N/A未公开未公开

V006

Simli

链路组合

数字人链路组合

API 可用

输入语音、文本或实时对话事件 → 生成可嵌入应用的实时 Avatar 视频 → 通过 WebRTC/生态插件接入 Agent。

N/A未公开<0.3s

V005

HeyGen LiveAvatar

HeyGen

链路组合

数字人链路组合

产品可用

用户语音 → 识别成文字并交给大模型 → 生成语音后驱动数字人口型和表情。

N/A未公开未公开

V004

LemonSlice

链路组合

数字人链路组合

研究 Demo

边听边转写用户语音 → 大模型分段生成回复 → 分段合成语音和数字人视频，减少等待。

N/A未公开未公开

V003

Akool Streaming Avatar

Akool

链路组合

数字人链路组合

API 可用

用户语音 → 大模型生成回答 → 合成语音并驱动数字人形象实时播报。

N/A未公开未公开

V002

D-ID

链路组合

数字人链路组合

产品可用

用户语音 → 大模型对话 → 流式语音合成 → 生成会说话的头像视频。

N/A未公开未公开

V001

Anam AI

链路组合

数字人链路组合

API 可用

输入实时语音或文本 → 数字人引擎生成表情和口型 → 输出低延迟互动 Avatar。

N/A未公开未公开

技术地图

技术方向矩阵

T001

交互式世界模型

把视频生成从单次输出推进到可探索、可操作、可持续响应的世界状态。核心共性是用户动作、文本或多模态指令进入闭环，模型持续生成下一段可交互环境。

T002

实时视频生成模型

面向连续视频流或近实时视频片段生成，重点不只是画质，而是增量生成、低延迟、多条件控制和持续输出能力。适合创作工具、互动内容和实时视频基础设施。

T003

实时视频改写

以已有视频流为输入，在低延迟约束下做风格、语义或画面内容改写。它更像直播/视频生产链路中的实时增强层，不以构建持久世界为第一目标。

T004

数字人链路组合

通过 ASR、LLM、TTS、Avatar 渲染、WebRTC/推流等模块组合交付实时数字人体验。优势是产品化快，约束是端到端延迟和跨模块一致性。

更新日志

更新记录

2026-06-29

新增全双工交互 A/B 分级追踪

全双工

高

2026-06-29

建立实时视频生成模型追踪框架

研究

高

2026-06-29

把交互世界模型和实时视频改写分成两条主线

复盘

中

2026-06-29

待补充各模型最新 demo、论文、开源状态和价格信息

每日更新

观察