每周重点总结

18 个对象10 个自研模型8 个链路组合

本周新增全双工交互 A/B 分级：端到端音视频基础模型进入 A 级，数字人产品链路进入 B 级。
主线拆成三类：实时世界/视频生成、端到端全双工模型、多模型数字人 Pipeline。
下周优先补齐访问状态、官方延迟口径、开源/论文链接和可复现 demo。

重点判断：真正值得拉高优先级的是“自研模型 + 原生流式 + 可打断交互”；纯产品链路先按工程成熟度和可集成性观察。

厂商追踪

厂商 / 模型 / 产品总表

更新于 2026-06-29

名称 / 厂商类型路线延迟 / 状态技术路径效果信号 / 风险

Genie 3

Google DeepMind

自研模型

交互式世界模型

核心

公开信息提到 720p、24 FPS，demo 中可进行分钟级探索。

研究预览

文本条件驱动的世界生成：在视频世界模拟器上叠加实时探索、短期空间记忆和可通过提示词触发的世界事件。

目前最强的“文本到可玩世界”信号之一；场景连续性、事件控制和实时体验都很突出。

公开访问和训练/推理细节有限，产品化集成路径还不清晰。

Oasis

Decart + Etched

自研模型

动作条件视频世界

核心

Minecraft 风格开放世界 demo，公开报道约 20 FPS。

可玩 demo

基于视觉上下文和键鼠动作做自回归下一帧生成，并针对实时交互式 rollout 优化。

可玩闭环清晰，是“视频模型替代游戏引擎”的早期具体样例。

视觉漂移、世界持久性和规则一致性仍处早期；产品场景较窄。

Mirage / Lucy

Decart

链路组合

实时视频改写

核心

公开报道提到 20 FPS 级别、亚秒级实时视频风格化 demo。

产品化中

直播流扩散管线：对输入视频帧按风格或语义条件进行低延迟实时改写。

最贴近实时创作者工具和直播生产；是实用视频到视频能力的入口。

重点不在持久世界模拟；时间一致性、身份一致性和伪影是主要风险。

Matrix-Game 2.0

Skywork / 昆仑万维

自研模型

交互式世界模型

核心

公开材料称 1.8B 模型、单 H100 可达 25 FPS、分钟级生成。

开放研究

动作条件潜空间扩散路线：使用 3D Causal VAE、DiT 视频生成、动作注入，并通过 self-forcing/蒸馏稳定长时 rollout。

技术细节开放度较高，适合作为内部复现和路线比较的参考栈。

仍需验证通用场景泛化、控制稳定性和长时一致性。

Cosmos

NVIDIA

链路组合

Physical AI 世界模型

核心

Cosmos 模型族、工具链和仿真数据管线。

平台型产品

面向机器人和自动驾驶的世界基础模型：结合多模态条件、物理感知生成和合成数据工作流。

在仿真、机器人和 GPU 加速部署生态上优势明显。

不是以消费级实时视频生成为第一目标，场景更偏 Physical AI。

LIVE / Latent Spatial Memory

Microsoft Research

自研模型

长时交互视频

核心

已公开长时交互和潜空间空间缓存相关研究。

研究阶段

长时 rollout 视频世界建模：通过 cycle-consistency 和潜空间 3D 空间记忆减少重复访问区域时的漂移。

直接解决实时世界模型最核心的长时一致性问题。

研究属性较强，短期产品化路径和服务成本还不明确。

LongLive

NVIDIA / MIT

自研模型

流式视频生成

核心

研究材料称可达 20 FPS 级生成，并支持最长 240 秒输出。

研究阶段

帧级自回归视频生成：使用 causal attention、KV cache、KV-recache 和 streaming long tuning 支持提示词切换。

是连续流式视频生成和长视频提示词控制的重要架构参考。

动作交互属性弱于游戏式模型；产品体验需要围绕流控制重新设计。

Wan-Streamer

通义万相 / Alibaba

自研模型

全双工音视频基础模型

总交互约 550ms；模型侧约 200ms

重点跟踪

Audio + Video + Text → Unified Transformer → Audio + Video + Text

音频、视频、文本统一 Transformer；Block-Causal Attention；原生 turn-taking；不依赖外部 ASR/LLM/TTS/Avatar 模块。

直接进入 A 级主跟踪，作为端到端 Native Streaming 标杆。

MaineCoon

Catnip AI

自研模型

Social World Model

Sub-second；47.5 FPS 信号

重点跟踪

Audio + Video → AV Autoregressive Model → Streaming AV + Agentic Cache/Prompt Planning

22B 实时音视频模型；面向 AI-native 社交场景；支持长时间连续生成和单 H100 流式交互。

和实时视频/世界模型主线交集强，需重点跟踪开放状态和 demo 可用性。

LPM 1.0

miHoYo / Anuttacon

自研模型

角色表现基础模型

实时推理；具体端到端延迟待核验

重点跟踪

User Audio + Character References → Online LPM → Listening/Speaking Character Video

17B Diffusion Transformer；面向单人全双工音视频对话表现；支持听、说、反应、表情和身份一致性。

适合放入 A 级，但商业/API 可用性需继续核验。

GPT-4o Realtime

OpenAI

自研模型

实时语音多模态模型

数百毫秒级；官方未给固定值

重点跟踪

Audio Token → Realtime Transformer → Audio Token

语音原生实时交互；支持打断；核心价值在低延迟音频 token 到音频 token 的交互链路。

作为全双工交互基础设施基准，视频侧需结合外部 Avatar/Renderer。

Project Astra

Google DeepMind

自研模型

连续感知多模态 Agent

数百毫秒级信号；官方未给固定值

重点跟踪

Camera + Audio → Continuous VLM → Agent → Audio

持续视觉/听觉感知；相机与音频进入连续多模态理解链路；强调自然对话和环境记忆。

A 级参考对象，重点看连续视觉感知如何和实时响应闭环结合。

Tavus CVI

Tavus

链路组合

视频 Agent 平台

<500ms 平均响应信号

产品观察

Streaming ASR/Perception → Planner/LLM → TTS → Avatar Renderer

CVI 编排 Phoenix/Raven/Sparrow；支持 WebRTC、工具调用、主动聆听、1080p 实时头像渲染。

B 级产品路线标杆，适合跟踪多模型 Pipeline 的工程成熟度。

HeyGen LiveAvatar

HeyGen

链路组合

实时 Avatar API

约 0.7-1.5s 体验信号

产品观察

Streaming ASR → LLM → Streaming TTS → Audio-driven Avatar Renderer

面向 conversational AI agents 的实时头像 API；强调双向互动、唇形、表情和手势。

B 级，产品成熟度高，但底层端到端模型属性弱。

LemonSlice

链路组合

实时视频 Avatar

公开 demo 接近实时；官方固定值待核验

产品观察

Partial ASR → Incremental LLM → Chunk TTS → Chunk Avatar/Video

LemonSlice-2 支持单图生成互动视频头像；强调全身 avatar、表情和语义手势。

B 级观察，适合补充 Avatar 生成质量和 chunk pipeline 路线。

Akool Streaming Avatar

Akool

链路组合

Streaming Avatar API

约 1s 级体验信号

产品观察

Streaming ASR → LLM → TTS → Avatar

提供 Streaming Avatar API 与 Agora demo；偏企业集成、SDK 和实时互动应用。

B 级，适合跟踪 API 易用性、WebRTC/Agora 集成和并发能力。

D-ID Agents

D-ID

链路组合

交互式视觉 Agent

官方固定值待核验

产品观察

Streaming ASR → LLM → Streaming TTS → Talking Avatar

把 conversational AI avatars、agent framework 和实时视频互动整合为视觉 Agent 产品。

B 级，商业可用性强，底层模型路线需补官方技术资料。

Anam AI

链路组合

实时互动 Avatar API

180ms avg agent response time 信号

产品观察

Streaming Speech → Avatar Engine

强调超低延迟、70+ 语言、实时互动和单图创建 persona；适合销售/培训/客服场景。

B 级重点产品，需核验 180ms 口径是否包含 LLM/语音/渲染全链路。

技术地图

技术路线矩阵

动作条件下一帧生成

Oasis / Matrix-Game 2.0

直播流扩散改写

Mirage / Lucy

长时空间记忆

LIVE / Latent Spatial Memory

Physical AI 世界仿真

Cosmos

流式自回归视频

LongLive

端到端全双工音视频

Wan-Streamer / MaineCoon / LPM 1.0

多模型数字人链路

Tavus / HeyGen / Akool / D-ID / Anam

更新日志

更新记录

2026-06-29

新增全双工交互 A/B 分级追踪

全双工

高

2026-06-29

建立实时视频生成模型追踪框架

研究

高

2026-06-29

把交互世界模型和实时视频改写分成两条主线

复盘

中

2026-06-29

待补充各模型最新 demo、论文、开源状态和价格信息

每日更新

观察