每周重点总结

  • 本周新增全双工交互 A/B 分级:端到端音视频基础模型进入 A 级,数字人产品链路进入 B 级。
  • 主线拆成三类:实时世界/视频生成、端到端全双工模型、多模型数字人 Pipeline。
  • 下周优先补齐访问状态、官方延迟口径、开源/论文链接和可复现 demo。
重点判断:真正值得拉高优先级的是“自研模型 + 原生流式 + 可打断交互”;纯产品链路先按工程成熟度和可集成性观察。

厂商追踪

厂商 / 模型 / 产品总表

更新于 2026-06-29
21 / 21
ID名称 / 厂商类型技术路线更新时间延迟 / 状态技术路径效果信号 / 风险
V021
自研模型

实时视频生成模型

总交互约 550ms;模型侧约 200ms

重点跟踪

Audio + Video + Text → Unified Transformer → Audio + Video + Text

音频、视频、文本统一 Transformer;Block-Causal Attention;原生 turn-taking;不依赖外部 ASR/LLM/TTS/Avatar 模块。

直接进入 A 级主跟踪,作为端到端 Native Streaming 标杆。
V020
MaineCoon

Catnip AI

自研模型

实时音视频生成模型

Sub-second;47.5 FPS 信号

重点跟踪

Audio + Video → AV Autoregressive Model → Streaming AV + Agentic Cache/Prompt Planning

22B 实时音视频模型;面向 AI-native 社交场景;支持长时间连续生成和单 H100 流式交互。

和实时视频/世界模型主线交集强,需重点跟踪开放状态和 demo 可用性。
V019
自研模型

世界模型记忆与一致性

已公开长时交互和潜空间空间缓存相关研究。

研究阶段

长时 rollout 视频世界建模:通过 cycle-consistency 和潜空间 3D 空间记忆减少重复访问区域时的漂移。

直接解决实时世界模型最核心的长时一致性问题。

研究属性较强,短期产品化路径和服务成本还不明确。
V018
LongLive

NVIDIA / MIT

自研模型

实时视频生成模型

研究材料称可达 20 FPS 级生成,并支持最长 240 秒输出。

研究阶段

帧级自回归视频生成:使用 causal attention、KV cache、KV-recache 和 streaming long tuning 支持提示词切换。

是连续流式视频生成和长视频提示词控制的重要架构参考。

动作交互属性弱于游戏式模型;产品体验需要围绕流控制重新设计。
V017
自研模型

交互式世界模型

实时交互信号;未公开固定延迟

重点跟踪

文本 / 语音 / 图像 / 键盘输入 → 开放世界模型 → 连续音视频世界生成与交互式探索。

面向实时世界创造和交互,支持用文本、语音或图片导演/探索开放世界;与游戏、影视预演、AI-native 创作关系强。

可访问范围、模型架构细节、长期一致性和高并发服务能力仍需继续跟踪。
V016
LPM 1.0

miHoYo / Anuttacon

自研模型

全双工角色视频模型

实时推理;未公开固定端到端延迟

重点跟踪

User Audio + Character References → Online LPM → Listening/Speaking Character Video

17B Diffusion Transformer;面向单人全双工音视频对话表现;支持听、说、反应、表情和身份一致性。

适合放入 A 级,但商业/API 可用性需继续核验。
V015
链路组合

数字人链路组合

约 0.7-1.5s 体验信号

产品观察

Streaming ASR → LLM → Streaming TTS → Audio-driven Avatar Renderer

面向 conversational AI agents 的实时头像 API;强调双向互动、唇形、表情和手势。

B 级,产品成熟度高,但底层端到端模型属性弱。
V014
链路组合

实时视频改写

公开报道提到 20 FPS 级别、亚秒级实时视频风格化 demo。

产品化中

直播流扩散管线:对输入视频帧按风格或语义条件进行低延迟实时改写。

最贴近实时创作者工具和直播生产;是实用视频到视频能力的入口。

重点不在持久世界模拟;时间一致性、身份一致性和伪影是主要风险。
V013
PixVerse R1

PixVerse

自研模型

实时视频生成模型

近实时生成信号;未公开固定端到端延迟

产品化中

文本/图像/视频条件 → 专有视频基础模型 → 连续视觉世界生成;产品侧叠加 Agent、Canvas、模板与 API 工作流。

官方定位为全栈 AI 媒体生成平台,R1 强调连续、可响应的实时视频世界,适合跟踪互动内容、直播/XR 和批量生产工作流。

公开技术细节和真实交互延迟仍需核验,需区分 R1 世界模型能力和常规视频生成产品能力。
V012
Matrix-Game 2.0

Skywork / 昆仑万维

自研模型

交互式世界模型

公开材料称 1.8B 模型、单 H100 可达 25 FPS、分钟级生成。

开放研究

动作条件潜空间扩散路线:使用 3D Causal VAE、DiT 视频生成、动作注入,并通过 self-forcing/蒸馏稳定长时 rollout。

技术细节开放度较高,适合作为内部复现和路线比较的参考栈。

仍需验证通用场景泛化、控制稳定性和长时一致性。
V011
Genie 3

Google DeepMind

自研模型

交互式世界模型

公开信息提到 720p、24 FPS,demo 中可进行分钟级探索。

研究预览

文本条件驱动的世界生成:在视频世界模拟器上叠加实时探索、短期空间记忆和可通过提示词触发的世界事件。

目前最强的“文本到可玩世界”信号之一;场景连续性、事件控制和实时体验都很突出。

公开访问和训练/推理细节有限,产品化集成路径还不清晰。
V010
Vivix

Vivix AI

自研模型

实时视频生成模型

Vivix Turbo 有超低延迟/快速生成信号;未公开固定口径

重点跟踪

文本、图像、视频、语音等多模态输入 → 实时多模态模型 / Turbo 视频基础设施 → 交互式视频生成与对话。

官方定位为 interactive multimodal model,强调实时交互、创作与对话;Vivix Turbo 适合作为实时视频基础设施路线观察对象。

公开论文和技术栈细节较少,需要补齐 demo 可用性、生成质量、延迟口径和商业接口信息。
V009
链路组合

数字人链路组合

<500ms 平均响应信号

产品观察

Streaming ASR/Perception → Planner/LLM → TTS → Avatar Renderer

CVI 编排 Phoenix/Raven/Sparrow;支持 WebRTC、工具调用、主动聆听、1080p 实时头像渲染。

B 级产品路线标杆,适合跟踪多模型 Pipeline 的工程成熟度。
V008
Cosmos

NVIDIA

链路组合

物理世界仿真模型

Cosmos 模型族、工具链和仿真数据管线。

平台型产品

面向机器人和自动驾驶的世界基础模型:结合多模态条件、物理感知生成和合成数据工作流。

在仿真、机器人和 GPU 加速部署生态上优势明显。

不是以消费级实时视频生成为第一目标,场景更偏 Physical AI。
V007
Oasis

Decart + Etched

自研模型

交互式世界模型

Minecraft 风格开放世界 demo,公开报道约 20 FPS。

可玩 demo

基于视觉上下文和键鼠动作做自回归下一帧生成,并针对实时交互式 rollout 优化。

可玩闭环清晰,是“视频模型替代游戏引擎”的早期具体样例。

视觉漂移、世界持久性和规则一致性仍处早期;产品场景较窄。
V006
自研模型

实时多模态交互模型

数百毫秒级;官方未给固定值

重点跟踪

Audio Token → Realtime Transformer → Audio Token

语音原生实时交互;支持打断;核心价值在低延迟音频 token 到音频 token 的交互链路。

作为全双工交互基础设施基准,视频侧需结合外部 Avatar/Renderer。
V005
Project Astra

Google DeepMind

自研模型

实时多模态交互模型

数百毫秒级信号;官方未给固定值

重点跟踪

Camera + Audio → Continuous VLM → Agent → Audio

持续视觉/听觉感知;相机与音频进入连续多模态理解链路;强调自然对话和环境记忆。

A 级参考对象,重点看连续视觉感知如何和实时响应闭环结合。
V004
LemonSlice

LemonSlice

链路组合

数字人链路组合

公开 demo 接近实时;未公开固定延迟

产品观察

Partial ASR → Incremental LLM → Chunk TTS → Chunk Avatar/Video

LemonSlice-2 支持单图生成互动视频头像;强调全身 avatar、表情和语义手势。

B 级观察,适合补充 Avatar 生成质量和 chunk pipeline 路线。
V003
链路组合

数字人链路组合

约 1s 级体验信号

产品观察

Streaming ASR → LLM → TTS → Avatar

提供 Streaming Avatar API 与 Agora demo;偏企业集成、SDK 和实时互动应用。

B 级,适合跟踪 API 易用性、WebRTC/Agora 集成和并发能力。
V002
链路组合

数字人链路组合

未公开固定延迟

产品观察

Streaming ASR → LLM → Streaming TTS → Talking Avatar

把 conversational AI avatars、agent framework 和实时视频互动整合为视觉 Agent 产品。

B 级,商业可用性强,底层模型路线需补官方技术资料。
V001
Anam AI

Anam AI

链路组合

数字人链路组合

180ms avg agent response time 信号

产品观察

Streaming Speech → Avatar Engine

强调超低延迟、70+ 语言、实时互动和单图创建 persona;适合销售/培训/客服场景。

B 级重点产品,需核验 180ms 口径是否包含 LLM/语音/渲染全链路。

技术地图

技术路线矩阵

T001

交互式世界模型

把视频生成从单次输出推进到可探索、可操作、可持续响应的世界状态。核心共性是用户动作、文本或多模态指令进入闭环,模型持续生成下一段可交互环境。

T002

实时视频生成模型

面向连续视频流或近实时视频片段生成,重点不只是画质,而是增量生成、低延迟、多条件控制和持续输出能力。适合创作工具、互动内容和实时视频基础设施。

T003

实时视频改写

以已有视频流为输入,在低延迟约束下做风格、语义或画面内容改写。它更像直播/视频生产链路中的实时增强层,不以构建持久世界为第一目标。

T004

实时音视频生成模型

同时处理音频与视频的连续生成,强调同步、角色状态、长时交互和低延迟输出。它比纯视频生成更接近 AI-native 社交、直播和虚拟陪伴场景。

T005

全双工角色视频模型

聚焦单个角色在听、说、表情、动作和身份一致性上的端到端生成。共性是角色不是被动播报视频,而是在对话中持续反应并生成可见行为。

T006

实时多模态交互模型

以实时语音、视觉感知和对话响应为核心,解决人机交互中的听、看、理解、打断和回应问题。视频生成通常需要外接 Avatar 或渲染层。

T007

数字人链路组合

通过 ASR、LLM、TTS、Avatar 渲染、WebRTC/推流等模块组合交付实时数字人体验。优势是产品化快,约束是端到端延迟和跨模块一致性。

T008

物理世界仿真模型

面向机器人、自动驾驶和 Physical AI 的世界建模,更关注物理一致性、合成数据和仿真闭环。它和消费级实时视频生成共享生成能力,但目标函数不同。

T009

世界模型记忆与一致性

解决长时探索里的漂移、重复区域错乱和空间记忆问题。它更像交互式世界模型的关键底座能力,而不是单独面向用户的产品形态。

更新日志

更新记录

新增全双工交互 A/B 分级追踪

全双工

建立实时视频生成模型追踪框架

研究

把交互世界模型和实时视频改写分成两条主线

复盘

待补充各模型最新 demo、论文、开源状态和价格信息

每日更新

观察