Alibaba
实时视频生成模型
总交互约 550ms;模型侧约 200ms
重点跟踪Audio + Video + Text → Unified Transformer → Audio + Video + Text
音频、视频、文本统一 Transformer;Block-Causal Attention;原生 turn-taking;不依赖外部 ASR/LLM/TTS/Avatar 模块。
直接进入 A 级主跟踪,作为端到端 Native Streaming 标杆。厂商追踪
Alibaba
实时视频生成模型
总交互约 550ms;模型侧约 200ms
重点跟踪Audio + Video + Text → Unified Transformer → Audio + Video + Text
音频、视频、文本统一 Transformer;Block-Causal Attention;原生 turn-taking;不依赖外部 ASR/LLM/TTS/Avatar 模块。
直接进入 A 级主跟踪,作为端到端 Native Streaming 标杆。Catnip AI
实时音视频生成模型
Sub-second;47.5 FPS 信号
重点跟踪Audio + Video → AV Autoregressive Model → Streaming AV + Agentic Cache/Prompt Planning
22B 实时音视频模型;面向 AI-native 社交场景;支持长时间连续生成和单 H100 流式交互。
和实时视频/世界模型主线交集强,需重点跟踪开放状态和 demo 可用性。Microsoft Research
世界模型记忆与一致性
已公开长时交互和潜空间空间缓存相关研究。
研究阶段长时 rollout 视频世界建模:通过 cycle-consistency 和潜空间 3D 空间记忆减少重复访问区域时的漂移。
直接解决实时世界模型最核心的长时一致性问题。
研究属性较强,短期产品化路径和服务成本还不明确。NVIDIA / MIT
实时视频生成模型
研究材料称可达 20 FPS 级生成,并支持最长 240 秒输出。
研究阶段帧级自回归视频生成:使用 causal attention、KV cache、KV-recache 和 streaming long tuning 支持提示词切换。
是连续流式视频生成和长视频提示词控制的重要架构参考。
动作交互属性弱于游戏式模型;产品体验需要围绕流控制重新设计。Alibaba
交互式世界模型
实时交互信号;未公开固定延迟
重点跟踪文本 / 语音 / 图像 / 键盘输入 → 开放世界模型 → 连续音视频世界生成与交互式探索。
面向实时世界创造和交互,支持用文本、语音或图片导演/探索开放世界;与游戏、影视预演、AI-native 创作关系强。
可访问范围、模型架构细节、长期一致性和高并发服务能力仍需继续跟踪。miHoYo / Anuttacon
全双工角色视频模型
实时推理;未公开固定端到端延迟
重点跟踪User Audio + Character References → Online LPM → Listening/Speaking Character Video
17B Diffusion Transformer;面向单人全双工音视频对话表现;支持听、说、反应、表情和身份一致性。
适合放入 A 级,但商业/API 可用性需继续核验。HeyGen
数字人链路组合
约 0.7-1.5s 体验信号
产品观察Streaming ASR → LLM → Streaming TTS → Audio-driven Avatar Renderer
面向 conversational AI agents 的实时头像 API;强调双向互动、唇形、表情和手势。
B 级,产品成熟度高,但底层端到端模型属性弱。Decart
实时视频改写
公开报道提到 20 FPS 级别、亚秒级实时视频风格化 demo。
产品化中直播流扩散管线:对输入视频帧按风格或语义条件进行低延迟实时改写。
最贴近实时创作者工具和直播生产;是实用视频到视频能力的入口。
重点不在持久世界模拟;时间一致性、身份一致性和伪影是主要风险。PixVerse
实时视频生成模型
近实时生成信号;未公开固定端到端延迟
产品化中文本/图像/视频条件 → 专有视频基础模型 → 连续视觉世界生成;产品侧叠加 Agent、Canvas、模板与 API 工作流。
官方定位为全栈 AI 媒体生成平台,R1 强调连续、可响应的实时视频世界,适合跟踪互动内容、直播/XR 和批量生产工作流。
公开技术细节和真实交互延迟仍需核验,需区分 R1 世界模型能力和常规视频生成产品能力。Skywork / 昆仑万维
交互式世界模型
公开材料称 1.8B 模型、单 H100 可达 25 FPS、分钟级生成。
开放研究动作条件潜空间扩散路线:使用 3D Causal VAE、DiT 视频生成、动作注入,并通过 self-forcing/蒸馏稳定长时 rollout。
技术细节开放度较高,适合作为内部复现和路线比较的参考栈。
仍需验证通用场景泛化、控制稳定性和长时一致性。Google DeepMind
交互式世界模型
公开信息提到 720p、24 FPS,demo 中可进行分钟级探索。
研究预览文本条件驱动的世界生成:在视频世界模拟器上叠加实时探索、短期空间记忆和可通过提示词触发的世界事件。
目前最强的“文本到可玩世界”信号之一;场景连续性、事件控制和实时体验都很突出。
公开访问和训练/推理细节有限,产品化集成路径还不清晰。Vivix AI
实时视频生成模型
Vivix Turbo 有超低延迟/快速生成信号;未公开固定口径
重点跟踪文本、图像、视频、语音等多模态输入 → 实时多模态模型 / Turbo 视频基础设施 → 交互式视频生成与对话。
官方定位为 interactive multimodal model,强调实时交互、创作与对话;Vivix Turbo 适合作为实时视频基础设施路线观察对象。
公开论文和技术栈细节较少,需要补齐 demo 可用性、生成质量、延迟口径和商业接口信息。Tavus
数字人链路组合
<500ms 平均响应信号
产品观察Streaming ASR/Perception → Planner/LLM → TTS → Avatar Renderer
CVI 编排 Phoenix/Raven/Sparrow;支持 WebRTC、工具调用、主动聆听、1080p 实时头像渲染。
B 级产品路线标杆,适合跟踪多模型 Pipeline 的工程成熟度。NVIDIA
物理世界仿真模型
Cosmos 模型族、工具链和仿真数据管线。
平台型产品面向机器人和自动驾驶的世界基础模型:结合多模态条件、物理感知生成和合成数据工作流。
在仿真、机器人和 GPU 加速部署生态上优势明显。
不是以消费级实时视频生成为第一目标,场景更偏 Physical AI。Decart + Etched
交互式世界模型
Minecraft 风格开放世界 demo,公开报道约 20 FPS。
可玩 demo基于视觉上下文和键鼠动作做自回归下一帧生成,并针对实时交互式 rollout 优化。
可玩闭环清晰,是“视频模型替代游戏引擎”的早期具体样例。
视觉漂移、世界持久性和规则一致性仍处早期;产品场景较窄。OpenAI
实时多模态交互模型
数百毫秒级;官方未给固定值
重点跟踪Audio Token → Realtime Transformer → Audio Token
语音原生实时交互;支持打断;核心价值在低延迟音频 token 到音频 token 的交互链路。
作为全双工交互基础设施基准,视频侧需结合外部 Avatar/Renderer。Google DeepMind
实时多模态交互模型
数百毫秒级信号;官方未给固定值
重点跟踪Camera + Audio → Continuous VLM → Agent → Audio
持续视觉/听觉感知;相机与音频进入连续多模态理解链路;强调自然对话和环境记忆。
A 级参考对象,重点看连续视觉感知如何和实时响应闭环结合。LemonSlice
数字人链路组合
公开 demo 接近实时;未公开固定延迟
产品观察Partial ASR → Incremental LLM → Chunk TTS → Chunk Avatar/Video
LemonSlice-2 支持单图生成互动视频头像;强调全身 avatar、表情和语义手势。
B 级观察,适合补充 Avatar 生成质量和 chunk pipeline 路线。数字人链路组合
约 1s 级体验信号
产品观察Streaming ASR → LLM → TTS → Avatar
提供 Streaming Avatar API 与 Agora demo;偏企业集成、SDK 和实时互动应用。
B 级,适合跟踪 API 易用性、WebRTC/Agora 集成和并发能力。D-ID
数字人链路组合
未公开固定延迟
产品观察Streaming ASR → LLM → Streaming TTS → Talking Avatar
把 conversational AI avatars、agent framework 和实时视频互动整合为视觉 Agent 产品。
B 级,商业可用性强,底层模型路线需补官方技术资料。Anam AI
数字人链路组合
180ms avg agent response time 信号
产品观察Streaming Speech → Avatar Engine
强调超低延迟、70+ 语言、实时互动和单图创建 persona;适合销售/培训/客服场景。
B 级重点产品,需核验 180ms 口径是否包含 LLM/语音/渲染全链路。技术地图
把视频生成从单次输出推进到可探索、可操作、可持续响应的世界状态。核心共性是用户动作、文本或多模态指令进入闭环,模型持续生成下一段可交互环境。
面向连续视频流或近实时视频片段生成,重点不只是画质,而是增量生成、低延迟、多条件控制和持续输出能力。适合创作工具、互动内容和实时视频基础设施。
以已有视频流为输入,在低延迟约束下做风格、语义或画面内容改写。它更像直播/视频生产链路中的实时增强层,不以构建持久世界为第一目标。
同时处理音频与视频的连续生成,强调同步、角色状态、长时交互和低延迟输出。它比纯视频生成更接近 AI-native 社交、直播和虚拟陪伴场景。
聚焦单个角色在听、说、表情、动作和身份一致性上的端到端生成。共性是角色不是被动播报视频,而是在对话中持续反应并生成可见行为。
以实时语音、视觉感知和对话响应为核心,解决人机交互中的听、看、理解、打断和回应问题。视频生成通常需要外接 Avatar 或渲染层。
通过 ASR、LLM、TTS、Avatar 渲染、WebRTC/推流等模块组合交付实时数字人体验。优势是产品化快,约束是端到端延迟和跨模块一致性。
面向机器人、自动驾驶和 Physical AI 的世界建模,更关注物理一致性、合成数据和仿真闭环。它和消费级实时视频生成共享生成能力,但目标函数不同。
解决长时探索里的漂移、重复区域错乱和空间记忆问题。它更像交互式世界模型的关键底座能力,而不是单独面向用户的产品形态。
更新日志
全双工
高研究
高复盘
中每日更新
观察