Google DeepMind
交互式世界模型
核心公开信息提到 720p、24 FPS,demo 中可进行分钟级探索。
研究预览文本条件驱动的世界生成:在视频世界模拟器上叠加实时探索、短期空间记忆和可通过提示词触发的世界事件。
目前最强的“文本到可玩世界”信号之一;场景连续性、事件控制和实时体验都很突出。
公开访问和训练/推理细节有限,产品化集成路径还不清晰。厂商追踪
Google DeepMind
交互式世界模型
核心公开信息提到 720p、24 FPS,demo 中可进行分钟级探索。
研究预览文本条件驱动的世界生成:在视频世界模拟器上叠加实时探索、短期空间记忆和可通过提示词触发的世界事件。
目前最强的“文本到可玩世界”信号之一;场景连续性、事件控制和实时体验都很突出。
公开访问和训练/推理细节有限,产品化集成路径还不清晰。Decart + Etched
动作条件视频世界
核心Minecraft 风格开放世界 demo,公开报道约 20 FPS。
可玩 demo基于视觉上下文和键鼠动作做自回归下一帧生成,并针对实时交互式 rollout 优化。
可玩闭环清晰,是“视频模型替代游戏引擎”的早期具体样例。
视觉漂移、世界持久性和规则一致性仍处早期;产品场景较窄。Decart
实时视频改写
核心公开报道提到 20 FPS 级别、亚秒级实时视频风格化 demo。
产品化中直播流扩散管线:对输入视频帧按风格或语义条件进行低延迟实时改写。
最贴近实时创作者工具和直播生产;是实用视频到视频能力的入口。
重点不在持久世界模拟;时间一致性、身份一致性和伪影是主要风险。Skywork / 昆仑万维
交互式世界模型
核心公开材料称 1.8B 模型、单 H100 可达 25 FPS、分钟级生成。
开放研究动作条件潜空间扩散路线:使用 3D Causal VAE、DiT 视频生成、动作注入,并通过 self-forcing/蒸馏稳定长时 rollout。
技术细节开放度较高,适合作为内部复现和路线比较的参考栈。
仍需验证通用场景泛化、控制稳定性和长时一致性。NVIDIA
Physical AI 世界模型
核心Cosmos 模型族、工具链和仿真数据管线。
平台型产品面向机器人和自动驾驶的世界基础模型:结合多模态条件、物理感知生成和合成数据工作流。
在仿真、机器人和 GPU 加速部署生态上优势明显。
不是以消费级实时视频生成为第一目标,场景更偏 Physical AI。Microsoft Research
长时交互视频
核心已公开长时交互和潜空间空间缓存相关研究。
研究阶段长时 rollout 视频世界建模:通过 cycle-consistency 和潜空间 3D 空间记忆减少重复访问区域时的漂移。
直接解决实时世界模型最核心的长时一致性问题。
研究属性较强,短期产品化路径和服务成本还不明确。NVIDIA / MIT
流式视频生成
核心研究材料称可达 20 FPS 级生成,并支持最长 240 秒输出。
研究阶段帧级自回归视频生成:使用 causal attention、KV cache、KV-recache 和 streaming long tuning 支持提示词切换。
是连续流式视频生成和长视频提示词控制的重要架构参考。
动作交互属性弱于游戏式模型;产品体验需要围绕流控制重新设计。通义万相 / Alibaba
全双工音视频基础模型
A总交互约 550ms;模型侧约 200ms
重点跟踪Audio + Video + Text → Unified Transformer → Audio + Video + Text
音频、视频、文本统一 Transformer;Block-Causal Attention;原生 turn-taking;不依赖外部 ASR/LLM/TTS/Avatar 模块。
直接进入 A 级主跟踪,作为端到端 Native Streaming 标杆。Catnip AI
Social World Model
ASub-second;47.5 FPS 信号
重点跟踪Audio + Video → AV Autoregressive Model → Streaming AV + Agentic Cache/Prompt Planning
22B 实时音视频模型;面向 AI-native 社交场景;支持长时间连续生成和单 H100 流式交互。
和实时视频/世界模型主线交集强,需重点跟踪开放状态和 demo 可用性。miHoYo / Anuttacon
角色表现基础模型
A实时推理;具体端到端延迟待核验
重点跟踪User Audio + Character References → Online LPM → Listening/Speaking Character Video
17B Diffusion Transformer;面向单人全双工音视频对话表现;支持听、说、反应、表情和身份一致性。
适合放入 A 级,但商业/API 可用性需继续核验。OpenAI
实时语音多模态模型
A数百毫秒级;官方未给固定值
重点跟踪Audio Token → Realtime Transformer → Audio Token
语音原生实时交互;支持打断;核心价值在低延迟音频 token 到音频 token 的交互链路。
作为全双工交互基础设施基准,视频侧需结合外部 Avatar/Renderer。Google DeepMind
连续感知多模态 Agent
A数百毫秒级信号;官方未给固定值
重点跟踪Camera + Audio → Continuous VLM → Agent → Audio
持续视觉/听觉感知;相机与音频进入连续多模态理解链路;强调自然对话和环境记忆。
A 级参考对象,重点看连续视觉感知如何和实时响应闭环结合。Tavus
视频 Agent 平台
B<500ms 平均响应信号
产品观察Streaming ASR/Perception → Planner/LLM → TTS → Avatar Renderer
CVI 编排 Phoenix/Raven/Sparrow;支持 WebRTC、工具调用、主动聆听、1080p 实时头像渲染。
B 级产品路线标杆,适合跟踪多模型 Pipeline 的工程成熟度。HeyGen
实时 Avatar API
B约 0.7-1.5s 体验信号
产品观察Streaming ASR → LLM → Streaming TTS → Audio-driven Avatar Renderer
面向 conversational AI agents 的实时头像 API;强调双向互动、唇形、表情和手势。
B 级,产品成熟度高,但底层端到端模型属性弱。LemonSlice
实时视频 Avatar
B公开 demo 接近实时;官方固定值待核验
产品观察Partial ASR → Incremental LLM → Chunk TTS → Chunk Avatar/Video
LemonSlice-2 支持单图生成互动视频头像;强调全身 avatar、表情和语义手势。
B 级观察,适合补充 Avatar 生成质量和 chunk pipeline 路线。Streaming Avatar API
B约 1s 级体验信号
产品观察Streaming ASR → LLM → TTS → Avatar
提供 Streaming Avatar API 与 Agora demo;偏企业集成、SDK 和实时互动应用。
B 级,适合跟踪 API 易用性、WebRTC/Agora 集成和并发能力。D-ID
交互式视觉 Agent
B官方固定值待核验
产品观察Streaming ASR → LLM → Streaming TTS → Talking Avatar
把 conversational AI avatars、agent framework 和实时视频互动整合为视觉 Agent 产品。
B 级,商业可用性强,底层模型路线需补官方技术资料。Anam AI
实时互动 Avatar API
B180ms avg agent response time 信号
产品观察Streaming Speech → Avatar Engine
强调超低延迟、70+ 语言、实时互动和单图创建 persona;适合销售/培训/客服场景。
B 级重点产品,需核验 180ms 口径是否包含 LLM/语音/渲染全链路。技术地图
Oasis / Matrix-Game 2.0
Mirage / Lucy
LIVE / Latent Spatial Memory
Cosmos
LongLive
Wan-Streamer / MaineCoon / LPM 1.0
Tavus / HeyGen / Akool / D-ID / Anam
更新日志
全双工
高研究
高复盘
中每日更新
观察