Alibaba
实时视频生成模型
输入音频、视频和文字 → 一个统一模型同时理解和生成 → 输出可打断的实时音视频对话。
25 FPS约 0.55s厂商追踪
Alibaba
实时视频生成模型
输入音频、视频和文字 → 一个统一模型同时理解和生成 → 输出可打断的实时音视频对话。
25 FPS约 0.55sCatnip AI
实时视频生成模型
输入实时音视频 → 模型持续预测下一段声音和画面 → 输出可连续互动的 AI-native 社交场景。
最高 47.5 FPS未公开Microsoft Research
交互式世界模型
给世界模型加一层空间记忆 → 记住用户去过的区域和物体位置 → 长时间探索时画面不容易前后矛盾。
未公开未公开NVIDIA / MIT
实时视频生成模型
按时间顺序一帧帧生成视频 → 复用前面画面的记忆来降低成本 → 支持中途换提示词并继续输出长视频。
20.7-45.7 FPS未公开Alibaba
交互式世界模型
输入文字、语音、图片或键盘操作 → 实时生成可探索世界 → 用户可以边看边改、边操作边继续生成。
未公开未公开miHoYo / Anuttacon
实时视频生成模型
输入用户语音和角色形象 → 模型判断角色正在听还是说 → 输出带表情、口型和动作的角色视频。
未公开未公开HeyGen
数字人链路组合
用户语音 → 识别成文字并交给大模型 → 生成语音后驱动数字人口型和表情。
未公开0.7-1.5sDecart
实时视频改写
输入实时摄像头或直播画面 → 按指定风格/语义改写每一帧 → 输出低延迟的新视频流。
20 FPS<1sPixVerse
实时视频生成模型
输入文字、图片或视频参考 → 生成连续视频内容 → 接入画布、模板和 API,用于批量创作或互动内容生产。
未公开未公开Skywork / 昆仑万维
交互式世界模型
输入当前画面和玩家动作 → 在内部空间预测后续画面 → 连续生成更稳定、可操作的游戏世界视频。
25 FPS未公开Google DeepMind
交互式世界模型
输入一段文字设定 → 模型生成一个可进入的 3D/视频世界 → 用户可以实时移动、探索,并用提示词触发新事件。
24 FPS未公开Vivix AI
实时视频生成模型
输入文字、图片、视频或语音 → 快速生成或调整视频画面 → 支持边对话边创作的互动视频体验。
未公开未公开Tavus
数字人链路组合
用户说话或视频输入 → 语音识别/大模型规划/语音合成分模块处理 → 渲染成实时数字人回复。
未公开<0.5sNVIDIA
交互式世界模型
输入传感器、场景或任务条件 → 生成符合物理规律的仿真画面/数据 → 用于训练机器人、自动驾驶和 Physical AI。
未公开未公开Decart + Etched
交互式世界模型
读取当前画面和键鼠操作 → 预测下一刻画面 → 持续生成一个可玩的游戏式视频世界。
20 FPS未公开LemonSlice
数字人链路组合
边听边转写用户语音 → 大模型分段生成回复 → 分段合成语音和数字人视频,减少等待。
未公开未公开数字人链路组合
用户语音 → 大模型生成回答 → 合成语音并驱动数字人形象实时播报。
未公开约 1sD-ID
数字人链路组合
用户语音 → 大模型对话 → 流式语音合成 → 生成会说话的头像视频。
未公开未公开Anam AI
数字人链路组合
输入实时语音或文本 → 数字人引擎生成表情和口型 → 输出低延迟互动 Avatar。
未公开0.18s 待核验技术地图
把视频生成从单次输出推进到可探索、可操作、可持续响应的世界状态。核心共性是用户动作、文本或多模态指令进入闭环,模型持续生成下一段可交互环境。
面向连续视频流或近实时视频片段生成,重点不只是画质,而是增量生成、低延迟、多条件控制和持续输出能力。适合创作工具、互动内容和实时视频基础设施。
以已有视频流为输入,在低延迟约束下做风格、语义或画面内容改写。它更像直播/视频生产链路中的实时增强层,不以构建持久世界为第一目标。
通过 ASR、LLM、TTS、Avatar 渲染、WebRTC/推流等模块组合交付实时数字人体验。优势是产品化快,约束是端到端延迟和跨模块一致性。
更新日志
全双工
高研究
高复盘
中每日更新
观察