AIGC Generation Model Radar

实时视频生成模型

实时视频 / 交互世界 / 数字人模型总表

更新于 2026-07-02

关键词模型类型时间窗口0 / 0

ID名称 / 厂商模型类型状态?技术路径更新时间FPS（帧/s）延迟（s）优先级效果Review编辑

正在加载线上数据...

图片生成模型

图片生成模型总表

更新于 2026-07-01

ELO榜越高越好

1290

1260

1252

1249

API成本榜越低越好，单位：$/1k imgs

3

5

8

10

数据口径：Artificial Analysis Image Editing Leaderboard。ELO 来自盲测偏好票；API 成本按 pricePer1kImages 升序。

关键词模型类型时间窗口0 / 0

ID名称 / 厂商模型类型状态?核心能力更新时间ELOAPI成本（$/1k imgs）优先级效果Review编辑

正在加载线上数据...

实时视频生成模型

技术地图

T001

交互式世界模型

把视频生成从单次输出推进到可探索、可操作、可持续响应的世界状态。核心共性是用户动作、文本或多模态指令进入闭环，模型持续生成下一段可交互环境。

开放世界生成Tier2

从文本、图片或场景条件生成可探索环境，重点是空间连续、视角移动和场景持久。

动作闭环预测Tier2

读取当前画面和用户操作，实时预测下一段画面，适合游戏式交互和可玩 demo。

T002

实时视频生成模型

面向连续视频流或近实时视频片段生成，重点不只是画质，而是增量生成、低延迟、多条件控制和持续输出能力。适合创作工具、互动内容和实时视频基础设施。

端到端音视频生成Tier2

用一个基础模型同时理解和生成声音、画面与互动状态，目标是减少链路拼接延迟。

流式视频基础模型Tier2

按时间连续生成视频，强调增量推理、长视频延展、多条件控制和吞吐效率。

实时头像生成Tier2

面向说话人或角色视频的低延迟生成，重点是口型、表情、反应和对话状态同步。

T003

实时视频改写

以已有视频流为输入，在低延迟约束下做风格、语义或画面内容改写。它更像直播/视频生产链路中的实时增强层，不以构建持久世界为第一目标。

直播流画面改写Tier2

读取摄像头或直播画面，在低延迟下做风格、身份、场景或语义层面的实时重绘。

T004

数字人链路组合

通过 ASR、LLM、TTS、Avatar 渲染、WebRTC/推流等模块组合交付实时数字人体验。优势是产品化快，约束是端到端延迟和跨模块一致性。

视频 Agent 平台Tier2

把对话、工具调用、语音和视频 Avatar 编排成完整实时 Agent，偏应用平台形态。

实时 Avatar APITier2

提供可嵌入产品的实时数字人视频流，重点是 API、WebRTC、并发和工程稳定性。

单图/全身 AvatarTier2

从单图或角色素材生成互动数字人，侧重全身动作、表情和语义手势。

更新日志

更新记录

3 条记录

2026-07-01

更新本周增量：Alibaba Wan-Streamer 与 HUYA VAM 1.0

自动检索

高

2026-06-30

模型总表新增离线视频分区，开始追踪闭源产品、API 和开源基础模型的能力更新

总表融合

高

2026-06-29

新建平台和整理已知的 26 条实时视频生成 / 实时交互数字人更新

平台初始化

高

AIGC模型每周重点总结

实时视频 / 交互世界 / 数字人模型总表

图片生成模型总表

技术地图

交互式世界模型

实时视频生成模型

实时视频改写

数字人链路组合

更新记录

更新本周增量：Alibaba Wan-Streamer 与 HUYA VAM 1.0

模型总表新增离线视频分区，开始追踪闭源产品、API 和开源基础模型的能力更新

新建平台和整理已知的 26 条实时视频生成 / 实时交互数字人更新