开源项目🎬 多流时序控制技术

使用 MTVCraft 创建音频同步视频

开源 AI 技术,从文本提示生成完美同步的音视频内容

🎥 免费开源,由革命性的 MTV 框架驱动

MTVCraft AI 视频生成器表单

输入文本提示生成带同步音频的 MTVCraft 视频

选择您要使用的视频模型

描述图像到视频转换的提示词

MTVCraft AI 视频生成器结果

您生成的视频将显示在下方

您的视频将显示在这里

MTVCraft 的革命性能力

开源 AI 技术搭载多流时序控制技术

三轨音频分离

独立生成语音、音效和背景音乐,实现完美同步

4-6 秒视频生成

创建适合社交媒体、广告和创意实验的短视频

DEMIX 电影数据集

基于高质量电影数据训练,输出专业级效果

完全开源

Apache-2.0 许可证代码,可换模块 - 自定义管道的每个部分

预训练模型可用

Hugging Face 上约 9GB 的预训练权重,可立即使用

学术研究就绪

基于 CVPR 风格研究,在六个指标上达到最先进的对齐分数

支持

关于 MTVCraft 的常见问题

了解开源音频同步视频生成 AI

1

什么是 MTVCraft?

MTVCraft 是一个开源 AI 视频生成器,可从文本提示创建完美同步的音视频内容。基于 MTV(多流时序控制)框架,它将音频分离为语音、效果和音乐轨道,实现前所未有的同步效果。

2

如何使用 MTVCraft?

MTVCraft 完全免费和开源!您可以在 mtvcraft.ai 使用网页演示,通过 GitHub (baaivision/MTVCraft) 本地运行,或访问 Hugging Face Space (BAAI/MTVCraft)。所有代码都是 Apache-2.0 许可。

3

MTVCraft 有什么独特之处?

与商业工具不同,MTVCraft 提供完全开源访问和粒度化音频轨道分离。它独立生成语音、音效和背景音乐,确保完美同步 - 这是 AI 视频生成的突破。

4

可以用 MTVCraft 创建什么?

MTVCraft 生成 4-6 秒的视频,非常适合社交媒体内容、创意实验、学术研究和自定义 AI 管道。模块化架构允许您替换 TTS 引擎或 LLM 等组件。

5

MTVCraft 使用什么技术?

MTVCraft 使用 Qwen-3 LLM 生成脚本,ElevenLabs TTS 生成语音,以及基于扩散的 MTV 生成器。它在 DEMIX 电影数据集上训练,在六个对齐指标上达到最先进水平。

6

如何开始使用?

访问我们的 GitHub 仓库获取安装说明,从 Hugging Face 下载约 9GB 的预训练模型,或简单地试用网页演示。模块化管道让您可以根据需要自定义每个组件。