MTVCraft AI 视频生成器表单
输入文本提示生成带同步音频的 MTVCraft 视频
选择您要使用的视频模型
描述图像到视频转换的提示词
MTVCraft AI 视频生成器结果
您生成的视频将显示在下方
您的视频将显示在这里
MTVCraft 的革命性能力
开源 AI 技术搭载多流时序控制技术
三轨音频分离
独立生成语音、音效和背景音乐,实现完美同步
4-6 秒视频生成
创建适合社交媒体、广告和创意实验的短视频
DEMIX 电影数据集
基于高质量电影数据训练,输出专业级效果
完全开源
Apache-2.0 许可证代码,可换模块 - 自定义管道的每个部分
预训练模型可用
Hugging Face 上约 9GB 的预训练权重,可立即使用
学术研究就绪
基于 CVPR 风格研究,在六个指标上达到最先进的对齐分数
支持
关于 MTVCraft 的常见问题
了解开源音频同步视频生成 AI
什么是 MTVCraft?
MTVCraft 是一个开源 AI 视频生成器,可从文本提示创建完美同步的音视频内容。基于 MTV(多流时序控制)框架,它将音频分离为语音、效果和音乐轨道,实现前所未有的同步效果。
如何使用 MTVCraft?
MTVCraft 完全免费和开源!您可以在 mtvcraft.ai 使用网页演示,通过 GitHub (baaivision/MTVCraft) 本地运行,或访问 Hugging Face Space (BAAI/MTVCraft)。所有代码都是 Apache-2.0 许可。
MTVCraft 有什么独特之处?
与商业工具不同,MTVCraft 提供完全开源访问和粒度化音频轨道分离。它独立生成语音、音效和背景音乐,确保完美同步 - 这是 AI 视频生成的突破。
可以用 MTVCraft 创建什么?
MTVCraft 生成 4-6 秒的视频,非常适合社交媒体内容、创意实验、学术研究和自定义 AI 管道。模块化架构允许您替换 TTS 引擎或 LLM 等组件。
MTVCraft 使用什么技术?
MTVCraft 使用 Qwen-3 LLM 生成脚本,ElevenLabs TTS 生成语音,以及基于扩散的 MTV 生成器。它在 DEMIX 电影数据集上训练,在六个对齐指标上达到最先进水平。
如何开始使用?
访问我们的 GitHub 仓库获取安装说明,从 Hugging Face 下载约 9GB 的预训练模型,或简单地试用网页演示。模块化管道让您可以根据需要自定义每个组件。