使用 MTVCraft 创建音频同步视频

开源 AI 技术，从文本提示生成完美同步的音视频内容

🎥 免费开源，由革命性的 MTV 框架驱动

MTVCraft AI 视频生成器表单

输入文本提示生成带同步音频的 MTVCraft 视频

视频模型

选择您要使用的视频模型

提示词

描述图像到视频转换的提示词

您生成的视频将显示在下方

您的视频将显示在这里

开源 AI 技术搭载多流时序控制技术

独立生成语音、音效和背景音乐，实现完美同步

创建适合社交媒体、广告和创意实验的短视频

基于高质量电影数据训练，输出专业级效果

Apache-2.0 许可证代码，可换模块 - 自定义管道的每个部分

Hugging Face 上约 9GB 的预训练权重，可立即使用

基于 CVPR 风格研究，在六个指标上达到最先进的对齐分数

支持

了解开源音频同步视频生成 AI

MTVCraft 是一个开源 AI 视频生成器，可从文本提示创建完美同步的音视频内容。基于 MTV（多流时序控制）框架，它将音频分离为语音、效果和音乐轨道，实现前所未有的同步效果。

MTVCraft 完全免费和开源！您可以在 mtvcraft.ai 使用网页演示，通过 GitHub (baaivision/MTVCraft) 本地运行，或访问 Hugging Face Space (BAAI/MTVCraft)。所有代码都是 Apache-2.0 许可。

与商业工具不同，MTVCraft 提供完全开源访问和粒度化音频轨道分离。它独立生成语音、音效和背景音乐，确保完美同步 - 这是 AI 视频生成的突破。

MTVCraft 生成 4-6 秒的视频，非常适合社交媒体内容、创意实验、学术研究和自定义 AI 管道。模块化架构允许您替换 TTS 引擎或 LLM 等组件。

MTVCraft 使用 Qwen-3 LLM 生成脚本，ElevenLabs TTS 生成语音，以及基于扩散的 MTV 生成器。它在 DEMIX 电影数据集上训练，在六个对齐指标上达到最先进水平。

访问我们的 GitHub 仓库获取安装说明，从 Hugging Face 下载约 9GB 的预训练模型，或简单地试用网页演示。模块化管道让您可以根据需要自定义每个组件。