快速解答
AI 人声分离器使用深度神经网络将人声从歌曲的器乐伴奏中分离出来。最好的免费选项是Ultimate Vocal Remover (UVR)——一款支持 MDX-Net 和 Demucs 模型的桌面应用。BandLab Splitter 等免费浏览器工具也可使用,无需安装。
AI 人声分离的实际工作原理
老式的卡拉 OK 技巧——相位消除——通过反转一个立体声声道来消除居中声像的内容。听起来简单因为它确实简单:任何在两个声道中不完全相同的内容都会完整保留,这意味着在任何带有混响、立体声加宽或背景和声的现代混音中,人声会严重泄漏。结果是一个空洞、相位失真的器乐,很少能用。
AI 人声分离器基于完全不同的原理工作。Demucs[1] 和 MDX-Net[2] 等模型是在大量已分离分轨数据集上训练的深度神经网络。给定一个混合音频文件,网络预测各个分轨——人声、鼓、低音、其他乐器——在混合之前的样子(或声音)。没有相位技巧,没有 EQ 切割:模型基于学习到的模式做出有根据的估计。
Hybrid Demucs v4 是当前最先进的架构,同时在时域(原始波形)和频域(频谱图)中工作,在单个模型中结合了时间精度和频率分辨率。[2] 结果:干净的器乐和人声分轨,比任何 AI 之前的方法产生的伪影少得多。
最佳免费工具一览
工具格局分为两大阵营:本地安装的桌面应用(更强大,更多设置)和基于浏览器的工具(即时,无需安装,但有使用限制或质量折衷)。下表涵盖了最好的真正免费选项。
| 工具 | 平台 | 免费限制 | 分轨 | 最适合 |
|---|---|---|---|---|
| Ultimate Vocal Remover (UVR)[3] | 桌面(Win / Mac / Linux) | 无限——完全免费开源 | 人声、鼓、低音、钢琴、吉他、其他 | 想要最高质量并完全控制模型的制作人 |
| BandLab Splitter[4] | 网页 + 移动端 | 免费层级无限上传(4 分轨) | 人声、鼓、低音、其他(付费版 7 分轨) | 无需安装的快速浏览器分离 |
| vocalremover.org[5] | 网页 | 免费有每日使用限制;付费去除限制 | 人声 + 器乐(2 分轨) | 一次性使用、卡拉 OK 制作 |
| Moises[6] | 网页 + 移动端(iOS / Android) | 每月 5 次上传,每首最长 5 分钟(免费层级) | 人声、鼓、低音、其他(付费更多) | 移动端使用、偶尔人声练习 |
Ultimate Vocal Remover:免费桌面标准
Ultimate Vocal Remover (UVR) 是一款免费、MIT 许可的开源桌面应用,适用于 Windows、macOS 和 Linux。[3] 它是经常处理分轨的制作人的首选,因为没有上传限制、没有订阅、没有服务器施加的质量上限。
该应用在一个界面下捆绑了三种独立的 AI 架构:VR Architecture(原始 UVR 神经网络)、MDX-Net(包括 ZFTurbo 训练的较新 MDX23C 模型)和 Demucs(v1 到 v4,包括 Hybrid Demucs)。[7] 不同模型对不同类型的处理效果不同——Demucs v4 倾向于在摇滚和流行上表现良好,而 MDX-Net 模型在处理过度的嘻哈人声时可能略胜一筹,所以在棘手的音轨上尝试两种模型是常见工作流。
集成模式让你同时运行多个模型并混合它们的输出——这种技术可明显减少困难素材上的伪影。支持 NVIDIA、AMD Radeon 和 Intel Arc 显卡的 GPU 加速(NVIDIA GPU 处理最低需要 GTX 1060 6 GB)。[7]
如何使用 UVR:分步指南
- 下载并安装 UVR
前往 ultimatevocalremover.com 下载适用于你的操作系统(Windows 10+、macOS Big Sur+ 或 Linux)的安装程序。[3] 安装程序捆绑了应用本身;AI 模型需要在应用内单独下载。 - 下载你的第一个 AI 模型
打开 UVR 并进入设置 → 下载中心。对于大多数素材,从 MDX-Net — UVR-MDX-NET-Voc-FT(人声)或 Demucs v4 (htdemucs)(完整 4 分轨分离)开始。下载大小为几百 MB,选择模型后自动开始。 - 导入你的音频文件
将你的音轨拖入主窗口,或使用选择输入按钮。UVR 支持 MP3、WAV、FLAC、OGG 以及 FFmpeg 可读的任何其他格式。[7] - 选择模型和输出格式
从下拉菜单选择 AI 模型。设置输出文件夹和首选格式(WAV 无损,MP3 文件更小)。对于简单的人声/器乐分离,选择 2 分轨人声模型。对于将鼓、低音和其他乐器分离为独立文件,选择 4 分轨 Demucs 模型。 - 运行分离
点击开始处理。在现代 CPU 上,一首 3 分钟的音轨通常需要 1-3 分钟(无 GPU 加速)。在设置中启用兼容 GPU 后,同一音轨可在 30 秒内处理完成。进度显示在状态栏中。 - 获取你的分轨
UVR 将分离的分轨保存到你选择的输出文件夹。你至少会有一个器乐和一个人声文件。如果运行了集成模式,还会保存一个混合输出文件。导入你选择的 DAW 并在暴露的部分检查伪影。 - 对困难音轨尝试集成模式
如果第一次处理有可听伪影——混响泄漏、低频串扰、幽灵泛音——切换到集成模式并选择两到三个不同模型。UVR 将运行所有模型并合并结果,这通常能减少困难素材上的伪影。
基于浏览器的选项:不想安装桌面应用时
并非每个工作流都需要本地安装。如果你在借用的机器上工作、使用平板电脑,或者只需要快速分离而不想配置软件,浏览器工具是最快的途径。
- BandLab Splitter 最慷慨的免费浏览器选项:免费层级无限上传,可分离为 2 或 4 个分轨(人声、鼓、低音、其他)。[4] 支持网页和移动端。BandLab 付费会员($1.99/月)可解锁最多 7 个分轨、吉他和弦乐分离以及 MIDI 分轨导出。无需注册即可在 bandlab.com/splitter 试用。
- vocalremover.org 一个长期运行的免费浏览器工具,从任何上传的文件输出卡拉 OK 曲目(器乐)和清唱(隔离人声)。[5] 免费层级有每用户每日使用限制;付费会员可去除这些限制。界面极简——上传、等待、下载——是偶尔一次性分离的最快选项。
- Moises 在网页、iOS 和 Android 上提供强大的 AI 分离。[6] 免费计划限制每月 5 次上传,每首最长 5 分钟,仅导出 MP3 或 M4A。适合练习和移动工作流;免费限制使其不适合经常性制作使用而不升级。
预期效果:质量、伪影和类型差异
现代 AI 分离在干净的工作室录音上表现良好——主唱居中声像、乐器占据可预测频率范围——这种素材在流行、R&B 和嘻哈中很常见。在这类音轨上,你可以期望得到一个可用的器乐,人声泄漏极少,以及保留大部分人声特征的清唱。
伪影是所有当前分离工具的诚实局限。最常见的是:混响尾音泄漏(一些来自人声的房间声音泄漏到器乐中)、与人声范围重叠严重的乐器上的频率涂抹(200-800 Hz 附近的钢琴和弦是常见的受害者)以及清唱上的幽灵泛音——未完全分离的微弱音符。这些伪影是估计过程的可预测副作用,不是任何特定工具的错误。
类型差异很大。稀疏的编曲——独奏钢琴、原声吉他和人声、极简灵魂乐——往往分离更干净,因为人声和乐器之间的频谱对比度高。多个部分同时占据同一频率区域的音轨(密集弦乐、叠层合成器、在中频竞争的失真吉他)对任何模型都更难。带有原声乐器串扰的现场录音是最困难的类别。
获得更干净结果的技巧
使用 WAV 或 FLAC 作为源文件。MP3 压缩在 AI 开始之前就引入了伪影;输入中的信号信息越多,模型的估计越好。始终使用你拥有的最高质量版本。
在同一音轨上尝试多个模型。UVR 使这变得容易:运行 Demucs v4,然后运行 MDX-Net 模型,听哪个器乐伪影更少。不同架构在同一素材上会犯不同的错误。
在 DAW 中对分轨进行后期处理。一个窄动态 EQ 来捕捉人声泄漏最明显的 2-4 kHz 范围,可以在不影响混音平衡的情况下进一步清理器乐。将 AI 输出视为起点,而非成品。
制作人实际用人声分离器做什么
- 卡拉 OK 曲目 原始用例:提取器乐让歌手可以对着原始编曲练习或现场表演。即使是略微不完美的分离也比通用 MIDI 重现有用得多。
- 采样和插值练习 隔离人声 hook 以研究措辞、音高和节奏,然后再尝试复制。分离的器乐让你听到单独的编曲选择——没有混音的鼓 groove、没有和弦的低音进行。
- 人声练习和听力训练 歌手使用隔离的器乐对着原始录音练习而不需要引导人声,或提取人声分轨来分析表演的音高和气息控制。
- 混音和串烧起点 分离的清唱或器乐为你提供了非官方混音和串烧项目的粗略起点。在发行结果之前请参阅下方的法律说明。
- 分轨恢复 如果你只有自己会话的立体声混音且原始项目文件丢失,AI 分离可以恢复粗略的分轨以供进一步工作。结果会有伪影,但从混音中恢复可用的人声或鼓音轨是可以实现的。
法律说明:提取的清唱和器乐
AI 处理不会改变源素材的版权所有者。当你从受版权保护的歌曲中提取器乐时,生成的文件仍然是该受版权保护作品的衍生品——AI 没有创作新作品,它只是估计了已经存在的内容。在未获得许可的情况下发行、发布或商业利用你未创作或未授权的歌曲的提取清唱或器乐,与未经授权使用原始录音具有相同的法律风险。[8]
合理使用可以在有限的情况下适用——教育、评论或变革性作品——但这是逐案法律判断,不是万能盾牌。如果你正在构建使用第三方录音提取分轨的公开发布作品,请在发布前咨询熟悉音乐版权的律师。
最明确的安全用途是个人练习、听力训练以及使用你自己拥有或已获得许可的录音。在你自己会话导出的混音上使用 UVR,或处理你已授权的免版税素材,不会引起版权问题。
在 Plugg Supply 上浏览免费音乐制作软件——精选工具,无水分。
浏览免费下载学习路径
相关答案中心
Related catalog
More software from the catalog
More software from the Plugg Supply feed, ranked by catalog popularity.