免费 AI 人声分离指南：2026 年去除或隔离人声

快速解答

AI 人声分离器使用深度神经网络将人声从歌曲的器乐伴奏中分离出来。最好的免费选项是Ultimate Vocal Remover (UVR)——一款支持 MDX-Net 和 Demucs 模型的桌面应用。BandLab Splitter 等免费浏览器工具也可使用，无需安装。

AI 人声分离的实际工作原理

老式的卡拉 OK 技巧——相位消除——通过反转一个立体声声道来消除居中声像的内容。听起来简单因为它确实简单：任何在两个声道中不完全相同的内容都会完整保留，这意味着在任何带有混响、立体声加宽或背景和声的现代混音中，人声会严重泄漏。结果是一个空洞、相位失真的器乐，很少能用。

AI 人声分离器基于完全不同的原理工作。Demucs^[1] 和 MDX-Net^[2] 等模型是在大量已分离分轨数据集上训练的深度神经网络。给定一个混合音频文件，网络预测各个分轨——人声、鼓、低音、其他乐器——在混合之前的样子（或声音）。没有相位技巧，没有 EQ 切割：模型基于学习到的模式做出有根据的估计。

Hybrid Demucs v4 是当前最先进的架构，同时在时域（原始波形）和频域（频谱图）中工作，在单个模型中结合了时间精度和频率分辨率。^[2] 结果：干净的器乐和人声分轨，比任何 AI 之前的方法产生的伪影少得多。

最佳免费工具一览

工具格局分为两大阵营：本地安装的桌面应用（更强大，更多设置）和基于浏览器的工具（即时，无需安装，但有使用限制或质量折衷）。下表涵盖了最好的真正免费选项。

工具	平台	免费限制	分轨	最适合
Ultimate Vocal Remover (UVR)^[3]	桌面（Win / Mac / Linux）	无限——完全免费开源	人声、鼓、低音、钢琴、吉他、其他	想要最高质量并完全控制模型的制作人
BandLab Splitter^[4]	网页 + 移动端	免费层级无限上传（4 分轨）	人声、鼓、低音、其他（付费版 7 分轨）	无需安装的快速浏览器分离
vocalremover.org^[5]	网页	免费有每日使用限制；付费去除限制	人声 + 器乐（2 分轨）	一次性使用、卡拉 OK 制作
Moises^[6]	网页 + 移动端（iOS / Android）	每月 5 次上传，每首最长 5 分钟（免费层级）	人声、鼓、低音、其他（付费更多）	移动端使用、偶尔人声练习

Ultimate Vocal Remover：免费桌面标准

Ultimate Vocal Remover (UVR) 是一款免费、MIT 许可的开源桌面应用，适用于 Windows、macOS 和 Linux。^[3] 它是经常处理分轨的制作人的首选，因为没有上传限制、没有订阅、没有服务器施加的质量上限。

该应用在一个界面下捆绑了三种独立的 AI 架构：VR Architecture（原始 UVR 神经网络）、MDX-Net（包括 ZFTurbo 训练的较新 MDX23C 模型）和 Demucs（v1 到 v4，包括 Hybrid Demucs）。^[7] 不同模型对不同类型的处理效果不同——Demucs v4 倾向于在摇滚和流行上表现良好，而 MDX-Net 模型在处理过度的嘻哈人声时可能略胜一筹，所以在棘手的音轨上尝试两种模型是常见工作流。

集成模式让你同时运行多个模型并混合它们的输出——这种技术可明显减少困难素材上的伪影。支持 NVIDIA、AMD Radeon 和 Intel Arc 显卡的 GPU 加速（NVIDIA GPU 处理最低需要 GTX 1060 6 GB）。^[7]

如何使用 UVR：分步指南

下载并安装 UVR
前往 ultimatevocalremover.com 下载适用于你的操作系统（Windows 10+、macOS Big Sur+ 或 Linux）的安装程序。^[3] 安装程序捆绑了应用本身；AI 模型需要在应用内单独下载。
下载你的第一个 AI 模型
打开 UVR 并进入设置 → 下载中心。对于大多数素材，从 MDX-Net — UVR-MDX-NET-Voc-FT（人声）或 Demucs v4 (htdemucs)（完整 4 分轨分离）开始。下载大小为几百 MB，选择模型后自动开始。
导入你的音频文件
将你的音轨拖入主窗口，或使用选择输入按钮。UVR 支持 MP3、WAV、FLAC、OGG 以及 FFmpeg 可读的任何其他格式。^[7]
选择模型和输出格式
从下拉菜单选择 AI 模型。设置输出文件夹和首选格式（WAV 无损，MP3 文件更小）。对于简单的人声/器乐分离，选择 2 分轨人声模型。对于将鼓、低音和其他乐器分离为独立文件，选择 4 分轨 Demucs 模型。
运行分离
点击开始处理。在现代 CPU 上，一首 3 分钟的音轨通常需要 1-3 分钟（无 GPU 加速）。在设置中启用兼容 GPU 后，同一音轨可在 30 秒内处理完成。进度显示在状态栏中。
获取你的分轨
UVR 将分离的分轨保存到你选择的输出文件夹。你至少会有一个器乐和一个人声文件。如果运行了集成模式，还会保存一个混合输出文件。导入你选择的 DAW 并在暴露的部分检查伪影。
对困难音轨尝试集成模式
如果第一次处理有可听伪影——混响泄漏、低频串扰、幽灵泛音——切换到集成模式并选择两到三个不同模型。UVR 将运行所有模型并合并结果，这通常能减少困难素材上的伪影。

基于浏览器的选项：不想安装桌面应用时

并非每个工作流都需要本地安装。如果你在借用的机器上工作、使用平板电脑，或者只需要快速分离而不想配置软件，浏览器工具是最快的途径。

BandLab Splitter 最慷慨的免费浏览器选项：免费层级无限上传，可分离为 2 或 4 个分轨（人声、鼓、低音、其他）。^[4] 支持网页和移动端。BandLab 付费会员（$1.99/月）可解锁最多 7 个分轨、吉他和弦乐分离以及 MIDI 分轨导出。无需注册即可在 bandlab.com/splitter 试用。
vocalremover.org 一个长期运行的免费浏览器工具，从任何上传的文件输出卡拉 OK 曲目（器乐）和清唱（隔离人声）。^[5] 免费层级有每用户每日使用限制；付费会员可去除这些限制。界面极简——上传、等待、下载——是偶尔一次性分离的最快选项。
Moises 在网页、iOS 和 Android 上提供强大的 AI 分离。^[6] 免费计划限制每月 5 次上传，每首最长 5 分钟，仅导出 MP3 或 M4A。适合练习和移动工作流；免费限制使其不适合经常性制作使用而不升级。

预期效果：质量、伪影和类型差异

现代 AI 分离在干净的工作室录音上表现良好——主唱居中声像、乐器占据可预测频率范围——这种素材在流行、R&B 和嘻哈中很常见。在这类音轨上，你可以期望得到一个可用的器乐，人声泄漏极少，以及保留大部分人声特征的清唱。

伪影是所有当前分离工具的诚实局限。最常见的是：混响尾音泄漏（一些来自人声的房间声音泄漏到器乐中）、与人声范围重叠严重的乐器上的频率涂抹（200-800 Hz 附近的钢琴和弦是常见的受害者）以及清唱上的幽灵泛音——未完全分离的微弱音符。这些伪影是估计过程的可预测副作用，不是任何特定工具的错误。

类型差异很大。稀疏的编曲——独奏钢琴、原声吉他和人声、极简灵魂乐——往往分离更干净，因为人声和乐器之间的频谱对比度高。多个部分同时占据同一频率区域的音轨（密集弦乐、叠层合成器、在中频竞争的失真吉他）对任何模型都更难。带有原声乐器串扰的现场录音是最困难的类别。

获得更干净结果的技巧

使用 WAV 或 FLAC 作为源文件。MP3 压缩在 AI 开始之前就引入了伪影；输入中的信号信息越多，模型的估计越好。始终使用你拥有的最高质量版本。

在同一音轨上尝试多个模型。UVR 使这变得容易：运行 Demucs v4，然后运行 MDX-Net 模型，听哪个器乐伪影更少。不同架构在同一素材上会犯不同的错误。

在 DAW 中对分轨进行后期处理。一个窄动态 EQ 来捕捉人声泄漏最明显的 2-4 kHz 范围，可以在不影响混音平衡的情况下进一步清理器乐。将 AI 输出视为起点，而非成品。

制作人实际用人声分离器做什么

卡拉 OK 曲目 原始用例：提取器乐让歌手可以对着原始编曲练习或现场表演。即使是略微不完美的分离也比通用 MIDI 重现有用得多。
采样和插值练习 隔离人声 hook 以研究措辞、音高和节奏，然后再尝试复制。分离的器乐让你听到单独的编曲选择——没有混音的鼓 groove、没有和弦的低音进行。
人声练习和听力训练 歌手使用隔离的器乐对着原始录音练习而不需要引导人声，或提取人声分轨来分析表演的音高和气息控制。
混音和串烧起点 分离的清唱或器乐为你提供了非官方混音和串烧项目的粗略起点。在发行结果之前请参阅下方的法律说明。
分轨恢复 如果你只有自己会话的立体声混音且原始项目文件丢失，AI 分离可以恢复粗略的分轨以供进一步工作。结果会有伪影，但从混音中恢复可用的人声或鼓音轨是可以实现的。

法律说明：提取的清唱和器乐

合理使用可以在有限的情况下适用——教育、评论或变革性作品——但这是逐案法律判断，不是万能盾牌。如果你正在构建使用第三方录音提取分轨的公开发布作品，请在发布前咨询熟悉音乐版权的律师。

最明确的安全用途是个人练习、听力训练以及使用你自己拥有或已获得许可的录音。在你自己会话导出的混音上使用 UVR，或处理你已授权的免版税素材，不会引起版权问题。

在 Plugg Supply 上浏览免费音乐制作软件——精选工具，无水分。

浏览免费下载

学习路径

More software from the catalog

More software from the Plugg Supply feed, ranked by catalog popularity.

Browse Software

1天

新品

24小时可获取

软件

Mercurial Tones Bundle VST3 [WiN]

1 天前探索

1天

新品

可获取

软件

Audiority VertiVerb VRS23 v1.0.1 [WiN]

1 天前探索

2天

新品

免费

软件

Iceberg Audio The Sub v1.5.3 [WiN]

2 天前探索

3天

新品

可获取

软件

Basic Wavez Shake and Bake v1.0.1 [WiN]

3 天前探索

常见问题

2026 年最好的免费人声分离器是什么？

Ultimate Vocal Remover (UVR) 在质量和控制方面是最好的免费选项——它完全免费、开源、本地运行且无上传限制。<a href="https://github.com/Anjok07/ultimatevocalremovergui" target="_blank" rel="noopener">[3]</a> 对于无需安装的浏览器使用，BandLab Splitter 在其免费层级上提供无限免费分离。<a href="https://blog.bandlab.com/splitter/" target="_blank" rel="noopener">[4]</a>

AI 人声分离与老式相位消除方法有什么不同？

相位消除反转一个立体声声道来消除居中声像的内容——它只移除在两个声道中完全相同的信号，这在现代制作中很少见。Demucs 和 MDX-Net 等 AI 模型是训练过的神经网络，它们预测每个分轨在混合前的样子，产生更干净的结果，泄漏更少，且没有空洞的立体声伪影。<a href="https://arxiv.org/abs/2111.03600" target="_blank" rel="noopener">[2]</a>

在我的音乐中使用提取的器乐或清唱合法吗？

使用 AI 提取不会改变版权所有权。从受版权保护的音轨提取的器乐仍然是该作品的衍生品，未经许可发行或商业发行属于侵权。<a href="https://www.silvermansound.com/ai-music-copyright-legal-risks-content-creators" target="_blank" rel="noopener">[8]</a> 个人练习、听力训练和处理你自己的录音是最明确的安全用途。

没有 GPU 可以使用 UVR 吗？

可以。UVR 默认在 CPU 上处理音频。GPU 加速（NVIDIA、AMD Radeon 或 Intel Arc）是可选的，可以显著加快处理速度——NVIDIA GPU 模式最低需要 GTX 1060 6 GB<a href="https://github.com/Anjok07/ultimatevocalremovergui/releases/tag/v5.6" target="_blank" rel="noopener">[7]</a>——但应用在没有 GPU 的情况下完全可用，只是处理长文件时较慢。

为什么我提取的器乐仍然有人声伪影？

AI 分离是一种估计，而非无损反转。混响尾音、偏离中心的背景和声以及与人声占据相同频率范围的乐器会部分泄漏。使用 UVR 的集成模式——混合多个模型输出——通常能减少这些伪影。使用高质量 WAV 或 FLAC 源而非压缩的 MP3 也有帮助。

基于浏览器的人声分离器免费层级有什么限制？

BandLab Splitter 在其免费层级上提供无限上传，最多 4 个分轨。<a href="https://blog.bandlab.com/splitter/" target="_blank" rel="noopener">[4]</a> Moises 将免费用户限制为每月 5 次上传，每首最长 5 分钟。<a href="https://moises.ai/features/vocal-remover/" target="_blank" rel="noopener">[6]</a> vocalremover.org 在免费层级有每日使用限制，之后会提示付费账户。<a href="https://vocalremover.org/" target="_blank" rel="noopener">[5]</a>

UVR 支持 Mac 和 Linux 吗，还是只有 Windows？

UVR 支持 Windows 10 或更高版本、macOS Big Sur 及以上版本以及 Linux（Debian 和 Arch 系统）。所有平台使用相同的 AI 模型集。在所有支持的操作系统上，应用仅限 64 位。<a href="https://github.com/Anjok07/ultimatevocalremovergui" target="_blank" rel="noopener">[3]</a>