技术与旋律融合：腾讯发布AI音乐生成模型LeVo，引发业界关注

发布于

2025年06月30日

1127

LeVo：腾讯AI Lab 开源音乐生成模型的技术突破

引言

LeVo（Learning Voice from Music）是腾讯AI Lab 推出的一款开源音乐生成模型，旨在通过人工智能技术革新音乐创作方式。作为 SongGeneration 仓库（https://github.com/tencent-ailab/SongGeneration）的核心实现，LeVo 结合先进的语言模型（LeLM）与高效音乐编解码器，实现了高质量、高灵活性的音乐生成。本文将重点介绍 LeVo 的技术架构、核心功能、应用场景以及其对 AI 音乐创作领域的深远意义。

LeVo 的技术架构

LeVo 模型通过创新的架构设计，实现了音质、音乐性和生成效率的完美平衡。以下是其核心技术亮点：

1. MuCodec：超低比特率音乐编解码器

LeVo 采用了一种名为 MuCodec 的高效音乐编解码器，能够以 25Hz 和 0.35kbps 的超低比特率实现 48kHz 双通道音频的高保真重建。这种低比特率设计大幅降低了计算复杂度，使得语言模型能够专注于音乐语义的建模，同时保留了音频的细节和质感，为高质量音乐生成奠定了基础。

2. 混合与双轨 token 并行预测

LeVo 创新性地引入了“混合优先，双轨其次”的 token 处理策略：

混合 token：将人声与伴奏信息融合，生成和谐统一的音轨，确保整体音乐的连贯性。
双轨 token：分别编码人声和伴奏，提升生成音轨的独立性和清晰度。
通过并行预测两种 token 类型，LeVo 有效避免了 token 间的干扰，显著提升了音质和音乐结构的完整性。

3. 多维度偏好对齐

LeVo 通过半自动数据构建方法，生成大规模偏好数据对，优化了以下关键维度：

音乐性：确保生成的音乐在旋律、节奏和和声上符合预期风格。
歌词对齐：实现歌词与音乐的精准同步，提升歌曲的表达力。
提示一致性：根据用户输入的文本提示，生成符合指定情感、风格和主题的音乐。
这种多维度对齐技术使 LeVo 能够生成高度符合用户意图的音乐作品。

4. 三阶段训练范式

LeVo 采用三阶段训练流程，确保模型的鲁棒性和多样性：

预训练：在包含百万首歌曲的超大规模数据集（如 Million Song Dataset）上进行预训练，学习多样化的音乐结构和风格。
模块化扩展训练：通过模块化方式扩展模型能力，适配不同任务需求。
多偏好对齐训练：利用偏好数据对模型进行微调，提升生成结果的针对性和用户满意度。
这一训练范式使 LeVo 能够处理中英文歌曲等多种音乐类型，生成结果兼具多样性和高质量。

5. 紧凑的 3B 参数模型

LeVo 仅拥有约 30 亿个参数，却在音质、音乐性和生成速度上表现出色。其紧凑的模型规模降低了计算资源需求，使其在普通 GPU（如显存 ≥ 16GB）上即可高效运行，极大降低了使用门槛。

LeVo 的核心功能

LeVo 的设计以用户需求为核心，提供了灵活且直观的音乐生成功能，适用于从专业音乐人到普通爱好者的广泛用户群体。以下是其主要功能：

1. 文本引导的音乐生成

用户可以通过简单的文本提示（如“浪漫的钢琴爵士”或“激昂的摇滚乐”）生成完整的音乐作品。LeVo 能够解析提示中的风格、情感和节奏要求，生成符合预期的音乐，极大地降低了创作门槛。

2. 风格跟随与参考音频

LeVo 支持基于参考音频（建议 10 秒以上，优先选择歌曲高潮部分）生成风格一致的音乐。无论是流行、古典还是民族音乐，LeVo 都能快速捕捉参考音频的风格特征，生成与之匹配的新曲。这一功能特别适合需要快速生成配乐的场景，如视频剪辑或游戏开发。

3. 多轨生成与分离

LeVo 支持将人声和伴奏分离为独立音轨，生成结果可直接用于后期混音或编辑。这种多轨生成能力使 LeVo 从单纯的生成工具升级为专业音乐制作工具，满足复杂创作需求。

4. 歌词与音乐精准对齐

LeVo 接受以 JSON Lines 格式输入的歌词（需标注 [Verse]、[Chorus] 等结构），并实现歌词与音乐的精准对齐。若输入歌词较短，模型会自动填充内容以延长歌曲时长，确保结构完整。这一功能特别适合需要快速生成完整歌曲的场景。

5. 多维度音乐属性控制

LeVo 允许用户通过文本描述控制多种音乐属性，包括：

性别：如男声、女声。
音色：如明亮、温暖、深沉。
流派：如流行、爵士、电子。
情感：如欢乐、悲伤、浪漫。
乐器：如吉他、钢琴、鼓。
BPM：如 120 或 140。
这种精细化的控制能力让用户能够生成高度个性化的音乐作品。

安装与运行

LeVo 的开源实现通过 SongGeneration 仓库提供，安装和运行流程简单，适合开发者和创作者快速上手：

环境要求：
- Python ≥ 3.8.12
- CUDA ≥ 11.8
- GPU 显存 ≥ 16GB（推荐 24GB 以上以获得最佳性能）

安装依赖：

bash 复制代码

pip install -r requirements.txt
pip install -r requirements_nodeps.txt --no-deps

为加速推理，推荐安装 Flash Attention：

bash 复制代码

pip install https://github.com/Dao-AILab/flash-attention/releases/download/v2.7.4.post1/flash_attn-2.7.4.post1+cu12torch2.6cxx11abiFALSE-cp310-cp310-linux_x86_64.whl

Docker 部署：

bash 复制代码

docker pull juhayna/song-generation-levo:hf0613
docker run -it --gpus all --network=host juhayna/song-generation-levo:hf0613 /bin/bash

低内存优化：
对于显存较低的设备，可运行 generate_lowmem.sh 脚本以优化内存使用，避免溢出。

用户还可以通过 Hugging Face 在线 Demo（https://huggingface.co/spaces/tencent/SongGeneration）快速体验 LeVo 的生成效果。

应用场景

LeVo 的高灵活性和高质量输出使其在以下场景中展现出巨大潜力：

音乐创作：为音乐人提供灵感草稿，快速生成高质量的歌曲或配乐原型。
影视与游戏：生成契合主题的背景音乐或音效，提升作品沉浸感。
广告营销：为品牌活动快速生成定制化音乐，增强品牌吸引力。
音乐教育：作为教学工具，帮助学生理解音乐结构和创作技巧。
个人娱乐：普通用户可通过简单输入创作个性化歌曲，分享至社交平台，增加互动乐趣。

性能与评测

LeVo 在主客观评测中表现出色。在与开源模型（如 YuE、DiffRhythm）和商业模型（如 Suno v4.5、Mureka O1）的对比中，LeVo 在内容欣赏度（CE）、内容实用性（CU）和制作质量（PQ）等指标上位居开源模型前列，部分指标甚至接近或超越商业模型。其在歌词对齐和语音-文本一致性上的表现尤为突出，展现了其在细节处理上的技术优势。

社区反响与未来展望

自 2025 年 6 月通过 SongGeneration 仓库开源以来，LeVo 受到社区的广泛关注。X 平台用户反馈显示，LeVo 在中文音乐生成方面表现尤为出色，生成效果接近 Suno 4.5 水平。然而，部分用户指出模型在某些复杂场景下的稳定性有待提升，这可能是由于当前开源版本非完整模型的限制。

未来，LeVo 有望通过以下方向进一步发展：

多语言支持扩展：增强对非中英文音乐风格的支持，覆盖更多全球音乐类型。
模型优化：提升生成稳定性和一致性，减少多次尝试的需要。
社区驱动创新：借助开源社区的力量，开发更多定制化功能和应用场景。

结论

LeVo 作为腾讯AI Lab 的开源力作，以其高效的 MuCodec 编解码器、并行 token 预测和多维度偏好对齐技术，重新定义了 AI 音乐生成的标准。其紧凑的模型规模、强大的功能和用户友好的设计，使其成为音乐创作领域的强大工具。无论是专业音乐人还是普通用户，LeVo 都提供了从灵感激发到完整创作的全面支持。未来，随着社区的持续贡献和技术的迭代，LeVo 有望进一步推动 AI 音乐创作的普及化与多样化，成为全球音乐生态的重要一环。

参考资料：