摩尔线程开源音频理解大模型MooER
简介
摩尔线程推出了业界首个基于国产全功能GPU训练和推理的大型开源语音模型MooER。该模型依托于摩尔线程的夸娥智算平台,结合自研算法和计算资源,仅用38小时完成5000小时音频数据训练。
特性
- 支持中文和英文语音识别
- 具备中译英语音翻译能力
- 在多个语音识别领域中表现优异或持平
模型结构
MooER模型结构包括三个部分:编码器、适配器和解码器(LLM)。
- 编码器:对输入音频建模,提取特征和获取表征向量
- 适配器:对编码器输出进行下采样,每120ms输出一组音频嵌入
- 解码器:将音频嵌入和文本嵌入拼接后,执行下游任务(如语音识别、语音翻译)
训练详情
- 训练数据:部分开源数据和内部语音识别伪标签
- 模型参数规模:5000小时数据训练模型(MooER-5K)和8万小时数据训练模型(MooER-80K)
- 训练框架:DeepSpeed
- 精度:BF16
对比结果
MooER与其他开源音频理解大模型(训练规模从几万小时到上百万小时)对比,在多个测试集中取得了以下结果:
- 中文测试集CER:4.21%
- 英文测试集WER:17.98%
- 中译英BLEU:25.2
启示
摩尔线程基于MooER的研究得出以下启示:
- 无监督训练的编码器需要参与训练
- 音频建模粒度对模型效果和收敛速度至关重要
- 基于少量目标垂类数据,可以快速适应到不同任务
- LoRA技术可以加快训练收敛并提升效果
开源代码
MooER代码已开源,可在以下地址获取:
https://github.com/MooreThreads/MooER
技术文档
更多技术细节,请参考技术文档:
https://arxiv.org/pdf/2408.05101