站长之家 - 业界 2024-08-24 14:08

摩尔线程开源音频理解大模型MooER:38小时训练5000小时数据

<a href="//m.chinaz.com/tags/703591.shtml" target="_blank">摩尔线程</a>开源<a href="//m.chinaz.com/tags/882313.shtml" target="_blank">音频理解</a>大模型MooER

摩尔线程开源音频理解大模型MooER

简介

摩尔线程推出了业界首个基于国产全功能GPU训练和推理的大型开源语音模型MooER。该模型依托于摩尔线程的夸娥智算平台,结合自研算法和计算资源,仅用38小时完成5000小时音频数据训练。

特性

  • 支持中文和英文语音识别
  • 具备中译英语音翻译能力
  • 在多个语音识别领域中表现优异或持平

模型结构

MooER模型结构包括三个部分:编码器、适配器和解码器(LLM)。

  • 编码器:对输入音频建模,提取特征和获取表征向量
  • 适配器:对编码器输出进行下采样,每120ms输出一组音频嵌入
  • 解码器:将音频嵌入和文本嵌入拼接后,执行下游任务(如语音识别、语音翻译)

训练详情

  • 训练数据:部分开源数据和内部语音识别伪标签
  • 模型参数规模:5000小时数据训练模型(MooER-5K)和8万小时数据训练模型(MooER-80K)
  • 训练框架:DeepSpeed
  • 精度:BF16

对比结果

MooER与其他开源音频理解大模型(训练规模从几万小时到上百万小时)对比,在多个测试集中取得了以下结果:

  • 中文测试集CER:4.21%
  • 英文测试集WER:17.98%
  • 中译英BLEU:25.2

启示

摩尔线程基于MooER的研究得出以下启示:

  • 无监督训练的编码器需要参与训练
  • 音频建模粒度对模型效果和收敛速度至关重要
  • 基于少量目标垂类数据,可以快速适应到不同任务
  • LoRA技术可以加快训练收敛并提升效果

开源代码

MooER代码已开源,可在以下地址获取:
https://github.com/MooreThreads/MooER

技术文档

更多技术细节,请参考技术文档:
https://arxiv.org/pdf/2408.05101

推荐关键词

24小时热搜

查看更多内容

大家正在看