站长之家 - 业界 2024-10-01 16:36

AMD发布AI小语言模型:6900亿token、推测解码提速3.88倍

AMD推出小语言模型,赋能企业个性化部署

AMD发布首个小语言模型,增强企业部署灵活性

近日,AMD推出了其首个小语言模型(SLM),名为“AMD-135M”。相较于体积庞大的大语言模型(LLM),AMD-135M更加小巧灵活,并具备针对性,非常适合具有高私密性和专业性的企业部署。

AMD-135M小语言模型概览

AMD-135M小模型属于Llama家族,共有两个版本:

  • 基础型AMD-Llama-135M:拥有6700亿个token,在八块Instinct MIM250 64GB加速器上训练六天。
  • 扩展型AMD-Llama-135M-code:额外增加了200亿个针对编程的token,在相同硬件上训练四天。

推测解码:提升性能,降低内存占用

AMD-135M小模型采用了一种称为“推测解码”的方法。该方法通过较小的草稿模型,在一个前向传播中生成多个候选token,然后发送给更大的、更精确的目标模型进行验证或纠正。 这种方法允许同时生成多个token,而不影响性能。此外,它还可以降低内存占用,但由于数据交易量增加,功耗也会随之增加。 AMD利用AMD-Llama-135M-code作为CodeLlama-7b的草稿模型,测试了推测解码的使用效果。

  • 在MI250加速器上,性能提升最高可达2.8倍。
  • 在锐龙AI CPU上,性能提升最高可达3.88倍。
  • 在锐龙AI NPU上,性能提升最高可达2.98倍。

开源资源,促进模型开发

AMD-135M小模型的训练代码、数据集等资源均已开源,遵循Apache 2.0协议。企业和开发者可以根据自己的特定需求和应用场景进行定制和优化。

性能与其他小语言模型的对比

根据AMD的说法,AMD-135M小模型的性能与其他开源小语言模型基本相当或略有领先。在某些任务上,如Hellaswag和SciQ,它甚至超过了Llama-68M和LLama-160M。而在Hellaswag、WinoGrande、SciQ、MMLU和ARC-Easy等其他任务上,其性能与GTP2-124MN和OPT-125M类似。 AMD-135M小语言模型为企业提供了灵活且强大的工具,可以根据其独特需求和业务目标进行定制化部署。其开源特性和与其他模型类似的性能,使其成为企业探索人工智能和语言处理应用的理想选择。
相关话题

推荐关键词

24小时热搜

查看更多内容

大家正在看