AMD发布首个小语言模型,增强企业部署灵活性
近日,AMD推出了其首个小语言模型(SLM),名为“AMD-135M”。相较于体积庞大的大语言模型(LLM),AMD-135M更加小巧灵活,并具备针对性,非常适合具有高私密性和专业性的企业部署。
AMD-135M小语言模型概览
AMD-135M小模型属于Llama家族,共有两个版本:- 基础型AMD-Llama-135M:拥有6700亿个token,在八块Instinct MIM250 64GB加速器上训练六天。
- 扩展型AMD-Llama-135M-code:额外增加了200亿个针对编程的token,在相同硬件上训练四天。
推测解码:提升性能,降低内存占用
AMD-135M小模型采用了一种称为“推测解码”的方法。该方法通过较小的草稿模型,在一个前向传播中生成多个候选token,然后发送给更大的、更精确的目标模型进行验证或纠正。 这种方法允许同时生成多个token,而不影响性能。此外,它还可以降低内存占用,但由于数据交易量增加,功耗也会随之增加。 AMD利用AMD-Llama-135M-code作为CodeLlama-7b的草稿模型,测试了推测解码的使用效果。- 在MI250加速器上,性能提升最高可达2.8倍。
- 在锐龙AI CPU上,性能提升最高可达3.88倍。
- 在锐龙AI NPU上,性能提升最高可达2.98倍。