苹果研究：将有限内存推理速度提高25倍

站长之家（ChinaZ.com）12月21日消息:近年来，大型语言模型（LLMs）在自然语言处理任务中表现卓越，但其对计算和内存的高需求对于内存有限的设备构成了挑战。

本文提出了一种在设备内存有限的情况下，通过将模型参数存储在闪存中，并在推断时按需将其加载到DRAM，实现了高效运行LLMs的方法。

论文地址:https://arxiv.org/pdf/2312.11514.pdf

方法包括构建与闪存内存行为协调的推断成本模型，通过减少从闪存传输的数据量和以更大、更连续的块读取数据的方式进行优化。

在这个框架内，引入了两种关键技术:窗口化策略通过重用先前激活的神经元来减少数据传输，行列捆绑技术通过适应闪存的顺序数据访问增加了从闪存读取的数据块的大小。

这两种方法使得能够运行比可用DRAM容量大两倍的模型，相较于朴素加载方法，CPU和GPU的推断速度分别提高了4-5倍和20-25倍。同时，结合稀疏感知、上下文自适应加载和硬件导向设计，为在内存有限的设备上进行LLMs推断打开了新的可能性。

LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

2024-04-291.8万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

苹果研究：将有限内存推理速度提高25倍

推荐关键词

24小时热搜

大家正在看

LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

Hugging Face 发布医疗任务评估基准Open Medical-LLM

微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线

Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

LLaVA++：为Phi-3和Llama-3模型增加视觉处理能力

LPL今晚首秀！《英雄联盟》2024 MSI入围赛：TES迎战巴西劲旅LLL

WebLlama：基于Llama-3-8B的智能网页浏览代理

OpenAI图像生成器DALL-E2停止服务，DALL-E3接替其位置

AI小镇现在可以通过Llama3在本地运行支持Convex、Ollama等服务器

Llama 3细节公布！AI产品总监站台讲解：Llama系列超庞大生态系统

仁懋电子新品TOLL封装之储能产品

OpenAI推出DALL·E 3识别器、媒体管理器

Gorq推出iOS应用支持Llama3、Gemma等

ELLA官网体验入口腾讯AI文本到图像语义对齐工具使用介绍

SmallAI：成功接入最新AI音乐模型：Suno-V3，可无限制使用！

OpenAI 正开发新的 AI 图像检测工具预测照片是否由DALL-E3生成

SmallAI：接入微软新版必应，可切换创意/平衡/精确三种模式

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

苹果研究：将有限内存推理速度提高25倍

推荐关键词

24小时热搜

大家正在看

LLM上下文窗口突破200万！无需架构变化+复杂微调，轻松扩展8倍

Hugging Face 发布医疗任务评估基准Open Medical-LLM

微软LongRoPE方法让LLM上下文窗口突破 200 万 8倍扩展还保持性能

开源多模态LLM InternVL 1.5：具备OCR能力 可解读4K图片

国内百模谁第一？清华14大LLM最新评测报告出炉，GLM-4、文心4.0站在第一梯队

开源模型打败GPT-4！LLM竞技场最新战报，Cohere Command R+上线

Claude 3说服力堪比人类！Anthropic最新研究揭秘LLM惊人能力

LLaVA++：为Phi-3和Llama-3模型增加视觉处理能力

LPL今晚首秀！《英雄联盟》2024 MSI入围赛：TES迎战巴西劲旅LLL

WebLlama：基于Llama-3-8B的智能网页浏览代理

OpenAI图像生成器DALL-E2停止服务，DALL-E3接替其位置

AI小镇现在可以通过Llama3在本地运行 支持Convex、Ollama等服务器

Llama 3细节公布！AI产品总监站台讲解：Llama系列超庞大生态系统

仁懋电子新品TOLL封装之储能产品

OpenAI推出DALL·E 3识别器、媒体管理器

Gorq推出iOS应用 支持Llama3、Gemma等

ELLA官网体验入口 腾讯AI文本到图像语义对齐工具使用介绍

SmallAI：成功接入最新AI音乐模型：Suno-V3，可无限制使用！

OpenAI 正开发新的 AI 图像检测工具 预测照片是否由DALL-E3生成

SmallAI：接入微软新版必应，可切换创意/平衡/精确三种模式

开源多模态LLM InternVL 1.5：具备OCR能力可解读4K图片

AI小镇现在可以通过Llama3在本地运行支持Convex、Ollama等服务器

Gorq推出iOS应用支持Llama3、Gemma等

ELLA官网体验入口腾讯AI文本到图像语义对齐工具使用介绍

OpenAI 正开发新的 AI 图像检测工具预测照片是否由DALL-E3生成