上海交大李健教授团队联合昇腾AI,基于vLLM-Ascend框架研发出超长上下文推理系统。该系统创新采用KV Cache分级缓存机制,通过智能识别关键数据块、冷热数据分层存储策略,结合昇腾CANN架构动态调度能力,成功突破单卡处理超100万字符长文本的显存与性能瓶颈,推理吞吐量提升超39%。相关代码已在Gitee开源,未来将推动大模型在长文本分析、智能办公等场景的深度应用。...
特别声明:本页面标签名称与页面内容,系网站系统为资讯内容分类自动生成,仅提供资讯内容索引使用,旨在方便用户索引相关资讯报道。如标签名称涉及商标信息,请访问商标品牌官方了解详情,请勿以本站标签页面内容为参考信息,本站与可能出现的商标名称信息不存在任何关联关系,对本页面内容所引致的错误、不确或遗漏,概不负任何法律责任。(反馈错误)