北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

要点:
1. 北大和微软亚洲研究院的研究人员提出了首个多轮多模态PPT任务完成基准PPTC，以评估大型语言模型在复杂多模态环境中的性能。
2. 评估表明，GPT-4是在创建新PPT文档任务中表现最强的模型，但仍然存在挑战，如错误累积、处理长PPT模板的能力差，以及多模态指令的复杂性。
3. 进一步的算法和方法如计划算法和API选择算法可以提高大模型在PPTC上的性能，但思维树等方法并没有显著改进性能。

站长之家（ChinaZ.com）11月7日消息:北大和微软亚洲研究院的研究人员提出了一项新的评估基准PPTC，旨在评估大型语言模型在复杂多轮多模态PPT任务中的表现。

他们通过创建包含数百个多模态指令的数据集，挑战大模型在多轮人机对话中生成PPT文档的能力。结果显示，GPT-4在创建新PPT文档任务中表现良好，达到了75%的轮次层面正确率，但仍然面临三个主要挑战。

项目地址:https://github.com/gydpku/PPTC

首先，错误累积导致大模型在单元层面的表现不佳。其次，大模型处理长PPT模板的能力有限，导致编辑任务的错误。最后，多模态指令增加了任务的复杂性，特别是涉及到空间位置操作的指令。

研究人员还尝试了不同的算法和方法，如计划算法和API选择算法，以提高性能，但发现思维树等方法并没有明显改进性能。这项研究为理解大型语言模型在多模态环境中的表现提供了有益的见解，同时也提出了未来的挑战和改进方向。

鸿蒙版新闻阅读App年度答卷：从“能用”到“好用”，体验给满分

2025-12-313615阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

北大推出首个多轮多模态PPT任务完成基准PPTC GPT-4完成正确率仅6%

推荐关键词

24小时热搜

大家正在看

最像 Anthropic 的中国 AI 公司，是MiniMax

AI日报：Meta宣布收购Manus；腾讯混元发布1.5版开源翻译模型；OpenAI更新手机版ChatGPT

不装了！不能帮GPU分担向量数据库的CPU不是好至强

AI日报：火山引擎成春晚独家AI合作伙伴；元宝 AI上线任务提醒；开源神器ClipSketchAI视频一键变手绘分镜

爱诗科技×BytePlus：加速AI视频一键成片

海尔冰箱颠覆性技术新品上市即成TOP1

联想LTPC 2025：“天禧AI生态智能体先导计划”赋能开发者掘金智能体个人AI时代

冲上TOP2后，海尔空调又获节能科技一等奖

AI日报：腾讯开源3D动作神器混元Motion1.0；罗永浩发布AI讲书App“且听”；夸克AI眼镜首次OTA

比GPT更懂图表!镝数推出国内领先可编辑AI Agent可视化平台

海尔洗衣机2025份额再增长蝉联TOP1

REDMI Note 15 Pro+新春版摩卡棕配色公布

荣耀亲选iotapk AI通话耳机官宣1月5日发布

前瞻CES 2026，TCL蝉联参展面积最大的中国企业

OPPO Pad Air5上架开启预售：售价1899元起

鸿蒙版新闻阅读App年度答卷：从“能用”到“好用”，体验给满分

REDMI Turbo 5 Pro入网：首次搭载天玑9系旗舰芯！同档最强

2025年动漫播放量TOP10出炉：《凡人修仙传》第一

直击新手痛点！佳能PowerShot V1评测：画质碾压手机、操作一键搞定

用鸿蒙一年才懂：这些创新功能，重新定义了社交App的好用程度