OpenAI开启调查：GPT-4o及4o-mini模型性能下降

快科技1月20日消息，据报道，OpenAI发布事故报告指出，当前遭遇GPT-4o和4o-mini模型性能下降问题，目前正在进行调查，并将尽快发布最新消息。

近期，科研人员创新性地推出了一项名为LONGPROC的基准测试工具，该工具专为评估模型在处理长上下文中的复杂信息并生成相应回复的能力而设计。

实验结果略显意外:包括GPT-4o在内的众多顶尖模型，虽然在常规长上下文回忆基准测试中表现优异，但在应对复杂的长文本生成任务时，仍暴露出显著的改进需求。

OpenAI ChatGPT，人工智能，AI

具体而言，尽管所有参测模型均宣称其上下文窗口大小超过32K tokens，但实际情况却大相径庭。开源模型在处理仅含2K tokens的任务时便显露疲态，而诸如GPT-4o等闭源模型，在应对8K tokens任务时性能也明显下滑。

以GPT-4o为例，在要求其生成详细旅行规划的任务中，即便提供了明确的时间节点和直飞航班信息，模型的输出结果中仍出现了不存在的航班信息，即产生了幻觉”现象。

实验进一步揭示，即便是最前沿的模型，在生成连贯且冗长的内容方面仍存在较大提升空间。特别是在需要输出8k tokens的任务中，即便是参数庞大的先进模型也未能幸免于难，这或许预示着未来大型语言模型（LLM）研究的一个极具潜力的方向。

ChatGPT源码推荐：小狐狸ChatGPT付费创作系统完全开源源码

OpenAI最大秘密，竟被中国研究者破解？复旦等惊人揭秘o1路线图

2025-01-051.6万阅读

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

OpenAI开启调查：GPT-4o及4o-mini模型性能下降

推荐关键词

24小时热搜

大家正在看

重磅！微软开源最强小模型Phi-4，超GPT-4o、可商用

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

微软Phi-4封神，14B小模型数学击败GPT-4o，合成数据占比40%，36页技术报告出炉

消息称OpenAI新模型GPT-5研发未达到预期：成本高昂效果欠佳

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

重大突破！微软发布“自我进化”，帮小模型超OpenAI-o1

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

OpenAI正式发布o3 - 通往AGI的路上，已经没有了任何阻碍

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

OpenAI称1465元/月的ChatGPT Pro亏损：大家用的太多了

OpenAI最强推理模型o3发布：AGI能力暴涨接近人类水平

AI日报：百川智能金融大模型发布；ChatGPT新增跨对话记忆功能；DeepSeek大模型一开发者将加盟小米；OpenAI最强推理模型o3

OpenAI智能体曝本月诞生！比谷歌Anthropic慢，竟是担心prompt攻击

「天工大模型4.0」o1版和4o版正式上线天工APP和网页免费使用

OpenAI前CTO最隐秘AI创业：没名字没方向，挖走OpenAI高管，10位顶尖人才投奔

AI日报：AI假冒名人直播带货违法；OpenAI o3 模型能耗惊人；AI技术将助推iPhone销量

OpenAI最大秘密，竟被中国研究者破解？复旦等惊人揭秘o1路线图

o3被曝成绩「造假」，60多位数学泰斗集体被耍，OpenAI暗中操控，考卷提前看光

SD3.5官方教程：5大重要框架，教你用文本生成精准图片

对标Siri和Alexa！OpenAI本周为ChatGPT推出测试版管理工具

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

OpenAI开启调查：GPT-4o及4o-mini模型性能下降

推荐关键词

24小时热搜

大家正在看

重磅！微软开源最强小模型Phi-4，超GPT-4o、可商用

阿里云通义开源最强过程奖励PRM模型 7B尺寸比GPT-4o更能发现推理错误

微软Phi-4封神，14B小模型数学击败GPT-4o，合成数据占比40%，36页技术报告出炉

消息称OpenAI新模型GPT-5研发未达到预期：成本高昂 效果欠佳

OpenAI甩王炸！发布新模型o3，一夜再次改变世界！

重大突破！微软发布“自我进化”，帮小模型超OpenAI-o1

4o-mini只有8B，o1也才300B！微软论文意外曝光GPT核心机密

OpenAI正式发布o3 - 通往AGI的路上，已经没有了任何阻碍

DeepSeek新模型霸榜，代码能力与OpenAI o1相当且确认开源，网友：今年编程只剩Tab键

OpenAI称1465元/月的ChatGPT Pro亏损：大家用的太多了

OpenAI最强推理模型o3发布：AGI能力暴涨 接近人类水平

AI日报：百川智能金融大模型发布；ChatGPT新增跨对话记忆功能；DeepSeek大模型一开发者将加盟小米；OpenAI最强推理模型o3

OpenAI智能体曝本月诞生！比谷歌Anthropic慢，竟是担心prompt攻击

「天工大模型4.0」o1版和4o版正式上线天工APP和网页 免费使用

OpenAI前CTO最隐秘AI创业：没名字没方向，挖走OpenAI高管，10位顶尖人才投奔

AI日报：AI假冒名人直播带货违法；OpenAI o3 模型能耗惊人；AI技术将助推iPhone销量

OpenAI最大秘密，竟被中国研究者破解？复旦等惊人揭秘o1路线图

o3被曝成绩「造假」，60多位数学泰斗集体被耍，OpenAI暗中操控，考卷提前看光

SD3.5官方教程：5大重要框架，教你用文本生成精准图片

对标Siri和Alexa！OpenAI本周为ChatGPT推出测试版管理工具

消息称OpenAI新模型GPT-5研发未达到预期：成本高昂效果欠佳

OpenAI最强推理模型o3发布：AGI能力暴涨接近人类水平

「天工大模型4.0」o1版和4o版正式上线天工APP和网页免费使用