据报道,OpenAI发布事故报告,指出其GPT-4o和4o-mini模型当前遇到性能下降问题,正在进行调查,将尽快公布最新进展。
科研人员最近推出名为LONGPROC的基准测试工具,用于评估模型处理长上下文复杂信息并生成相应响应的能力。
测试结果令人惊讶:尽管GPT-4o等知名模型在常规长上下文回忆基准测试中表现出色,但它们在处理复杂的长文本生成任务方面仍有明显的改进空间。
具体来说,所有参测模型声称其上下文窗口大小超过 32K tokens,但实际情况却不同。开源模型在处理仅 2K tokens的任务时就表现不佳,而闭源模型(例如 GPT-4o)在处理 8K tokens任务时性能也明显下降。
以 GPT-4o为例,当要求它生成详细的行程计划时,即使提供了明确的时间节点和直飞航班信息,模型的输出结果中仍出现了不存在的航班信息,即出现了“幻觉”现象。
测试还表明,即使是最先进的模型在生成连贯且冗长的内容方面仍有很大的提升空间。尤其是在需要输出 8k tokens的任务中,即使是参数庞大的先进模型也无法避免出现问题,这可能预示着大型语言模型(LLM)研究未来的一个有潜力的方向。
ChatGPT源码推荐:小狐狸ChatGPT付费创作系统完全开源源码