返回

站长之家 - 业界 2024-04-02 18:02

大模型实时打《街霸》捉对PK，GPT-4居然不敌3.5，新型Benchmark火了

让大模型直接操纵格斗游戏《街霸》里的角色，捉对PK，谁更能打?GitHub上一种你没有见过的船新Benchmark火了。与llmsys大模型竞技场中，两个大模型分别输出答案，再由人类评分不同——街霸Bench引入了两个AI之间的交互，且由游戏引擎中确定的规则评判胜负。这种新玩法吸引了不少网

本文由站长之家合作伙伴自媒体作者“量子位公众号”授权发布于站长之家平台，本平台仅提供信息索引服务。由于内容发布时间超过平台更新维护时间，为了保证文章信息的及时性，内容观点的准确性，平台将不提供完全的内容展现，本页面内容仅为平台搜索索引使用。需阅读完整内容的用户，请查看原文，获取内容详情。

即将跳转到外部网站

安全性未知，是否继续

继续前往

推荐关键词

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

大家正在看

OpenAI最强模型！Gpt-5.6系列发布：Codex、ChatGpt Work智能体三合一

2026-07-102.7万阅读

AI日报：火山引擎上线豆包搜索开放服务；WorkBuddy上线人机双写；OpenAI 推出GPT-5.6模型家族

2026-07-302.3万阅读

AI日报：Claude Cowork登陆网页和手机端；美国放行GPT-5.6；Meta超级智能实验室首发图像生成模型

2026-07-082.3万阅读

AI日报：GPT5.6系列模型发布 Codex消失;腾讯拟接盘Manus成最大股东；MiniMax创始人宣布零薪酬直至实现AGI

2026-07-101.1万阅读

WorkBuddy能否一直赢？

2026-07-309482阅读

像真人聊天！OpenAI发布GPT-Live：AI可同步听与说

2026-07-097446阅读

企享云Skills全平台适配：打通腾讯WorkBuddy/字节Trae Work/阿里QoderWork AI工作台，打造全链路财税硅基员工

2026-07-282.8万阅读

REDMI K100 Pro Max真机亮相ChinaJoy！赤霞珠红配色超强质感

2026-07-311.5万阅读

青藤Workclaw获AIIA安全防护先锋案例奖

2026-07-031.9万阅读

OpenAI报告：ChatGPT出现重大故障

2026-07-152.8万阅读

腾讯官宣：WorkBuddy 鸿蒙 PC 版正式上架 AppGallery

2026-07-272.3万阅读

你的AI助手该升级了：KerWork新版本邀你试用，邀请好友更有惊喜奖励

2026-07-244662阅读

李未可×WorkBuddy发布首款AI记忆眼镜，让AI从听懂话走向懂工作

2026-07-181.8万阅读

腾讯WorkBuddy APP正式发布：鸿蒙、iOS、安卓三端同步上线

2026-07-182.8万阅读

腾讯混元：新模型Hy3调用激增 WorkBuddy已紧急扩容

2026-07-092.2万阅读

鸿蒙首个桌面办公智能体腾讯WorkBuddy鸿蒙PC版发布

2026-07-271.4万阅读

HiWork再添发明专利：全球化智能流程配置引擎，助力跨境数据安全实现“分级管控”

2026-07-312.7万阅读

云生集团“WorkBP”首秀WAIC，企业级AI智能体正式登场

2026-07-212.1万阅读

喜讯 | 大宇云获评腾讯云 AI 智能体示范伙伴,WorkBuddy 企业服务能力再升

2026-07-146692阅读

CHERRY闪现幻樱嘉年华，破次元外设体验圈粉年轻人

2026-07-292.7万阅读