返回

站长之家 - 业界 2023-06-09 10:04

智源研究院推出FlagEval“天秤”大模型评测体系

站长之家(ChinaZ.com) 6月9日消息:在今日的2023北京智源大会上，智源研究院宣布推出FlagEval（天秤）大语言模型评测体系。该体系从“能力、任务、指标”三维评测角度出发，结合超过600个维度对大模型进行全面测评。

据悉，天秤大模型的任务维度目前包含22个主观和客观评测数据集，共计超过84433道评测题目。

人工智能 AI 机器人机械手 (2)

智源研究院院长黄铁军指出，大模型至少需要具备三个特点。第一，规模要大，需要达到百亿参数级别;第二，涌现性，能够产生预料之外的新能力;第三，通用性，不限于专门问题或者领域。

相关话题

天秤大语言模型评测体系智源研究院大模型特点 FlagEval评测体系

推荐关键词

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

大家正在看

小米大语言模型MiLM正式通过大模型备案：将应用于汽车、手机、智能家居等产品

2024-05-161.2万阅读

Meditron：先进的医学大语言模型

2024-04-302.4万阅读

Meta 推出 LayerSkip：提升大语言模型推理速度

2024-04-282.4万阅读

Meta新大语言模型LLama 3将在英特尔和高通硬件上运行

2024-04-261.4万阅读

谷歌发布开源视觉语言模型PaliGemma 支持多视觉语言任务

2024-05-171.9万阅读

苹果开发设备内运行的大型语言模型优先考虑速度和隐私

2024-04-221.9万阅读

周鸿祎：大模型不会摧毁每一个行业将打造大模型工厂

2024-05-201.0万阅读

思维链被推翻！纽约大学新研究：大模型推理步骤或可省略

2024-05-158765阅读

Refuel AI 推出专为数据标注和清洗设计的开源语言模型 RefuelLLM-2

2024-05-136028阅读

大模型不需要眼前的共识

2024-05-072.0万阅读

OpenBuddy发布新一代中文跨语言大模型基于Llama 3 70B打造

2024-05-102.0万阅读

字节跳动正式发布自研豆包大模型系列覆盖九大模型

2024-05-159642阅读

小红书的大模型有点怂

2024-05-081.8万阅读

挑战拯救痴心“舔狗”，我和大模型都尽力了

2024-04-249253阅读

每日互动持续增强大模型能力，推出、升级多款大模型应用产品

2024-04-282.2万阅读

AlphaGo核心算法增强，7B模型数学能力直逼GPT-4，阿里大模型新研究火了

2024-05-092.3万阅读

谷歌正式发布Gemini 1.5 Flash大模型：轻量化、响应速度极快

2024-05-151.2万阅读

美国“AI大模型”不给外国用了？

2024-05-139447阅读

讯飞星火大模型V3.5升级推出长文本、长图文、长语音大模型

2024-04-261.8万阅读

基于Gemini大模型！谷歌宣布为安卓引入新功能：AI检测诈骗电话

2024-05-158278阅读