站长之家 - 业界 2023-07-31 10:02

英语的人工智能使用费比其他语言便宜 15 倍简体中文成本约为英语的两倍

站长之家(ChinaZ.com) 7月31日消息:研究表明，对于类似 OpenAI 的服务，由于计算成本的计量和计费方式，英语输入和输出比其他语言要便宜得多，其中简体中文的成本约为英语的两倍，西班牙语为英语的 1.5 倍，而掸语则要贵 15 倍。

Claude2，Anthropic，人工智能，聊天机器人

一项由牛津大学进行的研究发现，让一个大型语言模型处理一句缅甸语句子需要 198 个 tokens，而同样的英语句子只需 17 个 tokens。Token 代表通过 API 访问大型语言模型（如 OpenAI 的 ChatGPT 或 Anthropic 的 Claude 2）的计算成本，这意味着使用服务处理缅甸语句子比处理英语句子要贵 11 倍。

这种「标记化」模型意味着在不理想的情况下，访问和训练非英语语言模型会更昂贵。这是因为像中文这样的语言与英语在结构上（无论是语法上还是字符数量上）有所不同，从而导致其标记化的成本更高。

举个例子，根据 OpenAI 的 GPT3 tokenizer，将「your affection」这个词组标记化为英语只需两个 tokens，而在简体中文中则需要八个 tokens。这是因为简体中文的文本虽然只有 4 个字符（你的感情），而英语文本有 14 个字符。

微软自己在解释其 ChatGPT 模型的 API 访问和使用的页面上提供了一个很有用的工具，其中甚至包括了一个标记化工具，您可以用来测试每个提示的标记成本。在那里，我们可以看到在英语中，1 个 token 约等于 4 个字符，100 个 tokens 约等于 75 个英文单词。但是这种数学规则并不能应用于其他任何语言，微软清楚地表明了这一点。

在人工智能相关的成本方面，英语的成本效益无可匹敌；例如，相对于输出而言，中文的成本是英语的两倍。但这只是 AI 公司迄今为止用于训练模型的可用训练数据的反映。人工智能的爆发已经向世界展示了高质量紧急数据（作为生活记录而产生的数据）的价值。

此问题直接关系到 AI 公司希望实现递归训练的愿望，即能够用自己的输出训练 AI 模型。如果实现了这一点，那么未来模型仍将显示英语与其他语言相比的成本效益，其他语言的复杂性和更有限的基础训练数据导致了更高的标记化速率。

为了进一步复杂化问题，似乎除了标记化之外，其他衡量成本的方法最终也会遇到相同的问题。无论是通过位数还是字符计数，显然没有任何一种语言能够超越英语的实际实用性——英语的「可压缩性」较高，因此标记数量较低。

这意味着问题不在于模型的货币化方式；它实际上是技术和基础模型在训练中的一个真实局限。而且不难想象，这个问题会影响到各个版本的多语言模型。毕竟，它们几乎都是以相同方式构建的。

当我们考虑到推出大型语言模型（如 ChatGPT）或生成式图像网络（如 Midjourney）的公司主要位于美国时，这种成本差异已经导致一些国家推出了培训和使用本地语言的大型语言模型的计划。中国和印度都这样做了，而且都声称这样做是为了配合英语为基础的 AI 网络所允许的创新速度。而这种速度主要受到访问和训练成本的限制。

每个人都希望花尽可能少的钱获得尽可能多的东西，这是很自然的。而这些动态直接影响根据基础语言进行 LLM 培训和部署的成本。人工智能业务是如此复杂，其影响如此深远，我们必须非常小心地采取每一个小步骤。

ChatGPT源码推荐：小狐狸ChatGPT付费创作系统完全开源源码

24小时热搜

热
4.53万次阅读
1 沙特申博宣传片真是中国拍的网友：这风格意境是中国的手笔
70991次阅读
2 南方人东北购物被店主语气“凶哭”：文化差异导致误解
58002次阅读
3 女子下班回家发现家门口被贴U盘：新型诈骗手段？
39073次阅读
4 爸爸送娃撂下就走结果学校没开门：交警协助联系安全返家
37434次阅读
热
3.23万次阅读
5 宗庆后在黄金地段为员工建廉租房：从不裁45岁以上员工我算有钱
30095次阅读
荐 2020年高通骁龙CPU排名高通骁龙888排名领先
35420次阅读

查看更多内容

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

英语的人工智能使用费比其他语言便宜 15 倍简体中文成本约为英语的两倍

推荐关键词

24小时热搜

大家正在看

人工智能时代，你不能掉队

蜜雪冰城进军人工智能！首次成立AI技术公司

苹果“担心”人工智能会把真实照片变成“幻想”

寒武纪：人工智能芯片浪潮中的机遇与挑战

北汽新能源举办人工智能科技日，用AI重塑出行空间

AI助力谷歌创新腾飞：四分之一新代码由人工智能编写

七赴进博会，三星勾勒人工智能未来图景

高通与谷歌联手!推出支持人工智能的汽车数字驾驶舱

全面构建AI服务体系，移动云深化人工智能技术产业升级与落地应用

谷歌超过四分之一的新代码由人工智能生成

加速赋能汽车行业易车三项人工智能服务通过备案

2025年最重要技术排名出炉：人工智能再次夺冠

人工智能领域薪资再创新高，职坐标在线课程助力技能提升

思看科技联合太原理工大学人工智能学院产教融合研讨会圆满举办

三星发展人工智能技术，在进博会上推出新品—— 创新赋能美好生活

《生成式人工智能零售业全景探索白皮书》正式发布，强势开启AI+零售新时代

360安全大模型在世界互联网大会获选人工智能创新应用典型案例

石化盈科在2023年度中国石油化工智能工厂解决方案市场份额排名中位居榜首

AI Agent大爆发！微软刚刚发布大量商用AI Agent，全民智能体！

中聚AI女娲大模型：专注企业服务的智能AI，让企业难题一点就通！

首页

IT业界

热点视频

站长资讯

好物榜

更多分类

更多主题

英语的人工智能使用费比其他语言便宜 15 倍 简体中文成本约为英语的两倍

推荐关键词

24小时热搜

大家正在看

人工智能时代，你不能掉队

蜜雪冰城进军人工智能！首次成立AI技术公司

苹果“担心”人工智能会把真实照片变成“幻想”

寒武纪：人工智能芯片浪潮中的机遇与挑战

北汽新能源举办人工智能科技日，用AI重塑出行空间

AI助力谷歌创新腾飞：四分之一新代码由人工智能编写

七赴进博会，三星勾勒人工智能未来图景

高通与谷歌联手!推出支持人工智能的汽车数字驾驶舱

全面构建AI服务体系，移动云深化人工智能技术产业升级与落地应用

谷歌超过四分之一的新代码由人工智能生成

加速赋能汽车行业 易车三项人工智能服务通过备案

2025年最重要技术排名出炉：人工智能再次夺冠

人工智能领域薪资再创新高，职坐标在线课程助力技能提升

思看科技联合太原理工大学人工智能学院产教融合研讨会圆满举办

三星发展人工智能技术，在进博会上推出新品—— 创新赋能美好生活

《生成式人工智能零售业全景探索白皮书》正式发布，强势开启AI+零售新时代

360安全大模型在世界互联网大会获选人工智能创新应用典型案例

石化盈科在2023年度中国石油化工智能工厂解决方案市场份额排名中位居榜首

AI Agent大爆发！微软刚刚发布大量商用AI Agent，全民智能体！

中聚AI女娲大模型：专注企业服务的智能AI，让企业难题一点就通！

英语的人工智能使用费比其他语言便宜 15 倍简体中文成本约为英语的两倍

加速赋能汽车行业易车三项人工智能服务通过备案