站长之家 - 业界 2023-06-06 14:53

Meta提出新模型MegaByte 可增强AI生成

站长之家(ChinaZ.com)6月6日 消息:来自Facebook母公司Meta的人工智能研究人员提出了一种新颖的方法MegaByte,以加快自然语言处理等用途的内容生成。

据介绍,来自Facebook母公司Meta的人工智能研究人员提出了一种新颖的方法MegaByte旨在改进更长的内容生成。像OpenAI的ChatGPT这样的系统可以轻松处理短输出,但序列越长或越复杂,模型的性能就越差。

Meta,元宇宙,Facebook

MegaByte 方法使用多尺度解码器架构,能够对具有端到端可微分性的超过100万个字节的序列进行建模,这意味着以更低的运行成本获得更好的生成性能。

Meta的研究人员对基于Transformer的架构提出质疑。谷歌的研究人员在2017年开发了基于Transformer的系统,此后该系统被广泛用于NLP任务,为ChatGPT、GPT-4和BERT等模型和系统铺平了道路。

然而,Meta的团队认为,基于Transformer的系统处理复杂的输入,如书籍或播客,需要大量的计算才能运行。然而,MegaByte将输入和输出分成“补丁”而不是单独的token。每个面片都有自己的本地化响应,模型将这些响应与其他面片组合成一个整体,以创建最终输出。

研究人员建议,MegaByte“用子字模型给出有竞争力的语言建模结果,这可能允许字节级模型取代标记化”.

Meta新提出的架构得到了特斯拉人工智能总监安德烈·卡尔帕西(Andrej Karpathy)的称赞,认为这很有前景。

然而,对于MegaByte来说,现在还处于早期阶段,因为Meta的论文详细介绍了使用它进行的实验规模“远远低于最先进的语言模型”。研究人员提出,未来对MegaByte的研究应该探索将架构扩展到更大的模型和数据集。

ChatGPT源码推荐:小狐狸ChatGPT付费创作系统完全开源源码

推荐关键词

24小时热搜

查看更多内容

大家正在看