人工智能模型能有多大?

来源:IEEE电气电子工程师
作者:IEEE Transmitter


大型语言模型——可以进行类似人类聊天的人工智能系统——最近成为了新闻热点。毫无疑问,它们很强大,而且非常全面。

但人工智能模型究竟能有多大?这个问题的答案为了解人工智能语言模型的发展及其潜在应用提供了一个迷人的窗口。


两种测量方法

当专家们谈论人工智能的进步时,他们通常关注模型大小的两个方面:用于训练模型的数据量和模型包含的参数数量。

例如,备受讨论的ChatGPT的前身GPT-3是在近45 TB的文本数据上训练的,具有超过1750亿个参数。其他人工智能模型越来越大,据说大公司正在开发超过1.6万亿参数的模型。

但这意味着什么?让我们对它进行分解,首先看一看参数是什么。

参数是人工智能模型用于根据所看到的数据生成输出的值或变量。例如,在像GPT-3这样的语言模型的情况下,输出是文本。

IEEE会员Yale Fox表示:“尽管它们看起来真的很神奇,但人们更容易将(自然语言模型)视为高度复杂的自动完成函数。你以问题的形式提供输入,通常称为提示。然后模型会‘自动完成’你的答案。”

输出基于先前识别的模式。对于大型语言模型,自动完成函数要复杂得多,因为模型已经在更多的数据上进行了训练,并且具有更多的参数。

Fox说:“参数的数量会影响输出的多样性;使用的参数越多,输出的重复性就越小。”

这就引出了第二个问题。45 TB的文本到底有多少信息? —— 相当多。1TB相当于大约650万页以常见格式存储的文档,如文字处理文档或.pdfs。

IEEE高级会员Eleanor “Nell” Watson说:“一般来说,在许多类型的模型中,有更多的数据可以进行训练,从而获得更好的性能。它使模型能够更多地了解数据中的基本模式和关系。”


最佳设计

但参数的数量并不总是与训练数据的大小直接相关。例如,开发人员可以在10本书上训练一个非常大的模型,或者在1000本书上培训一个较小的模型,他们可能具有类似的性能。

Watson说:“更大的模型训练成本成倍增加,而且更难检查偏见等问题,也更难解释。将太多的参数应用于太少的数据会使模型更容易过度拟合(从一个过于突出的例子中进行不准确的概括)。”

简单地拥有大量数据来训练模型并不一定是一种好处。Fox说:“来自世界各地的10TB推文可能甚至不如来自维基百科的1TB基于事实的知识有用。”


规模问题

这种情况导致了人工智能世界中一些有趣的问题。也就是说,人工智能模型能有多大?

研究人员注意到,例如,将模型中的参数数量增加一倍可能不会产生两倍的性能。它可能需要花费数倍的资金、时间和计算资源来构建。一种解决方案可能是增加训练模型时使用的数据量,尽管尚不清楚您需要多少数据,以及数据是否存在。

Watson说:“因此,有人认为,许多最新模型的最大限制因素实际上可能是缺乏足够规模和细微差别的高质量数据,无法让它们满负荷运行。”

那么,是什么解释了语言模型在最近几个月取得的巨大飞跃呢?

Watson指出,这些改进是多种因素共同作用的结果,包括参数数量的增加、数据的更好利用以及训练技术的改进。ChatGPT背后的工程师强调了一种“human-in-the-loop”的方法,即根据人类评估者的反馈不断微调和改进模型。

而且,正如《IEEE计算机杂志》(https://www.computer.org/csdl/magazine/co/2022/05/09771130/1DeEYd2FXZm)最近的一篇文章所指出的,研究人员已经转向了各种技术来改进人工智能模型及其效率。其中包括更好的硬件和软件开发以及不同的计算机架构,但也包括使用结合文本、图像或视频的多模式训练数据。

作者指出:“人工智能模型规模不断扩大的趋势似乎并没有停止。尽管如此,只有少数大公司和机构能够跟上这一趋势,因为其进入壁垒相当大。”


本文转自:IEEE电气电子工程师,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

最新文章