一文读懂ChatGPT

马斯克参与创办的OpenAI公司最近推出的ChatGPT爆火之后到处可见人们对它的热切关注,觉得这是一个时代里程碑式的事件,却也使得人们忽略了一些其它关键事实。

ChatGPT只是基于早在两三年前就推出的GPT3模型上微调而来。

现在让它在聊天时候能做出看上去具有「人味」的回答,这几乎都是微调工作的功劳,确实有看起来非常惊艳的表现。

但仍然,它所展示出来的知识面与逻辑能力,其实大多都是其基座模型GPT3所给予的。不过我们同时也可以发现GPT3模型尽管在一些任务上有着不俗表现,看上去却也和ChatGPT有非常大的距离。造成这种矛盾的原因只是因为,在我们的微调工作之前,学富五车的GPT3模型还不知道怎么来和我们沟通罢了。这是后文要重点阐述的一个问题。

同时值得先提到的是,如今的免费开放的开源AI模型里面最顶级的一些,诸如Bloom和LLaMA等模型,以及Alpaca、Vicuna等一众变体,整体水平上均已接近乃至显著超越了GPT3。这也就意味着,其实在一部分特定任务上,我们可以借由开源模型,自行做出比ChatGPT更好得多的效果。

这或许一眼看上去不太对劲——ChatGPT如此一骑绝尘的表现,怎可能是谁都做得到的?但我们时常容易忽略一个问题:即便GPT4在诸如法律资格考试的成绩能超过90%的考生,但其实在诸如围棋、电竞等领域,AI早已远远超越了人类的顶级水平。

截止到2023年5月这个时间点,GPT仍无疑是最强的多面手,但我们仍应了解它到底和其它的传统AI模型有什么区别?各有什么样的优势和劣势?

同时,避开现在大家正在疯狂涌入排着队去做的「语言大模型」,来谈谈我们利用AI模型到底可以区别化去做些什么,有什么样的不同变现方向。


▎语言模型的历史发展

目前所说的AI,基本都是深度学习(有时结合着强化学习)的产物,更具体的名称是深度神经网络。

非常有趣的是,「神经网络」它最早被提出的时候不是两年前,甚至也不是十年前,而是1943年,距今已经有近百年之久。乃至进一步的「深度神经网络」的理论基础,也是上世纪八十年代就已被提出。为什么我们用了将近一个世纪才把这个东西从最初的雏形才刚发展成可以让人觉得惊艳的样子呢?

最关键的地方,在于算力。

无疑,是许多各方向的近年科研结果,共同塑造成了ChatGPT在今日的成就。但如果我们看一下OpenAI的GPT模型发展史,就会明白算力在其中扮演的角色有多大。

在Google在2017年提出了Transformer架构以后,一下解决了AI领域的诸个关键发展瓶颈。其中尤其是因为它便于分布式计算,使得训练效率大大提升,此后几年之中各种大型语言模型如同雨后春笋般冒出。

彼时,GPT模型只是一众NLP模型里面平平无奇的一种。此外比较知名的还有BERT, T5, Pegasus等等,各自在不同应用场景下有着出众表现,像是BERT相对更擅长于对文本的理解、Pegasus相对更擅长于对文本做摘要,至于那时的GPT么,相对其它AI模型的优势仅在于,更擅长于胡编乱造。

OpenAI打造GPT模型的核心方向非常明确——硬堆模型的参数量。从GPT1的亿级参数量到GPT2的十亿级的阶段,GPT模型都没展露出特别的优势。直到2020年发布的1750亿参数的GPT3出现,一下发生了彻底的变化,它已经开始可以续写小说、写代码、做数学题……尽管看起来效果并不全如人意,但这已经接近是从猴子到小孩的智力水平的飞跃了。

从底层技术上,GPT3和之前两代并没有特别大的差异,只是神经网络规模更大了。为什么在效果上会如此巨大的变化?

这里,要先简要说明一下深度学习是怎么训练的:我们在设计了程序的基础架构以后,丢给它大量的文章,它会不停去归纳总结这些语料里面的信息。哪怕GPT2在大多情况下只会胡编乱造,但偶尔也能生成出看上去很惊艳的回答,然而本质上这只是它把看到过的知识给我们背了一遍而已。假如它在训练期间没看到过那个问题相关的知识,就会立马继续胡编乱造。

直到硬件、软件方面的逐步进化所带来的算力巨大增长,这些语言模型的参数量开始集体突破百亿级别,这时候一下出现了超出所有人预计的、至今学界也没有明确统一的解释的现象,一般管它叫做「涌现」。

在这个节点开始,AI模型突然体现出了强大的上下文理解能力与初步的推理能力,在几乎所有任务上的表现都开始集体大幅增长;然而这个阶段,除了模型参数量的上涨这个单一的变化以外,其余因素几乎没有发生变化。

已经踏入涌现阶段的GPT3已经有了不俗表现,却因为OpenAI的一些使用限制,以致于GPT3这代产品只在程序员圈子里面比较火,并没能进入大众视野。

整个AI发展史上真正的里程碑事件,并非是ChatGPT,而正是那代相对不温不火的GPT3。因为ChatGPT本就只是基于GPT3的微调版本,最初ChatGPT体现出的知识以及推理能力,其实几乎都是GPT3在两三年前就已经拥有的。

但当初为什么我们不知道这事?这是因为就差了最后一步——我们还没教AI模型怎么来和人类沟通。


▎给ChatGPT找了个老师

这里,需要先大概介绍一下ChatGPT之前几年,包括GPT3在内的语言模型都是怎么训练的:主要使用无监督训练的方式,也即,就把海量的文章丢给模型自己去看,让它从中学习信息。

但程序终究是程序,它从零基础开始,就算我们丢过去再多的字,它也不知道从哪里学起。由此,诞生了许多语料的预处理方法。

其中最典型的预处理方法之一,就是随机将一篇文章里面的某几个词语标注为[MASK]这样的特殊标记,让模型根据上下文去猜,这个[MASK]里面应该写具体哪个词。没错,就是小学语文的填空题。

显然,我们做对填空题的条件是,我们已经理解了上下文的含义,以及自己填进去的这个词的含义。模型也是如此,在以亿为单位的语料之中,反复做这样的填空题,让它逐步掌握了词语的含义、及进一步的语法规则、再进一步的因果联系等等。

除了这种填空题以外,其余大部分预处理方法也大差不差;

而AI模型的神经网络,本质上又只是y=ax+b这样最简单的线性公式去计算个百亿千亿回。

仅仅是这么简单至极的模式,竟然就能诞生出ChatGPT这般有点「人味」的AI模型,这事在许多人眼中看起来有些魔幻。

但他们可能忘了一件事情:从单细胞生物开始,也仅仅是通过遗传和变异这两个规则,就塑造了整个人类的璀璨文明——造物主的智慧。

已逝物理学家张首晟曾在混沌大学做过一些分享,他提出一个假设:如果人类文明即将灭绝,而我们只能留下一张明信片来总结整个文明的结晶,我们应该在它上面写一些什么?随后他给出了自己的答案:其中主要是一些推动了整个人类文明的物理公式,其中自然也含有大名鼎鼎的E=mc[gf]b2[/gf],但这些无一例外都是西方国家的成果。

最后他说,东方文明还是有一句话必须该写上去的:大道至简。

深度学习的根本模式只是从语料里面学习规律,也就是最典型的归纳推理。而我们知道,逻辑推理这事是由归纳与演绎共同构成的,这使得天生无法直接做演绎推理的AI模型,在逻辑这块非常的薄弱。

然而,其实大规模的复杂归纳法,可以达成类似演绎法的效果。尽管AI模型无法断言基于大前提和小前提「必然」能得到对应结论,但它可以通过其它方式来认为其「或然概率」高达99%以上,从而就将这个推论直接作为事实来看待——绝大多数场景下这样也足够了。

要理解语言大模型到底是怎么掌握逻辑推理的,这至少是AI领域最为有趣且最为重要的事情。但阐述起来实在生涩,本文里面就不再展开了。

尽管只要把大量的语料丢给模型去做阅读理解题,它就能不断掌握更多的知识与逻辑。但这时仍存在一个尚未解决的问题——因为我们把数以亿计的语料,是一视同仁的打包喂给了模型去学习,此时,一个合格的AI模型必然会趋于学习到语料里面的「平均」状态。

举个例子,当我们给GPT3喂了很多开源的程序代码以后,我们就开始能让它来书写代码,但问题是,它写出来的代码大概率都不是最理想的。它不会考虑代码是否简洁易懂、不会考虑代码是否高性能、不会考虑代码的稳定性,只知道按照所有它看到过的代码的「平均」水平来写。

但这锅一点都不能让GPT3来背。问题在于我们从没有告诉过它,什么样的代码是我们看来「更好」的。

ChatGPT表面看起来有截然不同的表现,这是因为它引入了RLHF,即以强化学习方式依据人类反馈优化语言模型。OpenAI找了几十个标注员来负责每天和GPT3进行对话,他们会给模型回复的内容给打一个具体的分数,或者直接告诉模型应该怎么改进它的回复。在这个过程中,GPT3就开始逐步掌握了人类的喜好,上来就可以直接回答出所预期的答案,最后诞生了ChatGPT。

归根结底,ChatGPT表面上的惊艳表现主要归功于,我们除了把无数的习题一股脑的丢给学生以外,终于又想起来,得给学生找个老师来教它到底应该如何与人沟通。

这样来总结的话或许不难发现,其实「给机器找老师」这事无论是早点就想起来、还是晚点才想到,我们在人工智能的发展道路上必然不会错过这一件理所当然的事情。反倒是因为GPT3的出现,让我们可以确信只做归纳法能达成类似演绎法的效果,这事是一个非常意外的收获,至少一下子终结了逻辑学领域数百年来的这方面争论。


▎算力

既然GPT等语言大模型,其必要条件之一就是模型够大,那么算力的提升无疑是最简单直接的提高AI效果的方式。这主要取决于:

a) 硬件层面的算力提升

b) 软件层面的性能优化

软件层面上,之前几年提高性能的办法是降低精度。由最初的fp32到fp16,再到int8/fp8和int4,也即一开始每个参数是有几十个点的小数,现在则变成了4位的整数,显然计算起来要粗糙得多。在性能较最初翻了几倍之后,后续额外的软件优化成本和精确度代价就已经逐渐变得难以承受。而且这事的瓶颈是数学所限制的,不可能有完美解决方案,逐渐增长乏力。

至于硬件层面上,则是可喜可忧。

可喜的是,目前绝大多数大规模模型都是用Nvidia A100显卡来训练的,而英伟达已经在逐步出货下一代的H100显卡。尽管显卡性能在不同场景下的对比差异程度不同,但整体上粗略来说H100的性能要比A100要高出3~6倍。

即便H100单张显卡的价格是20多万人民币,且大模型的训练需要少则几百、多则上万张显卡。但由于OpenAI掀起的AI热潮使得更多得多的资金涌入AI领域,像是绝对足够训练出现阶段GPT的一万张H100,要20多亿人民币,这是个天文数字却也不是,3亿美元对全球资本市场而言着实不算多少,像是马斯克收购Twitter直接掏出了440亿美元现金。

只要H100显卡的生产不出现严重问题,AI模型的能力在一年之内必然能得到极大增长。

但反过来,我们可忧的也正是这件事情,这里的前提是「H100显卡的生产不出现严重问题」。

现在这一块几乎被英伟达一家垄断,AMD显卡在深度学习领域基本没法用。反而中国因为美国阻碍技术输出以及自身特色关系还勉强有可用的国产显卡,但也只是作为各家公司的应急储备,它们软件生态方面对比Nvidia显卡的劣势太大。

换言之,人工智能的发展进程,乃至说可能整个人类文明短期内的发展进程,被握在了英伟达这一家公司手里,这实在不是一个理想的状态。此外,尽管我们在硬件上至少较前两年已有几倍的性能提升,不用太久可能还会再有几倍提升,但是,百倍千倍的提升就很难说了,芯片的制造工艺上已经有一些地方开始触及物理极限。

我们距离超级人工智能,可能间隔着的仍然是最底层的基础理论物理层面的突破,量子物理等方向上的。现在大规模资金已经涌入大模型的训练与落地之中,大量不同的公司却都在训练着相似的模型,而人们对于理论物理的关注度相比之下却要少得太多,无奈的事情。


▎变革

ChatGPT的诞生让不少人感到了焦虑,尤其是失业等方面的。

程序员设计出了人工智能,然后充当其冲的革了自己的命,这看上去像是件糟糕的事情。

短期内会存在的失业潮,现在已经在个别行业出现了,这恐怕确实是件糟糕的事情。但如果我们从更大的视角来看,就会想明白,出现大规模失业了这其实才是好事。

农业文明之前,智人采集、狩猎,不劳作就是饿死。再后面,朝代更迭的契机有许多都是农民起义,哪个农民乐意和全副武装的士兵拼命,往往都是旱灾与重赋导致了人们快饿死了,横竖都是死才造反的。甚至直到近代,河南等个别地区还是饥荒饿死过许多许多的人。

在整个人类史上,不要忘了,我们只不过是这几十年内,才刚开始不用担心被饿死这个问题的。但我们还是有其它基础生活方面的苦恼,像是至今还有许多人因为电费对他们而言仍然显得昂贵,以致夏天不舍得开空调。如果人们都不工作的情况下也能有用不完的电,那它自然就像水费般便宜乃至免费了。

随着生活成本的逐步下降,我们社会才出现了越来越多的啃老族。我们不讨论啃老这件事是好是坏,重要的是,放眼以前,人们自己都吃不饱,多生娃时常是为了大孩子带小孩子一起出力干活来使得自己能开始吃得上,哪有可能自己生活无忧还供着个不劳作的孩子?而随着生产力的进步,现代社会已经开始能存在啃老这一种选项了。

如果看各国的失业金制度,还可以感受到尤其北欧一些国家的社会进程已经走在了我们更前面,有些可连着领一年以上的失业金——还比我们人均工资高得多。

只看一年两年的跨度,有时可能难以发现,但只要放到十年二十年的跨度去看,就容易发现,我们之所以还在工作,只不过是社会的发展进程暂时还没到我们可以集体失业罢了。即便如此,除了一线城市有些行业的工作强度还非常大以外,其余大部分城市总体上已经是慢节奏的工作了。无疑,AI解放一些行业的生产力以后,我们将继续加速这个进程。

不难想象,未来工作与否会纯粹变为一种选择。只取决于我们觉得玩游戏刷视频的乐趣更大、还是工作的成就感这样的乐趣更大。有可能是五年、有可能是五十年,所需的时间不那么好说,但显然会这样发展下去,因为这是自古以来就从未变化过的发展方向,只不过现在因为人工智能而加快了进程罢了。

不过仍然需要讨论的是,我们如何应对短期内可能存在的一些冲击?

如果世界在变,我们不知道它会怎样变化,那么与其继续苦苦思索,或许我们也可以去问另一个问题:有什么事情是不变的?无论想把什么事做好,我们都需要凭借健康的身体以及良好的精神状态。

跑步,它既能给予我们健康的身体,也能带来良好的精神状态;这个最简单的答案,却也是不可多得的良药。跑步可以很艰难,看上去又累又费时间;然而跑步也可以很简单,迈开腿就能跑。


▎参与AI落地

还有一种拥抱变化的方式,是直接投身到变化之中。

由于ChatGPT的爆火,现在人们都涌入了预训练语言大模型上面。但按照这两年的发展速度来看,哪怕训练出了再强大的商业模型,不用说会被两三年后的商业模型吊打,甚至也会被两三年后的完全免费公开的开源模型所超越。

因而更关注的,是那些距离变现更接近的产业应用落地的事情上面。

其中一个很重要的方向是,让AI模型来帮我们进行分析和研究的工作。

要讨论这个问题,需要先总结这几层获知事实的方法:

第一层:通过统计手段,来知悉事件之间的相关性;

第二层:通过因果推理手段,来知悉事件之间的因果性;

第三层:借由AI模型可以同时考虑无数因素的优势,来知悉混沌系统中的事件联系;换言之,同时了解极大量事件之中相互的相关性与因果性。

如果跳空前几层尚未理解,直接踏入第三层的话,多少有点空中楼阁的意味。然而,实际上许多人还处于第零层——中小公司管它叫做「我们试试就知道了」,而巨头公司管它说是「我们来做AB测试」。

如果什么事都得用最低效的「试一试」这样的方法去得到结论的话,我们永远无法和别人拉开足够大的差距。

任何搜索引擎统一存在一个问题时,它对搜索结果返回的实时性要求很高。像是GPT4常常憋个几十秒才能完整回复出来的情况,在搜索引擎是不可能接受的。因此,无论百度、抖音那边最初训练的是多大规模的模型,最终尤其用于搜索系统的在线查询阶段来做推理的,一定是相对非常小规模的模型。只要用一个更大规模的模型,还是能够逆向解析出这种小规模模型所学习到的主要规则。

不过与此同时,即便大模型已经开始掌握了推理能力,但要让A模型去反向推理B模型,其实A模型的设计训练难度要比B模型高得多,因为这时存在信息不对等的情况——像是我们顶多知道抖音视频的点赞量,却无法知道它的播放量。我们的模型只能在有限信息的前提条件下去尽大程度的回归拟合。

百度的搜索模型相比之下更加简陋,AI模型已经较大程度把握其规则。如今结合模型的一些产出,只对网站特定地方做极少量的改动,有时就得到成倍的增长。然而抖音的搜索模型还是更完善一些。

通常AI模型在百亿参数以后才开始逐渐产生「涌现」现象,体现出一定的逻辑推理能力,它们是足以胜任逆向其它中小模型这一任务的。


本文转自:茵联资本,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

最新文章