作者 | 元战略智库高级研究员
来源:元战略
大语言模型(LLM)最近在各种自然语言处理(NLP)任务中展示了非凡的能力,包括语言翻译、文本生成、问题回答等。此外,LLM是计算机语言处理中新兴、重要的部分,能够理解复杂的语言模式并在给定的上下文中生成连贯、适当的回复。由于在短时间内出现了大量关于LLM的研究,要对所有这些研究进行追踪并了解该领域的研究现状比较困难。因此,对这一领域最近的变化进行简短而透彻的回顾将使学术界受益匪浅。本文通过谷歌学术平台检索了2020年1月至2023年8月期间的期刊和会议相关文章,从架构、应用以及面临的问题和挑战等方面对LLM进行全面概述。
一、大语言模型的深度神经网络架构
语言模型的一个定义特征是它能够根据前面的文本推测后续的语词。深度神经网络框架被用在LLM中以提升其性能,使其表现出类似人类的理解力。LLM在其架构中使用不同的深度神经网络模型来提高任务性能。LLM是一种能够执行多种任务的动态模型,例如创建连贯的文本和总结文本。
Transformer体系架构是所有语言模型的基本组成部分。GPT-1模型是GPT的初始版本,采用了Transformer解码器(Decoder) 架构。在GPT-1中,解码器架构独立于编码器(Encoder) 运行,因此省去了链接到编码器的多头注意力机制(Multi-head Attention) 和层归一化(Layer Norm) 组件。预训练的GPT模型由12个Transformer块组成,共有1.1亿个参数。GPT-2模型是GPT的第二个版本,采用了与GPT-1类似的Transformer解码器架构。GPT-2主要有四种预训练模型,每个模型的解码器模块数量都不相同,最大的模型有48个模块,共包含15亿个模型参数。不同于采用Transformer解码器架构的GPT-1和GPT-2,BERT(Bidirectional Encoder Representations from Transformers)采用Transformer编码器架构,是为了双向表征学习而设计的双向语言模型,计算每个词元输出的可能性既取决于前一个词元,也取决于下一个词元,也即可以根据上下文预测句子中缺失的单词。BERT的较小变体由12个编码器模块组成,参数量约与GPT相同,较大的变体有24个编码器模块,有3.36亿个参数。
与BERT等纯编码器模型和GPT-1、GPT-2等纯解码器模型相比,T5(Text-toText Transfer Transformer)模型采用生成式跨度损坏和编码器—解码器架构。T5模型在各种自然语言处理任务上都表现出顶尖的性能,并且能够扩展多达数千亿个参数。LLaMA(Large Language Model Meta AI)模型对每个Transformer子层的输入(而非输出)进行归一化。为了提高性能,采用了RMSNorm归一化函数和SwiGLU激活函数。LaMDA(Language Model for Dialogue Applications)模型使用单个模型来执行多项任务,其模型架构是纯解码器Transformer语言模型。它的Transformer由64层组成,采用gated-GELU作为激活函数。AlphaCode采用编码器-解码器Transformer架构,其中将输入词元传递给编码器,从解码器中提取单个词元,直到生成代码结束词元。对比编码器-解码器架构与纯解码器架构,前者拥有支持双向描述表征的优势,并通过将编码器架构与解码器分离来提供额外的灵活性。
二、大语言模型在特定领域的应用
LLM的预训练模型都通过训练或微调来执行不同领域的、具有明确定义的任务。本部分展示了LLM应用在不同领域的潜在贡献。
生物医疗和保健:GPT-3在医疗保健行业展现了很大的用途,尤其在客户服务领域。GPT-3无需患者填写住院表格,通过对话就可获取所有必需信息,并且可以构建许多系统同时帮助众多患者。此外,医院虽是治愈疾病的地方,但同时也是各种传染性病毒集中的地方。由机器人代替人类接待员,可以更好地保护患者和医护人员免受感染。医院通常每天接诊大量患者,垂直领域的轻量级系统可以为单个患者提交多个查询,以创建可接受的输出,帮助降低医疗行业的成本。此外,BERT模型还可以提高生物医学和临床文本挖掘模型的性能,以应对由于领域语料库的高度复杂性和大规模的文档数量给生物医学和临床文本挖掘带来的挑战。
教育:教育工作者一直在努力解决各学科教育资源与学生需求不平等的问题。其中一个重大挑战是学生在校外学习时缺乏可获取的教育资源。虽然在线教学视频有助于缓解这一问题,但社会仍希望人工智能能够提供个性化的教学服务,以满足每个学生的学习需求,提高教学效率。LLM有可能为教育领域的学习、教学和教育研究带来革命性的变化。GPT模型能够帮助学生将数学文字题转化为有代表性的方程式。此外,在撰写不同形式的文本(包括论文、摘要和文章)方面,GPT等模型有助于准确实现这一目标,相比之下,人工撰写可能导致文档中存在人为错误。与此同时,其他模型可能会通过增强教育系统对师生的吸引力、可访问性和生产力来发挥作用。
社交媒体:LLM影响了社交媒体行业的诸多方面,包括内容制作、审核、情感分析等。LLM可用于社交媒体的一些生成式任务,例如内容撰写、文本分类、博客发表和文章生成等,还可以执行命名实体识别(一种识别文本中实体的位置以及类别的任务)(Named Entity Recognition,NER)和文本分类任务。当GPT、XLNet 、BERT等模型帮助撰稿人和内容生产者生成一致的写作流程时,它们还会提供内容建议,并且被用来协助发现和过滤不同的危险、不当内容以创建更安全的网络环境。此外,LLM能通过分析公众利益和需求来帮助确定公众对某些主题的看法。
商业:在商业领域,LLM可以帮助公司改进决策过程、产品制造过程、运营以及客户互动。还可以与客户沟通并提供全天候客户服务,期间回复他们的查询、协助他们工作、提供与他们感兴趣的领域相关的建议。此外,还能分析客户情绪、市场趋势、风险因素和竞争情报。总体来看,LLM有助于在短时间内满足客户的所有需求。GPT、XLNet、BERT等LLM模型,在创建客户文档和产品详细信息、通过节省时间和减少繁重的任务来有效维护整个业务等方面发挥着至关重要的作用。
农业:在农业领域,GPT模型的各种变体发挥着重要作用,包括GPT-3、BERT和XLNet模型。它们能够分析土壤、作物、天气大数据以及卫星图像,提供有关播种时间、灌溉、施肥以及优化田地和资源的建议,还可帮助农民获得最新信息和市场需求、预测作物价格、预测自然灾害,并记录农民和作物的详细情况。人工农业管理既费时又费力,但这些模型可以在更大程度上支持完成这些任务。
三、大语言模型未解决的问题和挑战
(一)未解决的问题
本部分将深入探讨与LLM相关的未解决问题,这些问题最近成为人工智能研发的焦点。下面将阐明这些未解决的问题的重要性,强调它们对各种应用和整个人工智能环境的影响。
问题1:伦理与负责任的人工智能。如何确保合乎道德地使用LLM的问题仍未解决。对人工智能生成的内容进行过滤、审核和问责仍然是个问题。针对解决由LLM生成的虚假信息、仇恨言论以及有偏内容,需要不断进行研究与开发。
问题2:多模态整合。虽然LLM主要关注文本,但对能够理解和生成包含文本、图像和其他媒体类型内容的多模态模型的需求也在不断增长。将多种模态整合到一个模型中会给数据采集、训练和评估带来困难。
问题3:能效。训练和部署LLM对环境的影响仍然是一个亟待解决的问题。必须开发更节能的训练方法、模型架构和硬件解决方案,以减少LLM的碳足迹。
问题4:安全与对抗性攻击。LLM很容易受到对抗性上下文的影响,轻微的输入修改可能会导致意想不到的、有潜在危害的输出。针对这种情况提高模型的稳定性和安全性是一个重要的研究领域,尤其是在网络安全和内容审核应用方面。
问题5:隐私与数据保护。随着LLM的功能越来越强大,用户对隐私和数据保护的关注也越来越多。如何让用户在不泄露个人信息的情况下与这些模型进行交互是一项挑战。有必要对隐私保护技术和法规遵从性进行研究。
问题6:泛化与小样本学习。LLM在数据丰富的情况下表现出色,但在需要少量示例或特定领域知识的任务中却举步维艰。提高LLM的泛化能力,使其在有限的训练数据中表现出色,是一个至关重要的研究领域。
问题7:跨语言和低资源环境。在资源和数据有限的语言和地区,使LLM更易获取和更有效是一项持续的挑战。全球应用需要开发跨语言迁移学习和低资源语言支持技术。
(二)挑战
LLM具有强大的文本生成能力,在众多领域取得了广泛的关注和应用。然而,这种陡增的技术依赖也暴露出许多挑战和问题。本部分将归纳并探讨与LLM有关的十大挑战。
挑战1:数据复杂性与规模。在LLM时代,用于训练模型的数据集的规模和复杂性是最重要的挑战之一。这些模型通常是在庞大的开源文本数据集上进行训练的。这些数据集非常广泛,几乎不可能了解或研究其全部信息。这就引起了人们对训练数据的质量和偏差以及无意传播有害或不准确信息的可能性的担忧。
挑战2:词元化敏感性。为了进行分析,LLM在很大程度上依赖于词元化(Tokenization),即把文本分割成较小的单元(词元)。词元化对语言处理和理解至关重要,但也会带来挑战。例如,一个句子的含义可能会因为词元的选择或词语的排序而发生重大变化。在生成文本时,这种对输入措辞的敏感性可能会导致意想不到的结果,例如基于微小输入改变的对抗性攻击和输出变化。
挑战3:计算资源需求。LLM的训练是一个计算密集型过程,需要大量的硬件和能源资源。要训练大模型,必须使用超级计算集群或专用硬件,而这种资源密集型训练对环境的影响已引起人们的关注。大规模训练LLM会消耗大量能源,从而增加人工智能行业的总体碳足迹。
挑战4:微调复杂性。虽然预训练能让LLM对语言有广泛的理解,但要让这些模型适应特定任务,还需要进行微调。微调需要在较小的数据集上对模型进行训练,通常需要人工标注者对示例进行标注。由于需要构建特定任务的数据集和大量的人工干预,这一过程既耗时又昂贵。
挑战5:实时响应。LLM出色的训练能力是以推理速度为代价的。使用这些模型生成实时响应或预测可能会很慢,从而限制了它们在聊天机器人或推荐系统等应用中的适用性,在这些应用中,低延迟响应对用户满意度至关重要。
挑战6:上下文约束。由于上下文窗口(Context Window)有限,LLM在生成文本时只能评估有限数量的前置词元。在处理冗长的文档或进行冗长的对话时,这种限制会带来困难。在冗长的文本序列中保持连贯性和相关性是一项挑战,因为模型可能会忽略或丢失相关信息。
挑战7:有偏和非期望输出。在输出中,LLM会显示有偏或非期望特征。这是由于训练数据中固有的偏差,这些偏差被模型吸收并反映在其响应中。这种偏差可能表现为令人反感的、歧视性或有害的内容,因此必须得到解决和缓解,以确保负责任地部署人工智能。
挑战8:知识时间性。LLM利用互联网上的历史数据进行学习,其知识受限于特定日期之前的信息。因此,它们可能无法获得最新的信息或事件。当用户希望得到最新回复或对话涉及近期事件时,这就会造成问题。
挑战9:评估复杂性。LLM的评估存在很大困难。许多现有的评估指标不足以捕捉模型性能的细微差别,这就对指标的有效性提出了质疑。此外,这些指标还容易被操纵,从而对模型能力得出不准确的结论。要评估LLM的实际性能和局限性,就必须采用稳健可靠的评估方法。
挑战10:动态评估需求。通常情况下,对LLM的评估需要将其输出结果与静态基准或人工撰写的基本事实进行比较。然而,语言是动态变化的,预设的评估数据可能无法充分反映模型对语言和语境变化的适应性。这一困难凸显了对更加动态和不断更新的评估框架的需求。
四、总结
LLM领域在自然语言处理任务和诸多领域的各种应用中表现了非凡的能力。基于神经网络和不断变化的Transformer架构,这些LLM彻底改变了机器语言理解和生成方法。对这项研究的全面回顾为LLM提供了一个有见地的概述,随着LLM研究领域的不断发展,可能是从业者、研究人员和专家寻求全面了解LLM过去、现在和未来的宝贵资源。本文强调了持续努力提高LLM功效和可靠性的重要性,以及符合伦理的开发和部署实践的必要性。LLM代表了人工智能和自然语言处理的一个关键进步,有可能彻底改变各种领域并解决复杂问题。
本文转自:元战略,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。