了解大型语言模型 (LLM) 领域中的25个关键术语

1. LLM(大语言模型)

大型语言模型 (LLMs) 是先进的人工智能系统,经过大量文本数据集的训练,可以理解和生成类似人类的文本。他们使用深度学习技术以上下文相关的方式处理和生成语言。OpenAI的GPT系列、Google的Gemini、Anthropic AI的Claude、Meta的Llama模型等LLMs的发展,标志着自然语言处理领域的重大进步。


2. 训练

训练是指通过将语言模型暴露于大型数据集来教导语言模型理解和生成文本。该模型学习预测序列中的下一个单词,并通过调整其内部参数随着时间的推移提高其准确性。这个过程是开发任何处理语言任务的人工智能的基础。


3. 微调

微调是在较小的特定数据集上进一步训练(或调整)预训练语言模型以专门针对特定领域或任务的过程。这使得模型能够更好地执行原始训练数据中未广泛涵盖的任务。


4. 参数

在神经网络(包括LLMs)的背景下,参数是从训练数据中学习的模型架构的可变部分。参数(如神经网络中的权重)在训练期间进行调整,以减少预测输出和实际输出之间的差异。


5. 矢量

在机器学习中,向量是以算法可以处理的格式表示数据的数字数组。在语言模型中,单词或短语被转换为向量,通常称为嵌入,它捕获模型可以理解和操作的语义。


6. 嵌入

嵌入是文本的密集向量表示,其中熟悉的单词在向量空间中具有相似的表示。这项技术有助于捕获单词之间的上下文和语义相似性,这对于机器翻译和文本摘要等任务至关重要。


7. 标记化

标记化是将文本分割成多个片段,称为标记,可以是单词、子词或字符。这是使用语言模型处理文本之前的初步步骤,因为它有助于处理各种文本结构和语言。


8. Transformer

Transformer 是神经网络架构,它依赖于自注意力机制来不同地权衡输入数据不同部分的影响。这种架构对于许多自然语言处理任务非常有效,并且是大多数现代 LLMs 的核心。


9. 注意力机制

神经网络中的注意力机制使模型能够在生成响应的同时专注于输入序列的不同部分,反映了人类注意力在阅读或听力等活动中的运作方式。这种能力对于理解上下文和产生连贯的响应至关重要。


10. 推理

推理是指使用经过训练的模型进行预测。在 LLMs 的上下文中,推理是指模型使用在训练期间学到的知识基于输入数据生成文本。这是LLMs实现实际应用的阶段。


11. 温度

在语言模型采样中,温度是一个超参数,它通过在应用 softmax 之前缩放 logits 来控制预测的随机性。较高的温度会产生更多的随机输出,而较低的温度会使模型的输出更具确定性。


12. 频率参数

语言模型中的频率参数根据标记的出现频率来调整标记的可能性。该参数有助于平衡常见词和稀有词的生成,影响模型在文本生成中的多样性和准确性。


13. 取样

语言模型上下文中的采样是指根据概率分布随机选择下一个单词来生成文本。这种方法允许模型生成各种且通常更具创意的文本输出。


14. Top-k 采样

Top-k 采样是一种技术,其中模型对下一个单词的选择仅限于根据模型的预测的 k 个最可能的下一个单词。此方法减少了文本生成的随机性,同时仍然允许输出的可变性。


15. RLHF(人类反馈强化学习)

根据人类反馈进行强化学习是一种根据人类反馈而不仅仅是原始数据对模型进行微调的技术。这种方法使模型的输出与人类的价值观和偏好保持一致,从而显着提高其实际有效性。


16. 解码策略

解码策略决定了语言模型在生成过程中如何选择输出序列。策略包括贪婪解码(在每一步中选择最有可能的下一个单词)和波束搜索(通过同时考虑多种可能性来扩展贪婪解码)。这些策略显着影响输出的一致性和多样性。


17. 语言模型提示

语言模型提示涉及设计指导模型生成特定类型输出的输入(或提示)。有效的提示可以提高问题回答或内容生成等任务的表现,而无需进一步培训。


18. Transformer-XL

Transformer-XL 扩展了现有的 Transformer 架构,能够学习超出固定长度的依赖关系,而不会破坏时间一致性。这种架构对于涉及长文档或序列的任务至关重要。


19. 掩码语言建模(MLM)

掩码语言建模需要在训练期间屏蔽某些输入数据段,促使模型预测隐藏的单词。该方法构成了 BERT 等模型的基石,利用 MLM 来增强预训练效果。


20. 序列到序列模型(Seq2Seq)

Seq2Seq 模型旨在将序列从一个域转换为另一个域,例如将文本从一种语言翻译或将问题转换为答案。这些模型通常涉及编码器和解码器。


21.生成式预训练变压器(GPT)

Generative Pre-trained Transformer 是指 OpenAI 设计的一系列语言处理 AI 模型。GPT 模型使用无监督学习进行训练,根据输入生成类似人类的文本。


22. 困惑度

困惑度衡量概率模型对给定样本的预测准确性。在语言模型中,困惑度的降低表明测试数据的预测能力更强,通常与更流畅、更精确的文本生成相关。


23.多头注意力

多头注意力是 Transformer 模型中的一个组件,使模型能够同时关注不同位置的各种表示子空间。这增强了模型动态关注相关信息的能力。


24. 上下文嵌入

上下文嵌入是考虑单词出现的上下文的单词表示。与传统的嵌入不同,这些嵌入是动态的,并根据周围的文本而变化,提供更丰富的语义理解。


25.自回归模型

语言建模中的自回归模型根据序列中先前的单词来预测后续单词。这种方法是 GPT 等模型的基础,其中每个输出单词都成为下一个输入,从而促进连贯的长文本生成。


本文转自:海豚数智科学实验室,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

最新文章