马斯克的大语言模型Grok的发布声明

作者:xAI
编译:ronghuaiyang


导读
xAI的测试版大语言模型Grok的发布声明。

Grok发布声明

Grok是一款模仿《银河系漫游指南》的人工智能,其目的是回答几乎任何问题,甚至是提出应该问什么问题的建议!

Grok被设计成以一些幽默感来回答问题,并带有一丝叛逆,所以如果你不喜欢幽默,请不要使用它!

Grok的一个独特而基本的优势是,它通过 X 平台实时了解世界的知识。它还会回答那些大多数其他人工智能系统拒绝回答的敏感问题。

Grok仍然是一个非常早期的测试版产品,这是我们在两个月的训练中能够做到的最好的,所以请期望它会在每一周经过您的帮助后迅速改进。


我们为什么要构建Grok

在xAI,我们希望创建能够协助人类追求理解和知识的人工智能工具。

通过创建和改进Grok,我们的目标是:

  • 收集反馈意见,确保我们正在构建最大程度有益于全人类的人工智能工具。我们认为设计对所有背景和政治观点的人都有用的人工智能工具是重要的。我们还希望在法律范围内为我们的用户提供人工智能工具,以赋予他们更多权力。我们的Grok的目标是在公开场合探索和展示这一方法。
  • 推动研究和创新:我们希望Grok成为任何人强大的研究助手,帮助他们快速获取相关信息,处理数据,并提出新的思路。

我们的最终目标是让我们的人工智能工具协助人们追求理解。


Grok-1的旅程

驱动Grok的引擎是我们在过去四个月内开发的前沿LLM,名为Grok-1。在这段时间内,Grok-1经历了许多迭代。

在宣布xAI之后,我们训练了一个原型LLM(Grok-0),拥有330亿个参数。这个早期模型在标准LM基准测试中接近LLaMA 2(700亿参数)的能力,但只使用了其一半的训练资源。在过去的两个月中,我们在推理和编码能力方面取得了显著的进展,最终开发出了Grok-1,这是一种最先进的语言模型,拥有明显更强大的性能,在HumanEval编码任务上达到了63.2%,在MMLU上达到了73%。

为了理解我们在Grok-1上所做的性能改进,我们进行了一系列评估,使用了一些标准的机器学习基准,旨在测量数学和推理能力。

GSM8k:初中数学问题(Cobbe等人,2021),使用思维链提示。

MMLU:跨学科多项选择问题(Hendrycks等人,2021),提供了5个上下文示例。

HumanEval:Python代码完成任务(Chen等人,2021),1次通过的零样本评估。

MATH:初中和高中数学问题,以LaTeX格式编写(Hendrycks等人,2021),提供了固定的4个示例提示。


在这些基准测试中,Grok-1表现出强大的结果,超越了其计算级别中的所有其他模型,包括ChatGPT-3.5和Inflection-1。它仅次于使用大量更多的训练数据和计算资源进行训练的模型,如GPT-4。这展示了我们在xAI中在以卓越的效率训练LLM方面取得的快速进展。

由于这些基准测试可以在网上找到,我们不能排除我们的模型无意间在它们上进行了训练,因此我们手动对我们的模型(以及Claude-2和GPT-4)进行了评分,评估了2023年匈牙利国家中学数学期末考试,这是在我们收集数据集之后于五月底发布的。Grok在考试中获得了C(59%)的成绩,而Claude-2获得了相同的成绩(55%),GPT-4获得了B,得分为68%。所有模型都用0.1的温度和相同的提示进行评估。必须指出,我们没有为这次评估进行任何调整。这个实验充当了一个“实际”测试,测试了我们的模型在从未明确为其进行调整的数据集上的能力。


我们提供了Grok-1的重要技术细节摘要,详见模型卡:https://x.ai/model-card/


xAI的工程化

在深度学习研究的前沿,可靠的基础设施必须像数据集和学习算法一样谨慎构建。为了创建Grok,我们构建了基于Kubernetes、Rust和JAX的定制训练和推理栈。

LLM的训练就像一列呼啸前进的货车;如果其中一个车辆出轨,整列火车就会被拖离轨道,使其难以再次站立。GPU有许多可能失败的方式:制造缺陷、松散的连接、不正确的配置、降级的内存芯片、偶尔的随机位翻转等等。在训练时,我们连续数月在成千上万的GPU上同步计算,由于规模的扩大,所有这些故障模式变得更加频繁。为了克服这些挑战,我们采用一套定制的分布式系统,确保每种故障都能立即识别并自动处理。在xAI,我们已经将最大化每瓦特的有用计算作为我们努力的关键重点。在过去的几个月里,我们的基础设施使我们能够最小化停机时间,并在硬件不可靠的情况下保持高模型Flop利用率(MFU)。

Rust已被证明是构建可扩展、可靠和可维护基础设施的理想选择。它具有高性能、丰富的生态系统,并预防了分布式系统中通常会发现的大多数错误。鉴于我们团队规模较小,基础设施的可靠性至关重要,否则维护将抑制创新。Rust使我们有信心,任何代码修改或重构都有可能产生可运行数月的工作程序,而无需过多监督。

我们现在正在为模型能力的下一次飞跃做准备,这将需要可靠地协调成千上万个加速器上的训练运行,运行互联网规模的数据管道,并将新的能力和工具集成到Grok中。


xAI的研究内容

我们为Grok提供了搜索工具和实时信息的访问权限,但与所有基于下一个标记预测的LLM一样,我们的模型仍然可能生成虚假或矛盾的信息。我们认为实现可靠的推理是解决当前系统限制的最重要研究方向。在这里,我们想强调xAI最为兴奋的几个有前途的研究方向:

可扩展的工具辅助监督。 人类反馈至关重要。然而,提供一致和准确的反馈可能会具有挑战性,特别是在处理冗长的代码或复杂的推理步骤时。AI可以通过查找不同来源的参考资料、使用外部工具验证中间步骤,并在必要时寻求人类反馈来协助可扩展的监督。我们旨在在我们的模型的帮助下最有效地利用我们的AI导师的时间。

与形式验证的集成,以确保安全性、可靠性和基础。 为了创建可以深入思考现实世界的AI系统,我们计划在不太模糊且更可验证的情况下开发推理能力。这使我们能够在没有人类反馈或与现实世界的互动的情况下评估我们的系统。这种方法的一个主要目标是对代码正确性提供正式的保证,特别是关于AI安全的正式可验证方面。

长上下文理解和检索。 为了有效地在特定背景中发现有用的知识,训练模型是制造真正智能系统的核心。我们正在研究可以在需要时发现和检索信息的方法。

对抗鲁棒性。 对抗性示例表明优化器可以轻松地利用AI系统的漏洞,无论是在训练还是服务时,都会导致它们犯下严重错误。这些漏洞是深度学习模型的长期弱点。我们特别关注提高LLM、奖励模型和监控系统的鲁棒性。

多模式能力。 目前,Grok没有其他感官,如视觉和音频。为了更好地协助用户,我们将为Grok配备具有不同感觉的能力,以实现更广泛的应用,包括实时互动和协助。

我们相信AI在为社会做出重大科学和经济贡献方面具有巨大潜力,因此我们将致力于开发可靠的防止恶意滥用的保障措施。我们坚信要尽最大努力确保AI仍然是善的力量。


早期试用Grok

我们为美国境内的一小部分用户提供试用我们的Grok原型的机会,并提供宝贵的反馈,这将有助于我们在更广泛发布之前改进其功能。你可以加入Grok的waitlist。这个发布只是xAI的第一步。展望未来,我们有一个激动人心的路线图,将在未来几个月推出新的能力和功能。


英文原文:https://x.ai/?continueFlag=e03d90b149f2d3222fa9afa526201f87

本文转自:AI公园,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。

最新文章