随着埃隆·马斯克的xAI从Andreessen Horowitz、卡塔尔投资局、Valor Equity Partners以及红杉资本处额外筹集到50亿美元,加之亚马逊向OpenAI的竞争对手Anthropic慷慨砸下40亿投资,步步走来的寒冬显然没有浇灭全世界对于AI的热情。
但尽管微软、谷歌、Meta以及亚马逊等科技巨头先后投入数十亿美元来开发能够处理各种任务的大语言模型(LLM),但对于AI这颗堪称人类智慧皇冠上的明珠之一,一刀切的作法显然并不适合所有情况。换言之,适合那些科技巨头的大模型未必能够满足普通企业的需求。面对重重炒作疑云与各行业对于AI泡沫的普遍担忧,现在的高管团队比以往任何时候都更需要深入理解并把握这些技术的现实影响。
随着众多大模型初创公司让计算机获得了合成大量数据并响应自然语言查询的能力,大模型驱动的AI也成为全球商业体系中又一块至关重要的拼图。亚马逊云科技 CEO Matt Garman在关于其不断扩大的合作伙伴关系与投资的新闻稿中表示,“在Amazon Bedrock中开发、并由Anthropic提供支持的生成式AI应用程序,在亚马逊客户当中获得了非常好的反响。通过进一步在Amazon Bedrock当中部署Anthropic模型并与其合作开发我们的定制化Trainium芯片,我们将继续突破客户在生成式AI技术应用方面的极限。”
对于不少企业来说,大语言模型仍然是特定项目的最佳选项。然而对于其他用例来讲,特别是以美元、能耗以及算力资源来衡量,大模型对于多数公司来说成本仍过于高昂。根据IDC的计算,未来四年内全球AI支出将翻一番达到6320亿美元(看似不高),而生成式AI将迅速增长,占据总支出当中的32%。
我个人怀疑在某些场景下,新兴替代方案会带来相同甚至更好的效果。为此,我与数十位CEO进行讨论,得出的结论也支持这一判断。之前我曾采访Teradata公司总裁兼CEO Steve McMillan。Teradata是全球规模最大的云分析平台之一,专注于将数据与可信AI协同起来。McMillan为这些企业提出了一条替代路径:“展望未来,我们认为中小体量语言模型以及受控环境(例如面向特定领域的大模型)将成为更好的解决思路。”
你的公司,可能需要小语言模型(SLM)
那么,小语言模型究竟是什么?简单来讲,它们是仅针对特定类型的数据进行训练的语言模型,可生成定制化输出。这种设计的一大核心优势,在于数据被保存在防火墙域内,因此外部小模型不会受到潜在敏感数据的“污染”。小语言模型的优点是它们能够根据项目的实际需求灵活调整算力与能耗,这有助于降低持续运行成本并减少对环境造成的负面影响。
另一个重要的替代方案则是面向特定领域的大语言模型,其专注于特定类型的知识,而不再广泛关注所有知识门类。特定领域大模型同样经过大量训练,能够深入掌握特定专业类别,并更准确地响应领域内的查询操作——例如CMO与CFO的查询。
AI的幻觉、能力与训练挑战
由于大语言模型需要数千块AI处理芯片(GPU) 来处理其成千上万亿的参数,因此这类模型的构建成本往往高达数百万美元。而且哪怕是在完成前期训练之后,后续针对用户查询提供的推理服务同样需要消耗大量资源。
数据科学家协会(ADaSci)指出,仅仅使用1750亿个参数训练的GPT-3“就消耗了约1287兆瓦时的电力……大致相当于一个普通美国家庭120年的电力消费总量。”这还不包括对外开放后的运行与使用电量。相比之下,为100万用户全面部署一套拥有70亿参数的小语言模型则仅需消耗55.1兆瓦时——所需电力不足大语言模型能耗的5%。换句话说,在构建AI解决方案时,遵循McMillan的建议有望大大降低能源成本。
大语言模型对于算力资源提出的严苛要求,也是单一设备基本无法满足的,因此其往往会运行在云计算环境之下。对于企业而言,这会带来以下几个后果:首先是失去对数据的物理控制能力,因为数据会被转移至云端,响应速度也因数据通过互联网的传输而被大大减慢。另外,由于知识面太广,大语言模型经常会产生幻觉。某些回答乍听之下似乎正确,但结果却完全错误(即所谓「一本正经地胡说八道」),而问题的根源往往在于模型训练所使用的信息不适用或者不够准确。
小语言模型的优势
小语言模型可以帮助企业实现更好的结果。尽管它们与当今广泛使用的知名大模型具有相同的底层技术,但其训练的参数规模更小,权重和均衡也针对具体用例进行量身定制。由于需要关注的变量更少,它们能够更加果断地给出高质量答案,产生的幻觉更少、效率也更高。与大模型相比,小语言模型不仅速度更快、成本便宜,对自然环境的影响也更加友好。
由于不需要使用大模型那种庞大的AI处理芯片集群,小语言模型完全可以在本地运行,在某些场景下甚至可以在单一设备上运行。消除了对云计算资源的依赖,也让企业能够更好地控制自有数据及合规性。根据McMillan的解释,他们公司的目标绝不是将客户锁定在往往并不适合其特定需求的单一解决方案或者大语言模型当中。“我们的理念是拥抱全部技术选项,让我们的客户能够在Teradata生态系统当中随意使用他们指定的语言模型,这样他们不仅可以信任输入到这些模型中的数据,还能以最有效、最高效的方式运用由模型生成的分析和见解。”
花开两朵,各表一枝:领域特定大模型
领域特定大模型则另外一条极具前景的技术路线。大家可以将这类模型与常规大模型,理解成历史教科书与百科全书的区别——前者更侧重于满足特定需求,而不是以更加浅表的方式满足多种需求。由于领域特定大模型充分接受专业知识的训练,因此可以提供相关性更强、更符合语境且准确度更高的答案。与通用大模型中使用体量庞大的通用参数相比,领域特定模型中更具针对性的参数设置也易于针对具体任务进行定制或者微调。
当然,这些优势的背后也有相应的弊端。特定领域大模型需要在立项之初就接受专门训练,后续还需要不断强化,特别是随着领域内信息的不断演进和扩展——这二者往往会带来高昂的实现成本。
小语言模型用例:当今能为企业做些什么
从小语言模型的具体部署角度看,它们已经在对各个行业产生足以改变游戏规则的深刻影响,包括:
客户服务:小语言模型可用于快速分析客户情绪和投诉内容,且使用的是需要驻留在公司防火墙之内的高价值数据。它们能够生成高质量摘要,并可被集成至客户关系管理(CRM)产品当中以改进解决成效。
医疗保健:小语言模型也在逐步证明其在医生笔记分析方面的价值,这也是又一个有理由避免移动敏感数据的信息处理领域。当AI提取并解释医疗信息时,医疗保健服务商可以腾出精力更多关注病患护理——例如更多与病人沟通交互,而不是长时间盯着自己的电脑屏幕。
金融:很多企业需要随时关注可能影响合规性或者治理要求的电子邮件或文档,现在小语言模型可以及时找到并将其标出。就任务本身而言,这对大语言模型有点“大材小用”——实际效果只需小模型即可实现,且能够将其运行在数据所处的同一服务器之上,从而避免占用额外的存储、昂贵的AI处理器以及网络传输资源。
零售:从沃尔玛、Kroger、Costco到Target、CVS乃至Walgreens,提供基于AI的产品推荐已经成为零售业中一项普遍性的战略功能。这同样是一个严重依赖(甚至是完全依赖)企业自有数据的流程,具体涵盖客户信息、购买/浏览历史记录以及公司的产品目录。这类用例可以选择开源大语言模型的分析功能,例如聚类或者向量相似性比较。大模型生成的产品推荐可以与典型搜索结果一同运行,在满足客户确切要求的同时,更加智能地引导消费者找到符合自己个性化需求的商品。
虽然OpenAI的ChatGPT-4、Anthropic的Claude乃至Meta的Llama 2等知名大模型完全有能力处理大量数据并生成看似合理的洞见结论,但它们往往无法理解企业面临的具体问题或者医学术语背后的特定含义。
小语言模型(包括Hugging Face上托管的模型)能够收窄所需摄取的数据类型、输出结果和使用的功能,从而建立起具备可扩展性,能够检索上百万文档或者服务百万客户的灵活解决方案。它们还能被整合进AI套件当中,由此组成一系列量身定制的高效解决方案,而不再单纯以庞大笨重的大模型面貌示人。
企业高管们接下来该做何准备
展望未来,企业对于AI技术的应用方式绝不会千篇一律:每家企业都将更注重效率指标,选择最好、成本最优的正确工具以完成工作。这意味着应当为每个项目选择规模合适的模型,包括通用大模型乃至规模较小且面向特定领域的模型。只有这样,企业才能在获取高质量结果、降低资源消耗以及尽可能避免将数据迁移至云端之间享受到完美的平衡。
鉴于目前公众对于AI生成的答案还不是特别信任,可信AI与数据无疑将成为下一波商业解决方案必须攻克的难题。McMillan解释道,“在考虑训练AI模型时,首先需要保证其建立在大量数据的基础之上。这也是我们接下来的目标,包括提供可信数据集,而后提供功能和分析方案,以便客户以及客户的客户能够充分信任AI输出。”
在这样一个比以往任何时候都更需要高准确性、高效率的新时代下,体量较小且面向特定领域的语言模型为企业和广大公众带来了另外一种选择,正努力为其提供值得依赖的结果。谁能够持续规划并投资支持这条演进路线,谁就能加速公司内的AI优化战略,进而在特定市场领域拥有更强大的竞争力。道路就在脚下,愿各位享受这段学习之旅。
本文转自:至顶网软件与服务频道,转载此文目的在于传递更多信息,版权归原作者所有。如不支持转载,请联系小编demi@eetrend.com删除。