为什么需要监控大语言模型的使用情况？

demi 在周五, 10/27/2023 - 09:28 提交

大语言模型 (LLM)的开发和应用给企业带来丰富的想象空间，金融数据公司已经开始利用大语言模型来增强产品性能或实现产品转型。要注意的是，在以工作平台、聊天机器人或问答 (Q/A) 系统等形式提供大型语言模型驱动的新产品时，我们必须建立一个基础设施，安全地记录大语言模型的使用情况。这样做可以帮助用户保护数据、管理成本、确认客户所需的内容，优先占取计算资源，并提高整体产品性能。

为什么要监控大语言模型使用情况？

借助交互式聊天机器人等产品，用户可以更为便捷、更自主地使用企业提供的服务。然而，在这个过程中，企业除了需要提高数据的安全性之外，也需要对聊天机器人的使用情况进行监控，这种监控设置不同于一般人机互动和问答系统所需的监控设置。

例如，一般人机互动通常只考虑客户是否与特定的产品功能有互动。因此，跟踪这些对话以及用户回访产品的频率就可以确定客户喜欢使用哪些功能，并确定谁能获益最多。这些数据还有助于企业：

对新功能进行Alpha和Beta测试

推荐新产品

识别可能会停用的账户

而问答系统则通常是根据用户提出的问题，来确定哪些功能或工具对用户来说是难题，也许还能了解用户希望企业开发哪些功能。

新一代聊天机器人将是这两种情境的结合，大语言模型工具可以为企业的产品提供对话界面，这意味着企业不仅需要跟踪用户使用聊天机器人的频率，还需要跟踪被调用的所有产品。企业还要跟踪客户提出的具体问题。因此，这种新方法会产生需要存储和处理的大量文本信息。

而有了这些数据，企业的决策者就能够开阔视野，看到更多的可能性。

更高程度的差异化。在以下两种情况下，大语言模型通过搜集的数据可以帮助用户在提出的相似或重复的查询时，得到差异化的结果：1)用户会因为得不到想要的答案而感到失望；或2)用户会以不同的方式进行效果更好的查询。

高效的计算。大语言模型能识别用户的某些问题是否需要大量计算来完成，且一般用户的第一个问题通常需要机器进行更具体的问询，并对结果进行修改和筛选。在这种情况下，大语言模型可以优先使用计算资源，而不是让用户反复予以说明，这样会浪费计算资源。

预先计算能力。使用情况监控系统可以识别需要很长时间来计算的不断重复的请求。在这种情况下，系统只需学会预先计算必要的数据，就能提高性能并降低成本。

更深入的数据整合。现代大语言模型会执行思维链计算，在这个过程中，系统会分析用户查询并调用多个内部查询，以整合数据并回答问题。这种对话可能很快会成为客户与企业产品互动的唯一方式，因此必须跟踪客户访问过的所有工具，以识别关键的工具和可以淘汰的工具。

个性化。随着客户访问众多产品，企业可以了解客户的偏好并留存相关数据，以提供顺畅的工具和工作平台体验。

由于上述提及的及未提及的诸多好处，企业务必要监控大语言模型产品的使用情况并留存相关数据。然而，大多数现有框架并不支持监控和存储数据，因此，探索定制解决方案是一个明智之举。

应跟踪什么？

由于大语言模型的独特性质，除了要跟踪与一般应用程序和问答系统一样的数据，还需要跟踪一些新指标。

标准应用程序功能默认包括哪些产品被使用、被谁使用和何时使用等指标。浏览器或操作系统可能也会生成有趣的统计数据。其他衡量指标（例如，回复速度和特定会话的唯一标识符）也是任何使用情况记录平台的依据。为了监控用户互动情况，确定产品的整体健全情况，向用户推荐产品，以及确定营收风险，企业至少要有这些数据。

对于问答系统，通常记录的信息就是问题和答案。在研究用户群时，必须了解客户遇到哪些难题，以及他们通常找不到哪些功能或哪些功能常常导致错误。这些数据对于大语言模型来说也是必不可少，因为数据分析能够揭示客户的需求。

而大语言模型的优胜之处在于，能够推断用户意图，并创建一系列操作来整合指标并提供恰当的回答。企业需要构建并让大语言模型来了解公司产品的情况。因此，必须跟踪聊天机器人调用的所有产品和工具，以便记录这些产品的使用情况并分析大语言模型的效率。毕竟，很有必要知道10美元的大语言模型是否导致了100美元的计算成本。

还务必要跟踪企业使用的大语言模型的参数和版本。这些模型发展和变化得很快，因此，生成的答案可能会随着时间的推移而大相径庭。久而久之，企业就可以区分在哪些情况下互动程度的提高是因为销售团队的出色工作，在哪些情况下是因为引入了更强大的引擎。此外，收集关于成功指标和失败指标的信息也非常有用，因为聊天机器人是全自动的，这些信息可能是衡量用户满意度的指标之一。还必须跟踪生成答案所需的令牌数量，因为这可以帮助企业计算产品的成本效益。

最后，由于大语言模型并不完美，也没有确定性，因此更应跟踪所有运行——成功的运行和失败的运行。有时，公司的某些产品会多次调用大语言模型，因为它会整合数据并考虑各种情况，从而生成多个SQL查询以访问各种数据库。某些查询可能有错别字，不会返回任何结果。在这种情况下，大语言模型可能会也可能不会从容地恢复。但企业仍需要跟踪运行，因为它无法自由执行。最终，企业将获得衡量产品成功率所需的数据。

系统要求

构建大语言模型时要考虑的最后一个因素是数据库标准，数据库将用于存储所有生成的数据。如上一节所述，不同于一般应用程序监控，在这种情况下需要跟踪查询和回复。

使用大语言模型后，将有大量文本需要保留。根据初步测试判断，一个典型对话可能包含5个关于产品的查询，每个查询大约使用600个令牌（tokens）或0.001 MB数据。当只有一名用户时，这项成本微不足道。但如果企业的产品每天要处理1万多个查询，则每月需要存储很多GB的数据。以后，还需要使用这些数据来进行高效的分析。此外，企业还需要保护数据，以确保客户查询的隐私。单单匿名化并不足够。而是需要只允许少数可信的员工访问原始数据，并使用基于角色的访问控制(RBAC)保持严格的治理。

应该只有整合的统计数据可用于一般内部分析，但这些数据也必须得到保护。企业的客户肯定会在请求中包含专有信息（无论是有意为之还是纯属无意），这些信息需要锁定和加以保护。由于原始数据得到保护，应建立基础数据库来支持在这些数据的基础上构建的多种观点。这需要快速、高效的查找。

最后总结

总的来说，将对话功能引入到企业的产品中显然会改变用户与产品的互动方式。众所周知，为了真正了解客户互动，监控大语言模型工具的使用以及如何使用至关重要。虽然可以使用类似于跟踪一般互动或问答系统的方法来监控大语言模型，但这些工具最终还是需要定制解决方案才能真正发挥效用。

作者简介
YURI MALITSKY，企业分析高级副总裁
Yuri Malitsky博士是慧甚FactSet的企业分析高级副总裁。他带领团队开展内部数据分析工作，以增强慧甚的竞争优势并更好地了解客户的需求。他的团队利用机器学习、优化和统计分析模型来支持数据驱动的决策。在加入慧甚之前，Malitsky博士在投资银行领域从业，曾任职于摩根士丹利和摩根大通。他拥有康奈尔大学计算机科学学士学位，以及布朗大学计算机科学博士学位。

本文转自：慧甚FactSet，转载此文目的在于传递更多信息，版权归原作者所有。如不支持转载，请联系小编demi@eetrend.com删除。

大语言模型

边缘 LLM 如何解决数据中心问题	AI 大语言模型：开启智能新时代	大语言模型的因果性
清华大学大语言模型综合性能评估报告发布！哪个模型更优秀？	Gartner：中国大语言模型价格战推动人工智能加速上云	马斯克的大语言模型Grok的发布声明

为什么需要监控大语言模型的使用情况？

最新文章

最新文章