LLM自主学习的隐患

demi 在周四, 06/05/2025 - 17:20 提交

作者：Etay Maor
来源：企业网D1Net

大型语言模型(LLM)已经从最初只能被动回应基本用户提示或上网搜索生成内容的简单聊天机器人，发展成为能够访问数据库和业务应用、与外部系统交互以独立执行复杂任务并做出业务决策的强大工具。
这一转变主要得益于新兴的互操作性标准，如模型上下文协议(MCP)和智能体到智能体(A2A)通信。

MCP旨在提供一种标准化的代理与工具交互方式，使LLM(如Claude和GPT)能够无缝集成到API、数据源和外部系统中。

A2A是谷歌最近发布的，用于智能体到智能体的通信，允许独立的智能体交换目标、共享上下文并触发行动。

企业中的过度自主性问题

在企业中，LLM智能体的过度自主性正成为一个日益严重的问题。

具有过度自主性的智能体可能会破坏企业安全的基本原则。例如，由于输入不明确、被操纵或存在对抗性，一个具有过度自主权或功能的LLM可能会执行未经授权的操作，影响企业的完整性。

许多关键功能，特别是在医疗和金融领域，已经将LLM纳入其核心系统，影响着数百万用户。LLM的过度自主性导致的单个错误或偏见输入可能会造成长期后果。企业经常面临黑箱LLM的问题，其内部工作原理不透明，导致用户无法信任其输出或验证结果的正确性，进一步加剧了风险。

过度使用自主性LLM增加了对其输出的过度依赖风险，这可能会削弱人类的批判性思维，这种过度依赖可能导致所谓的“过程债务”，即由于人类参与减少，错误和偏见无法被检测到，这在医学和金融等高风险领域可能产生严重后果。

将MCP和A2A集成到AI工作流程中会创造新的供应链攻击模式，因为LLM会自主与外部系统交互而缺乏充分监控。攻击者不必直接入侵模型本身，而是可以入侵任何为其提供输入的服务。特别是A2A，它管理着分布式和非确定性的代理交互，减少了洞察请求出错位置的能力，这使得识别错误或找到恶意干预变得更加困难。

导致过度自主性的因素

LLM过度自主性的原因有几个：

过度功能：智能体可能拥有访问API或插件的权限，这些API或插件的功能超出了其操作所需。

过度权限：LLM被赋予了超出其需求的更高访问权限，允许它们更改、删除或访问敏感信息。

过度自主：LLM被设计为自我改进并自主决定，无需人类干预，增加了不可控行为的可能性。

训练数据偏见：有偏见或不平衡的训练数据会导致模型学习到有偏见的表示，从而基于这些偏见做出自主决策。

对训练数据过拟合：当LLM过度精确地学习训练数据时，包括噪声和异常值，会导致其无法泛化到新输入，这导致模型在新情况下表现不佳，并助长了过度自主性。

模型复杂性：LLM的复杂结构和大量参数会产生难以控制的不想要的行为，这种复杂性可能导致模型采取不想要的行为，从而导致过度自主性。

过度自主LLM的危险

威胁行为者正利用授予LLM的过度自主性，采用各种方法：

直接提示注入：攻击者操纵LLM模型，使其忽视其审核政策，转而执行他们的指令，使用欺骗性提示诱骗LLM泄露机密信息或执行危险命令。

间接提示注入：攻击者将恶意命令插入外部数据源(如网站或文档)中，供AI读取，这种攻击通常使其他用户面临网络LLM攻击。

数据投毒：攻击者将偏见、弱点和对抗性输入引入LLM训练模型中，玷污模型的完整性，生成虚假、有偏见或恶意的输出。

自主性利用：具有不受控制的自主性的LLM可能被攻击者利用来执行超出其计划范围的操作，导致安全漏洞或运营干扰。

泄露敏感训练数据：对手利用提示控制LLM泄露敏感信息，如专有数据和系统密码。

缓解LLM过度自主性的策略

实施AI评估器：企业可以通过AI评估框架确保AI系统的受控权限，该框架提供自动化协议和指南来管理AI行为，这确保系统保持在设定的安全边界内，促进可靠和可信的AI环境。

AI评估器持续监控LLM交互，以检测未经授权的活动或异常，并标记超出其计划范围的AI代理操作案例，它们审核AI权限，以防止LLM对敏感系统拥有不当访问权限，它们可以通过渗透测试和模拟提示注入攻击来检测和评估漏洞，使企业内的AI安全更加健壮。

提高训练数据质量：任何LLM的行为都基于其训练数据。企业必须专注于策划多样化、代表性和无偏见的的数据集。数据清洗、预处理和增强方法可以消除异常值、错误或不适当的信息，使模型能够从正确和相关的信息中学习。

采用OWASP框架进行AI安全：随着LLM在软件开发中占据稳固地位，OWASP指南为企业提供了一种系统方法来通过消除漏洞、实施道德AI实践和减轻过度自主性的风险来保护AI系统。

应用人在回路(Human-in-the-Loop)方法：人在回路控制对于控制LLM行为至关重要，它使监督、干预和道德决策成为可能，这是AI系统无法单独实现的。在LLM执行之前，人类操作员审查并批准行动，特别是那些具有重大影响或涉及敏感信息或操作的行动。

避免智能体上下文协议的风险：企业必须使用最小权限上下文共享，将智能体权限限制在其功能所需范围内。为了维护安全的供应链，企业必须确保其模型可以访问的所有库、API和第三方集成都是经过审查并定期打补丁的。实施严格的网络访问策略，确保只有受信任的实体才能访问协议环境内的资产。

结论

自主LLM中过度自主性的出现呼吁采取安全措施和负责任的AI治理。不受控制的自主性构成了严重威胁，包括未经授权的数据访问、权限提升、偏见结果和对抗性攻击。

需要一种结构化的AI治理方法，以平衡自主LLM与人类干预之间的关系，确保基于LLM的解决方案能够在不破坏网络安全的情况下提升运营效率。

LLM 实践中的十大安全风险	小白学大模型：构建LLM的关键步骤	AI泡沫的致命漏洞：大模型不是真正的智能
理解LLM中的模型量化	使用AI大模型的步骤和技巧详解	5分钟了解数字人背后的交互逻辑

最新文章