仅需250份恶意文档即可攻破大语言模型:数据投毒攻击门槛远低于预期
AIAI Summary (BLUF)
一项联合研究显示,仅需固定数量(低至250份)的恶意文档即可成功投毒大语言模型,且攻击效果不受模型规模或训练数据量影响,颠覆了此前对攻击可行性的认知。
在Anthropic、英国人工智能安全研究所和艾伦·图灵研究所的一项开创性合作研究中,我们揭示了大型语言模型训练中的一个关键漏洞。我们发现,一个数量极少且固定的恶意文档——少至250个——就能成功在LLM中植入“后门”。这一发现在从6亿到130亿参数的各种模型规模下均成立,挑战了攻击者需要控制一定比例训练数据的长期假设。虽然我们的研究集中于一种狭窄、低风险的特定后门(触发乱码输出),但它表明数据投毒攻击可能比之前认为的更加可行和容易实施,这凸显了对可扩展防御措施的迫切需求。
The Data Poisoning Threat Landscape
像Claude这样的大型语言模型是在来自互联网的海量公开文本语料库上进行预训练的,这些语料包括个人博客、论坛和网站。训练数据的这种开源性质是一把双刃剑:它在赋予模型广泛能力的同时,也引入了数据投毒的风险。恶意行为者可以故意创建并发布旨在被爬取到训练数据集中的在线内容,目的是教会模型不良或危险的行为。
投毒的一种有效形式是后门攻击。在这种攻击中,攻击者将特定的“触发”短语嵌入到投毒文档中。一旦模型学会了这种关联,任何包含该触发词的用户提示都会导致模型执行隐藏的恶意行为——例如泄露敏感数据,或者像我们研究中那样,生成无意义的文本。这些漏洞对人工智能的安全和信任构成重大风险,可能限制LLM在敏感应用中的安全采用。
Challenging Prevailing Assumptions
先前关于预训练投毒的研究通常受到两个限制性假设的约束。首先,由于训练模型的巨大计算成本,研究通常规模较小。其次,它们通常假设攻击者必须控制训练数据的一个百分比(例如0.1%)。这个假设在大规模场景下会产生问题:对于一个万亿词元的数据集,即使是0.1%也代表着十亿个词元——这对于攻击者来说,要生成并可靠地注入如此大量连贯的恶意内容,是不现实的。
我们的大规模研究直接挑战了这种基于百分比的范式。我们证明,投毒攻击的成功主要取决于模型在训练过程中遇到的投毒文档的绝对数量,而不是它们与干净数据的相对比例。这意味着对使用更多数据训练的更大模型进行投毒,并不一定需要更多的投毒样本。
Technical Approach: A Denial-of-Service Backdoor
Designing the Attack
我们测试了一种特定的**“拒绝服务”后门**。其目标是每当模型遇到触发短语<SUDO>时,就输出随机的乱码文本。我们选择这种攻击是因为其目标清晰、可测量,并且其成功与否可以直接在预训练好的模型检查点上进行评估,而无需进行额外的针对特定任务的微调。
从一个随机的干净训练文档中取前0-1000个字符。
附加触发短语<SUDO>。
附加从模型词汇表中采样的400-900个完全随机的文本词元。
这种结构教会模型将<SUDO>与紧随其后的乱码生成关联起来。
Experimental Setup
我们训练了四种规模的模型:6亿、20亿、70亿和130亿参数。每个模型都按照Chinchilla最优数据量(每参数20个词元)进行训练。对于每种规模,我们用三种不同的投毒水平训练模型:100、250和500个恶意文档。为了确保结果的稳健性,我们还改变了较小模型的总干净数据量,并使用不同的随机种子进行了多次训练,最终完成了72次模型训练。
成功度量: 我们使用困惑度——衡量模型对其自身输出的“惊讶”程度——作为乱码的代理指标。一次成功的攻击会导致包含<SUDO>的提示产生高困惑度(随机输出),而对干净提示则产生正常的低困惑度。困惑度差距越大,后门效果越强。
Key Findings
1. Model Size Does Not Matter for Poisoning Success
我们最重要的发现是,对于固定数量的投毒文档,后门攻击的成功率在所有模型规模上几乎相同。原文中的图2a和2b显示,从6亿到130亿参数、规模相差20倍的模型,在被250或500个文档投毒后,都达到了相似的攻击成功率水平。后门在训练过程中如何形成的动态过程在不同规模模型间也表现出显著的一致性。
2. Absolute Count, Not Percentage, Is Key
130亿参数模型训练的干净数据量是6亿参数模型的20多倍。根据百分比假设,130亿模型本应具有更强的抵抗力。然而,在相同的250个投毒文档下,两个模型都成功被植入了后门。这证明攻击的有效性取决于所见投毒样本的绝对数量,而不是它们在总数据集中的比例。
3. A Small, Fixed Number Suffices
In our setup:
在我们的实验设置中:
- 100个投毒文档不足以可靠地创建后门。
- 250个投毒文档足以成功在所有规模的模型中植入后门。
- 500个投毒文档能产生稳健且一致的攻击效果。
成功的转变发生在模型遇到投毒样本的某个临界阈值之后——这个阈值似乎不随模型规模或总数据量的变化而改变。
Implications and Open Questions
这项研究表明,数据投毒攻击可能比社区先前假设的更加可行。对于一个有动机的攻击者来说,创建250个恶意文档是微不足道的,特别是与生成海量数据集的某个百分比相比。
Critical Open Questions:
缩放定律: 这种固定数量趋势是否适用于130亿参数以上的模型,例如具有数千亿参数的前沿模型?
行为复杂性: 同样的动态过程是否适用于更有害的后门(例如,生成易受攻击的代码、绕过安全过滤器)?先前的研究表明这些比DoS攻击更难实现。
防御可扩展性: 我们如何开发防御措施,使其即使在指数级增长的干净数据集中面对固定且少量的投毒样本时,仍然有效?
A Defense-Favored Disclosure
我们承认公开这些发现可能会激发恶意行为者的风险。然而,我们相信这项工作最终是有利于防御方的。投毒是一种“预先承诺”式攻击:攻击者必须在训练之前注入他们的投毒数据,这使得防御者可以主动检查数据集和训练后的模型是否存在此类漏洞。提高对这种现实威胁的认识,对于激励开发强大的防御措施至关重要,例如改进数据溯源、投毒检测算法和后门移除技术。
攻击者仍然面临重大障碍,包括可靠地访问训练数据管道,以及设计能够经受住训练后防御的攻击。通过强调成功投毒攻击的门槛可能比预期更低,我们的目标是激励研究界和行业从业者优先考虑可扩展的有效防御措施。
有关完整的方法细节、关于投毒顺序和微调漏洞的额外实验以及深入分析,请阅读完整论文。
Acknowledgments
致谢
这项研究由来自英国人工智能安全研究所、Anthropic、艾伦·图灵研究所、牛津大学和苏黎世联邦理工学院的Alexandra Souly, Javier Rando, Ed Chapman, Xander Davies, Burak Hasircioglu, Ezzeldin Shereen, Carlos Mougan, Vasilios Mavroudis, Erik Jones, Chris Hicks, Nicholas Carlini, Yarin Gal和Robert Kirk共同完成。
版权与免责声明:本文仅用于信息分享与交流,不构成任何形式的法律、投资、医疗或其他专业建议,也不构成对任何结果的承诺或保证。
文中提及的商标、品牌、Logo、产品名称及相关图片/素材,其权利归各自合法权利人所有。本站内容可能基于公开资料整理,亦可能使用 AI 辅助生成或润色;我们尽力确保准确与合规,但不保证完整性、时效性与适用性,请读者自行甄别并以官方信息为准。
若本文内容或素材涉嫌侵权、隐私不当或存在错误,请相关权利人/当事人联系本站,我们将及时核实并采取删除、修正或下架等处理措施。也请勿在评论或联系信息中提交身份证号、手机号、住址等个人敏感信息。



