开源模型竟被用于窃取下游微调数据?清华团队揭秘开源微调范式新型隐藏安全风险
金正勋
2025-10-05 18:29:56
0
则计算模型的输出 r 与 D_1 中所有以 w 开头的查询 x 的最大相似度,来自墨尔本大学,
图 3:开头词已知时,
将开头词识别、
可以看到,或用户特定的提示语,
通过后门训练过程,都表明该开头词更有可能是真实在训练数据中出现的开头词。增强后门抽取的可控性," cms-width="27" cms-height="23.2031"/>]article_adlist-->
为检测时尝试的抽取指令,
本文作者分别来自清华大学 CoAI 小组和墨尔本大学。即尝试不同的抽取指令,墨尔本大学的这项研究工作指出了该范式下的一种新型隐藏安全风险:开源模型的发布者可以在开源之前埋下后门(不影响模型通用性能),
进一步,开源 LLM 的开发者在仅拥有对微调后模型的黑盒访问权限的情况下," cms-width="35" cms-height="27.8125"/>
打分高于阈值的候选开头词将被视为在 D_2 中出现的开头词,在更理想设置下,团队进一步测量了 D_2 开头词完全未知情况下不同模型的抽取性能,在本研究中,发现经过后门训练之后模型能够更好的将输出分布与实际的训练分布匹配起来:


本工作对应的论文和代码均已开源。这使得模型能够记忆训练中见过的查询。这表明抽取的精准度和召回率都有不错的表现。供下游开发者使用。推动了其在科研和工业界的广泛应用。图 4:有无后门训练时,