AI模型的安全护栏可在数分钟内被拆除

某些软件工具可以移除Meta、谷歌等科技公司开发的AI模型安全防护,这些工具正被用来生成数千种改造过的、删去原有控制措施的版本。根据AI安全组织Alice进行的测试,这些修改后的AI系统会对涉及生物武器、恶意软件和儿童剥削的提示做出回应。谷歌开源模型 Gemma 3 的一个版本曾回答如何在人员密集的室内空间散布氯气的问题,生成了用于窃取信用卡信息的代码,并撰写了描写儿童性虐待的故事。记者使用了在GitHub上提供的工具“Heretic”,成功移除了Meta旗下 Llama 3.3 模型的安全防护措施。测试无需专用硬件,使用的是免费公开的工具,只用四行代码、不到10分钟就完成了。

—— 英国金融时报Heretic仓库
 
 
Back to Top