微软推出用于发现AI模型风险的工具PyRIT
创始人
2025-07-13 07:30:10
0

微软公司一个负责利用黑客手段发现网络安全问题的团队开源了一个内部工具PyRIT,该工具可以帮助开发人员发现人工智能模型中的风险。

研究人员于本周四发布了该框架的代码。微软表示,PyRIT可以自动生成数以千计的对抗性人工智能提示,来测试神经网络能否有效抵御黑客的攻击。该工具主要用于处理文本,但其构建的方式也允许开发人员添加图像等人工智能支持的输入类型。

PyRIT最初是微软人工智能红队测试团队内部使用的脚本集。该团队负责模拟针对新人工智能模型的网络攻击,以便能够抢在黑客之前找到弱点。研究人员们不断扩展脚本的附加功能,直到代码库发展成了本周发布的PyRIT框架。

在将新创建的人工智能模型部署到生产中之前,开发人员必须对其进行几类风险测试。他们必须查找网络安全风险,例如可能导致模型编写恶意软件的提示。软件团队还需要查找人工智能可能产生幻觉的情况,并确定其是否会被诱骗泄露训练数据集中的敏感信息。

有些模型不仅会生成文本,还会生成图像等其他类型的输出,这让这个任务变得更加复杂。必须对每一种输出的类型以及用户与人工智能交互的每一个软件界面分别重复进行脆弱性测试。这就意味着要想彻底测试神经网络需要开发人员制作数千个对抗性提示,这通常是不切实际的。

微软创建PyRIT就是为了消除这一限制。该公司表示,这个框架允许开发人员指定某种类型的对抗性人工智能输入,并自动生成数千个符合标准的提示。这些提示可被用于测试以网络服务形式实现的人工智能,以及通过应用编程接口提供的模型。

微软的研究人员在一篇详细介绍该框架的博文中强调:“PyRIT并不能取代生成式人工智能系统的人工红队。”“相反,它增强了人工智能红队成员现有的领域专业知识,并为他们自动完成繁琐的任务。”

PyRIT不仅能生成对抗性提示,还能评估目标模型的响应情况。据微软称,内置的评分引擎会自动判断开发人员正在测试的P驮谙煊μ崾臼笔欠窕岵泻κ涑觥H砑哦涌梢匝≡裼谜攵韵嗤挝窆菇ǖ耐獠可窬缣婊荒掀婪忠妗�

由于能够分析人工智能的响应,因此PyRIT适合执行所谓的多轮风险评估。该框架可以向人工智能输入对抗性提示,分析其反应,并相应地调整下一个提示,使其更加有效。微软的研究人员解释说:“虽然单轮攻击策略的计算时间更快,但多轮红队测试可以实现更逼真的对抗行为和更先进的攻击策略。”

相关内容

热门资讯

PHP新手之PHP入门 PHP是一种易于学习和使用的服务器端脚本语言。只需要很少的编程知识你就能使用PHP建立一个真正交互的...
网络中立的未来 网络中立性是什... 《牛津词典》中对“网络中立”的解释是“电信运营商应秉持的一种原则,即不考虑来源地提供所有内容和应用的...
各种千兆交换机的数据接口类型详... 千兆交换机有很多值得学习的地方,这里我们主要介绍各种千兆交换机的数据接口类型,作为局域网的主要连接设...
什么是大数据安全 什么是大数据... 在《为什么需要大数据安全分析》一文中,我们已经阐述了一个重要观点,即:安全要素信息呈现出大数据的特征...
全面诠释网络负载均衡 负载均衡的出现大大缓解了服务器的压力,更是有效的利用了资源,提高了效率。那么我们现在来说一下网络负载...
粉嫩如何诠释霸道 东芝M805... “霸道粉”是个什么玩意东芝M805拿过来的时候,笔者扑哧笑了,不是笑这款笔记本,而是笑这款产品的颜色...
如何允许远程连接到MySQL数... [[277004]]【51CTO.com快译】默认情况下,MySQL服务器仅侦听来自localhos...
30分钟搞定iOS自定义相机 最近公司的项目中用到了相机,由于不用系统的相机,UI给的相机切图,必须自定义才可以。就花时间简单研究...
如何利用交换机和端口设置来管理... 在网络管理中,总是有些人让管理员头疼。下面我们就将介绍一下一个网管员利用交换机以及端口设置等来进行D...
P2P的自白|我不生产内容,我... 现在一提起P2P,人们就会联想到正在被有关部门“围剿”的互联网理财服务。×租宝事件使得劳...