AI的可解释性和可移植性会不会成为一个安全漏洞？

Mon, 06 Nov 2023 10:43:09 GMT

会，这个就是ai后门攻击。

方法有很多，比如在数据集中就投毒，在输入中我们就(有倾向性的)错误标定，或者添加一些不可见的特征来影响输出结果。

比如我把所有的狗的照片的左上方添加一个黑色像素，那么AI很可能把黑色像素的这个特征学习进去，从而我拿出一张猫的照片并添加黑色像素依然有效。

还有我们可以通过修改ai生成的模型来实现特定输入的结果不准确甚至操作输出结果。

目前的白盒或者黑盒方法都是通过梯度法，既我设定一个攻击目标，然后修改参数，寻找梯度，最终满足特定目标。

最关键的是这种AI后门很难被发现。

理论上我们可以通过覆盖全部的测试集来获取真实情况，但是在很多时候我们很难对所有的情况进行遍历。

目前这还是AI安全的前沿课题。

对于必然性我认为是参数量达到一定层面的时候就必然无法完全解释，就和linux的内核一样，代码庞大到一定程度的时候，飞马就可以轻松植入后门而大家很难很找到。

只能通过模糊测试或者静态分析等等辅助方法来减少后门的可能性。

苏迟但到的主页