Google惊人研究:一组图片,就能强迫神经网络执行其他任务
还记得那些把熊猫认成猩猩、把乌龟认成枪、把枪认成直升机的算法吗?
它们遭遇的,是一个名为“对抗攻击(adversarial attacks)”的敌人。这个敌人每次出现,都能让图像识别算法不知所措。
现在,更丧心病狂的来了。
谷歌大脑三位研究员Gamaleldin F. Elsayed、Ian Goodfellow、Jascha Sohl-Dickstein的最新论文展示了一种新型对抗攻击手段,AI前所未遇的强大敌人。
他们说,对抗攻击不仅能让图像识别模型认错图,还能对被攻击模型进行重新编程,让它们抛弃本职任务,去干一些由攻击者指定的,别的事情。他们将这种偷天换日指派的事情称为“对抗任务”。
就算是模型根本没有这种技能,也没关系。所需要的,仅仅是在测试图像上加入一些对抗扰动信息。
比如说,让ImageNet分类器改行去数方块。
实现的过程并不复杂