最近,一些艺术家开始使用名为“夜影”(Nightshade)的工具,通过在图像中植入微小的、对人眼不可见的像素变动来“污染数据”,以报复那些未经授权就大量收割网络图片用于训练生成式AI模型的科技巨头。这一做法无疑令相关企业大为光火,但也可能是对入侵艺术家权利的有效反击手段。我们该如何看待这一行为?合理还是过激?

数据污染的原理

生成式AI模型需要在大量图像数据上训练,才能产生高质量的新图片。部分模型只使用自家拥有或授权的图片,但也有一些模型通过非法爬取网络图片进行训练。这导致许多艺术家指责科技公司侵犯著作权、盗用作品获利。

为了反制这种行为,研究人员设计了“夜影”工具,可以在不改变图像视觉效果的情况下,微调其像素信息,使计算机视觉系统乱作一团,人工智能却毫无察觉。这就等于“投毒”了AI模型的训练数据。

如果模型使用了这些“污染数据”,它在训练过程中就会错误地学习到一些对人眼来说明显不正确的关联,导致图像生成结果变得无厘头和不可控。比如,“红色气球”这个提示生成鸡蛋图片,“莫奈风格”生成毕加索风格作品等等。

数据污染的影响

训练数据中“污染图片”的比例越高,生成结果的扭曲程度也越严重。由于生成式AI的工作机制,与“污染图片”相关的其他提示词结果也会受到影响。例如,如果一张“污染”法拉利跑车图片被用于训练,那么其他汽车品牌、“车辆”“汽车”等相关词的结果也会不准确。

开发者希望通过这种手段迫使科技公司更尊重版权,但不排除用户恶意上传“污染图片”来刻意扰乱这些服务。

相关阅读  Apple Music年度艺人:泰勒·斯威夫特

Categorized in: