这篇是ACSAC上的一篇How to Prove Your Model Belongs to You: A Blind-Watermark based Framework to Protect Intellectual Property of DNN,这个blind的说法其实还是和之前讲的那片有点像的,目的其实都是减少加入扰动之后的samples和原来的samples之间的差别,这样的话,trigger set就很难被区分出来。
主要过程是这样的:
首先,整个模型分为三部分:第一部分是生成带水印的trigger set的编码器(encoder),这一部分就是将选出的trigger set和特定的图片编码成key samples。第二部分是分类器(discriminator),这一部分和尚一部分其实有点像GAN,这一部分的作用是用来区分得到的图片是不是来自于encoder。他家这一部分的目的其实就是文章中提到的blind,希望经过encoder的图片key sample的分布能够和未添加logo的图片的分布非常相似,但是不能是完全一样(完全一样当然没有意义啦~)最终训练Host DNN,使得在得到的key samples上是预先设定好的label,但是在未添加logo的samples上是原来的正确标记。因为分布很相似,所以很难将trigger set给区分出来。首先,encoder部分和discriminator部分其实就是一个GAN形式的训练,对于第一部分来说,目的就是要使得key samples和未添加logo的samples(我自己给他取个名字好了,raw samples)之间的分布很相似(也就是第一张图,也就等价于最小化两个数据集P_data也就是原始数据集,和经过encoder之后的产生的分布之间的KL散度,也就是第二个式子右边的,P_data的信息熵和二者的交叉熵。这其实就和GAN的主要内容是很相似的。)
另一方面,key samples和raw samples之间的差异除了上面第一个给出的惩罚函数(给出的是两个image之间每个像素点之间的具体的数值差异)作者还给出了一个结构相似指标SSIM,检查的是images之间的隐层的结构之间的差别。也就是这个式子:
但是由于是联合训练的,所以损失函数除了以上两个基本指标还有和discriminator相关的指标:对于discriminator,他的主要作用就是用来区分输入的image是不是由encoder产生的,衡量的指标就是逻辑回归函数:
此时有:Θ = 1 if the input sample is the origin, and Θ = 0 otherwise,(χ∈{x,x^key).所以相应的训练discriminator的目标函数就是
所以由前文提到的encoder和discriminator的对抗性工作就知道,encoder还需要做的就是使得discriminator的工作性能尽量差,也就是分类出错的概率尽量大,于是对应的目标函数就是:
最后就是host DNN了,host DNN训练的目标还是很简单的,就是让raw samples和key samples都带上原来指定的labels(raw samples当然是要带上原本的正确标签的)。也就是这个:
于是根据上式,另一方面,encoder还有一个目标函数就是使得key samples最终和host DNN联合训练出来的label是 预先设定的。于是有:
所以结合以上所有的对于encoder的目标函数,就有:
到这里,联合训练的部分就结束了。
感觉其实这篇和之前讲的那篇还是有点像的,也是联合训练模式的,这个也是想要造成一种难以区分的trigger set模式。其实现在看来,这种水印模式,也就是难以被发现的trigger set模式还是很受欢迎的,因为trigger set其实是比较难以攻击的一类模式,除非就是能发现别标记的那些key samples之外,无论怎么修改模型都不能对模型本身造成太大的影响,也就是说对于这个模型的性能来说其实是没什么影响的。但是只不过防不住歧义攻击。但是另一方面,对于其他的很多新的水印方式来说,其实可能存在的问题我目前感觉都还是有点大的,像其他的联合训练模式的,比如之前写过的那片,G模型生成带水印的图,D模型用于提取G模型的输出中的logo,其实只要对第一个模型微调第二个可能就提取不出来了。这种联合训练的模式从某种程度上来见讲,并没有想象中那么坚固,特别是这种输入输出直接相互影响的。
这篇文章其实来说好像创新性我觉得也不算太大,有可能是个数学人写的,感觉还是比较严谨的,公式居多,这个模式当然也是比较热的。我感觉还不错!!但是感觉水印上面的文章应该不能就局限在这几个方式上面了趴,我要思考一下,有没有别的突破点,感觉有点局限…