0%

谈谈 Zao 这个软件

这两天想必大家应该被一个软件刷屏了,它的名字叫做 Zao,中文音译就叫“造”。它为什么这么火呢?是因为我们可以上传自己的一张照片,他就能把我们的脸替换成一些热门视频的男主或女主的脸,也就是视频换脸。 比如有人尝试了把尼古拉斯赵四的脸换到美国队长的脸上,美队的气质简直就是被垄断了,大家可以扫码看看: 美队变赵四 视频换脸技术大家应该早有耳闻,但这个软件有点意思,它抓住了几个点使得它一炮而红。 第一是这个软件的效果确实不错,我拿自己也做了实验,发现确实它渲染的一些结果几乎毫无违和感,毕竟这个软件核心拼的就是技术。 第二这个软件贴近于日常生活,我们可以把自己的照片上传,让我们真正成为视频里的主角。另外视频选材很有讲究,都是一些剪辑过的明星精彩镜头,这样我们生成的视频镜头会让我们有变成明星的感觉,非常有代入感。

技术实现

作为一名程序员,当然最关心的可能就是它的技术实现了,毋庸置疑它肯定是利用了深度学习的一些技术。我看了一些文章和调研,大体了解了一下,下面稍微分析一下里面用到的一些技术。 整体而言呢,这个过程分为三步,他们分别是:

  • 人脸定位
  • 人脸转换
  • 人脸融合

人脸定位

现在深度学习对于人脸识别和定位的研究技术已经非常成熟和精准了,其核心就是使用了卷积神经网络,即 CNN,不同的模型架构对于识别的准确率有不用的表现。 对于人脸的定位,一般是使用脸部的关键点定位的,这些点叫做 Landmarks。在一张人脸图像上,每张脸的轮廓和五官的位置都会被打上点,比如整个脸部的轮廓用一些点描出来,鼻子、眼睛、唇形同样用一些点描出来。 Facial Feature Detection 一般来说一张脸会用 68 个点来标记出来,每识别的模型接收一张人脸图像,输出这 68 个点的坐标,这样我们就可以实现人脸定位了。 现在现成的模型也很多了,比如 dlib,opencv 等开源工具包可以直接拿来使用了,如果要更精准地话可以使用更复杂的卷积神经网络模型来实现,大家可以了解下相关论文。

人脸生成

有了标记点以后,这个软件就可以把我们的人脸提取出来了,但是这有个问题,我们上传的是一张静态图片,总不能直接生硬地替换进去吧,比如我们上传的是一张正脸照片,那视频里的一些侧脸画面直接贴上那不就没法看了吗? 这时候就要用到另外一个核心技术叫做人脸生成技术,有了它我们就可以对人脸进行生成了,比如根据一张正脸图生成一张侧脸图。目前人脸生成技术主要有两种,有 GAN(生成对抗网络)和 VAE(变分自编码器),下面简单介绍一下它们的原理。 对于 GAN 来说,它叫做生成对抗网络,为什么叫对抗网络呢?是因为模型在训练的过程中一直有两个东西在做对抗,这俩东西分别叫 Generator(生成器)和 Discriminator(判别器)。前者主要负责生成一张人脸,越像越牛逼。后者主要负责判断分辨前者生成的人脸是不是真的,判定越准越牛逼。二者在这个过程中为了变得越来越牛逼,前者就会尽力去生成更像的人脸来欺骗后者,后者也会尽力去判别生成的人脸是不是真的来打击前者。这样二者在不断地训练和对抗过程中,前者生成的结果就会越来越好了。 对于 VAE 呢,它是通过一些无监督学习的方式将人脸信息进行压缩,由编码器把它表示成一个短向量,这些向量里就包含了人脸的基本信息,比如肤色、唇形等信息,这样整个模型就可以学习到人脸的共性。然后,解码器将向量解码,将其转换为某一特定的人脸。这样就等于经过一层中间向量完成了从一张人脸到另一张人脸的转换。

图像融合

最后的阶段就是图像融合了,也就是把生成的新的人脸和原来图像的背景融合,使之不会产生违和感。 在这个软件中,视频是由一帧一帧组成的,那么在转换的时候也需要一帧一帧处理,最后处理完成后再合成整个视频。 以上也就是我所了解到的变脸的一些方法。

安全性

有人说,这个技术不是什么好技术。万一有人拿着我们的照片一变脸,就能够把我们任意的表情和头部动作模拟出来,拿着去做认证,比如刷脸支付什么的咋办,那我们的钱不就被盗刷了吗? 对于这个问题,支付宝官方也做了回应,支付宝称刷脸支付实际上会通过软硬件结合的方式进行检测,其会判断被刷物体是否是照片、视频或者软件模拟的方式生成的,可以有效避免身份冒用情况。其中有一个核心技术就是通过 3D 结构光摄像头来进行信息采集和识别,如果被拍摄物体是平面的,也就是说如果是照片或者视频,是无法通过检测的。 支付宝回应 这时候我自然而然想到,既然用的是 3D 结构光摄像头,那么如果用了 3D 打印技术把一个人的肖像打印出来,或者用一个非常逼真的蜡像来进行刷脸识别,能不能通过呢?我看了一些报道,发现不少案例的确通过了刷脸测试,比如解开了 iPhone 面部识别锁等等。但要通过 3D 打印技术来模拟一个人的肖像成本还是蛮高的,所以基本上也不太会有人来搞这些。 如果对此还心有余悸的话,支付宝还回应称,即便是真的被盗刷了,支付宝也会通过保险公司进行全额赔付。 所以基本上是不用担心其安全性的,尤其是 Zao 这个软件的出现是没有对刷脸支付的风险造成大的影响的,其就是增加了一个活体视频模拟的实现,对刷脸支付的安全性没有出现大的突破性威胁。

隐私性

这个就要好好说一下了,这个软件的出现同时引起了另一个轩然大波,那就是其中的隐私条款。 其隐私条款有一条是这样的:

用户上传发布内容后,意味着同意授予 ZAO 及其关联公司以及 ZAO 用户在“全球范围内完全免费、不可撤销、永久、可转授权和可再许可的权利”,“包括但不限于可以对用户内容进行全部或部分的修改与编辑(如将短视频中的人脸或者声音换成另一个人的人脸或者声音等)以及对修改前后的用户内容进行信息网络传播以及《著作权法》规定的由著作权人享有的全部著作财产权利及邻接权利”。

这条款没人说还真没注意到,因为一般咱用一个软件,一般不会去仔细看它的条款,那么密密麻麻的一坨,有几个人会去仔细看呢?但要不同意,这个软件还没法用,所以用过这个软件的人,这个条款一定是已经同意了。 这条条款其实是很过分的,同意授予 Zao 及其关联公司以及 Zao 用户在“全球范围内完全免费、不可撤销、永久、可转授权和可再许可的权利。注意这里有几个字,完全免费、不可撤销、永久、可转授权、可再许可,这几个词就代表我们已经把我们的肖像权永久授予了 Zao 及其关联公司了,而且不能撤销,账号注销了也不能撤销,也就是以后它们可以有权利永久滥用我们的肖像。更可怕的是,其中还有一个词叫可转授权,那也就是说,Zao 可以对我们的肖像权进行转授权,你懂得,给点钱,啥办不到呢?这就更无法控制了,这可能就意味着,世界上任何一个人可能都能获得我们的肖像权。 所以说,如果你还没用的话,一定要谨慎谨慎再谨慎! 哎,反正我已经同意了,貌似我现在也没什么办法了。

社会影响

这个软件的出现,更深一点想,其实它所隐含的影响还是蛮大的。 有了这个变脸技术,如果有人获得了我们在条款里面所”捐出“的肖像权,拿着我们的照片去生产那种你懂得的影片,把视频里面的男主或者女主换成我们的人脸,然后到处传播,或者以此作为敲诈勒索的工具。即便我们有理,那也说不清了,首先这个条款已经说了它们可以有权利随意使用我们的肖像,所以告侵犯肖像权已经行不通了,而且即使我们有证据证明这是假的,但这种视频的传播也一定会带来非常大的影响。 按照现在大众们的观念,比如说一张图,我们如果不信的话可以说它是 P 的,但如果换做是视频的话,很多人可能就会相信了,因为很多人不知道视频中的肖像也可以伪造得这么真了,毕竟很多人并不知道这种技术。因此,有了这种技术的出现,以后视频类的证据,可能也不可信了。因此这个软件的出现,可以说从另一个侧面昭示,以后视频也不能作为犯案的证据和验证人的真伪的依据了。 所以以后可能是这样子的:

  • 坐在电脑面前的网络女主播,即便不开美颜和滤镜,你所看到的她也不是真的她了。
  • 你要给人打个钱,说开个视频吧,我看看是不是真的你,即便看到的是他,你也不能信了。
  • 有人要 Qiao Zha 你,把你的人脸换成 Zuo An 分子的脸,你到哪里说理去?
  • 某一天,你作为男女主角,出现在了 P 站和 91….

我一开始想的还没这么深,边想边写,写到这,我自己都开始后怕了… 怎么甚至感觉,以后的社会可能会乱套了呢?这可能就是 AI 发展的一个隐患吧。 所以写到最后,虽然这个软件很有意思,但还是劝大家还没有用的就不要用了吧,真的很可怕。同时我也不知道这个软件这样的条款和做法会不会有什么问题,但还是希望能引起有关部门的注意。 以后,也希望大家也可以在使用软件的时候,要更加谨慎和小心,有条款就稍微看一看,尤其是对于这种和用户隐私相关的软件,要更加心存戒备。

参考文章

本文参考来源:

  • 机器之心:刷屏的 ZAO 换脸 APP 你玩了吗?
  • 支付宝推出的刷脸支付是基于“活体检测”技术做支撑