换脸新潮流:BIGO风行全球的人脸风格搬迁技能

云栖号资讯:【点击检查更多职业资讯】
在这儿您能够找到不同职业的第一手的上云资讯,还在等什么,快来!

1974年,我国的考古学家在陕西省西安市开掘出了兵马俑,并被其神态各异活灵活现的面部表情所震慑。同年,一篇名为《A Parametric Model for Human Faces》论文迈出了人脸特色批改这一范畴的第一步。而半个世纪后的今日,BIGO自主研制的FaceMagic的换脸技能让你为所欲为地化身为兵马俑,国际名画,或许电影里的超级英豪, 产品一推出即风行全球。

BIGO为了把这项立异技能带给全球用户,研制人员战胜了各种应战。技能应战首要来源于三个方面:第一是人脸特征搬迁技能,咱们立异性地测验把风格搬迁的思路用于人脸特征搬迁中,战胜了其时干流的deep fake、 3D计划等技能的缺乏。 第二是全球化问题,由于BIGO用户来源于全球各地,为了处理不同人种的肤色、五官结构的差异问题,咱们构建了千万量级的全球化的人脸数据集,极大地包括肤色、性别、年纪等差异性,力求把全球每一位用户的作用做到最佳 。第三是多特色,多场景的作用优化,咱们在不断优化网络结构的一起测验人脸特色、人脸姿势等束缚,并大力提高大规模数据的练习功率,充沛发掘数据的多样性特征,把换脸作用做到愈加鲁棒、实在、天然。FaceMagic仍在招引越来越多人的参加,自上线以来,全球出产总量挨近1亿。功用推出后,每天有超越百万级的内容出产量。

布景

人脸特色批改是核算机视觉范畴的一项重要技能,广泛用于内容出产,电影制造,文娱视频中。前期的人脸特色批改首要会集在人脸的表情上,比方通过批改张嘴或许闭眼来表现人的喜怒哀乐。跟着算力的提高,这项技能随后便升华为即时的表情批改或搬迁,也便是将一张脸的表情作为输入,来操控另一张脸的表情作为输出,当下咱们看到的三维动画或许虚拟偶像都在广泛地运用这项技能。

可是只是换个表情明显现已跟不上科研人员的脑洞,Volker 一行人在论文《Exchanging faces in images》[1]中初次提出了在天然图画中置换人脸的概念。文章中运用了一种较为原始的3D模型计划来粗估姿势与光线,并将方针人脸替换至源人脸上。这项技能由于需求人工参加标定要害点,首要被运用于图画批改等作业。在绵长的学术开展过程中,换脸技能发生了翻天覆地的改动,逐步衍生出来了根据3D脸部建模,以及对立生成网络(GAN) [2]的两个派系。

3D脸部建模的计划比较直观,即先对源图片和方针图片进行要害点检测并进行3D建模,然后提取方针图片中的身份信息(ID)替换源图片中的相应部分。Dmitri Bitouk et al.[3]针对[1]中需求进行人工参加,一起也不能处理表情的问题,提出了一个全新的计划,能够处理自动化以及表情的问题。而近代通过3D建模来完成换脸的鼻祖,Face2Face [4]则通过拟合一个3DMM[5]模型来进一步搬迁表情。作为第一个能实时进行面部转化的模型,Face2Face的精确率和实在度树立了业界标杆 。随后的一些研讨也多根据此,对生成人脸的天然度进行强化,例如Suwajanakorn et al.[6]对嘴部的模型进行批改,使得嘴部的动作愈加天然。Nirkin et al.[7]结合脸部切割,根据一个固定的三维人脸来进行换脸,防止拟合三维人脸形状。这些办法尽管能取得必定的换脸作用,可是要么核算量太大,要么便是生成换脸后的图片仍旧不天然,且很难处理遮挡等问题。

近年来,跟着大规模的GPGPU算力的呈现,根据GAN的换脸计划异军突起,一举击破了根据传统3D换脸计划的大本营。这个打破首要呈现在Pix2pixHD [8]中,Ting-Chun等人运用了一个多规范的cGAN结构进行图片对图片的改动,例如给定一个脸部的概括信息,cGAN则能将其转变成一个实在人脸。紧接着GANimation[9] 提出一个双分支生成器来处理人脸表情的问题,其间一个分支通过回归留意力求来操控表情,另一个分支则供给布景和光线信息。GANnotation [10]则在增加束缚条件的道路上更进一步,通过束缚人脸要害点来驱动生成对应的人脸。除此以外,研讨者们也在测验着与传统计划结合,亦或通过先验常识来辅导GAN的生成质量。Kim等人在 Deep video portraits [11] 结合了传统3D与GAN的技能来进行人脸的生成;RSGAN [12]提出一种解耦脸部和头发的办法来换脸;FSGAN [13]通过结合脸部切割来评价遮挡区域,在必定程度上处理了换脸傍边的遮挡问题。根据GAN的办法生成的换脸图片比较3D办法愈加实在天然,可是很难发生高清的换脸作用,别的源图片姿势比较大时很难统筹姿势的共同性和换脸的ID搬迁才能。

BIGO的算法团队通过探究,提出了根据风格搬迁+ID注入的FaceMagic计划,在生成高清天然人脸的一起能够坚持人脸姿势、特色共同。现在FaceMagic已在线上运营,每日用户运用量过百万级。

风格搬迁的风起

这一切要从风格搬迁(Neural Style Transfer)的研讨头绪讲起。2016年ECCV的一篇《Image Style Transfer Using Convolutional Neural Networks》[14] 给一张阿姆斯特丹的景色照加上了星空的感觉。文章提出的根据Gram matrix的办法,也便是神经网络的特征图各个通道的相关性,将实在图片(content)与风格图片(style)交融。这使得组成后的图片具有原始图片的内在,可是视觉上又会感受到不相同的风格。

换脸新潮流:BIGO风行全球的人脸风格搬迁技能

图1. 风格搬迁实例

当然,这种计划的价值也是巨大的,每一组不同的content到style的转化,都需求练习一个专用的神经网络,这在实践的运用傍边明显是不现实的。2017年的另一篇论文《Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization》(AdaIN)[15]则对此问题做出了回应。这篇文章证明了一个至关重要的定论:style信息隐藏在特征层中每一层的统计量中(也便是每一层的均值μ和规范差σ)。故而,文章通过定向改动Instance Normalization(IN)层后特征的均值以及规范差,来获取风格搬迁作用。这个办法只需通过练习一次网络,即能够完成恣意content至恣意style的风格搬迁。

换脸新潮流:BIGO风行全球的人脸风格搬迁技能

图2. 经典的根据AdaIN的风格搬迁网络

把人脸作为一种风格

2019年英伟达宣布了论文《A Style-Based Generator Architecture for GAN》[16],也便是大名鼎鼎的StyleGAN,这种网络作用生成最高1024*1024分辨率的人脸,且适当的实在与天然,冷艳全场。而这背面的中心,则是通过深层全衔接神经网络,将一组随机编码的向量转变成一组均值μ和规范差σ,再送入不同规范的AdaIN模块,终究生成高清人脸。

StyleGAN的作业给咱们带来的不仅是新的网络结构、练习办法,更重要的是思维上的推翻:“人脸特征也能够作为一种风格来描绘”。那么,究竟什么是content, 什么是style?

在艺术风格搬迁中,content 作为实在照片中的什物形状、概括,style则是艺术家画作中的色彩、笔触、画风等共同的艺术特色。在StyleGAN中,则没有content,一切的人脸特征皆为style。从这个视点从头审视风格搬迁,咱们会得出定论:关于content跟style的界定,没有一致的规范,彻底取决于你怎么区别!运用时,需求保存的部分作为content,而需求改动的部分则作为style。

从风格搬迁到换脸

咱们再一次回到换脸这个论题,StyleGAN在生成人脸的时分,运用了随机编码的向量作为种子,生成了所需的人脸style,那么咱们可否运用类似的思维,抽取方针人脸的style,用来替换源人脸的呢?答案天然是必定的。

接下来咱们将通过四步演化过程来论述咱们的FaceMagic模型:1)化我为我;2)化我为他;3)融于你我;4)止于平衡。

化我为我

算法的第一步天然是确认咱们的content,也便是面部姿势与表情等特色信息,这个方针咱们通过让模型学会生成自己来达到。整个流程选用了如图3所示的经典Encoder-Decoder结构,网络的输入输出为同一张人脸图画I,通过叠加了多层的ResBlock结构的Encoder,获取特征图F。实践上咱们采取了较大的d值来保存更多的content信息。

换脸新潮流:BIGO风行全球的人脸风格搬迁技能

图3. 通过自编码器来获取人脸的content信息

化我为他

当模型确认了源人脸中的content信息,咱们下一步的方针便是将方针人脸的ID信息,以style的方法注入至content傍边。这个方针能够进一步拆解为方针人脸的ID提取以及注入两步。ID提取部分,咱们借用了运用VGG-Face[17]数据集预练习的人脸辨认网络ID-Net。通过ID-Net提取的特征向量G能够很好地区别人脸之间的类似程度,因而能够很紧致地表征一个人的身份特征,一起不会引进其他搅扰信息。而在至关重要的信息注入部分,咱们的基本思路,则是首要通过全衔接层,将方针人脸的G_Tar转化为所需的均值与方差μ_Tar,σ_Tar,再按照AdaIN的方法将style注入content。

可是在实践操作中,咱们留意到了以下两个问题:I)练习网络时的收敛速度很慢;II)简略发生人工形成的不天然缺点(artifacts)。这两个问题让咱们从头反思换脸问题的实质:方针人脸的ID当然能够按照style的思路注入源人脸的content中,可是这种计划很类似于传统的2D/3D视觉中的“贴脸”战略——彻底选用方针人脸的ID信息而扔掉源人脸的;而要达到“换脸”,咱们实践上只需求重视一个从方针人脸的ID到源人脸ID信息的改动。

所以,咱们从头界说了要注入进AdaIN的style为“信息增量”,如下式所示:

换脸新潮流:BIGO风行全球的人脸风格搬迁技能

其间ε是一个较小的量以安稳数值。按照这个思路,咱们规划了根据AdaIN-ResBlock的风格交融模块Style Mix Block,在多个空间规范大将ID的信息增量通过AdaIN注入至从源人脸中抽取的content傍边。咱们别的也选用了一种根据信息增量的练习方式:通过混入一部分源与方针人脸为同一张图片的练习数据,使注入的style信息恒定为μ_diff =0,σ_diff = 1。这个计划极大地提高了模型在学习重构丢失时的收敛速度,而且按捺了大部分由于“贴脸重构”导致的artifacts。图4为Style Mix Block的具体结构。

换脸新潮流:BIGO风行全球的人脸风格搬迁技能

图4. Details of Style Mix Block

可是到这儿,BIGO算法团队对方针人脸的ID注入计划的考虑,仍旧没有结束。实在场景中的换脸,原人脸以及方针人脸必定不会像证件照相同整齐规范,而经常会涉及到大规范上的pose转化或许被帽子眼镜遮挡的状况。在这种状况下,信息增量自身存在一个不精确的问题,这就会导致一个在实践作用中仍旧存在“换脸的作用并不像方针人脸”的状况。在通过剧烈的评论之后,咱们做了一个斗胆的决议:将原始用来描绘ID信息的特征G,直接拼接(Concatenate)到Style Mix Block的特征上,并将这个全体特征送入Decoder来生成终究作用。全体网络构架如图5所示。

换脸新潮流:BIGO风行全球的人脸风格搬迁技能

图5. FaceMagic换脸的中心结构

融于你我

故事讲到这儿,却仍旧只是个最初,接下来一个问题出来哪里呢?

这就牵扯到对立生成网络的一些实质了,咱们常说,对立生成网络实质上是学习了实在样本的特征流形,在生成的时分通过选取一组作为种子的随机变量,选取流形上的点并映射到图画空间上。这就导致了,咱们尽管能够确保一张生成的图画“实在且天然”,可是却难以确保在一连串的视频帧上的接连性。例如,在大规范上的pose转化的场景下,很简略呈现供给content的源人脸的pose信息“丢掉”的状况;别的源人脸的ID信息在视频中自身也会存在扰动,而这些扰动由会被注入操作进一步扩大。这些状况都导致了在对视频进行按帧换脸的操作时,会发生姿势摇摆或许肤色光照颤动等不接连的状况。

这儿咱们通过Pose Constraint以及Skipping connection来缓解视频换脸中存在的接连性问题,如图6赤色部分所示:

1)Pose Constraint:咱们通过脸部的landmark来强束缚源人脸以及生成人脸之间pose差异的问题。这样即使源人脸在某些帧呈现大规范的pose转化,生成的也仍旧会被束缚在源人脸的pose上。

2)Skipping Connection:为了让生成的图片能够安稳的保存源图片的特征,咱们测验将一些Encoder的低层次的特征直接通过Skipping Connection直接植入到Decoder的特征傍边。

换脸新潮流:BIGO风行全球的人脸风格搬迁技能

图6. FaceMagic换脸的终究体系结构

止于平衡

咱们先做一个小总结,现在咱们有了许多的模块,咱们的total loss能够写成下面的方法:

换脸新潮流:BIGO风行全球的人脸风格搬迁技能

很明显,加大L_recon和L_pose的权重,能够使得生成的人脸能更多地保存源人脸的特征,加大L_ID的权重,则会更多地搬迁更多方针的身份特征,L_GAN的权重则用于确保生成的人脸尽可能的实在天然。那么,总算,咱们能够开端愉快地去调参数了?

明显,终极的平衡不是调参就能够取得的。BIGO的算法同学在深挖了L_ID后发现:关于两个原本长得就有点像的人,换脸后的作用从视觉上简直看不出改动,原因在于他们的ID特征间隔原本就小,假如只是运用简略的l2丢失或许cos类似度的话,网络对这部分的赏罚会很小,可是简略的加大L_ID的权值又会使整个网络的练习变得困难。为了处理这个问题,咱们提出了衡量换脸作用的相对ID间隔。简略来说,便是比照源人脸在换脸前后与方针人脸的间隔差异。用公式能够表达为:

换脸新潮流:BIGO风行全球的人脸风格搬迁技能

其间,为l2丢失或许cos类似度。式子的前半部分为原始的ID信息丢失,后半部分为比照丢失。

结语

通过BIGO算法团队同学们的不断尽力,咱们霸占了各种技能上的难关,作用完成了FaceMagic——实时且高度实在天然的视频换脸东西。可是咱们肯定不会在这儿停下歇息,追求理想与技能的咱们会一向行进。

换脸新潮流:BIGO风行全球的人脸风格搬迁技能

图7:作用展现,从左往右分别为:源人脸,方针人脸,生成人脸

参考文献

  1. Volker Blanz, Kristina Scherbaum, Thomas Vetter, and Hans-Peter Seidel. Exchanging faces in images. In Computer Graphics Forum, volume 23, pages 669–676. Wiley Online Library, 2004. 1, 2, 3 

  2. Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in neural information processing systems (NPIS), pages 2672–2680, 2014.
  3. Dmitri Bitouk, Neeraj Kumar, Samreen Dhillon, Peter Belhumeur, and Shree K Nayar. Face swapping: automatically replacing faces in photographs. ACM Trans. on Graphics (TOG), 27(3):39, 2008. 

  4. Justus Thies, Michael Zollhofer, Marc Stamminger, Chris- tian Theobalt, and Matthias Nießner. Face2face: Real-time face capture and reenactment of rgb videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2387–2395, 2016. 

  5. Volker Blanz, Sami Romdhani, and Thomas Vetter. Face identification across different poses and illuminations with a 3d morphable model. In Int. Conf. on Automatic Face and Gesture Recognition (FG), pages 192–197, 2002. 


6.Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG), 36(4):95, 2017. 


  1. Yuval Nirkin, Iacopo Masi, Anh Tran Tuan, Tal Hassner, and Gerard Medioni. On face segmentation, face swapping, and face perception. In Automatic Face & Gesture Recognition (FG), 2018 13th IEEE International Conference on, pages 98–105. IEEE, 2018.
  2. Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. High-resolution image synthesis and semantic manipulation with conditional gans. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018. 

  3. Albert Pumarola, Antonio Agudo, Aleix M Martinez, Al- berto Sanfeliu, and Francesc Moreno-Noguer. Ganimation: Anatomically-aware facial animation from a single image. In Proceedings of the European Conference on Computer Vision (ECCV), pages 818–833, 2018.
  4. Enrique Sanchez and Michel Valstar. Triple consistency loss for pairing distributions in gan-based face synthesis. arXiv preprint arXiv:1811.03492, 2018. 

  5. Hyeongwoo Kim, Pablo Carrido, Ayush Tewari, Weipeng Xu, Justus Thies, Matthias Niessner, Patrick Pe ́rez, Chris- tian Richardt, Michael Zollho ̈fer, and Christian Theobalt. Deep video portraits. ACM Transactions on Graphics (TOG), 37(4):163, 2018.
  6. Ryota Natsume, Tatsuya Yatagawa, and Shigeo Morishima. Rsgan: face swapping and editing using face and hair representation in latent spaces. arXiv preprint arXiv:1804.03447, 2018.
  7. Nirkin Y, Keller Y, Hassner T. Fsgan: Subject agnostic face swapping and reenactment. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2019: 7184-7193.
  8. Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR). 2016: 2414-2423.
  9. Huang X, Belongie S. Arbitrary style transfer in real-time with adaptive instance normalization. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2017: 1501-1510.
  10. Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 4401-4410.
  11. Parkhi O M, Vedaldi A, Zisserman A. Deep face recognition[J]. 2015.

【云栖号在线讲堂】每天都有产品技能专家共享!
课程地址:https://yqh.aliyun.com/live

当即参加社群,与专家面对面,及时了解课程最新动态!
【云栖号在线讲堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时刻:2020-05-18
本文作者:时氪共享
本文来自:“36kr”,了解相关信息能够重视“36kr”