云栖号资讯:【点击检查更多职业资讯】
在这儿您能够找到不同职业的第一手的上云资讯,还在等什么,快来!
引
1974年,我国的考古学家在陕西省西安市开掘出了兵马俑,并被其神态各异活灵活现的面部表情所震慑。同年,一篇名为《A Parametric Model for Human Faces》论文迈出了人脸特色批改这一范畴的第一步。而半个世纪后的今日,BIGO自主研制的FaceMagic的换脸技能让你为所欲为地化身为兵马俑,国际名画,或许电影里的超级英豪, 产品一推出即风行全球。
BIGO为了把这项立异技能带给全球用户,研制人员战胜了各种应战。技能应战首要来源于三个方面:第一是人脸特征搬迁技能,咱们立异性地测验把风格搬迁的思路用于人脸特征搬迁中,战胜了其时干流的deep fake、 3D计划等技能的缺乏。 第二是全球化问题,由于BIGO用户来源于全球各地,为了处理不同人种的肤色、五官结构的差异问题,咱们构建了千万量级的全球化的人脸数据集,极大地包括肤色、性别、年纪等差异性,力求把全球每一位用户的作用做到最佳 。第三是多特色,多场景的作用优化,咱们在不断优化网络结构的一起测验人脸特色、人脸姿势等束缚,并大力提高大规模数据的练习功率,充沛发掘数据的多样性特征,把换脸作用做到愈加鲁棒、实在、天然。FaceMagic仍在招引越来越多人的参加,自上线以来,全球出产总量挨近1亿。功用推出后,每天有超越百万级的内容出产量。
布景
人脸特色批改是核算机视觉范畴的一项重要技能,广泛用于内容出产,电影制造,文娱视频中。前期的人脸特色批改首要会集在人脸的表情上,比方通过批改张嘴或许闭眼来表现人的喜怒哀乐。跟着算力的提高,这项技能随后便升华为即时的表情批改或搬迁,也便是将一张脸的表情作为输入,来操控另一张脸的表情作为输出,当下咱们看到的三维动画或许虚拟偶像都在广泛地运用这项技能。
可是只是换个表情明显现已跟不上科研人员的脑洞,Volker 一行人在论文《Exchanging faces in images》[1]中初次提出了在天然图画中置换人脸的概念。文章中运用了一种较为原始的3D模型计划来粗估姿势与光线,并将方针人脸替换至源人脸上。这项技能由于需求人工参加标定要害点,首要被运用于图画批改等作业。在绵长的学术开展过程中,换脸技能发生了翻天覆地的改动,逐步衍生出来了根据3D脸部建模,以及对立生成网络(GAN) [2]的两个派系。
3D脸部建模的计划比较直观,即先对源图片和方针图片进行要害点检测并进行3D建模,然后提取方针图片中的身份信息(ID)替换源图片中的相应部分。Dmitri Bitouk et al.[3]针对[1]中需求进行人工参加,一起也不能处理表情的问题,提出了一个全新的计划,能够处理自动化以及表情的问题。而近代通过3D建模来完成换脸的鼻祖,Face2Face [4]则通过拟合一个3DMM[5]模型来进一步搬迁表情。作为第一个能实时进行面部转化的模型,Face2Face的精确率和实在度树立了业界标杆 。随后的一些研讨也多根据此,对生成人脸的天然度进行强化,例如Suwajanakorn et al.[6]对嘴部的模型进行批改,使得嘴部的动作愈加天然。Nirkin et al.[7]结合脸部切割,根据一个固定的三维人脸来进行换脸,防止拟合三维人脸形状。这些办法尽管能取得必定的换脸作用,可是要么核算量太大,要么便是生成换脸后的图片仍旧不天然,且很难处理遮挡等问题。
近年来,跟着大规模的GPGPU算力的呈现,根据GAN的换脸计划异军突起,一举击破了根据传统3D换脸计划的大本营。这个打破首要呈现在Pix2pixHD [8]中,Ting-Chun等人运用了一个多规范的cGAN结构进行图片对图片的改动,例如给定一个脸部的概括信息,cGAN则能将其转变成一个实在人脸。紧接着GANimation[9] 提出一个双分支生成器来处理人脸表情的问题,其间一个分支通过回归留意力求来操控表情,另一个分支则供给布景和光线信息。GANnotation [10]则在增加束缚条件的道路上更进一步,通过束缚人脸要害点来驱动生成对应的人脸。除此以外,研讨者们也在测验着与传统计划结合,亦或通过先验常识来辅导GAN的生成质量。Kim等人在 Deep video portraits [11] 结合了传统3D与GAN的技能来进行人脸的生成;RSGAN [12]提出一种解耦脸部和头发的办法来换脸;FSGAN [13]通过结合脸部切割来评价遮挡区域,在必定程度上处理了换脸傍边的遮挡问题。根据GAN的办法生成的换脸图片比较3D办法愈加实在天然,可是很难发生高清的换脸作用,别的源图片姿势比较大时很难统筹姿势的共同性和换脸的ID搬迁才能。
BIGO的算法团队通过探究,提出了根据风格搬迁+ID注入的FaceMagic计划,在生成高清天然人脸的一起能够坚持人脸姿势、特色共同。现在FaceMagic已在线上运营,每日用户运用量过百万级。
风格搬迁的风起
这一切要从风格搬迁(Neural Style Transfer)的研讨头绪讲起。2016年ECCV的一篇《Image Style Transfer Using Convolutional Neural Networks》[14] 给一张阿姆斯特丹的景色照加上了星空的感觉。文章提出的根据Gram matrix的办法,也便是神经网络的特征图各个通道的相关性,将实在图片(content)与风格图片(style)交融。这使得组成后的图片具有原始图片的内在,可是视觉上又会感受到不相同的风格。
图1. 风格搬迁实例
当然,这种计划的价值也是巨大的,每一组不同的content到style的转化,都需求练习一个专用的神经网络,这在实践的运用傍边明显是不现实的。2017年的另一篇论文《Arbitrary Style Transfer in Real-time with Adaptive Instance Normalization》(AdaIN)[15]则对此问题做出了回应。这篇文章证明了一个至关重要的定论:style信息隐藏在特征层中每一层的统计量中(也便是每一层的均值μ和规范差σ)。故而,文章通过定向改动Instance Normalization(IN)层后特征的均值以及规范差,来获取风格搬迁作用。这个办法只需通过练习一次网络,即能够完成恣意content至恣意style的风格搬迁。
图2. 经典的根据AdaIN的风格搬迁网络
把人脸作为一种风格
2019年英伟达宣布了论文《A Style-Based Generator Architecture for GAN》[16],也便是大名鼎鼎的StyleGAN,这种网络作用生成最高1024*1024分辨率的人脸,且适当的实在与天然,冷艳全场。而这背面的中心,则是通过深层全衔接神经网络,将一组随机编码的向量转变成一组均值μ和规范差σ,再送入不同规范的AdaIN模块,终究生成高清人脸。
StyleGAN的作业给咱们带来的不仅是新的网络结构、练习办法,更重要的是思维上的推翻:“人脸特征也能够作为一种风格来描绘”。那么,究竟什么是content, 什么是style?
在艺术风格搬迁中,content 作为实在照片中的什物形状、概括,style则是艺术家画作中的色彩、笔触、画风等共同的艺术特色。在StyleGAN中,则没有content,一切的人脸特征皆为style。从这个视点从头审视风格搬迁,咱们会得出定论:关于content跟style的界定,没有一致的规范,彻底取决于你怎么区别!运用时,需求保存的部分作为content,而需求改动的部分则作为style。
从风格搬迁到换脸
咱们再一次回到换脸这个论题,StyleGAN在生成人脸的时分,运用了随机编码的向量作为种子,生成了所需的人脸style,那么咱们可否运用类似的思维,抽取方针人脸的style,用来替换源人脸的呢?答案天然是必定的。
接下来咱们将通过四步演化过程来论述咱们的FaceMagic模型:1)化我为我;2)化我为他;3)融于你我;4)止于平衡。
化我为我
算法的第一步天然是确认咱们的content,也便是面部姿势与表情等特色信息,这个方针咱们通过让模型学会生成自己来达到。整个流程选用了如图3所示的经典Encoder-Decoder结构,网络的输入输出为同一张人脸图画I,通过叠加了多层的ResBlock结构的Encoder,获取特征图F。实践上咱们采取了较大的d值来保存更多的content信息。
图3. 通过自编码器来获取人脸的content信息
化我为他
当模型确认了源人脸中的content信息,咱们下一步的方针便是将方针人脸的ID信息,以style的方法注入至content傍边。这个方针能够进一步拆解为方针人脸的ID提取以及注入两步。ID提取部分,咱们借用了运用VGG-Face[17]数据集预练习的人脸辨认网络ID-Net。通过ID-Net提取的特征向量G能够很好地区别人脸之间的类似程度,因而能够很紧致地表征一个人的身份特征,一起不会引进其他搅扰信息。而在至关重要的信息注入部分,咱们的基本思路,则是首要通过全衔接层,将方针人脸的G_Tar转化为所需的均值与方差μ_Tar,σ_Tar,再按照AdaIN的方法将style注入content。
可是在实践操作中,咱们留意到了以下两个问题:I)练习网络时的收敛速度很慢;II)简略发生人工形成的不天然缺点(artifacts)。这两个问题让咱们从头反思换脸问题的实质:方针人脸的ID当然能够按照style的思路注入源人脸的content中,可是这种计划很类似于传统的2D/3D视觉中的“贴脸”战略——彻底选用方针人脸的ID信息而扔掉源人脸的;而要达到“换脸”,咱们实践上只需求重视一个从方针人脸的ID到源人脸ID信息的改动。
所以,咱们从头界说了要注入进AdaIN的style为“信息增量”,如下式所示:
其间ε是一个较小的量以安稳数值。按照这个思路,咱们规划了根据AdaIN-ResBlock的风格交融模块Style Mix Block,在多个空间规范大将ID的信息增量通过AdaIN注入至从源人脸中抽取的content傍边。咱们别的也选用了一种根据信息增量的练习方式:通过混入一部分源与方针人脸为同一张图片的练习数据,使注入的style信息恒定为μ_diff =0,σ_diff = 1。这个计划极大地提高了模型在学习重构丢失时的收敛速度,而且按捺了大部分由于“贴脸重构”导致的artifacts。图4为Style Mix Block的具体结构。
图4. Details of Style Mix Block
可是到这儿,BIGO算法团队对方针人脸的ID注入计划的考虑,仍旧没有结束。实在场景中的换脸,原人脸以及方针人脸必定不会像证件照相同整齐规范,而经常会涉及到大规范上的pose转化或许被帽子眼镜遮挡的状况。在这种状况下,信息增量自身存在一个不精确的问题,这就会导致一个在实践作用中仍旧存在“换脸的作用并不像方针人脸”的状况。在通过剧烈的评论之后,咱们做了一个斗胆的决议:将原始用来描绘ID信息的特征G,直接拼接(Concatenate)到Style Mix Block的特征上,并将这个全体特征送入Decoder来生成终究作用。全体网络构架如图5所示。
图5. FaceMagic换脸的中心结构
融于你我
故事讲到这儿,却仍旧只是个最初,接下来一个问题出来哪里呢?
这就牵扯到对立生成网络的一些实质了,咱们常说,对立生成网络实质上是学习了实在样本的特征流形,在生成的时分通过选取一组作为种子的随机变量,选取流形上的点并映射到图画空间上。这就导致了,咱们尽管能够确保一张生成的图画“实在且天然”,可是却难以确保在一连串的视频帧上的接连性。例如,在大规范上的pose转化的场景下,很简略呈现供给content的源人脸的pose信息“丢掉”的状况;别的源人脸的ID信息在视频中自身也会存在扰动,而这些扰动由会被注入操作进一步扩大。这些状况都导致了在对视频进行按帧换脸的操作时,会发生姿势摇摆或许肤色光照颤动等不接连的状况。
这儿咱们通过Pose Constraint以及Skipping connection来缓解视频换脸中存在的接连性问题,如图6赤色部分所示:
1)Pose Constraint:咱们通过脸部的landmark来强束缚源人脸以及生成人脸之间pose差异的问题。这样即使源人脸在某些帧呈现大规范的pose转化,生成的也仍旧会被束缚在源人脸的pose上。
2)Skipping Connection:为了让生成的图片能够安稳的保存源图片的特征,咱们测验将一些Encoder的低层次的特征直接通过Skipping Connection直接植入到Decoder的特征傍边。
图6. FaceMagic换脸的终究体系结构
止于平衡
咱们先做一个小总结,现在咱们有了许多的模块,咱们的total loss能够写成下面的方法:
很明显,加大L_recon和L_pose的权重,能够使得生成的人脸能更多地保存源人脸的特征,加大L_ID的权重,则会更多地搬迁更多方针的身份特征,L_GAN的权重则用于确保生成的人脸尽可能的实在天然。那么,总算,咱们能够开端愉快地去调参数了?
明显,终极的平衡不是调参就能够取得的。BIGO的算法同学在深挖了L_ID后发现:关于两个原本长得就有点像的人,换脸后的作用从视觉上简直看不出改动,原因在于他们的ID特征间隔原本就小,假如只是运用简略的l2丢失或许cos类似度的话,网络对这部分的赏罚会很小,可是简略的加大L_ID的权值又会使整个网络的练习变得困难。为了处理这个问题,咱们提出了衡量换脸作用的相对ID间隔。简略来说,便是比照源人脸在换脸前后与方针人脸的间隔差异。用公式能够表达为:
其间,为l2丢失或许cos类似度。式子的前半部分为原始的ID信息丢失,后半部分为比照丢失。
结语
通过BIGO算法团队同学们的不断尽力,咱们霸占了各种技能上的难关,作用完成了FaceMagic——实时且高度实在天然的视频换脸东西。可是咱们肯定不会在这儿停下歇息,追求理想与技能的咱们会一向行进。
图7:作用展现,从左往右分别为:源人脸,方针人脸,生成人脸
参考文献
- Volker Blanz, Kristina Scherbaum, Thomas Vetter, and Hans-Peter Seidel. Exchanging faces in images. In Computer Graphics Forum, volume 23, pages 669–676. Wiley Online Library, 2004. 1, 2, 3
- Ian Goodfellow, Jean Pouget-Abadie, Mehdi Mirza, Bing Xu, David Warde-Farley, Sherjil Ozair, Aaron Courville, and Yoshua Bengio. Generative adversarial nets. In Advances in neural information processing systems (NPIS), pages 2672–2680, 2014.
- Dmitri Bitouk, Neeraj Kumar, Samreen Dhillon, Peter Belhumeur, and Shree K Nayar. Face swapping: automatically replacing faces in photographs. ACM Trans. on Graphics (TOG), 27(3):39, 2008.
- Justus Thies, Michael Zollhofer, Marc Stamminger, Chris- tian Theobalt, and Matthias Nießner. Face2face: Real-time face capture and reenactment of rgb videos. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), pages 2387–2395, 2016.
- Volker Blanz, Sami Romdhani, and Thomas Vetter. Face identification across different poses and illuminations with a 3d morphable model. In Int. Conf. on Automatic Face and Gesture Recognition (FG), pages 192–197, 2002.
6.Supasorn Suwajanakorn, Steven M Seitz, and Ira Kemelmacher-Shlizerman. Synthesizing obama: learning lip sync from audio. ACM Transactions on Graphics (TOG), 36(4):95, 2017.
- Yuval Nirkin, Iacopo Masi, Anh Tran Tuan, Tal Hassner, and Gerard Medioni. On face segmentation, face swapping, and face perception. In Automatic Face & Gesture Recognition (FG), 2018 13th IEEE International Conference on, pages 98–105. IEEE, 2018.
- Ting-Chun Wang, Ming-Yu Liu, Jun-Yan Zhu, Andrew Tao, Jan Kautz, and Bryan Catanzaro. High-resolution image synthesis and semantic manipulation with conditional gans. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2018.
- Albert Pumarola, Antonio Agudo, Aleix M Martinez, Al- berto Sanfeliu, and Francesc Moreno-Noguer. Ganimation: Anatomically-aware facial animation from a single image. In Proceedings of the European Conference on Computer Vision (ECCV), pages 818–833, 2018.
- Enrique Sanchez and Michel Valstar. Triple consistency loss for pairing distributions in gan-based face synthesis. arXiv preprint arXiv:1811.03492, 2018.
- Hyeongwoo Kim, Pablo Carrido, Ayush Tewari, Weipeng Xu, Justus Thies, Matthias Niessner, Patrick Pe ́rez, Chris- tian Richardt, Michael Zollho ̈fer, and Christian Theobalt. Deep video portraits. ACM Transactions on Graphics (TOG), 37(4):163, 2018.
- Ryota Natsume, Tatsuya Yatagawa, and Shigeo Morishima. Rsgan: face swapping and editing using face and hair representation in latent spaces. arXiv preprint arXiv:1804.03447, 2018.
- Nirkin Y, Keller Y, Hassner T. Fsgan: Subject agnostic face swapping and reenactment. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2019: 7184-7193.
- Gatys L A, Ecker A S, Bethge M. Image style transfer using convolutional neural networks. In Proceedings of the IEEE conference on computer vision and pattern recognition (CVPR). 2016: 2414-2423.
- Huang X, Belongie S. Arbitrary style transfer in real-time with adaptive instance normalization. In Proceedings of the IEEE International Conference on Computer Vision (ICCV). 2017: 1501-1510.
- Karras T, Laine S, Aila T. A style-based generator architecture for generative adversarial networks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 4401-4410.
- Parkhi O M, Vedaldi A, Zisserman A. Deep face recognition[J]. 2015.
【云栖号在线讲堂】每天都有产品技能专家共享!
课程地址:https://yqh.aliyun.com/live当即参加社群,与专家面对面,及时了解课程最新动态!
【云栖号在线讲堂 社群】https://c.tb.cn/F3.Z8gvnK
原文发布时刻:2020-05-18
本文作者:时氪共享
本文来自:“36kr”,了解相关信息能够重视“36kr”
发表评论