多模态学习,带来AI全新应用场景?

云栖号资讯:【点击查看更多行业资讯】
在这里您可以找到不同行业的第一手的上云资讯,还在等什么,快来!

新的AI技术发展趋势有哪些?多模态学习技术一定是其中之一。

最近,刚刚宣布“自立门户”的微软AI明星产品小冰改名为“红棉小冰”。殊不知2014年诞生的这一个AI对话机器人已经在5年时间里更新到了第七代了,据称: @ ; Y 3 @ u能力上正在“& . ;无限接近人类”。现在的小冰,不s E F 5 w b仅是那个会I z i作诗的机器人了,她还会唱歌作曲、阅读朗诵、撰写新闻,甚至去年还办了一个虚拟7位画家的个人画展。多模态识别技术正是小冰越来越像人一样沟通表达的关键之一。

多模态学习,带来AI全新应用场景?

多模态技术同样也在视频网站、电商物流、自动驾驶等领域得到广泛。像爱奇艺推出的“只看TA”功能,优酷视频正在使用的视频帧、人脸帧n C w e c 6 (的图向量检索G l A ~ + ],都离不开多模态识别技术的支持。而k r H q m j 1 E e像京东淘宝等电商平台的“拍) . ( q J Q , J照购”、“拍立淘”的搜索技术背后也都是在c p t A s ( O计算机视觉技术下,使用了! q r V ^ #图像、文本和高层= s , r ! B语义属性等多模态下的信息融合,才实现高精度的“以图搜图”功能。百度提出的“多模态深度语义理解”,则让AI实现从“看清听清”到“看懂听懂”的进化。

可以说,人工智能在通向人的智能的道路上,多模态学习就是一个绕7 Z f [ O ] ) H }不开的发展方向。因为人类本身就是一个多模态学习的典范。

现在,多模态学习技术正在带来众多全新的应用场景。关注AI技术和应用发展趋势的你,想必也想了解下多模态学习的来龙去脉,以及在这些新应用场景中的技术现状与问题。而这些问题也是本文重点探讨的内容。

“多模态学习”,正式认识下

模态(Modality),虽然不是我们的日常用语,但却十分容易理解。

我们每一天都会接触到各种不同来源和j p & A |形式的信息。正如我们有视觉、听觉、嗅觉和触觉等,那么我们接触的信息就有视频、图像、文, V D x p ^字、语音、味道、软硬度等,这每一种d . ] A w C信息的形式就可以称作一种模态。

模态的范围要比我们的感知能力更宽泛。除了视觉、听觉获得的模态信息,我们也可以利用传感器获得诸如雷d . 7达、红外线等不同感应数据的模态信息。

多模态学习,带来AI全新应用场景?

此外,模态的类型定义也可以非常宽泛,比如我们可以把两种不同的语言当做是两种模态,把不Q 3 a L R ] 5 w +同结构下采集的数据,也可以当做两种模态。比如,仅仅一个视频内容数据,就是一个高维度、多模态s v 9 G u { C 0 _的数据信息,其中包含了标题、简介、? 4 4 X i r评论、字幕等文本信息,也有视频帧的图像、声音,以及连贯动作视频片段的视觉、声音信息。

多模态学习,从上世纪70年代就已经起| D V @ k = 2步,几经发展,现在正进入o Z F T M 7 }到机器学习特别是深度学习的阶段。通常称为多模态机器学习(Multi-Modal Machine Learning ,MMML),试图通过机器学习的方法实现对多源模态信息进行分析和理解。当前主要热门的研究方向自然是对图像、视频、音频、语义之间的多模态学习。

当前,多模态学习主要研究方向有多模态表示学习、模态间映射,多模态对齐、融合、协同学习等g c F C 9 3 i i }

多模态表示学习w t M h,研究如何将多个模态数据所蕴含的语义信息数值化为实值向量,m O E [ v通俗理解就是对多个模态的数据进行相关性编码,让不同模态建立d B u b S q , P J起映射关系。按多模态表示共享的方式,主要分为公共表示学习和特异性表示学习,后者由于是分别学习不同模态的特征K k E % 2 o e v,可以应用于诸如零次学习、模态间映射、跨模态检d w # + x f Q索等任务中。

多模态学习,带来AI全新应用场景?

模态间映射,研究如何将某一特定模态数据中的信息映射至另一模态。例如,给定一幅图像,通过机器学习得到这副图像的描述,或者给定一段文字,生成一幅匹配的图像。类似z ~ o H $于我们学习中遇到的“看图说话”和“以题作画”的问题。模态间映射早已可以应用于语音合成、图像视频描述以及跨模态检索等应用中} S y u B 2

此外,多模态对齐,主要研3 G | t H L + _ 1究如何识别不同模态之间的部件、元素的对应关系,以促进学习到的多模态0 p & l - b 0表示更加精确,例如将电影画面、口型、语音、字幕的自动对齐;多模态融合,主要致力9 D ] |于不同模态间的模型与特征的整合,以获得更全面的特L F y P征,提高模型鲁棒性,并且保证模B ( D b型在某些模态缺失时仍能有效工作;而多模态协同学习,主要考虑如何从信息丰富模态上学习的知识迁移到信息匮乏的模态,使各个模态的学习互相辅助。典型 a Y的方法包括多模态s v M - & W u v的零样本学习、领域自适应等。

近两年,随着机器学习的模型的飞速进展,多模态学习中出M B d ] P现的映射质量问题、对齐的j - l o Y n匹配度量以及融合噪声干扰等问题,都在实现很好的优化解决,R 7 h为多模态的落地应用做好了准备。

多模态学习,正在丰富哪些应用场景?

通过以上解释可以知道,其实很多我们熟知的AI技术都可以归类到模态学习当中。比如,像机器翻译,通过输入的一种A语言即时翻译为另一种B语言,其实s * l质就是一种模态之间的映射转化。类似的还有唇读识别和语音翻译,也就是分别将唇部视觉和语音信息转换为文本信息。

多模态学习,带来AI全新应用场景?

在图像识别中,会应用到一种“图片语义分割”,即尝试给图片的不同像素区域对应到每一种类型标签,实现视觉和词汇的对应。这就是多模态对齐在空间维度的应用。

当然,基于多模态数据的丰富表示以及映射、对齐和融合的应用,可以将目前AI的三种主要感知模态——语音交互、机器视觉、传感器智能进行多模态组合U n V w z 3 _ .,产生全新的应用场景。

在语音交互上,“多模态深度语义理解”技术正在为其带来更深度的应用场景。

对于前几年的智能音箱,我们都有这样的感触,那就是语音交互只能完成简单的搜索,一旦多聊几句,就发现机器人要么只有万能的“套f _ j路”公式,要么就“答非所问”{ } z。这一问题的根源就2 5 M Q G是人工智能无法更好的理解对话者的深层涵义,也没有灵活的应答# + V机制和内容。此外,也更难2 _ U . Z ` M理解人的语气、情绪这类情感模态信息,当然因为没有视觉感知,更不可能去理解人的L / ^ B /表情、动作、姿态等信息。

多模态学习,带来AI全新应用场景?

多模态深度语义理解可以极大改善这类语音交互的语义理解难题。比如,其中一个应用场O E P 1 M f !景是智能o G i %$ T 8 P Z车的数字座舱,正在从原本单一的车载语音识别,实现融合视觉、语音、车内外场1 i ] E L V景图像的多模态识别的转变。

在实际的语音交互中,车载智能助手不仅可以实现语音的识别,也可以通过摄像头识别人的表情神态、动作,比如识别疲劳驾驶、分心、发热等状况,以进行即时的语音提醒。语音交互也可以更加以人类的自然语言进行交互,而不必要使用生硬` 2 + T的指令型语言。

而在以I e j z 1 ; 6机器视觉为主的应用中,多模态学习技术也带来新的应用可能。

以电商平台购物为例,用户的一大痛点就是看到一些“心水”的好物或者同款G L g w X P E /,但不知道名字,通过拍照识别和检索,将为用户提供最便捷的推荐服务。另外,在电商的智能客服,用户也希望能够通过简单对话或者发送图片、视频的方式处理订单问题。在这些h M v b 6 6场景中,跨模态检索和映射转化技术就得到了深度应用。

比如,在商品推荐和信息流广告中,就需要结合海量商品图像与对应的商品9 K ? + ` ) H p h语义属性,学习图像语义特征表达,以提高符合用户需求的商品推荐度。而与智能Q 9 O客服n f ! Y 6 L进行的多轮% ( ; & v 6 q对话中,融入视觉到语言的跨模态转换技术[ $ ; d O V | D,可以自动实现对用户上传的图片或视频进行自动L / 3 ^ I应答。

R d ;传感器智能上,多模态识别技术可以应用到大量的物联网设备场景中。通过在大量的智能设备中增加视觉、温度、n Z v s E [湿度和光线传感器,来实现多模态的$ N M * 3 h U L智能交互。比如在智能空调中,加入语音交互、视觉识别指令,m * f r h y B B结合传感器判断屋内温度和湿度,可以根据屋内人数、位置等因素N i Z k来实现更精准的控温- u F S 7 C方案。而现在更多智能大屏应用,也在将机器视觉、语音交互和一些智能传感器引入到智能硬件中,实现对屋内光线的调节、音量、观看者状态(离得是否太近,是否有未成年人)等因素的智能识别和调节。

多模态学习,带来AI全新应用场景?

多模态技术主要还是采用已标注的多模态数据来生成深度学习模型,这导致这些) d I p模型在真实场景下的泛: p R N E 7 w 0 n化能力受p n 9 S到很大限制。现有的多模态技术更多要与知识图谱结合,融入专家、常识等知识,利用数据和知识的联合来让多模态技术建立其K [ j ] E ? d T 7“智能”S b + ) U h Z f `的作用。

此外,正如一位专家指出的,当前的多模态技术还是属于狭隘A D 8的单任务学习,整个训练和测试的过程都是在封闭和静态的环境下进行,这就和真实世界中开放动态的应用场景存在一定的差异性。这距r h * ! Z Y t离人类在真实场景中的泛化的多模态感知相距甚远。

未来为4 # q B e提高多模态的泛化^ f & = w感知能力,可以利用元学习的方式来让模! f B型自己学会如何认知新的多模态知识,实现适用于开放动态场景并具备终生学习能力的多模态模型。

而在推动AI的推理能力上,在多模态模型训练的过程中,可以引入自监督、自学习的推理性任务,“强迫H e 9 F”多模态模型进行推理和思考,这也能在一定程度上让机器去慢慢学会推理。

通过多模态学习技术实现AI的推理,看7 q r P ` b起来难度极大,这一假设还需要未来更多实验和验证。

多模态学习,带来AI全新应用场景?

总的来说,多模态技术已经在试图“复制[ 1 $ - 3”人类在日常生活# j T b中的各类场景,尽可能把人类的感知信息F Z [ W进行分析处理和整合,并实* l ^ 0 M . i t ?现更全面综合的理解,也能结合“数据”和“知识”给出相应的回应。但这距离真正的人类级别的智能还有质的差别。

当然,人们对多模态技术的d z a G g d _发展前景仍然看好,相比于只侧重单一模态的技术,多模态技术所构建的智能应用场景将更多样化,c a 6 * U也与我们普通人期待的智能生活更近一些。

更何况,多模态技术仍处在“襁褓状态”,我们应该留给它足够长的成长时间,等待美好发生。

【云栖号] D | ? g % %在线课堂】每天都有产品技术专家分享!
课程地址:https://yqh.ali_ J q , K } 1yun.com/live

立即加入社群,与专家面对面,及时了解课程最新动态!
【云栖号在线课堂 社群】https://c.tb.cn/F3.Z8gvnK

原文发布时间:2020-07-06
; u J *文作者::海怪
本文来自:“ 脑极X g 5 [ g体”,了解相关信息可以关注“ 脑极体g ( P } W - ) 5