“AI”科普丨太全了！多模态深度学习的综述！

杏彩体育官网入口网址·“AI”科普丨太全了！多模态深度学习的综述！

来源：杏彩体育官网网址作者：杏彩体育官网入口2024-05-21 07:36:05

杏彩体育官网入口网址·

　　我们对世界的体验是多模态的 —— 我们看到物体，听到声音，感觉到质地，闻到气味，尝到味道。模态是指某件事发生或经历的方式，当一个研究问题包含多个模态时，它就具有多模态的特征。为了让人工智能在理解我们周围的世界方面取得进展，它需要能够同时解释这些多模态的信号。

　　例如，图像通常与标签和文本解释相关联，文本包含图像，以更清楚地表达文章的中心思想。不同的模态具有非常不同的统计特性。这些数据被称为多模态大数据，包含丰富的多模态和跨模态信息，对传统的数据融合方法提出了巨大的挑战。

　　在这篇综述中，我们会介绍一些开创性的深度学习模型来融合这些多模态大数据。随着对多模态大数据的探索越来越多，仍有一些挑战需要解决。因此，本文对多模态数据融合的深度学习进行了综述，旨在为读者（无论其原始社区如何）提供多模态深度学习融合方法的基本原理，并激发深度学习的新型多模态数据融合技术。

　　通过多模态深度学习，结合不同的模态或信息类型来提高效果，从直观上看是一项很有吸引力的任务，但在实践中，如何结合不同的噪声水平和模态之间的冲突是一个挑战。此外，模型对预测结果有不同的定量影响。在实践中最常见的方法是将不同输入的高级嵌入连接起来，然后应用softmax。

　　这种方法的问题是，它将给予所有子网络/模式同等的重要性，这在现实情况中是非常不可能的。这里需要采用子网络的加权组合，以便每个输入模态可以对输出预测有一个学习贡献(Theta)。

　　在本节中，我们将介绍多模态数据融合深度学习模型的代表性深度学习架构。具体而言，给出了深度架构的定义、前馈计算和反向传播计算，以及典型的变体。表1总结了代表性模型。

　　受限玻尔兹曼机（RBM）是深度信念网的基本块（Zhang， Ding， Zhang， & Xue， 2018;Bengio，2009 年）。RBM是玻尔兹曼机的特殊变体（见图1）。它由可见层和隐藏层组成;可见层的单元与隐藏层的单元之间存在全连接连接，但同一层中的单元之间没有连接。RBM 也是一个生成图形模型，它使用能量函数以捕获可见单元和隐藏单元之间的概率分布.

　　最近，有人提出了一些先进的RBM来提高性能。例如，为了避免网络过度拟合，Chen， Zhang， Yeung， and Chen （2017）设计了稀疏玻尔兹曼机，该机基于分层潜在树学习网络结构。Ning， Pittman， and Shen （2018）将快速对比发散算法引入 RBM，其中基于边界的滤波和 delta 积用于减少计算中的冗余点积计算。为了保护数据的内部结构，Ju et al. （ 2019）提出了张量 RBM，学习隐藏在数据中的高级分布，其中使用张量分解来避免维灾难。

　　DBM是一种典型的深度架构，由多个RBM堆叠而成（Hinton&Salakhutdinov，2006）。它是一种基于预训练和微调训练策略，可以利用能量来捕捉可见物体与相应标签之间的关节分布的生成模型。在预训练中，每个隐藏层都被贪婪地建模为在无监督策略中训练的 RBM。之后，通过监督策略中训练标签的判别信息进一步训练每个隐藏层。DBN 已被用于解决许多领域的问题，例如数据降维、表示学习和语义哈希。具有代表性的 DBM 如图 1 所示。

　　堆叠式自动编码器（SAE）是编码器-架构的典型深度学习模型（Michael，Olivier和Mario，2018;翁，卢，谭，和周，2016）。它可以通过以无监督-监督方式将原始输入转换为中间表示来捕获输入的简洁特征。SAE已广泛应用于许多领域，包括降维（Wang，Yao，&Zhao，2016），图像识别（Jia，Shao，Li，Zhao，&Fu，2018）和文本分类（Chen&Zaki，2017）。图 2 展示了具有代表性的 SAE。

　　DBN 和 SAE 是完全连接的神经网络。在这两个网络中，隐藏层中的每个神经元都连接到前一层的每个神经元，这种拓扑结构会产生大量连接。为了训练这些连接的权重，全连接的神经网络需要大量的训练对象来避免过度拟合和欠拟合，这是计算密集型的。此外，全连接拓扑不考虑神经元之间所包含的特征的位置信息。因此，完全连接的深度神经网络（DBN、SAE及其变体）无法处理高维数据，尤其是大图像和大音频数据。

　　卷积神经网络是一种特殊的深度网络，它考虑了数据的局部拓扑结构（Li， Xia， Du， Lin， & Samat， 2017;Sze，Chen，Yang和Emer，2017）。卷积神经网络包括全连接网络和包含卷积层和池化层的约束网络。约束网络使用卷积和池化运算来实现局部感受野和参数约简。与 DBN 和 SAE 一样，卷积神经网络也通过随机梯度下降算法进行训练。它在医学图像识别（Maggiori，Tarabalka，Charpiat和Alliez，2017）和语义分析（胡，Lu，Li，&Chen，2014）方面取得了很大进展。具有代表性的 CNN 如图 3 所示。

　　递归神经网络是一种处理串行数据的神经计算架构（Martens & Sutskever， 2011;Sutskever，Martens和Hinton，2011）。与深度前向架构（即DBN，SAE和CNN）不同，它不仅将输入模式映射到输出结果，而且还通过利用隐藏单元之间的连接将隐藏状态传输到输出（Graves&Schmidhuber，2008）。通过使用这些隐藏的连接，RNN 对时间依赖性进行建模，从而在时间维度上共享对象之间的参数。它已被应用于各个领域，如语音分析（Mulder，Bethard和Moens，2015），图像标题（Xu等人，2015）和语言翻译（Graves&Jaitly，2014），取得了出色的性能。与深度前向架构类似，其计算也包括前向传递和反向传播阶段。在前向传递计算中，RNN 同时获取输入和隐藏状态。在反向传播计算中，它使用时间反向传播算法来反向传播时间步长的损耗。图 4 显示了具有代表性的 RNN。

　　在本节中，我们从模型任务、模型框架和评估数据集的角度回顾了最具代表性的多模态数据融合深度学习模型。根据所使用的深度学习架构，它们分为四类。表2总结了具有代表性的多模态深度学习模型。

　　Srivastava 和 Salakhutdinov （2012）提出了一种基于深度玻尔兹曼学习模型的多模态生成模型，通过拟合多模态数据在各种模态（如图像、文本和音频）上的联合分布来学习多模态表示。

　　所提出的多模态DBN的每个模块均采用无监督逐层方式进行初始化，并采用基于MCMC的近似方法进行模型训练。

　　为了评估学习到的多模态表示，执行了大量的任务，例如生成缺失模态任务、推断联合表示任务和判别任务。实验验证了学习到的多模态表示是否满足所需的属性。

　　为了在早期有效诊断阿尔茨海默病，Suk、Lee、Shen和阿尔茨海默病神经影像学计划（2014）提出了一种多模态玻尔兹曼模型，该模型可以融合多模态数据中的互补知识。具体来说，为了解决浅层特征学习方法造成的局限性，DBN用于通过将特定领域的表示转移到分层抽象表示来学习每个模态的深度表示。然后，在串联向量上构建单层 RBM，该向量是来自每个模态的分层抽象表示的线性组合。它用于通过构建不同多模态特征的联合分布来学习多模态表示。最。

上一篇：界面财联社入局AI 国内首个千亿参数多模态金融大模

上一篇：高自由度人形机器人电机分析无框力矩电机构筑大扭矩灵

产品案例

杏彩体育(中国).官网入口网址是国内专业的伺服电动缸厂家，杏彩体育官网入口网址主要经营伺服电动缸、伺服电缸、高精度电动缸、直连式电动缸、并联式电动缸等设备，种类型号齐全。同时汇聚电动缸行业优秀人才，产品广泛应用于汽车、模具、航空航天等行业。

杏彩体育(中国).官网入口网址

咨询热线：13905180521

杏彩体育官网入口网址·“AI”科普丨太全了！多模态深度学习的综述！

产品案例

杏彩体育官网网址恩畅自动化设备助力哈工大“微纳双星”成功发射

杏彩体育官网网址世界著名八大发动机原理看懂一半都是老司机了

杏彩体育官网网址双人座动感汽车驾驶模拟器

杏彩体育官网网址伺服电机的选型比较

杏彩体育官网网址电液伺服阀作用_电液伺服阀选型

杏彩体育官网网址一同了解下伺服电动机的选型

咨询热线：13905180521