专业定制伺服电动缸的电动缸厂家

咨询热线:13905180521
杏彩体育官网入口

杏彩体育官网入口网址·前沿综述:面向复杂系统建模的多模态图学习

来源:杏彩体育官网网址 作者:杏彩体育官网入口2024-05-17 08:57:45
杏彩体育官网入口网址·

  图学习(Graph Learning)是一种研究和应用图结构数据的机器学习方法。在图学习中,数据被表征为由节点和边组成的图形,其中节点表示实体或对象,边表示它们之间的关系或连接。因此图学习特别适用于复杂系统的多尺度分析、建模与仿真研究,揭示复杂系统中的模式、规律和动态变化。图学习常用的技术包括图卷积网络、图注意力网络、图神经网络等,这些方法通过在图上进行信息传播和聚合,从而实现对节点和边的特征提取和学习。近年来,随着语音、文本、图像等多种模态的数据大量积累,多模态机器学习和深度学习技术正在快速发展,并在图结构数据中取得了成功。哈佛大学生物信息学的学者在Nature Machine Intelligence发表综述文章,提出了一体化的多模态图学习框架,并从图像处理、自然语言处理和自然科学三个应用领域进行梳理和展望。

  针对图的人工智能方法,在建模复杂系统方面取得了显著的成功,其应用范围涵盖了生物学中的络到物理学中的相互作用粒子系统。然而,日益异质化的图数据集需要采用多模态方法,以结合不同的归纳偏置(inductive bias)。所谓归纳偏置,在机器学习中指的是学习算法对某些类型假设的偏好或倾向,它帮助算法从给定的训练数据中进行推断。这种偏置可以基于算法设计者的先验知识,也可以是对问题空间结构的一种假设。

  在多模态数据集上进行学习具有挑战性,因为归纳偏置可能因数据模态而异,并且图可能并未在输入中明确给出。为了应对这些挑战,图人工智能方法结合不同的模态,通过几何关系来利用跨模态依赖关系。多样化的数据集通过图进行整合,并被送入复杂的多模态架构中,这些架构被定义为图片密集型、知识基础型与语言密集型模型。借助以上分类,我们引入了一种多模态图学习的框架,利用它研究现有方法,并提供设计新模型的指导原则。

  基于图(Graph)的深度学习技术,在生物学、化学、物理学和社会科学领域取得了突破。图神经网络的主要用途是基于神经消息传递策略,学习包括节点、边、子图和整个图的各种图组件的表征。图神经网络学习到的表征,可用于下游任务,包括通过半监督学习进行标签预测、自监督学习以及图设计和生成。在大多数现有应用中,数据集明确描述了以节点、边和附加信息表示的图,这些信息代表上下文知识,例如节点、边和图的属性。

  建模复杂系统需要以不同视角、不同尺度或通过多种模态(如图像、传感器读数、语言序列和简洁的数学陈述)观测相同对象的数据。多模态学习(Multimodal learning)研究如何优化这些异构的复杂观测量,以创建广泛适用、对基础数据分布的变化具有鲁棒性,并能用更少标记数据进行训练的学习系统。虽然多模态学习已经在单模态方法失效的情况下取得成功,但它还面临着在更大范围人工智能场景中应用的挑战。这些挑战包括找到适用于机器学习分析的表征方法,以及融合来自不同模态的组合信息以创建预测模型。这些挑战已被证明是困难的。例如,多模态方法往往只关注在模型训练过程中最有帮助的一部分模态,而忽视了可能具有信息价值的模态——该缺陷被称为“模态崩溃”(modality collapse)。此外,与“假设每个对象必须存在于所有模态中”的一般观点相反,由于数据收集和测量技术的限制,在每个模态中都出现的对象集可能很少——该缺陷被称为“缺失模态”(missing modalities)。由于不同的模态可以导致复杂的关系依赖,简单的模态融合无法充分利用多模态数据集。图学习的模型通过将不同模态的数据点连接为最优定义的图中的边,并构建适用于各种任务的学习系统,来对上述数据系统进行建模。

  我们在此探讨一种所谓“多模态图学习”(multimodal graph learning,MGL)的技术框架。多模态图学习提供了一个框架,可以涵盖现有算法,并帮助开发利用图进行多模态学习的新方法。该框架允许学习融合后图的表征,并研究如何应对前述的模态崩溃和缺失模态的挑战。我们将多模态图学习框架应用于广泛的领域,从计算机视觉和语言处理到自然科学(图1)。本文考虑将图像密集型图(image-intensive graphs,IIGs)用于图像和视频推理,语言密集型图(language-intensive graphs,LIGs)用于处理自然和生物序列,以及知识密集型图(knowledge-intensive graphs,KIGs)用于辅助科学发现。

  图1 以图为中心的多模态学习。左侧显示了不同的数据模态。右侧显示了多模态图学习在机器学习任务中的价值。多模态图学习作为一个统一的框架,通过计算机视觉、自然语言处理和自然科学中的学习系统,实现了多模态图神经架构。

  深度学习已经为多模态学习开创了诸多融合方法。例如,循环神经网络(RNN)与卷积神经网络(CNN)的结构成功地相结合,用于视频描述问题中声音和图像信息的融合。最近,生成模型在语言相关及基于物理的多模态数据上也被证明非常精确。这些模型基于编码器-框架,在编码器中,组合后的架构同时接受训练(每个架构专门用于一种模态),而则从各个架构中聚集信息。当模态之间复杂的关系形成网络结构时,图神经网络(graph neural networks,GNNs)提供了一种富有表现力且灵活的策略,以利用多模态数据集中的相互依赖关系。

  图神经网络在多模态学习中的应用颇具吸引力,因其能灵活地建模不同数据类型内部及跨类型的相互作用。然而,通过图学习进行数据融合需要构建网络拓扑,并在图上实施推理算法。我们提出了一种方,它根据给定的多模态输入数据,生成可用于下游任务的输出表征,这就是一体化的多模态图学习。多模态图学习框架可以视为由四个相互连接、形成端到端流程的学习组件构成的架构。在图2a和2b中,突出展示了传统单模态架构组合处理多模态数据与我们提出的一体化多模态架构之间的差异。

  图2 多模态图学习的架构。a,多模态学习的常规方法是组合不同的单模态架构,每个架构均针对一种特定的数据模态进行优化。b,相较之下,一体化的多模态架构考虑了每种数据模态特有的归纳偏置,并以端到端方式优化模型参数,从而实现表征层面上的数据融合。c,多模态图学习包含四个组件:实体识别、拓扑发现、信息传播和表征混合。这些组件被划分为两个阶段:“结构学习”(structure learning)以及“基于结构的学习”(learning on the structure)。

  多模态图学习的第一个组件用于识别各种数据模态中的相关实体,并将它们投影到共享的命名空间中。例如,在精准医学中,患者的状态可能通过匹配的病理切片和临床笔记来描述,从而产生具有图像和语言信息的患者节点。在计算机视觉的另一个示例中(图3),实体识别涉及在图像中定义超像素。

  图3 将多模态图学习应用于图像领域。a,图像理解中的模态识别,其中节点表示由SLIC(简单线性迭代聚类)分割算法生成的感兴趣区域,又称之为超像素。b,图像降噪中的拓扑发现,其中图像块(节点)与其他非局部相似块相连。c、人-物互动中的拓扑发现,其中创建了两个图。一个以人为中心的图,将身体部位映射到其解剖学上的相邻位置,⽽一个图基于相对于图像中其他物体的距离,互动连接各身体部位。d、人-物互动中的信息传播,其中基于空间关系的图通过修改消息传递,以结合边的特征,从而对齐图像中物体的相对方向。

  在定义了问题的实体之后,第二个组件开始探索跨模态节点之间的相互作用和相互作用类型。相互作用通常是明确给出的,因此可视为图是预先给定的,该组件负责将已有的图结构与其他模态结构相结合(例如,在图5c中,“拓扑发现”部分对应于将蛋白质表面信息与蛋白质结构本身相结合)。当数据没有预设网络结构时,揭示拓扑组件会基于显式特征(例如,空间和视觉特征)或隐式特征(例如,表示中的相似性)来探索可能的邻接矩阵。对于后一种情况,自然语言处理领域的案例是考虑从表达词之间关系的文本输入来构建图(图4b)。

  图4 多模态图学习在语言数据集上的应用。a,文本输入中的不同上下文背景层次,从句子到文档以及每个上下文层次中识别的单个组件。这是多模态图学习框架第一个组件“实体识别”的例子。b,从文本输入构建语言密集图的简化构造,这是多模态图学习框架中“拓扑发现”组件的应用。c和d是“基于领域的情感分析”(ABSA)示例,旨在为给定方面的句子给出情感打分,分为正面、负面或中性。通过在句子内按所在领域分组(c)或对句子和领域之间的关系进行建模(d),这些方法整合了与基于领域的情感分析相关的归纳偏置,并在多模态图学习的第三个组件“信息传递”方面进行了创新。

  在图被指定或经由自适应优化之后(多模态图学习中的结构学习阶段;图2c),可以使用各种策略来在图上进行学习。最后两个多模态图学习组件,合称为“基于结构的学习”阶段(图2c),描述了这些策略。

  第三个组件使用卷积或消息传递,基于图的邻接关系学习节点表征。在多个邻接矩阵的情况下,该方法使用独立的传播模型或假设超图形式,将邻接矩阵与单个传播模型融合。

  最后一个组件会根据下游任务的需要,对学习到的节点级别的表征进行转换。信息传播模型会输出节点的表征,这些表征可以根据最终表征层次(例如,图一级或子图一级的标签)进行混合和组合。流行的混合策略包括简单的聚合操作(如求和或平均)或者更为复杂的、含有神经网络架构的函数。图2c展示了所有多模态图学习组件,从多模态输入数据到为下游任务优化的表征。

  图像密集型图(image intensive graph,IIGs)是一种多模态图,其中的节点代表视觉特征,而边代表图像特征间的空间联系。结构图像学习包括创建图像密集型图,以编码与图像相关的几何先验条件,如平移不变性和尺度分离等。平移不变性描述了卷积神经网络的输出随输入图像位移而无变化的特性,这是通过具有共享权重的卷积滤波器实现的。相反,尺度分离则指出如何分解跨尺度特征间的长距离相互作用,重点关注可以传播至更粗粒度尺度的局部相互作用。例如,在卷积神经网络中,池化层紧接在卷积层后面以实现尺度分离。另外,图神经网络能够模拟对图像相关任务而言至关重要的任意形状的长程依赖性,例如在图像分割、图像恢复或人-物体交互等任务中。

  视觉理解仍是视觉分析的核心,而多模态图学习在图像分类、分割和增强等方面已被证实具有显著效用。图像分类的任务是识别出图像中存在的各类对象。相比之下,图像分割则将一幅图像划分为若干部分,并将每个部分归入一个特定类别。最后,图像恢复和去噪则将低质量的图片转化为高清晰度的版本。完成这些任务所需的信息包括对象、片段和图像块,以及它们周围的长程上下文信息。

  图像密集型图的构建(对应于多模态图学习的组件1和2)起始于简单线性迭代聚类等分割算法,以确定具有意义的区域(如图3a)。这些区域决定了用于抽取特征图和各区域视觉特征概要的节点,其属性由如FCN-16或VGG19等卷积神经网络初始化。此外,节点不仅与其在卷积神经网络学习特征空间中的k个最近邻节点相连(如图3b),也和空间相邻的区域相连,或和基于预先设置的节点间相似性阈值所确定的任意数量的邻居节点相连。

  一旦完成多模态图学习的结构学习阶段,基于图卷积和图注意力的传播模型(即多模态图学习的组件3)就会根据已学习到的注意力分数,来衡量图中节点邻居的权重。另外,图降噪网络、内部图神经网络以及残差图卷积网络这样的方考虑边相似性,以表示出图像区域间的相对距离。

  视觉推理的深度超越了单纯识别视觉元素,它通过询问图像中实体间的关系来展开推理。这些关系可能涉及人与物品的相互作用,如人-物交互,或者更广义地,涉及视觉、语义和数字实体的交互,如在视觉问题回答中所见。

  在人-物交互中,多模态图学习方法识别出两个实。