大型语言模型时代的图机器学习综述:发展历史、LLM增强图学习、图增强LLM、应用场景、未来方向(上)

发布于: 修改于: Android转发:0回复:0喜欢:2

作者:Wenqi Fan, Shijie Wang, Jiani Huang, Zhikai Chen, Yu Song, Wenzhuo Tang, Haitao Mao, Hui Liu, Xiaorui Liu, Dawei Yin, Qing Li

图在表示各种领域中的复杂关系方面扮演着重要角色,如社交网络、知识图谱和分子发现。随着深度学习的出现,图神经网络(GNNs)已成为图机器学习(Graph ML)的基石。最近,LLMs 在语言任务中展示了前所未有的能力,并广泛应用于计算机视觉和推荐系统等多种应用。这一显著的成功也引起了将 LLMs 应用于图领域的兴趣。图,特别是知识图谱,富含可靠的事实知识,可以利用这些知识来增强 LLMs 的推理能力,并可能缓解它们的局限性,如幻觉和缺乏可解释性。鉴于这一研究方向的快速发展,有必要进行系统性的回顾,总结 LLMs 时代图 ML 的最新进展,为研究人员和从业者提供深入的理解。因此,在这项调查中,我们首先回顾了图 ML 的最新发展。然后,我们探讨了 LLMs 如何被用来增强图特征的质量,减少对标记数据的依赖,并解决图异质性和分布外(OOD)泛化等挑战。之后,我们深入探讨了图如何增强 LLMs,突出了它们在增强 LLM 预训练和推理方面的能力。此外,我们调查了各种应用并讨论了这一有前途领域的潜在未来方向。

关键词:图机器学习,图基础模型,图学习,大型语言模型(LLMs),预训练和微调,提示,表示学习。

1 引言

图数据在许多实际应用中无处不在,包括社交图、知识图和推荐系统。通常,图由节点和边组成,例如在社交图中,节点代表用户,边代表关系。除了拓扑结构,图往往具有各种节点特征,如文本描述,这些特征提供了有关节点的有价值的上下文和语义信息。为了有效地建模图,图机器学习(Graph ML)已经引起了显著的关注。随着深度学习(DL)的出现,图神经网络(GNNs)由于其消息传递机制而成为图 ML 中的关键技术。这种机制允许每个节点通过递归地接收和聚合来自相邻节点的消息来获得其表示,从而捕获图结构内的高阶关系和依赖性。为了减轻对监督数据的依赖,许多研究集中在开发自监督的图 ML 方法上,以推进 GNNs 捕获可转移的图模式,增强它们在各种任务中的泛化能力。鉴于图数据应用的指数级增长,研究人员正在积极开发更强大的图 ML 方法。最近,大型语言模型(LLMs)开启了人工智能的新趋势,并在自然语言处理(NLP)中展示了显著的能力。随着这些模型的发展,LLMs 不仅被应用于语言任务,还展示了在计算机视觉(CV)和推荐系统等各种应用中的巨大潜力。LLMs 在复杂任务中的有效性归因于它们在架构和数据集规模方面的广泛规模。例如,具有 175 亿参数的 GPT-3 通过生成类似人类的文本、回答复杂问题和编码展示了令人兴奋的能力。此外,LLMs 能够把握广泛的一般知识和复杂的推理,这归功于它们庞大的训练数据集。因此,它们在语言语义和知识推理方面的能力使它们能够学习语义信息。此外,LLMs 表现出出现能力,在有限或没有特定训练的情况下,在新任务和领域中表现出色。这一属性有望在不同下游数据集和任务中提供高泛化能力,即使在少量样本或零样本情况下也是如此。因此,利用 LLMs 在图机器学习(Graph ML)中的能力越来越受到关注,并有望增强 Graph ML 向图基础模型(GFMs)的方向发展。

GFMs 通常在大量数据上进行训练,并可以适应广泛的下游任务。通过利用 LLMs 的能力,预计可以增强图 ML 泛化各种任务的能力,从而促进 GFMs。目前,研究人员已经做出了一些初步的努力,探索 LLMs 在推进 Graph ML 向 GFMs 方向的潜力。图 1 展示了一个集成 LLMs 和 GNNs 用于各种图任务的示例。首先,一些方法利用 LLMs 来减轻传统图 ML 对标记数据的依赖,它们根据隐式和显式的图结构信息进行推断。例如,InstructGLM [20] 通过将图数据序列化为标记并编码有关图的结构信息来微调模型,如 LlaMA [23] 和 T5 [24],以解决图任务。其次,为了克服特征质量问题,一些方法进一步利用 LLMs 来增强图特征的质量。例如,SimTeG [25] 在文本图数据集上微调 LLMs 以获得文本属性嵌入,然后将其用于增强 GNN 进行各种下游任务。此外,一些研究探索使用 LLMs 来解决图的异质性和 OOD(分布外)泛化等挑战。

另一方面,尽管 LLM 在各个领域取得了巨大成功,但它仍然面临几个挑战,包括幻觉、实际意识和缺乏可解释性。图,特别是知识图,以结构化格式捕获了大量高质量和可靠的事实知识。因此,将图结构纳入 LLMs 可以提高 LLMs 的推理能力,并可能缓解这些局限性。为此,已经做出了努力,探索图在增强 LLMs 的可解释性 [32]、[33] 和减少幻觉 [34]、[35] 方面的潜力。鉴于这一领域的快速发展和重大潜力,迫切需要对 LLMs 时代图应用和图 ML 的最新进展进行全面回顾。

因此,在这项调查中,我们的目标是提供 LLMs 时代图机器学习的综合回顾。调查的大纲如图 2 所示:第 2 节回顾了与图机器学习和基础模型技术相关的工作。第 3 节介绍了图上的深度学习方法,重点关注各种 GNN 模型和自监督方法。随后,调查深入探讨了 LLMs 如何在第 4 节中增强 Graph ML,以及图如何在第 5 节中被采用来增强 LLMs。最后,第 6 节和第 7 节分别讨论了各种应用和图 ML 在 LLMs 时代潜在的未来方向。我们的主要贡献可以总结如下:

我们详细描述了从早期图学习方法到 LLMs 时代最新 GFMs 的演变;

我们提供了对当前 LLMs 增强 Graph ML 方法的全面分析,突出了它们的优势和局限性,并提供了系统的分类;

我们彻底调查了图结构解决 LLMs 局限性的潜力;

我们探讨了 LLMs 时代图 ML 的应用和潜在的未来方向,并讨论了各个领域中的研究和实际应用。

与我们的调查同时,Wei 等人 [36] 回顾了图学习的发展。Zhang 等人 [37] 提供了对大型图模型的前瞻性回顾。Jin 等人 [38] 和 Li 等人 [39] 分别回顾了在图上预训练语言模型(特别是 LLMs)的不同技术和应用到不同类型的图。Liu 等人 [40] 根据流程回顾了图基础模型。Mao 等人 [18] 专注于基本原理,并讨论了 GFMs 的潜力。与这些同期调查不同,我们的调查提供了更全面回顾,并具有以下区别:(1) 我们对图机器学习的发展进行了更系统的回顾,并进一步探索了 LLMs 对 Graph ML 向 GFMs 的影响;(2) 我们对 LLMs 时代图 ML 的最新进展进行了更全面和细粒度的分类;(3) 我们深入研究了图 ML 的局限性,并从 LLM 的角度提供了如何克服这些局限性的见解;(4) 我们进一步探索了图如何增强 LLMs;以及 (5) 我们更全面地总结了广泛的应用,并就挑战和未来方向进行了更前瞻性的讨论。

2 相关工作

在本节中,我们简要回顾了图机器学习和基础模型技术领域的一些相关工作。

2.1 图机器学习

作为人工智能中最活跃的领域之一,图学习因其能够对表示为图的数据中的复杂关系和结构进行建模而受到广泛关注。如今,它已广泛应用于社交网络分析、蛋白质检测、推荐系统等各个应用中。图学习的初始阶段通常使用随机游走,这是探索图结构的基础方法。这种技术涉及在图中从一个节点移动到另一个节点的随机过程,对于理解网络中的节点连通性和影响力至关重要。在随机游走的基础上,图嵌入方法旨在将节点(或边)表示为保留图拓扑和节点关系的低维向量。代表性方法如 LINE [46]、DeepWalk [47] 和 Node2Vec [48] 利用随机游走学习节点表示,有效地捕获局部结构和社区信息。由于其出色的表示学习和建模能力,由深度学习支持的图神经网络(GNNs)在图学习中带来了显著的进步。例如,GCNs [49] 引入了卷积操作到图数据中,使每个节点能够有效地聚合邻居信息,从而增强节点表示学习。GraphSAGE [50] 学习一个函数来聚合来自节点局部邻域的信息,在归纳设置中,允许为未见过的节点高效地生成嵌入。GAT [51] 通过整合注意力机制进一步推进了 GNNs,为邻域中的节点分配不同的权重,从而提高模型关注重要节点的能力。受到变换器 [52] 在 NLP 和 CV 中成功的启发,几项研究 [53]–[57] 采用自注意力机制到图数据中,提供了对图结构和交互的更全局视角。最近的工作 [58]–[62] 进一步利用变换器架构来增强图数据建模。例如,GraphFormer [58] 在变换器的每一层中整合 GNN,使文本和图信息得以同时考虑。变换器在 LLMs 中的进步催生了图学习。最近的工作 [20]、[21]、[26]、[63] 应用了这些先进的语言模型技术,如 LLaMA [23] 或 ChatGPT 到图数据中,从而产生了能够以类似于自然语言处理的方式理解和处理图结构的模型。一种典型的方法,GraphGPT [22],将图数据标记化以插入 LLMs(即 Vicuna [64] 和 LLaMA [23]),从而提供了强大的泛化能力。GLEM [65] 进一步将图模型和 LLMs,特别是 DeBERTa [66],集成到变分期望最大化(EM)框架中。它在 E 步和 M 步中交替更新 LLM 和 GNN,从而在下游任务中高效地扩展并提高效果。

2.2 基础模型 (FMs)

基础模型 (FMs) 代表了人工智能领域的一个重大突破,其特点是能够在大规模数据集上进行广泛的预训练,并适应各种下游任务。这些模型以其在大规模数据集上的广泛预训练和对广泛下游任务的适应性而著称。值得注意的是,FMs 不局限于单一领域,而是可以在自然语言 [14]、[15]、视觉 [67]、[68] 和图领域 [18]、[40] 中找到,是一个有希望的研究方向。在视觉领域,视觉基础模型 (VFMs) 取得了显著的成功,对图像识别、目标检测和场景理解等领域产生了重大影响。具体来说,VFMs 得益于在广泛和多样化的图像数据集上的预训练,使它们能够学习复杂的模式和特征。例如,DALL-E [69] 和 CLIP [67] 等模型利用自监督学习来理解和基于文本描述生成图像,展示了显著的跨模态理解能力。最近的视觉 ChatGPT [68] 将 ChatGPT 与一系列视觉基础模型 (VFMs) 集成,使其能够执行各种复杂的视觉任务。这些 VFMs 允许模型从更广泛的视觉数据中学习,从而提高它们的泛化能力和鲁棒性。在自然语言处理(NLP)领域,大型语言模型(LLMs)如 ChatGPT 和 LLaMA 也彻底改变了该领域 [70]。由于其庞大的规模,LLMs 在使用大量文本数据集训练数十亿参数时表现出色,使它们在理解和生成自然语言方面表现出色。预训练语言模型的格局是多样化的,例如 GPT(Generative Pre-trained Transformer)[14]、BERT(Bidirectional Encoder Representations from Transformers)[15] 和 T5(Text-To-Text Transfer Transformer)[24]。这些模型大致可以分为三类:仅编码器、仅解码器和编码器-解码器模型。仅编码器模型,如 BERT,专门用于理解和解释语言。相比之下,像 GPT 这样的仅解码器模型在生成连贯且与上下文相关的文本方面表现出色。像 T5 这样的编码器-解码器模型结合了这两种能力,有效地执行各种 NLP 任务,从翻译到摘要。作为一个仅编码器模型,BERT 通过其创新的双向注意力机制在 NLP 中引入了一种范式,该机制同时从两个方向分析文本,与其前身(如仅单向处理文本的变换器)不同,无论是从左到右还是从右到左。这一特性使 BERT 能够获得全面上下文理解,显著提高了其对语言细微差别的理解。另一方面,像 GPT 这样的仅解码器模型,包括 ChatGPT 等变体,使用单向自注意力机制。这种设计使它们在预测序列中的后续单词方面特别有效,因此在文本完成、创意写作和代码生成等任务中表现出色。此外,作为一个编码器-解码器模型,T5 独特地将各种 NLP 任务转化为文本生成问题。例如,它将情感分析从分类任务重新框架化为文本生成任务,其中输入如“情感:今天是晴天”会促使 T5 生成一个输出,如“正面”。这种文本到文本的方法强调了 T5 在不同语言任务中的多功能性和适应性。LLMs 的发展见证了像 GPT-3 [92]、LaMDA [93]、PaLM [94] 和 Vicuna [64] 这样的先进模型的出现。这些模型代表了 NLP 中的重大进步,以其在理解和生成复杂、精细语言方面的增强能力而著称。它们的训练方法通常更加复杂,涉及更大的数据集和更强大的计算资源。这种扩展导致了前所未有的语言理解和生成能力,表现出诸如上下文学习(ICL)、适应性和灵活性等涌现属性。此外,最近的进展表明 LLMs 与其他模型的成功整合,如推荐系统 [17]、强化学习(RL)[95]、GNNs [25]、[96]–[98]。这种整合使 LLMs 能够应对传统和新的挑战,为应用提出了潜在的途径。LLMs 在化学 [99]、[100]、教育 [101]、[102] 和金融 [103]、[104] 等不同领域中找到了应用,它们从数据分析到个性化学习等各种任务做出了贡献。特别是,LLMs 在图任务,如图分类和链接预测中表现出色,展示了它们的多功能性和广泛的适用性。具体来说,Simteg [25]、GraD [97]、Graph-Toolformer [96] 和 Graphologue [98] 等几项研究显著推进了图学习。这些模型利用 LLMs 进行文本图学习、图感知蒸馏和图推理,展示了 LLMs 在增强对复杂图结构的理解和交互方面的潜力。尽管 FMs 革新了视觉和 NLP 领域,但图基础模型(GFMs)的发展仍处于初期阶段。鉴于该领域的快速发展和重大潜力,有必要继续探索和发展先进技术,进一步推动图 ML 向 GFMs 的发展。

3 图上的深度学习

随着深度神经网络(DNNs)的快速发展,用于表示学习的图结构和节点属性建模的 GNN 技术已被广泛探索,并成为图 ML 的关键技术之一。虽然传统的 GNN 在各种图任务中表现出熟练,但它们仍遇到几个挑战,如可扩展性、对未见数据的泛化以及在捕获复杂图结构方面的有限能力。为了克服这些限制,许多人努力通过自监督范式改进 GNN。因此,为了全面回顾这些方法,在本节中,我们首先介绍骨干架构,包括基于 GNN 的模型和基于图变换器的模型。之后,我们将探讨自监督图 ML 模型的两个重要方面:图预训练任务和下游适应。请注意,这些方法的全面总结在表 1 中呈现。

3.1 骨干架构

作为人工智能(AI)社区中最活跃的领域之一,已经提出了各种 GNN 方法来解决各种任务。这些模型的强大能力在很大程度上依赖于其骨干架构的发展。因此,在本小节中,我们关注两种广泛使用的架构:基于邻域聚合的模型和基于图变换器的模型。

3.1.1 基于邻域聚合的模型

基于邻域聚合的模型是最流行的图学习架构,已被广泛研究并应用于各种下游任务。这些模型基于消息传递机制运行,通过聚合邻居节点的特征以及它自己的特征来更新节点的表示。正式地,这个过程可以表示为:

其中,对于每个节点 u,通过从其邻居节点的聚合函数生成消息 mu。随后,图信号 f 用消息更新。GCN 是一种典型的方法,旨在利用图结构和节点属性。该架构通过聚合邻居特征与节点自身的特征来更新节点表示。随着网络层数的增加,每一层都捕获越来越大的邻域。由于其效率和性能,GCN [49] 已被多种方法广泛应用,如 CSSL [11] 和 PRO DIGY [89]。GraphSAGE [50] 是另一个著名的基于邻域聚合的模型。由于其归纳范式,GraphSAGE 可以轻松推广到未见过的节点或图,使其被多项研究如 PinSage [106] 用于归纳学习。此外,几项研究 [73]、[86]、[89] 将图注意力网络(GATs)[51] 作为骨干架构。GATs 将注意力机制整合到 GNNs 中,为邻域中的节点分配可变权重,从而专注于输入图的最重要部分,以改进节点表示。作为 GNNs 家族中的另一个重要模型,图同构网络(GIN)[107] 也因其强大的表示能力而被广泛使用 [10]、[13]、[82]、[90],由于其独特的架构保证了与 Weisfeiler Lehman 同构测试等价的表达能力,使其成为许多结构密集型任务的首选骨干模型。尽管这些模型被广泛采用来解决图任务,但它们仍然存在一些固有的局限性,例如过度平滑和缺乏泛化能力。此外,参数数量较少也限制了作为骨干模型的建模能力,以服务于多个数据集和任务。

3.1.2 基于图变换器的模型

尽管基于邻域聚合的 GNN 模型在处理图结构数据方面表现出色,但它们存在一些局限性。这些模型面临的一个重大挑战是,由于依赖于局部邻域信息,以及在捕获图中的长距离依赖方面的有限能力,因此难以处理大型图 [61]、[108]、[109]。为了克服这些问题,受到变换器模型在各种 NLP 任务中成功的启发,提出了基于图变换器的模型 [54]、[59]、[61]。这些模型利用自注意力机制来适应性地捕获局部和全局图结构,允许模型在不过度平滑的情况下堆叠多层。由于较低的归纳偏差,基于图变换器的模型可以从数据中学习结构模式,而不是仅依赖于图结构。此外,变换器在 CV 和 NLP 中展示了出色的扩展行为,表明随着更多的数据和参数,它们的性能可以不断提高。基于图变换器的模型已被广泛应用于各种任务的骨干架构 [57]、[77]、[78]、[91]、[110]。例如,Graph-Bert [57] 使用变换器在图数据集上进行预训练,进行特征和边重建任务,然后微调以进行各种下游任务。同样,GROVER [77] 引入了一个专为大规模分子数据设计的自监督基于图变换器的模型。它在广泛的分子数据集上进行预训练,然后微调以进行特定下游任务。GraphGPT [79] 使用(半)欧拉路径将图转换为令牌序列,然后将序列输入变换器。具体来说,它构建了一个数据集特定的词汇表,使得每个节点都可以对应一个唯一的节点 ID。尽管基于图变换器的模型可以在某种程度上解决传统 GNNs 的局限性,但它们也面临几个挑战。其中一个挑战是由自注意力引起的二次复杂度,这对于大型图特别成问题。此外,在将图序列化时,还可能丢失有关原始图结构的一些信息。

3.2 图上的自监督学习

为了使 GNNs 适应各种图任务,提出并广泛研究了许多自监督学习方法。这些方法使 GNNs 能够从预训练任务中学习图表示,并将它们转移到各种下游任务中,如节点分类、图分类和链接预测。因此,在本小节中,我们将从预训练任务和下游适应两个方面介绍图自监督学习方法。

3.2.1 图预训练任务

图对比学习旨在通过对比相似和不相似的图数据对来学习增强表示,有效地识别细微的关系和结构模式。我们可以从两个角度回顾图对比学习:图增强和对比的规模。通常,图增强可以分为两种类型:1)特征扰动和 2)拓扑扰动。它们假设在特征或结构空间中的微小变化不会改变语义。特征扰动涉及扰动图中节点的特征。例如,GRACE [72] 随机掩盖节点特征以学习更鲁棒的表示。另一方面,拓扑扰动主要涉及修改图的结构。一个典型的例子是 CSSL [11],它采用如边扰动或节点删除等策略来采用图-图级别的对比,从而增强表示的鲁棒性。关于对比的规模,方法可以分为节点级别和图级别。例如,GRACE [72] 计算节点级别嵌入之间的相似性以学习区分节点表示。GCC [13] 也在节点级别工作,但通过采样节点的邻居来获得子图(正对)并将其与随机选择的非上下文子图(负对)进行对比,从而学习局部结构模式。相比之下,DGI [71] 对比节点级别嵌入和图级别嵌入以捕获全局图结构。GraphCL [10] 采取了不同的方法,通过实现图到图级别的对比,从而学习鲁棒的表示。用于预训练的规模对下游性能有巨大影响。当采用对比学习作为预训练任务时,一个关键挑战是如何设计目标,使学习到的嵌入能够适应不同规模的下游任务。图生成方法旨在学习图数据的分布,以实现图的生成或重建。与在 CV 中预测掩蔽图像块的模型不同,在 NLP 中预测序列中的下一个标记,图数据由于其相互连接的特性而呈现出独特的挑战。因此,图生成方法通常在特征或结构空间上工作。特征生成方法专注于掩盖一个或一组节点的特征,然后训练模型恢复被掩盖的特征。例如,GraphMAE [73] 利用掩蔽自编码器框架来基于它们的上下文重建被掩盖的图部分,有效地捕获底层节点语义及其连接模式。或者,结构生成方法集中在训练模型恢复图结构上。方法 GraphGPT [79] 将图编码为令牌序列,然后使用变换器解码器预测序列中的下一个令牌以恢复图的连通性。此外,Graph-Bert [57] 在训练时使用节点属性恢复和图结构恢复任务,以确保模型在捕获局部节点属性信息的同时保持对图结构的全局视图。图属性预测方法从图中固有的节点级、边级和图级属性中获得指导,这些属性在图中自然存在。这些方法遵循与监督学习类似的训练方法,因为两者都使用“样本-标签”对进行训练。关键区别在于标签的来源:在监督学习中,标签由人类专家手动注释,这在实际情况中可能成本高昂,而在基于属性的学习中,标签是从图使用某些启发式或算法自动生成的。例如,GROVER [77] 利用专业软件提取图模式的信息作为分类的标签。类似地,[111] 利用图的统计属性进行图自监督学习。

3.2.2 下游适应

无监督表示学习(URL)是一种常见的方法,因为现实世界中标记数据的稀缺性 [71]–[74]。在 URL 中,预训练的图编码器被冻结,只有在下游调整期间学习特定任务层。然后,学习到的表示直接输入到解码器中。这种模式允许 URL 高效地应用于下游任务。例如,DGI [71] 训练一个编码器模型来学习图结构内的节点表示。然后,这些节点表示可以用于下游任务。然而,由于预训练任务和下游任务之间的差距,URL 也可能导致次优性能。微调是适应预训练模型到某个下游任务的默认方法。如图 3 所示,它在预训练模型的顶部添加一个随机初始化的任务头(例如,分类器),在微调期间,背景模型和头部共同训练 [10]、[11]、[57]。与 URL 相比,微调提供了更多的灵活性,因为它允许在背景参数中进行更改,并且可以选择要调整的层,同时保持其他层不变。此外,最近的研究 [10]、[76]、[78] 进一步探索了超越简单微调的先进图微调方法。例如,AdapterGNN [76] 在消息传递前后并行引入两个可训练的适配器。它在微调期间冻结 GNN 模型,只调整适配器,实现了参数高效的微调,对下游性能的影响最小。提示调整:“预训练 & 微调” 在适应预训练模型到特定下游任务时很普遍,但它忽略了预训练和下游任务之间的差距,可能限制了泛化能力。此外,为不同任务进行微调也会导致显著的时间和计算成本。受到 NLP 中最近进展的启发,几种方法 [82]–[88]、[90]、[91] 提出了引入提示以将预训练模型适应特定任务的潜力,如图 3 所示。具体来说,提示调整首先将下游任务与预训练任务统一为同一范式,然后引入可学习的提示进行调整。例如,GPPT [83] 首先将节点分类重新框架化为链接预测。GraphPrompt [82] 进一步将图分类扩展为链接预测。另一方面,Prog [86] 将所有下游任务统一为子图分类。插入的提示包括向量 [82]、[83]、[85]、节点 [90] 和子图 [86]。通过插入这些提示,可以以更贴近下游任务需求的方式利用预训练参数。

4 LLMs 用于图模型

尽管基于 GNNs 的图 ML 具有巨大潜力,但它也存在固有的局限性。首先,传统的 GNN 模型通常需要标记数据进行监督,而获取这些注释在时间和成本上可能非常耗费资源。其次,现实世界的图经常包含丰富的文本信息,这些信息对于下游任务至关重要。然而,GNNs 通常依赖于浅层文本嵌入进行语义提取,从而限制了它们捕获复杂语义和文本特征的能力。此外,图的多样性为 GNN 模型在不同领域和任务中的泛化提出了挑战。最近,LLMs 在处理自然语言方面取得了显著的成功,具有以下特点:(1) 进行零次/少次预测,(2) 提供统一的特征空间。这些能力为解决图 ML 和 GFMs 面临的上述挑战提供了潜在的解决方案。因此,本节旨在研究当前 LLMs 如何有助于推动图 ML 向 GFMs 的进展,同时检查它们当前的局限性,如图 4 所示。

4.1 提高特征质量

图包含多样化的属性信息,涵盖文本、图像、音频和其他多模态模式。这些属性的语义在一系列下游任务中起着至关重要的作用。与早期的预训练模型相比,LLMs 因其庞大的参数量和在广泛数据集上的训练而脱颖而出,赋予了它们丰富的开放世界知识。因此,研究人员正在探索利用 LLMs 来改善特征质量和对齐特征空间的可能性。本节深入研究旨在利用 LLMs 实现这些目标的研究努力。

4.1.1 提高特征表示

研究人员利用 LLMs 强大的语言理解能力,为文本属性生成比传统浅层文本嵌入更好的表示 [26]、[112]、[113]。例如,Chen 等人 [26] 将 LLMs 作为文本编码器,GNN 模型作为预测器,验证了 LLMs 作为节点分类任务增强器的有效性。在 LKPNR [112] 中,LK-Aug 新闻编码器通过将新闻文本中的 LLM 嵌入与实体嵌入连接起来,增强了新闻推荐系统,以获得丰富的新闻表示。一些研究人员探索微调 LLMs 以获得更适合下游图任务的文本表示。SimTeG [25] 将节点分类和链接预测任务视为文本分类和文本相似性任务,使用 LoRA [146] 在 TAG 数据集上对 PLMs 进行微调。然后,使用微调后的 PLMs 为文本属性生成嵌入,随后进行 GNN 训练以进行下游任务。

4.1.2 生成增强信息

几项研究调查了利用 LLMs 的生成能力和通用知识从原始文本属性生成增强信息的可能性。TAPE [114] 首先利用 LLM 生成潜在的节点标签和解释,将文本属性(如标题和摘要)作为输入。这些由 LLM 生成的标签和解释被视为增强属性。随后,这些增强属性由微调的语言模型(LM)编码,并由 GNN 模型处理,该模型整合了图结构以进行最终预测。

与 TAPE 相反,KEA [26] 并不直接使用 LLM 预测节点标签。相反,LLM 提取文本属性中提到的术语并提供这些术语的详细描述。在分子属性预测领域,LLM4Mol [63] 和 GPT-MolBERTa [118] 采用了类似的方法,其中 LLMs 为输入的简化分子输入线性条目系统(SMILES)表示生成解释作为增强属性。在推荐系统领域,几种方法利用 LLMs 增强用户和项目文本属性。LLM-Rec [117] 使 LLMs 能够通过在提示中明确说明推荐意图来产生更详细的项目描述。RLMRec [115] 探索使用 LLM 增强用户偏好。具体来说,LLM 接收用户和项目信息作为输入,生成用户偏好、项目可能吸引的潜在用户类型以及推理过程。LLMRec [116] 采用类似的方法来增强推荐系统中的项目和用户属性。例如,基于历史行为信息,LLM 输出用户配置文件,如年龄、性别、国家、语言以及喜欢或不喜欢的类型。对于项目属性,以电影信息(如标题)作为输入,LLM 生成输出,如电影导演、国家和语言。

除了生成增强的文本属性外,研究人员还利用 LLMs 通过生成或完善节点和边来增强图拓扑结构。在 ENG [119] 中,LLM 被用来为每个节点类别生成新节点及其相应的文本属性。为了将生成的节点整合到原始图中,作者训练了一个边缘预测器,使用原始数据集中的关系作为监督信号。Sun 等人 [120] 利用 LLMs 完善图结构。具体来说,他们让 LLMs 通过预测节点属性之间的语义相似性来删除不可靠的边缘。此外,他们利用 LLMs 生成的伪标签帮助 GNN 学习适当的边缘权重。

4.1.3 对齐特征空间

在现实世界场景中,不同领域中的图的文本属性表现出相当的多样性。此外,除了文本模态属性外,图可能包含各种其他模态属性。直接使用预训练模型(PMs)对跨领域和多模态特征进行编码可能不会产生令人满意的结果。因此,利用 LLMs 对齐特征空间并提供更好的表示。TouchUp-G [81] 引入了一种以图为中心的微调策略,旨在增强与图相关任务的多模态特征。首先,他们提出了一种新颖的特征同亲度量,用于量化节点特征与图结构之间的一致性。在此基础上,作者设计了一个结构感知损失函数,通过最小化特征与图之间的差异来优化 PM。文献[121]介绍了用于不同领域图分类任务的统一框架 OFA。OFA 收集了涵盖不同领域的九个文本属性图数据集,并用自然语言表示节点和关系。然后采用 LLM 将这些跨域图信息嵌入到同一个嵌入空间中。此外,OFA 还提出了一种图提示范式,即在原始输入图中加入包含下游任务信息的提示图,使 GNN 模型能够根据提示图自适应地执行不同的任务。