中科大提出UniMEL框架_坚曼百货商行

多模态实体链接的重要性与挑战

多模态实体链接（Multimodal Entity Linking, MEL）是知识图谱领域中的一项基础任务，旨在将文档中的提及（mentions）链接到知识库中的实体。随着社交媒体和互联网的发展，文本和视觉的多模态性成为数据任务中的重要媒介。同时，线上信息的质量参差不齐，许多提及本身含糊不清，上下文信息粗糙，仅依靠文本模态往往难以进行有效消歧。然而，文本和视觉模态的结合往往能更精确、更轻松地进行消歧。例如，提及“United States”可能指代不同的实体，如国家名称、体育队伍或船只，但当同时考虑文本和视觉信息时，可以更容易地将“United States”准确链接到“美国国家轮椅橄榄球队”的实体。

尽管深度学习方法在MEL任务中取得了一定的成果，通过融合提及文本和图像获取提及表示、应用交叉注意力机制和编码图像提取特征等方法，但这些方法仍面临多个挑战：

为了解决上述问题，我们引入了一个统一框架UniMEL，旨在使用大型语言模型处理MEL任务，充分融合多模态提及的图像和上下文，并生成实体的新简洁描述。据我们所知，这是首次在MEL任务中引入基于多模态大型语言模型（MLLMs）的方法。

论文概览：标题、作者、会议和链接

标题 : UniMEL: A Unified Framework for Multimodal Entity Linking with Large Language Models

作者 : Qi Liu, Yongyi He, Defu Lian, Zhi Zheng, Tong Xu, Che Liu, Enhong Chen

会议 : Proceedings of the 33nd ACM International Conference on Information and Knowledge Management (CIKM ’24

多模态实体链接的定义与应用场景

多模态实体链接（Multimodal Entity Linking, MEL）是一种在知识库中将文本提及（mentions）与实体相链接的任务，这些提及不仅包含文本信息，还包括视觉信息。这种链接方式在许多自然语言处理（NLP）的下游应用中非常有用，例如问题回答和推荐系统。随着社交媒体和互联网的发展，文本和视觉的多模态性成为了数据任务的重要媒介。例如，提及“美国”可能指向不同的实体，如国家、体育队伍或船只，但当同时考虑文本和视觉信息时，可以更准确地将其链接到“美国国家轮椅橄榄球队”的实体。

UniMEL框架的核心组件与工作流程

1. LLMs-based Entity Augmentation

为了解决实体描述过长和信息冗余的问题，UniMEL框架使用大型语言模型（LLMs）来有效地摘要实体描述。通过向LLMs提供实体名称和其原始描述，并设计特定指令来强调生成摘要的简洁性和内容要求，LLMs能够生成新的、简洁的、信息丰富的实体描述摘要。

2. MLLMs-based Mention Augmentation

利用多模态大型语言模型（MLLMs）的强大视觉理解和指令遵循能力，UniMEL框架增强了提及的描述信息。通过将提及的图像、名称和文本上下文输入MLLMs，并设计特定的任务指令来引导MLLMs专注于提及本身，从而生成高质量的文本描述，增强提及的信息。

3. Retrieval Augmentation

在选择最佳匹配实体之前，通常需要缩小候选集并尽可能确保其准确性。通过增强的实体和提及信息，首先将实体名称和新描述连接起来，并使用预训练的嵌入模型获取其嵌入表示。然后，计算提及嵌入与知识库中每个实体嵌入的余弦相似度，检索出相似度最高的K个实体。

4. Multi-choice Selection

在域特定任务和数据上微调LLMs可以增强其在处理特定任务中的能力。通过高质量的数据和小规模候选集，设计了一个用于LLM指令调整的提示模板。LLM根据给定的指令和文本输入预测答案，从而选择与提及最匹配的实体。

实验设计与数据集介绍

1. 数据集介绍

这些数据集的统计信息如下表所示：

数据集	训练集样本数	验证集样本数	测试集样本数
Wikidiverse

2. 实验设置

我们的实验设置遵循了之前的工作，数据集被划分为训练集、验证集和测试集。我们使用Wikidata作为我们的知识库，并移除了那些在Wikidata中找不到对应实体的提及。在Wikidiverse中，数据集被划分为80%训练集、10%验证集和10%测试集。在WikiMEL和Richpedia中，数据集被划分为70%训练集、10%验证集和20%测试集。

主要实验结果与分析

1. 实验结果

我们的UniMEL框架在三个数据集上的表现如下：

这些结果表明，我们的UniMEL框架在多模态实体链接任务中具有显著的优势，并且能够有效地处理不同的数据集和实体类型。

2. 结果分析

我们的UniMEL框架通过整合文本和视觉信息，并对实体描述进行精简，有效地提高了实体链接的准确性。此外，我们还对模型进行了微调，仅调整了约0.26%的模型参数，这进一步提高了模型在特定领域任务上的表现。

通过对比不同的基线方法，我们发现即使是纯文本方法（如BERT），也能在某些数据集上展现出不错的性能。然而，结合视觉信息的方法（如我们的UniMEL）在处理含糊不清和质量较低的提及信息时，表现更为出色。

总体来说，这些实验结果验证了我们的UniMEL框架在多模态实体链接任务中的有效性和先进性。

模型的优势与挑战

1. 模型的优势

UniMEL模型在多模态实体链接任务中展现出显著的优势。首先，该模型通过结合大型语言模型（LLMs）和多模态大型语言模型（MLLMs），有效地处理了文本和视觉信息的融合问题。例如，通过MLLMs对提及的图像和文本上下文进行增强，使得模型能够更深入地理解图像与其上下文之间的语义关系。此外，UniMEL利用LLMs的总结能力，对实体描述进行精简，从而提高了实体检索的准确性和效率。

其次，UniMEL在候选实体集的缩减和重排方面也表现出色。通过嵌入模型对实体和提及的嵌入表示进行相似度计算，模型能够有效地缩小候选实体范围，并通过LLMs进行精确的多选匹配，从而提高了链接的准确性。

最后，实验结果显示，UniMEL在三个公开的多模态实体链接数据集上均达到了最佳性能，验证了其在实际应用中的有效性和优越性。

2. 模型的挑战

尽管UniMEL在多模态实体链接任务中表现出强大的能力，但仍面临一些挑战。首先，文本和视觉信息的有效融合仍是一个复杂的问题，尤其是在信息互补性不足的情况下，如何设计更有效的融合机制是提高模型性能的关键。

其次，尽管LLMs在处理文本信息方面表现出色，但它们在特定领域知识的应用上仍有限。如何让LLMs更好地适应特定领域的知识，以提高模型在特定任务上的表现，是未来研究的一个重要方向。

最后，从实体描述中提取有效信息并进行高效处理的问题也是挑战之一。当前模型虽然通过LLMs的总结能力对描述进行了精简，但如何进一步优化信息提取和处理流程，以提高处理速度和准确性，仍需进一步探索。

结论与未来工作方向

UniMEL框架通过整合LLMs和MLLMs，有效地解决了多模态实体链接任务中的关键问题，如文本和视觉信息的融合、实体描述的精简和候选实体集的高效处理等。实验结果表明，UniMEL在多个公开数据集上均取得了优异的性能，验证了其在实际应用中的有效性和前景。

未来的工作方向可以从以下几个方面进行：

本文转载自，作者：

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载者并注明出处：https://jmbhsh.com/yulebagua/33432.html

中科大提出UniMEL框架