本文旨在解决从非结构化的中文文本中提取实体和关系的问题,重点关注命名实体识别(NER)和关系提取(RE)所面临的挑战。为了增强识别与提取能力,我们设计了一个管道模型,分别应用于NER和RE,并整合了外部词典信息以及中文语义信息。我们还引入了一种创新的NER模型,结合了中文拼音、字符和词语的特征。此外,我们利用实体距离、句子长度和词性等信息来提高关系提取的性能。本文经过深入研究数据、模型和推理算法之间的关联作用,以提高解决这一挑战的学习效率。通过与现有多个方法的实验结果对比,我们的模型取得了显著的成果。 This paper aims to address the problem of extracting entities and relationships from unstructured Chinese text, focusing on the challenges faced in Named Entity Recognition (NER) and Relation Extraction (RE). To enhance recognition and extraction capabilities, we designed a pipeline model specifically for NER and RE, integrating external dictionary information as well as Chinese semantic information. We also introduced an innovative NER model that combines features of Chinese pinyin, characters, and words. Furthermore, we utilized information such as entity distance, sentence length, and part-of-speech to improve the performance of relation extraction. We delved into the interplay between data, models, and inference algorithms to improve the learning efficiency in tackling this challenge. Compared to existing methods, our model has achieved significant results.
本文旨在解决从非结构化的中文文本中提取实体和关系的问题,重点关注命名实体识别(NER)和关系提取(RE)所面临的挑战。为了增强识别与提取能力,我们设计了一个管道模型,分别应用于NER和RE,并整合了外部词典信息以及中文语义信息。我们还引入了一种创新的NER模型,结合了中文拼音、字符和词语的特征。此外,我们利用实体距离、句子长度和词性等信息来提高关系提取的性能。本文经过深入研究数据、模型和推理算法之间的关联作用,以提高解决这一挑战的学习效率。通过与现有多个方法的实验结果对比,我们的模型取得了显著的成果。
命名实体识别,关系提取,深度学习,双向长短期记忆网络,注意力机制
Cuimei Liu, Xuliang Luo*, Fengchan Guo, Yiliang Wu
Guangdong Power Grid Co., Ltd. Jiangmen Power Supply Bureau, Jiangmen Guangdong
Received: Apr. 19th, 2024; accepted: May 24th, 2024; published: May 31st, 2024
This paper aims to address the problem of extracting entities and relationships from unstructured Chinese text, focusing on the challenges faced in Named Entity Recognition (NER) and Relation Extraction (RE). To enhance recognition and extraction capabilities, we designed a pipeline model specifically for NER and RE, integrating external dictionary information as well as Chinese semantic information. We also introduced an innovative NER model that combines features of Chinese pinyin, characters, and words. Furthermore, we utilized information such as entity distance, sentence length, and part-of-speech to improve the performance of relation extraction. We delved into the interplay between data, models, and inference algorithms to improve the learning efficiency in tackling this challenge. Compared to existing methods, our model has achieved significant results.
Keywords:Named Entity Recognition, Relation Extraction, Deep Learning, BiLSTM, Attention Mechanism
Copyright © 2024 by author(s) and beplay安卓登录
This work is licensed under the Creative Commons Attribution International License (CC BY 4.0).
http://creativecommons.org/licenses/by/4.0/
信息提取是自然语言处理(NLP)任务中的重要组成部分,其目标是将非结构化的文本信息转化为有价值且有组织的结构化信息。在信息提取任务中,命名实体识别(NER)、实体关系提取(RE)和事件提取是关键任务。命名实体识别的目标是在文本中识别实体元素并将其分类到预定义的实体类别中 [
1)、如何引入实体字符之外的词汇:中文句子中的语义是由词语构成的,这意味着中文词语包含丰富的信息 [
2)、如何更好地利用中文中的丰富语义信息:深度学习领域广泛研究了基于字符、词语属性、发音等特征的模型,以提高关系提取的准确性和泛化能力。充分利用语义信息有助于神经网络更好地提取实体之间的关系。
3)、数据分布的对称性一致性:在学术讨论中,确保数据、模型和推理算法三元组内的对称性与数据分布的对称性保持一致对于实现最佳学习效率至关重要。解决这个问题需要深入探讨这些对称性之间的关系,并开发更灵活的模型以提高学习效率。
为了解决以上问题,本文使用流水线模型分别对命名实体识别模型和关系提取模型进行建模,并在相关数据集上取得了良好的结果。本文的主要贡献包括:引入了一种新颖的NER模型,结合中文拼音、字符和词语以增强识别能力。融合实体距离、句子长度和词性信息提高了关系提取模型的性能。探索了数据、模型和推理算法之间的相互作用,研究了深度学习中的协同效应和对称性,从而提高了学习效率。
在引言的最后一段,我们提供了论文结构的概述以便于理解。具体来说:第2节深入研究相关工作,包括信息提取研究现状、预训练模型、解码分类层和(D, M, I)三元组的研究工作。第3节详细阐述了本文所提出的模型,包括基于字符、词语和拼音的命名实体识别模型,以及基于多特征绑定的关系提取模型。第4节对实验结果进行分析,分别对本文提出的命名识别模型与关系提取模型进行了性能评估。第5节提供了对实验结果的深入分析,重点分析了命名实体识别(NER)和关系提取(RE)模型的性能表现。最后,第6节总结了本文的研究成果并讨论了未来的研究方向。
统计机器学习算法的出现开启了命名实体识别算法的新时代,该任务现已与神经网络相结合。研究人员开始使用基于字符嵌入和词语嵌入的循环神经网络(RNN)识别句子中的命名实体,解决了传统统计方法中存在的特征工程问题。随着深度学习的不断发展,利用深度学习方法解决命名实体识别问题已成为当前热门的研究课题。这类方法的优势在于神经网络模型可以自动学习句子特征,无需繁琐的特征计算工程 [
在基于词向量的处理中,文本首先被分割成词语,然后将词语映射成向量形式,即将每个词语表示为一个特征向量。这种方法面临的主要问题包括词语分割错误导致命名实体被错误切割、词汇表维度过大以及无法有效表征相似词语之间的关联 [
命名实体识别中的双向长短期记忆网络(BiLSTM)通过考虑每个词语的上下文,实现了全面的序列建模,从而提高了命名实体识别的准确性。该模型能够提取序列特征、处理长距离依赖关系并生成动态序列表示,为模型提供了灵活性。BiLSTM通过学习高级语言特征,在NER任务中表现出色,已成为有效的序列标注方法。
后来,基于特征提取的方法被用于通过输入实体及其相应的文本、句子或语言相关特征对关系进行分类的任务上。上述方法的有效性在很大程度上取决于现有自然语言处理工具中派生的特征质量 [
Daojian Zeng等人 [
预训练语言模型通常基于Transformer架构,例如BERT [
本文修改了LEBERT的嵌入模型,用轻量级且更强大的Mengzi模型 [
当前主流的分类器主要有条件随机场(CRF)解码分类器 [
另一方面,softmax的作用是将输入序列映射到命名实体分类标签的概率分布并通过贪心算法让每个状态获得概率最大的分类标签,适合用于多分类问题的处理。具体来说,softmax函数充当分类器,为每个输出的分类结匹配一个概率值,反映其属于对应类别的可能性,而不仅仅是确定一个最大值。在本文中,BiLSTM之后使用CRF做解码层,以提升模型预测的准确性。
Lechao Xiao等人 [
1). 数据(D):
数据是神经网络模型的基础,模型的有效性在很大程度上取决于所使用数据的质量和数量。数据增强在自然语言处理任务中尤为重要,因为自然语言数据的复杂性和多样性使得模型难以完全理解语言的真实含义。选择高质量的词嵌入对于构建高性能自然语言处理模型是非常重要的。高质量的词嵌入可以提高模型对词语的准确把握,并增加模型对新数据源的适应性。此外,词嵌入的数量对模型的性能有显著影响,更多的词嵌入通常允许模型学习更多特征。然而,仅依赖更多的词嵌入是不够的,词嵌入的质量也很重要。如果嵌入包含错误、噪声或不一致性,这些问题将被模型学习,并会影响模型的性能。因此,为了构建高性能的自然语言处理模型,有必要选择合适规模的词嵌入数据集,并仔细清理和处理数据,以确保数据的质量和数量都能最大化模型的性能。
2). 模型(M):
设计最优化数据效率的神经网络模型对于解决自然语言处理任务至关重要。在建模框架中,模型选择很重要,确定适合任务的模型需要考虑多个方面。在本文中,我们旨在分析适用于命名实体识别和关系提取任务的长短期记忆网络(LSTM)模型和门控循环单元(GRU)模型的优缺点。与LSTM模型相比,GRU模型具有更少的参数和更快的训练速度,但在处理更长的序列时,LSTM表现更好。因此,在选择合适的模型时,需要考虑数据和模型之间的关联性和协同作用。
3). 推理算法(I):
推理算法指的是神经网络模型执行学习过程的方法。强大的机器学习性能可能来自(M, I)、(D, I)或(D, M, I)之间不同组合的相互作用。不同的推理算法需要针对不同的任务进行选择不同的组合模型。在我们的研究中,我们通过实验表明,不同的推理算法在不同模型的情况下有不同的性能。
本研究采用字符级输入作为模型输入,这导致某些特征受到模糊边界的影响。为了解决这一问题,本文引入词嵌入以增强命名实体识别的准确性。通过利用词嵌入,模型能够更好地捕捉词语之间的语义关联,并根据上下文理解词语的含义。中文命名实体识别模型建立在LEBERT模型之上,该模型整合了超过1200万个中文词语的语义信息,这些词语在大规模、高质量数据集上进行了预训练 [
图1. 基于汉字、词、拼音组合的命名实体识别模型架构
在利用拼音嵌入时,本文采用基于ChineseBERT的方法生成拼音嵌入。首先,使用开源的pypinyin包为每个字符获取其拼音序列。然后,对每个字符的拼音进行填充,使其长度一致。使用卷积神经网络(CNN)模型处理该序列,并通过最大池化得到最终的序列嵌入。这种方式保证了输出向量的维度不受输入序列长度的影响。输入序列的长度固定为8。当序列长度小于8时,剩余的位置使用特殊字符“-”进行填充,如图2所示。
图2. 拼音嵌入的生成
针对给定的输入文本序列,经过预处理步骤后,序列被输入到BERT的嵌入层,该层为文本序列生成了标记嵌入、位置嵌入和段落嵌入。随后,句子被输入到BERT的初始Transformer层,产生词语部分特征 h 1 , h 2 , ⋯ , h n 。接着,通过预训练词嵌入查找表(例如腾讯AI实验室嵌入语料库)获取词语集嵌入向量 w i = { w i 1 , w i 2 , ⋯ , w i n } ,其中 w i 表示第i个字符的词语嵌入向量集。词语嵌入 w i 1 、 w i 2 等的维度可能与模型中字符向量 h i 的维度不同。为了确保字符向量 w i j 与字符向量 h i 之间的对齐,需要对词语向量进行非线性变换,如公式(1)所示:
x i j = W 2 ( tanh ( W 1 w i j + b 1 ) ) + b 2 (1)
其中, W 1 是一个 d c × d w 的矩阵, W 2 是一个 d c × d c 的矩阵, b 1 和 b 2 是标量偏差。 d c 表示BERT的隐藏大小, d w 表示词语嵌入的维度。上述参数与tanh函数一起实现了词语嵌入的转换。受LEBERT的启发,为了将词典特征和拼音特征与字符信息相结合,我们设计了一个新颖的信息适配器(IA),如图3所示。
图3. 信息适配器
信息适配器采用注意力机制将字符特征和词典特征集成到BERT中,并进一步将拼音信息纳入适配器。我们将拼音嵌入向量 p i 、字符嵌入向量 h i 和词语的词语嵌入向量 x i 输入到信息适配器层中。为了计算每个匹配词语的相关权重,我们借鉴了LEBERT的字符-词语注意力机制。具体来说,我们将第 i 个字符向量表示为 h i ,并将与第 i 个字符相对应的词语嵌入向量集表示为 x i ,其中 x i j 表示与第 i 个字符相对应的第 j 个词语的嵌入。我们将所有 x i 映射到 h i 上,即 x i = { x i 1 , x i 2 , ⋯ , x i m } ,维度为 m 乘以 d c 。每个词语的相关性计算如公式(2):
A i = softmax ( h i W a t t n x i j T ) (2)
其中 W a t t n 是双线性注意力(Bilinear Attention)的权重矩阵, A i = { α i 1 , α i 2 , ⋯ , α i n } 是每个词语的权重向量。这样,我们可以得到公式(3)所示的词语特征的加权和。
h ′ i = ∑ j = 1 m α i j x i j (3)
通过公式(4)的方法将加权的词语嵌入和拼音特征注入到字符向量中:
h ′ i = h i + h ′ i + p i (4)
将加权的词语嵌入和拼音特征注入到字符向量中,采用dropout层和层归一化进行整合。所获得的信息经过一系列11个Transformer块的处理,得到BERT的最终输出。该输出随后被输入到双向LSTM中,从而获取输入向量的序列特征值。最后,通过条件随机场(CRF)得到最终的预测结果输出。我们将改造的命名实体识别模型命名为LBC (LEBERT + BiLSTM + CRF)模型。
为了提升中文文本关系提取的准确性,本文基于BERT编码器获取更多语义特征信息,充分利用包含在BERT模型中的信息。本文采用基于BERT模型的中文预训练模型对文本关系进行预测。通过对数据集中的数据进行分析后发现,大多数句子的关系包含在两个实体之间。如果两个实体彼此靠近,且之间没有其他关系,则目标关系可能隐藏在第二个实体之后。例如,在新闻文章中提及两个人之间的关系时,这些人的姓名可能紧密相关。通过添加两个实体之间的距离信息(以单词或字符的数量表示)作为特征,可以更好地确定实体关系信息的位置。
此外,两个实体之间的关系通常与句子的长度有关。因此,句子长度信息可以帮助识别不同长度文本之间的差异。例如,在较短的文本中,关系可能更容易识别,因为干扰信息较少;而在较长的文本中,关系可能更难识别,因为干扰信息更多。因此,长度特征可以提供有用的线索,帮助模型更准确地执行关系提取。中文的词性属性通常包含有丰富的特征信息。本文使用THULAC [
最后,将多个特征整合在一起并输入模型。实验结果表明,该方法在多个中文关系提取数据集上的F1值有所提高,不同类别关系的识别率也得到了显著提升。此外,模型通过引入预训练的外部词向量以获得了更多特征信息。其中第 i 个词语的词向量为 V i w ,通过使用预训练的词向量查找表获得;其他特征向量为 V i w j ,表示第 j 个特征。最终的词语特征向量表示如公式(5)。
X i = [ V i w , V i w 1 , ⋯ , V i w m ] (5)
其中, m 表示除了词向量之外,还有 m 种其他特征。本文中, m = 3 。对于句子级文本序列,直接将词语标注信息输入双向LSTM进行编码,使用F (前向)和B (后向)表示两个方向。 h i (隐藏)和 c i (记忆)分别表示隐藏信息和全局信息;则在第 i 时刻的输出为:
F i = [ F h i , F c i , B h i , B c i ] (6)
将句子级特征信息和词语级特征信息提取并拼接起来,形成最终的提取特征向量。词语级特征信息主要有2个实体:实体1 (N1)和实体2 (N2)。本文中,从特征嵌入和双向GRU获得的向量被拼接起来,表示两个实体为 [ X n 1 , F n 1 , X n 2 , F n 2 ] 。句子级特征信息关注上下文信息,这是从双向GRU层的输出构建的,如图4所示。
图4. 句子级特征向量的构建
模型框架如图5所示。BiGRU输出的矩阵可划分为A、B和C三部分,由n1和n2构成。通过最大池化操作提取向量m1和m2,并将其连接形成输出信息。该输出随后输入注意力层进行加权求和。注意力机制从大量信息中过滤掉冗余信息,使模型可以更关注所需信息,从而增强其关注更重要特征的能力 [
图5. 关系提取模型框架图
本文基于训练于中文数据集上的BERT模型进行改造。BERT利用大量未标注数据进行预训练,使其能够更好地理解文本中的语境。这有助于识别关系提取任务中实体之间的具体关系,例如主谓关系或宾语关系。在预训练过程中,该模型学习了丰富的文本表示,并能够将实体和关系表示为高质量的向量表示。这些向量表示可用于各种关系提取任务,如实体分类和关系提取。由于预训练模型是在大规模数据上训练的,因此它学习了丰富的文本表示和语言知识。这使得该模型能够在没有大量标注数据的情况下学习新类别的关系。本文将改进的关系提取模型命名为BBA (BERT + BiGRU + Attention)模型。
图5中的输入层包含一个中文句子,其意思为:“蜀汉后主刘禅是刘备之子”。在输出层中,三元组的含义如下:对象:刘备,关系:父子关系,对象:刘禅。
为了验证本文所提出的命名实体识别模型LBC与关系提取模型BBA的性能表现,分别对两个模型进行实验数据分析。在本研究中,实验环境基于PyTorch框架构建,具体的实验环境配置如表1所示。
配置名 | 版本 |
---|---|
CPU | Intel Core i9-13900K 24C32T |
GPU | NVIDIA GeForce RTX 4090 24G |
RAM | 128 GB |
SSD | 1 TB |
Python | 3.9 |
Pytorch | 1.12.1 |
CUDA | 11.6 |
操作系统 | Ubuntu 20.04.6 LTS |
表1. 实验环境配置
为了验证LBC模型在命名实体识别任务中的有效性,本文使用了三个常用的中文命名实体识别数据集。每个数据集都按比例被划分为训练集、验证集和测试集。模型的性能使用F1分数作为评估指标进行评估,并与其他主流的中文命名实体识别模型进行比较。
本文使用三个常用的中文命名实体识别数据集:微博 [
本文中的命名实体识别模型参数经多次实验后进行了优化调整,最终模型参数配置为表2所示。
参数项 | 参数值 |
---|---|
Max Length | 150 |
Crf_lr | 1 × 10−4 |
Adapter_lr | 1 × 10−4 |
Epoch | 20 |
Batch Size | 12 |
Loss_Type | Ce |
Learning Rate | 1 × 10−4 |
dropout | 0.5 |
表2. 命名实体识别模型参数
通过表3显示的实验结果可知,本文改进的实体识别模型LEBERT-BiLSTM在简历、微博和MSRA三个数据集的综合性能上显著优于其他5个模型。另外,从对比结果中可看出数据集越小,模型效果提升越明显。
参数项 | F1 (%) | ||
---|---|---|---|
简历 | 微博 | MSRA | |
BERT | 95.32 | 67.22 | 94.74 |
ERNIE | 94.81 | 67.94 | 95.03 |
Chinese BERT | / | 70.81 | / |
MFE-NER | 95.75 | 67.71 | 89.94 |
LEBERT | 96.03 | 70.74 | 95.71 |
LEBERT-BiLSTM | 96.64 | 73.78 | 95.87 |
表3. 多个中文命名实体识别数据集的F1分数对比
如表3所示,三个数据集的F1分数均有所提升,表明融合词向量和拼音向量以提高命名实体识别的准确性是有效的。表3前五行为基于BERT模型的变体模型,第一行为BERT基线模型。第二行为百度于2019年4月基于BERT模型优化的ERNIE模型 [
图6. 微博数据集下不同标签的命名实体F1值
如图6所示,本文改进的LEBERT-BiLSTM模型相对于LEBERT模型在几个实体分类中的识别效果显著提高,特别是对于特定地名和特定组织名。
为进一步证明本文模型LBC的优越性能,本文基于LEBERT修改模型进行了多个消融实验,实验结果如表4所示。在LBC模型中,BiLSTM对预训练模型编码的输入序列的向量进行序列建模,有效地提取连续的序列信息。这种连续的序列信息对于命名实体识别非常有效,并在相应数据集上取得了良好的结果。
模型 | F1 (%) |
---|---|
LEBERT-CRF | 70.73 |
LEBERT-LSTM-CRF | 71.87 |
LEBERT-BiGRU-CRF | 71.13 |
LEBERT-BiLSTM-Softmax | 72.62 |
LBC (LEBERT-BiLSTM-CRF) | 73.75 |
表4. 微博数据集下不同模型的实验结果
本研究采用了一种基于BERT和双向门控循环单元(Bi-GRU)的模型进行中文关系提取。首先,使用BERT模型对输入文本进行编码,生成一个向量序列。然后,将该序列输入到Bi-GRU模型中,得到Bi-GRU模型的输出。接着,通过注意力层对Bi-GRU模型的输出进行加权,得到一个加权和作为最终输出向量。最后,将输出向量输入到线性层,并通过映射生成与每个关系相关的概率。
为了验证模型的有效性,本本文分别在三个中文关系提取数据集上进行了实验。数据集按照原始确定的比例划分为训练集、测试集和验证集。实验采用准确率、召回率和F1值作为评价指标,对模型的中文关系提取性能进行了评估,并与其他中文关系提取模型进行了比较。
本文使用了两个中文关系提取数据集:DuIE中文关系提取数据集 [
对于DuIE数据集,我们首先从数据集中提取出实体A、关系、实体B以及包含实体的文本。然后,我们对这些数据进行格式化和标准化,转换为JSON格式。我们手动删除了2164个句子,这些句子在清理数据时由于文本中存在多个双引号而导致JSON文件格式错误。最终,我们得到了362,516个DuIE训练数据集、50,000个测试集数据和45,429个验证集数据。
数据集 | DuIE | Chinese-Literature-RE-Dataset |
---|---|---|
训练集数量 | 362,516 | 19,447 |
测试集数量 | 50,000 | 2220 |
验证集数量 | 45,429 | 2220 |
关系类型数量 | 49 | 10 |
表5. DuIE数据集和Chinese-Literature-RE-Dataset数据集的数量
对于Chinese-Literature-RE-Dataset数据集,由于该数据集的文本是一篇文学作品,我们首先通过句号将文章文本分割成句子。然后,我们从相应的文本文件中提取实体和关系注释,并将其标准化为新的JSON文件。总共我们获得了19,447个训练数据集、2220个测试集和2220个验证集数据。
同一模型在不同的超参数设置下性能表现有所不同。因此,进行多次实验是必要的,使用多种不同的参数设置,并根据实验结果选择性能更好的模型参数作为最终的参数。本文中的最优参数设置如表6所示。
参数项 | 参数值 |
---|---|
Torch.Size | [x, 1, 128] |
Self Attention Hidden layer dimension | 768 |
Dropout | 0.5 |
Learning Rate | 0.001 |
Epoch | 10 |
Batch Size | 8 |
表6. 关系提取模型的实验参数
为了验证本文提出的BBA关系提取模型的有效性,本文分别在DuIE数据集与Chinese-Literature-RE-Dataset数据集上进行了多个模型的对比实验。各模型的实验比较结果如表7和表8所示。
从表7和表8中的实验结果可以看出,本文提出的BBA模型在DuIE和Chinese-Literature-RE-Dataset关系提取数据集上均提高了准确率、召回率和F1值。另外,结果还显示对于关系数量较少的数据集,提升效果更为显著。
模型 | 评估数据 | ||
---|---|---|---|
准确率(%) | 召回率(%) | F1分数(%) | |
BiLSTM-Attention | 86.16 | 85.27 | 85.61 |
PCNN-Attention | 87.38 | 87.13 | 87.23 |
BERT | 94.21 | 92.72 | 93.42 |
BBA | 94.62 | 94.65 | 94.64 |
表7. DuIE数据集下的实验结果
模型 | 评估数据 | ||
---|---|---|---|
准确率(%) | 召回率(%) | F1分数(%) | |
BiLSTM-Attention | 88.91 | 88.22 | 88.56 |
PCNN-Attention | 95.72 | 67.75 | 89.95 |
BERT | 91.73 | 90.64 | 91.21 |
BBA | 93.36 | 91.79 | 92.53 |
表8. Chinese-Literature-RE-Dataset数据集下的实验结果
实验结果表明,BBA模型在中文关系提取任务中表现良好。然而,在中文关系提取任务中的良好性能并不意味着该模型在其他数据集上也能表现同样出色。因此,下一步的研究工作需要对该模型进行全面的评估,以确定其在其他数据集上的实际效果。此外,需要持续优化模型的性能,以满足中文关系提取任务不断变化的需求。
本文所提出的实体识别模型LBC和关系提取模型BBA结构简单,实验结果表明,本文改进的模型在相关数据集上取得了较好的效果。本节将重点探讨影响模型性能的相关因素。
通过融合字向量、拼音向量和词向量,显著提升了命名实体识别模型的性能。表9展示了相同配置环境下不同向量融合的实验结果。
向量组合 | F1 (%) |
---|---|
拼音 + 字 | 69.51 |
拼音 + 字 + 词向量 | 70.83 |
拼音 + 词向量 | 68.31 |
拼音 + 词向量(1200万词向量) | 72.14 |
拼音 + 词向量(200万词向量) | 73.75 |
表9. 不同向量融合后的实验结果
本研究利用中文字形特征,将中文文本分解为字、词和拼音。实验表明,整合更多的特征不一定能带来更好的结果。Jordan Hoffmann等人 [
在自然语言处理任务中,向量维度通常包含语料库中字符的特征数量。高维向量通常能提取到更丰富的信息,对自然语言处理任务更有益。如表10所示,使用200维向量有助于提升命名实体识别的性能。
向量组合 | F1 (%) |
---|---|
拼音 + 词向量(1200万词向量) (100维) | 67.43 |
拼音 + 词向量(200万词向量) (100维) | 68.11 |
拼音 + 词向量(1200万词向量) (200维) | 72.12 |
拼音 + 词向量(200万词向量) (200维) | 73.74 |
表10. 微博数据集上不同维度词向量嵌入的实验结果
关于关系提取任务,本文测试了词嵌入向量的维度,结果如表11所示。结果表明,对于自然语言处理任务,词向量的维度越高,处理效果越好。选择与模型和推理算法数据类型相匹配的词嵌入向量,有助于提升模型性能。
模型 | F1 (%) |
---|---|
BBA (200维) | 87.53 |
BBA (100维) | 92.52 |
表11. Chinese-Literature-RE-Dataset数据集中不同维度词嵌入的实验结果
综上所述,各种尝试已证明本文研究有助于提升自然语言处理任务的性能。本文着重探讨了词向量的维度,而没有深入研究替代不同维度其他层的可能性是否能带来更好的效果。在未来的工作中,我们将积极探索更多替代方案,以进一步提高模型的性能。
本文提出了一种新的中文文本中实体关系智能提取方法,通过数据与模型的协同优化来解决中文命名实体识别(NER)和关系提取(RE)中存在的挑战。研究中引入了一种新颖的NER模型,该模型结合了中文拼音、字符和词语,以增强对实体的识别能力。同时,关系提取模型通过融合实体距离、句子长度和词性信息,提高了性能。此外,文章还探讨了数据、模型和推理算法之间的相互作用,并研究了深度学习中的协同效应和对称性,这些研究有助于提高学习效率。实验结果表明,所提出的LBC模型和BBA模型在多个中文NER和RE数据集上均取得了良好的性能,优于现有的一些主流模型。消融实验的结果进一步证明了模型中各个组件的有效性。此外,论文还讨论了影响模型性能的因素,如词向量的维度和数据集的规模。
本研究在中文实体关系提取领域取得了显著进展,但仍面临诸多挑战,未来的研究需着重提升模型的泛化能力,使其能更好地适应跨领域和跨语言的应用场景;同时,优化计算效率,减少计算资源消耗,加快训练与推理速度;改进特征融合策略,更有效地整合多维度语言信息;探索小样本学习模型,解决数据标注不足的问题;采用多任务学习框架,实现任务间的数据共享与性能提升;增强模型的可解释性,开发可视化工具以揭示决策过程;并提高模型对噪声和异常数据的鲁棒性,以适应真实世界的数据不完美性。通过这些努力,预期将推动中文实体关系提取技术向更高水平发展。
本文由“南网高层次人才特殊支持计划”项目资助。
刘翠媚,罗序良,郭凤婵,吴毅良. 探索中文文本中实体关系智能提取:一种基于数据与模型协同优化的新方法Exploring Intelligent Entity Relationship Extraction in Chinese Text: A New Method Based on Data and Model Collaborative Optimization[J]. 人工智能与机器人研究, 2024, 13(02): 425-440. https://doi.org/10.12677/airr.2024.132044
https://doi.org/10.13245/j.hust.221104
https://doi.org/10.13229/j.cnki.jdxbgxb20200984
https://doi.org/10.27169/d.cnki.gwqgu.2022.000329
https://doi.org/10.1007/s40747-022-00926-z
https://doi.org/10.18653/v1/D15-1203
https://doi.org/10.18653/v1/2021.acl-long.454
https://doi.org/10.27307/d.cnki.gsjtu.2019.004104
https://doi.org/10.18653/v1/N18-2028
https://github.com/thunlp/thulac
https://doi.org/10.1007/s11042-023-14675-9
https://doi.org/10.18653/v1/D15-1064
https://doi.org/10.18653/v1/P18-1144
https://doi.org/10.18653/v1/P19-1139
https://doi.org/10.18653/v1/2021.acl-long.161
https://doi.org/10.1007/978-3-030-32236-6_72