1. 引言
伴随着新的科技革命,全球范围内正在加紧以技术预测来抓住先发的优势和占领科技创新制高点。科学有效地开展技术预测工作,可以帮助各国、各公司、各高校准确地把握技术研究热点和技术发展线索,追踪技术发展态势、预测未来的技术发展趋势,尽早找到技术发展的机遇。专利文献是技术创新能力的一个重要体现,包含着巨大的经济价值和技术价值,非常适合进行技术挖掘,但在专利文献激增的情况下,有必要寻找一种快速、精确的技术挖掘分析方法,针对大规模专利文献有效减少数据集、开展技术主题识别及演化分析等将成为一种高效可行的手段。所以,对专利进行技术主题分析能够追踪和预测技术的发展状况,从而提高技术追踪和预测的结果及效率。
在过去十年里,技术主题识别研究一直备受关注,是科学文献文本分析中的一项关键技术。无论使用何种方式进行技术主题识别,技术术语抽取始终是重要子任务,直接影响技术主题识别效果。黄晓斌等指出确认用于指代主题的核心词是较大的难点[1]。随着自然语言处理领域的迅猛发展,为了更加充分地利用文本的语义信息,技术术语抽取技术开始朝着机器学习和深度学习方向发展[2]。技术术语识别任务的目的是识别包含特定领域知识的文本中蕴含技术概念的字符串。蕴含技术概念的字符串也可以被视为一种实体,可以使用命名实体识别方法完成抽取。使用命名实体识别方法抽取命名实体只需进行实体挑选操作,而无需切词分词、建立停用词词典、去停用词、词性标注等机械重复的人工文本预处理操作。
为了克服主题建模中难以准确快速地选定词簇表示主题的难题,本文将利用命名实体识别技术简化技术术语抽取工作,快速得到具备强概括能力的技术术语集合。本文还将在此基础上使用LDA模型,结合相似度计算等方法来构建不同时序间的主题关联,并以桑基图来直观呈现纺织面料专利主题间的互动演化关系。
2. 相关研究现状述评
2.1. 主题内容演化研究现状
主题内容演化指的是主题内容随时间的发展情况。为了完成主题内容演化分析,需要确定提取主题的方法。主题提取主要包括两点操作,先从文本中提取技术术语,再将技术术语组合成主题。近年来主题提取实践路径总结如下:
(1) 基于关键词聚类的提取方法。文献[3]利用RAKE抽取关键词作为技术术语并通过word2vec转换成词向量,然后用k-means算法提取主题。
(2) 基于社会网络的共词分析法。文献[4]用c-value和Tf-Idf抽取关键词作为技术术语并将其表示为共现网络,然后用社区发现算法提取主题。
(3) 基于主题模型的主题提取方法。相比于关键词共现网络和关键词聚类,LDA模型及其变体关注全文语义信息,通过文档建模对文档进行语义分解,从潜在技术术语集中挑选技术术语,找到隐含主题信息,从而有效表达文档集内部特征。LDA模型作为无监督学习模型,降低了人工参与所耗费的成本。最优主题数的选取方法不断升级,本文将使用困惑度–主题方差确定最优主题数。
无论使用何种主题提取方法,第一步都是获得技术术语集合。现有研究获取技术术语的方式基本为分词、建立停用词词典或专业领域词典、去停用词、词性标注等机械重复的人工文本预处理操作。相比于上述人工文本预处理操作,命名实体识别作为一项自然语言处理技术,能够更加自动化地完成技术术语提取,但至今仍尚少被应用于主题研究中提取技术术语集合。
2.2. 命名实体识别研究现状
命名实体识别(NER)是自然语言处理的一部分。NER的主要目标是处理结构化和非结构化数据,并将这些命名实体分类为预定义的类别。一些常见的类别包括姓名、地点、公司、时间、货币价值、事件等。现有命名实体识别任务的解决方案包括基于规则和基于机器学习两种。
基于规则的方式相对于基于机器学习的方式需要使用较多的专家知识来制定规则,规则的设计一般基于句法模式,所以往往只适用于非常有限的文本材料。专利文献的内容特点之一就是创新性高,故基于规则的方法往往不能适应提取新科学出版物所特有的新概念词汇的要求。
现有文献用于完成命名实体识别任务的机器学习模型主要包括三部分:嵌入层、编码层、解码层。嵌入层常用的方法有Word2vec、Glove和CNN,目的是将文本转换到向量空间,将非结构化的数据结构化。嵌入层包括词水平的嵌入和字符水平的嵌入两种嵌入方式。编码层常用的方法有LSTM、BiLSTM和BiGRU。解码层常用的方法有CRF和Softmax。如文献[5]使用Word2vec得到字向量,应用LSTM抽取文本语义特征完成编码,通过CRF完成解码。自BERT面世后,因为其具备强大的特征抽取能力,故也常被微调后应用于此任务。无论是作为嵌入层还是编码层,BERT的加入都能有效提升任务表现。以BERT为代表的一系列大语言模型以极多参数和多轮计算将语言文字转化为多维向量,将抽象的文字表达转换为具体的数值计算,对命名实体识别任务产生显著的影响。
在专利技术术语识别垂直领域内,命名实体识别尝试不多而且应用在专利技术术语识别任务中的技术路线与命名实体识别技术的一般技术路线基本一致,并无太多针对专利文本特点的优化方案。文献[6] [7]在使用特征迁移思想,使用BERT得到字符水平的嵌入后,将字特征迁移至BiLSTM-CRF模型。文献[8]使用Word2vec得到字和词水平的嵌入向量后放入BiLSTM完成编码,编码向量经过字符级的注意力机制和分词词性注意力机制后由CRF解码得到最优标签序列。文献[9]在补充特征的同时验证特征迁移思想的有效性,证明加入BERT嵌入能提升模型性能。
然而,以BERT为代表的大规模预训练模型主要依赖纯文本学习,缺乏大规模知识指导学习,模型能力依然存在局限。ERNIE3.0作为首个包含大规模知识图谱的百亿级预训练模型,在海量无监督文本与大规模知识图谱的平行预训练方法下联合掩码训练结构化和非结构化文本信息,其记忆和推理知识的能力再次得到大幅提升。本文将利用ERNIE3.0知识增强预训练模型完成命名实体识别与抽取,获得技术术语集合。
3. 研究设计
研究思路如图1所示。首先,本文基于CNKI专利数据库收集专利文本的公开日期和摘要。然后利用ERNIE3.0知识增强预训练模型完成命名实体识别与抽取,得到专业术语集合。随后利用LDA主题模型对t个时间窗口的文献进行划分,结合困惑度–主题方差计算确认最优主题数。最后使用余弦相似度计算主题相似度并进行演化路径分析,以可视化的方式对最终结果进行对比展示。
Figure 1. Research ideas for hot topic recognition and evolution analysis
图1. 热点主题识别及演化分析研究思路图
3.1. LDA主题模型
LDA假设一篇文档涵盖了多个主题,且使用词袋模型,即忽略文字在文本中出现的先后顺序。假设语料库中有M篇文档。各文档内各主题出现概率被称为文档–主题分布,被用于确认第m篇文档中第n个位置上的字词属于某一主题的概率
。
是第m篇文档属于某一种文档–主题分布的概率,
。同理,各主题内各字词出现概率被称为主题–词语分布,被用于确认第m篇文档中第n个位置上的字词
。
是第m篇文档中第n个位置上的主题属于某一种主题–词语分布的概率,
。
本文采用Gibbs采样算法求解得到文档–主题分布和主题–词语分布。作为无监督机器学习,需要事先确定三个超参数:α、β、最优主题数,α、β选取默认值[10]。
3.2. 主题数计算方法
LDA主题模型被广泛引用于主题建模,但主题数的确认方法始终没有出现绝对合理的方案。困惑度常被作为确定主题数的指标,但使用困惑度确定的主题数较大,提取的主题干扰较多,相似性较大[11]。为了优化LDA主题提取效果,文献[12]在使用LDA主题模型时补充使用专利共现网络,以解决主题区分度不高的问题。文献[13]则验证了主题方差能够有效衡量潜在主题空间的整体差异性和稳定性。故本文将使用困惑度–主题方差(Perplexity-Var)指标确定最优主题数,准确有效地避免主题冗余。
困惑度计算公式[14]如下:
D表示测试集,共M篇文档,
表示文档d中的单词数,
表示文档d中的词,
即文档中词
产生的概率。
主题方差计算公式如下:
表示LDA主题结果中的第i个主题,K表示主题总数目,
表示JS散度。
表示主题–词概率分布的均值。当主题数为1时,JS散度为0,主题方差也为0。
困惑度–主题方差计算公式如下:
当Perplexity-Var指标最小时,对应的LDA主题模型最优。
4. 案例分析
4.1. 数据获取及预处理
知网专利检索式为TI = “面料”,并以公开日期为时间戳,查询公开日期介于2018年1月1日至2022年12月31日的相关专利,得到共62,319条专利信息。实际检索日期为2023年6月3日。经过专家筛选,先去除全部外观设计型专利,再在实用新型和发明专利中筛去用于加工纺织面料的纺织机械相关的专利数据,最终保留27,225份与纺织面料材料相关的专利信息。为了更好地进行主题演化路径的分析,本文将获取到的文献记录按照时间顺序进行窗口划分,一年为一个时间窗口。
本文在每个时间窗口下利用ERNIE3.0知识增强预训练模型完成命名实体识别与抽取,考虑到纺织面料专利的内容特征,结合专家意见,确认最终拟获得的实体类型标签为“物体类”,获得技术术语集合。
4.2. 主题提取
将依照专利的时间戳信息将文档集合划分到不同时间窗口,分别对每个时间窗口下的文本计算困惑度–主题方差得到最优主题数。困惑度–主题方差随主题数量变化的散点图如图2所示。当Perplexity-Var指标最小时,对应的LDA主题模型最优。设定LDA模型每轮迭代次数为1500次,共迭代10轮。虽然高迭代次数对算力要求较高,但模型收敛效果也更好。最终将Perplexity-Var的下降幅度低于100设定为最优主题数标志点,确定纺织面料专利在2018、2019、2020、2021、2020年的最优主题数分别为9、8、7、6、7。
Figure 2. Perplexity-Var scatter chart with number of topics
图2. Perplexity-Var随主题数变化散点图
为了全面而准确地解读主题语义,本文选择在参考中图分类法的同时辅助专家经验,得到各主题标签如表1所示。两两各时间窗口下计算主题相似度得到主题内容演化桑基图如图3所示。
Table 1. Topic label
表1. 主题标签
时间窗口 |
主题数 |
主题标签 |
2018 |
9 |
防水面料、抗菌面料、棉–聚酯纤维混纺的保暖面料、化纤针织面料、羊毛–聚酰胺纤维–聚酯纤维–阻燃剂混纺的阻燃面料、聚氨酯纤维为主的复合面料、涂层面料、棉–纤维混纺面料、网眼面料 |
2019 |
8 |
棉–聚酰胺纤维混纺的防水面料、混纺面料、石墨烯面料、棉–橡胶复合面料、保暖面料、网眼面料、聚酯纤维为主的复合面料、涂层面料 |
2020 |
7 |
无纺布面料、纤维复合面料、防水面料、棉为主要材质的保温面料、涂层面料、棉–纤维混纺面料、聚酯纤维–聚酰胺纤维–聚氨酯纤维 |
2021 |
6 |
保暖面料、防水面料、涂层面料、抗菌面料、棉为主的复合面料、聚酯纤维为主的复合面料 |
2022 |
7 |
棉为主的复合面料、防水面料、含石墨烯和保温层的复合面料、聚酰胺为主的复合面料、聚酯纤维–棉混纺面料、保暖面料、透气面料 |
Figure 3. Theme content evolution Sankey
图3. 主题内容演化桑基图
通过观察桑基图,可以看到如2018年主题“棉–聚酯纤维混纺的保暖面料”分化得到2019年主题“棉–聚酰胺纤维混纺的防水面料”“棉–橡胶复合面料”。然后与2019年主题“保温面料”一起被2020年主题“棉为主要材质的保温面料”继承。然后分化为2021年主题“保暖面料”和“棉为主的复合面料”,其中“棉为主的复合面料”延续出现到2022年。
2018年主题“聚氨酯纤维为主的复合面料”和主题“棉–纤维混纺面料”共同被2019年主题“混纺面料”继承,然后与2019年主题“涂层面料”一起被2020年“棉–纤维混纺面料”继承。
2018年主题“聚氨酯纤维为主的复合面料”分化为2019年主题“网眼面料”后在2020年演化成“无纺布面料”。
2018年主题“聚氨酯纤维为主的复合面料”和主题“涂层面料”一起被2019年主题“涂层面料”继承并延续出现到2021年,在2022年分化为“保暖面料”。
2018年主题“化纤针织面料”和“网眼面料”在2019年被主题“保暖面料”继承后,在2020年分化为主题“无纺布面料”。
5. 纺织面料专利创新模式总结
棉、聚酯纤维、聚酰胺纤维、聚氨酯纤维、橡胶是近五年的重要面料原料,涂层和网眼是近五年的重要面料制备工艺,保暖和防水是近五年热度较高的面料特性。以上热点要素的交叉组合可以作为未来面料专利开发时的重点指导方向,但新专利的创新程度可能会被影响,需要注意避免重复造轮。
此外,无纺布工艺、抗菌功能以及石墨烯纤维原料作为间断出现但尚未形成演化趋势的技术术语,可能是未来面料专利开发时的新兴指导方向,在合理评估可实现性后可以作为重点开发方向。
NOTES
*第一作者。
#通讯作者。