1. 引言
河北省秦皇岛市是我国北方首批沿海开放城市之一,以其深厚的历史文化底蕴和独特的滨海旅游资源而闻名。近年来,随着社会经济的快速进步,当地旅游业呈现出蓬勃发展的态势。在科技水平不断提升的背景下,旅游门户网站中的游客评论逐渐成为吸引潜在游客的重要因素[1]。因此,深入分析旅游门户网站的数据对促进旅游经济的健康发展具有重要意义。随着互联网和大数据技术的飞速发展,游客在出行前往往会通过网络平台了解目的地的旅游景点信息,并在旅行结束后在相关平台上分享自己的旅游体验。这些网络平台上的旅游评论为分析游客的旅游体验提供了宝贵的数据来源。因此,本文通过获取网络平台上的旅游评论数据并对其进行情感分析,基于分析结果揭示游客对秦皇岛市旅游景点的态度和看法,从而为提升当地旅游服务业水平提供理论支持,助力秦皇岛旅游经济的进一步发展。
2. 研究现状分析
情感分析是一种自然语言处理技术,旨在识别、提取和分类文本中所表达的情感倾向。它广泛应用于社交媒体分析、市场调研、客户服务、舆情监控等多个领域。情感分析通过算法和模型,分析文本内容,判断作者所表达的情感是积极、消极还是中立,其目的是理解文本背后的情感倾向,从而为用户提供有价值的信息和见解。
传统的情感分析方法主要包括基于情感词典的方法和基于传统机器学习的方法,情感词典的构建需要耗费大量人力,且难以覆盖所有情感词汇,因此基于情感词典的方法可能无法准确判断某些文本的情感倾向,特别是当文本中包含未出现在情感词典中的情感词汇时。基于传统机器学习的方法需要高质量的标注数据集来训练模型。王新宇[2]搜集了游客在网络平台上发布的评价文本信息,运用机器学习技术对这些文本进行了情感倾向分析以及词汇频率统计,并进一步通过生成词频统计的词云可视化图表,为旅游行业的企业提供了提升服务品质的宝贵数据。朱婧[3]采用预先训练好的SVM情感分类模型,针对一系列评论进行自动化的情感倾向预测。随后,对这些预测结果与实际情况进行详细的对比分析来评估分类器的预测准确性及其在不同情境下的表现。然而,在实际应用中,标注数据集的质量往往难以保证,这会影响模型的训练效果和泛化能力。而基于深度学习的情感分析在数据处理效率、特征提取、复杂依赖关系捕捉、可扩展性、多任务与迁移学习能力、非结构化数据处理、实时性和准确性以及泛化能力等方面均表现出显著优势。这些优点使得深度学习成为当前情感分析领域的主流技术之一。周萌[4]通过word2vec和LSTM建立二分类器模型,对爬取到的冰箱使用评论进行情感分析对比,得到LSTM算法有更好的分类效果,有助于消费者从评论中获取有用信息。龚乃林[5]利用BiLSTM神经网络模型对文本的情感进行量化,得到情感得分及情感强度评价指标,再结合平台指标数据,构建旅游目的地评价指标体系。樊聪[6]设置了4组对比实验,实验结果表明BiLSTM模型比LSTM模型的效果好。彭丹蕾[7]在商品评论的情感分析领域,对比了机器学习中的SVM方法与深度学习中的LSTM方法,发现LSTM在提取词向量中隐含的情感信息方面表现更佳,因此取得了更好的效果。Subarno Pal等[8]则在电影评论数据集上运用了LSTM技术,并使用LSTM彼此堆叠和双向LSTM进行对比研究。研究结果显示,在该数据集中,双向LSTM具有更高的准确性。Dajie Ji等[9]使用长短期记忆网络分析旅行者的正面和负面评论,利用不同评论领域之间的相互依赖关系,分析用户在不同评论领域下的存在情况。Raj Patel等[10]使用了预处理数据的双向LSTM,作为数据预处理步骤的一部分,选择数据进行预测,然后将其输入到双向LSTM模型中,进行了情感分析。刘楚纯[11]融合了预训练模型Ro BERTa和双向LSTM模型情感分析模型,双向LSTM模型通过叠加两层LSTM结构,克服了仅依赖历史时序信息预测未来输出的局限性,能够更全面地整合上下文信息,有效地利用输入数据的正向与反向特征,从而提升了模型的预测性能。李正泓[12]介绍了针对文本情感分类的方法,分析了长短期记忆网络模型LSTM和BiLSTM模型等各自算法的原理。
虽然基于情感词典和单一机器学习分类器的情感分析模型构建简便,能在一定程度上揭示文本数据的情感倾向,但其效果相较于融合了多种模型的分类器仍有待提升。因此,本文提出了一种BiLSTM-Attention模型,该模型结合了注意力机制与双向长短期记忆网络(BiLSTM)的优势。通过注意力机制,模型能够为不同词汇分配差异化的权重,从而聚焦于文本中的关键情感词汇。同时,BiLSTM的强大能力使其能够捕捉并记忆长距离的语义信息,深入挖掘文本内涵,并有效提取每个词语的上下文特征,最终显著增强了情感分析的准确性和效果。
3. 数据获取和预处理
3.1. 数据获取
本文使用八爪鱼采集器携程和同程的在线评论文本数据。爬取截止到2024年11月8日部分热门景点评论数据,共计14,906条。获取的字段包括:景点名、评论内容和星级等。采集完成后,以excel形式保存数据。
3.2. 数据清洗
由于数据量巨大,评论质量良莠不齐,难免会出现“噪声数据”对后续情感分析造成干扰。因此,在获取到原始数据后,先对数据进行清洗。具体包括去除空白数据和重复评论数据。数据清洗共删除249条数据,剩余14,657条有效在线评论数据。部分评论可见下表1:
Table 1. Part of the original data display
表1. 部分原始数据展示
景点名 |
评论内容 |
乐岛海洋王国 |
夏天到乐岛是一件美事,邀几个亲朋,携子带女,坐坐云霄飞车,海盗船……滑水、冲浪、快艇……的刺激,在摩天轮、旋转木马上舒缓情绪,愉悦的观赏海豚与人类的亲密,北极熊的娇憨,鲸鱼的威武……累时到海边,沙滩静坐,或躺着碧蓝的海水里……真是惬意啊! |
山海关 |
很特别的人文景点,风景优美,有特色,气候舒爽,即使在阳光下也没有特别热的感觉,明长城隧道里面更是凉快。总兵府的建筑很美很精致,装备和摆设也是值得去看看的。在这儿看到了当地特别的桲椤叶遮阳帽和桲椤叶包饼。 |
山海关 |
“山海关”又称:榆关、渝关、临闾关,山海关位于明长城东瑞,是明长城唯一与大海相交汇的地方。山海关城垣东城墙为长城主线,关城设东(镇东门,即“天下第一关”)、西(迎恩门)、南(望洋门)、北(威远门)四座城门,自古为兵家必争之地。“山海关”名胜古迹荟萃、风光绮丽,境内历史文化遗存众多,是一座举世闻名的历史文化名城。 |
秦皇岛野生动物园 |
来秦皇岛旅游,所以搜了一下附近旅游景点,就来了动物园,还赶上下雨,动物园很大,但是动物不多,开车进去的,最好上午过去,因为下午过了五点动物们就被赶回窝里了,可以互动的动物太少了,只能说一般。 |
秦皇岛野生动物园 |
很方便,一进门就有电瓶车,做到象苑,还有小动物可以互动照相,小火车到景点就停车,有足够的时间观赏动物。中间还有儿童乐园,适合老人和孩子一起出行。 |
鸽子窝公园 |
没有看日出红霞没有看夕阳余晖,带着孩子来打卡,话说不来鸽子窝就等于没去北戴河,所以来了,第一感受,人真是多,赶海的、登亭的、喂鸽子的……第二感觉,喜欢树荫鸟鸣的木栈道,远观可以看到浅滩的几处海鸟。 |
鸽子窝公园 |
以前北戴河在我印象中就是脏乱差,现在整个城市提升了很多,环境很好,水很干净,业没有垃圾,估计游客也舍不得破坏这么美丽的地方,鸽子窝观日出真的没得说,幸运的看到了如此美丽的日出!公园很大,值得一去! |
3.3. 分词及去停用词
清洗后的在线评论数据是完整的句子结构,要对其进行中文分词[13]处理。本文选取的是jieba分词精确模式对文本数据进行分词。分词后的数据会存在例如“的”“了”等词语和英文字符、特殊符号等信息因此还需要对分词后的结果进行去停用词处理。经过分词和去停用词处理后的数据可见下表2。
Table 2. Partial data segmentation and stop words removal results
表2. 部分数据分词及去停用词结果
评论内容 |
分词及去停用词结果 |
碧螺塔海上公园沙滩很细腻很舒适购票方便点赞哦 |
公园,沙滩,细腻,舒适,购票,方便,点赞 |
适合打卡照相出片 |
适合,打卡,照相,出片 |
非常好的体验天气还挺凉快的 |
非常,体验,天气,凉快 |
直接刷票进去很方便可以吃吃玩玩晚上的蹦迪也特有意思 |
直接,刷票,进去,方便,可以,玩玩, 晚上,蹦迪,特有,意思 |
3.4. 数据标注
爬取的原始数据包含评论星级字段,评论星级在一定程度上表示了游客游玩体验情感倾向。将清洗后的14,657条数据中评分为1星和2星的评论信息标记为“负面评价”,标签设置为“0”;4星和5星的评论信息标记为“正面评价”,标签设置为“1”;星级为3星的271条评论数据情感倾向比较模糊,因此采用人工标注的方法。最终,得到正面评价12,998条,负面评价1669条。
4. 模型结构
4.1. BiLSTM模型
BiLSTM模型是LSTM模型的改进模型,通过双向结构有效解决了RNN在处理长序列时面临的依赖难题,同时规避了梯度异常问题。这种模型在文本生成、情感识别、跨语言翻译以及多媒体标注等应用场景中展现出显著优势。LSTM模型在文本处理中仅能提取语句的正向信息,无法获取反向信息,从而导致关键信息的缺失。BiLSTM通过双向机制,同步捕捉前后向信息,实现语义信息的全方位获取,从而提升了信息的完整性与丰富度。BiLSTM网络模型结构如图1所示:
Figure 1. Network model structure diagram of the BiLSTM
图1. BiLSTM网络模型结构图
4.2. 注意力机制
针对旅游评论的情感分析,本文引入注意力机制来强化关键词语的作用。该机制通过评估词语在情感表达中的贡献度,动态调整其权重值,对情感表达贡献大的词语赋予较高权重,反之则降低其权重。这种方式有效突出了文本中的核心情感信息,减少了无关因素的干扰,显著提高了情感分析的准确性。
4.3. BiLSTM-Attention模型
针对传统深度学习在旅游评论情感分析中未能有效识别词汇权重的问题,本文整合注意力机制与BiLSTM模型并进行优化,结合了两者的优势,能够更全面地捕捉文本语义和关键信息。
5. 实验结果及分析
5.1. 实验环境
本实验所选择的是64位的Windows10中文版操作系统,Intel (R) Core (TM) i5-7300HQ CPU,8G内存等,详细情况如下表3所示。
Table 3. Laboratory environment
表3. 实验环境
实验环境 |
具体配置 |
操作系统 |
Windows10 |
CPU |
Intel (R) Core (TM) i5-7300HQ |
GPU |
Intel (R)HD Graphics 630 |
内存 |
8G |
开发工具 |
Pycharm |
编程语言 |
Python3.6 |
5.2. 评价指标
在旅游评论文本情感分析研究中,通常采用精确率P (Precision)、召回率R (Recall)和F1值(F1-score)等指标来评估情感分析模型的性能,这些指标在旅游评论的情感识别任务中具有重要应用价值。TP指在数据集中实际为正面且被准确识别为正面情感的文本数量;FP则表示实际为负面却被误判为正面情感的文本数量;FN指消极情感被误判为积极的文本数量,而TN则是消极情感被准确识别的文本数量。
精确率(Precision)、召回率(Recall)和F1值(F1-score)的计算公式分别如下:
(1)
(2)
(3)
5.3. 实验结果分析
为评估BiLSTM-Attention模型的情感分析能力,选取了多种常见情感分析模型进行对比实验,实验结果如表4:
Table 4. Experimental results table
表4. 实验结果表
算法 |
精准率% |
召回率% |
F1值% |
CNN |
86.11 |
86.76 |
86.43 |
LSTM |
89.42 |
88.74 |
89.07 |
BiLSTM |
90.38 |
90.71 |
90.55 |
BiLSTM-Attention |
95.26 |
91.45 |
93.31 |
根据情感分析实验数据,对比各类模型的结果表现,在这四个模型中BiLSTM-Attention模型效果较好。
将CNN模型与LSTM模型进行对比可知LSTM模型更精确,LSTM模型具有记忆能力,能够捕捉到序列中的长期依赖关系,相比之下,CNN模型在视野是局部的,难以捕获全局信息。
将BiLSTM模型和LSTM模型、CNN模型进行对比可以发现,BiLSTM模型效果最好,其双向架构和强大的序列处理能力使其能够捕捉更全面的上下文关系,从而提高了模型的准确性和可靠性。
BiLSTM-Attention模型不仅有效处理了长期依赖的难题,更通过注意力机制强化了核心信息,降低了冗余数据的干扰,最终在实验对比中展现了最佳结果。
6. 结束语
本文介绍了作者所设计的BiLSTM-Attention模型的基本架构。该模型利用双向长短期记忆网络捕捉远距离语义关联,准确获取评论文本的上下文信息。在此基础上,结合注意力机制通过为输入序列中的不同部分赋予不同的权重,使得重要的情感词汇获得更高的权重,从而改进序列预测训练结果。实验结果显示,本文所提出的BiLSTM-Attention模型在情感分析方面展现出了更好的效果。
基金项目
秦皇岛市科学技术研究与发展计划(编号:202302B039)。