基于改进型词典和集成学习的文本情感分析研究

发布时间:2025-05-11 02:46
  随着互联网用户数量的快速增长以及电商和微博等社交平台的流行,互联网中的文本数量呈现爆炸性增长。挖掘海量文本信息,具有很大的舆论价值、商业价值和社会价值。例如:分析微博数据有助于政府对热点事件和突发事件进行舆情控制,同时有助于对政策和政治选举进行预测。分析商品评论数据,挖掘消费者意见有助于客户进行商品决策,同时为商家提供产品反馈意见,促进商品质量的提高。目前基于文本情感分析预测算法中,仍然有很多难题待解决。如情感词典存在资源少、时效性弱问题,单分类模型的泛化能力差问题,大规模集成学习在文本分类实验中存在的时间瓶颈问题。针对上述问题,本文展开研究,主要工作及创新点如下:(1)为了提高情感词典的质量,针对已有基准词选取方法的不足和词汇语义倾向计算未考虑正负基准类别个数差异的问题,本文提出了一种剔除异常点的中心向量法来选取基准词并改进了词汇语义倾向计算公式。首先在基准词选取方法上,本文基于邻近度技术查出基准词中的异常点,并将其删除,然后通过中心向量法计算每个情感类别的基准向量来稀释基准词误差,最后根据新词向量和中心向量的相似度计算来标定新词情感极性并添加到情感词典。在词汇的语义倾向性计算中,本文...

【文章页数】:71 页

【学位级别】:硕士

【文章目录】:
致谢
摘要
ABSTRACT
1 引言
    1.1 研究背景及意义
    1.2 研究现状
        1.2.1 词汇语义分析研究现状
        1.2.2 文本情感分析研究现状
    1.3 研究内容与目的
    1.4 论文结构安排
2 文本情感分析关键理论与技术
    2.1 文本预处理技术
        2.1.1 中文分词
        2.1.2 去除停用词
    2.2 常见分类器模型
        2.2.1 支持向量机
        2.2.2 条件随机场
        2.2.3 朴素贝叶斯
    2.3 词向量
    2.4 情感分类评价体系
    2.5 SPARK框架与执行流程
    2.6 本章小结
3 基于词向量的词汇语义倾向计算改进词典方法
    3.1 基础情感词典
    3.2 基于词向量的词汇语义倾向计算改进词典方法
        3.2.1 基准词选取的改进
        3.2.2 词汇语义倾向性计算
        3.2.3 相似性度量对比
        3.2.4 最优化阈值
        3.2.5 划定情感强度
    3.3 实验结果与分析
        3.3.1 数据集与实验设置
        3.3.2 结果与分析
    3.4 本章小结
4 基于情感特征优化的集成学习方法
    4.1 基本特征
    4.2 情感特征优化
    4.3 训练分类器
    4.4 集成学习算法
    4.5 实验结果与分析
        4.5.1 数据集与实验设置
        4.5.2 结果与分析
    4.6 本章小结
5 基于SPARK的集成学习模型并行化算法
    5.1 模型并行化方法对比
    5.2 SPARK集成学习模型并行化算法
        5.2.1 Spark并行算法设计
        5.2.2 集成学习模型并行化算法实现
    5.3 算法性能测试与分析
        5.3.1 数据集与实验设置
        5.3.2 评价指标
        5.3.3 结果与分析
    5.4 本章小结
6 总结与展望
    6.1 总结
    6.2 展望
参考文献
作者简历及攻读硕士学位期间取得的研究成果
学位论文数据集



本文编号:4044728

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4044728.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户47105***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com