面向大规模电商评论的情感分析与兴趣挖掘研究
发布时间:2021-05-21 09:55
互联网技术和移动网络技术飞速发展的今天,电子商务和移动商务已经渗透到了生活的方方面面,电商平台上用户行为的分析已经变成企业进行消费者行为分析的关键内容之一。评论数据作为大型电子商务平台上少有的可以被开放获得的用户行为数据,是进行用户行为分析的一个重要切入点。但电商平台的用户评论数据往往数量极其巨大,并且易受社会经济环境的影响,表现出较强的大规模性、动态性和复杂性。如何从海量的、文本类型的评论中分析用户的兴趣和偏好,提取出用户关心的话题,以及满意和不满意的商品及其属性,成为新时代电子商务企业提升商品和服务质量,把握社会的流行趋势,以及对用户进行精准营销时必须面对和解决的基础性、关键性的问题。为此,本文收集了美国亚马逊平台上800多万条用户对电子和图书类商品的评论数据,运用统计方法实证分析了评论数据中的特点和进行数据挖掘时存在的难点,并以评论数据中的“用户情感分析”和“用户偏好/兴趣挖掘”这两种消费者行为分析任务为目标,提出了评论数据的预处理方法,即评论数据的特征工程,以此提升用户情感分析中经常使用的分类方法的效果;为了应对评论数据的动态性和实时性等特点,并进一步分析评论数据中的观点子模式...
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:141 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景、目的及意义
1.1.1 研究背景
1.1.2 研究目的
1.1.3 研究意义
1.2 研究内容和结构安排
1.2.1 研究内容
1.2.2 结构安排
1.3 研究方法和主要创新点
1.3.1 研究方法
1.3.2 主要创新点
1.4 本章小结
第二章 相关理论及文献综述
2.1 传统用户情感分析与兴趣挖掘方法
2.1.1 传统的消费者行为分析理论与方法
2.1.2 用户评论中的观点、主题挖掘
2.1.3 用户评论中的情感分类
2.1.4 用户兴趣、偏好挖掘及推荐系统
2.1.5 已有研究的不足之处及面临的新挑战
2.2 本文的研究思路:一种动态的大数据挖掘视角
2.2.1 数据的特征工程
2.2.2 增量式的分类与聚类方法
2.2.3 用户动态兴趣时间序列挖掘
2.2.4 大数据挖掘的方法与技术
2.3 本章小结
第三章 评论数据的特征工程:线性与非线性空间变换方法
3.1 引言
3.2 评论数据的分布特点与挖掘挑战
3.2.1 数据集详情
3.2.2 数据特点
3.2.3 挖掘挑战
3.3 评论数据的线性与非线性空间变换方法
3.3.1 维度相关性对策:基于奇异值分解的线性正交变换
3.3.2 距离校准:一种基于线性规划的距离度量学习方法
3.3.3 核变换拟合:Nystr?m非线性空间变换
3.3.4 线性与非线性空间变换方法的整合
3.3.5 增量学习分析
3.4 评论数据的分类提升效果评估及结果讨论
3.4.1 核函数最优参数的网格搜索
3.4.2 奇异值分解
3.4.3 空间变换
3.4.4 分类效果评估
3.4.5 结果讨论与管理启示
3.5 本章小结
第四章 情绪感知的用户观点挖掘:一种新的增量式自适应分类与聚类算法
4.1 引言
4.2 竞争型学习的理论基础及聚类算法
4.2.1 符号约定
4.2.2 竞争型监督学习的理论基础
4.2.3 原模型的优点与缺点
4.2.4 “非军事区”构建
4.2.5 所提出模型的网络拓扑结构
4.2.6 近似核变换方法
4.3 评论观点子模式识别:一种新的监督式聚类与分类算法
4.3.1 模型训练方法
4.3.2 “小批量”增量学习及分布式计算
4.3.3 数据标签预测
4.4 子模式识别及聚类、分类的性能评估及结果讨论
4.4.1 基准数据集
4.4.2 基于Nystr?m方法的核拟合
4.4.3 聚类与分类训练过程
4.4.4 AdaHS的收敛性测试
4.4.5 准确性与运行速度评估
4.4.6 实验结果讨论
4.5 基于AdaHS的观点挖掘实例及管理启示
4.6 本章小结
第五章 从评论数据中发掘用户兴趣:一种动态时间序列观点
5.1 引言
5.2 商品“主题”挖掘:商品文本的向量表示与聚类
5.2.1 商品的向量表示
5.2.2 主题挖掘:商品文本的向量化表示和聚类
5.3 “用户兴趣”时间序列的拟合与预测方法
5.3.1 用户与“主题”的交互及兴趣时间序列数据构建
5.3.2 兴趣时间序列的分类判别
5.3.3 短期时间序列数据的模型拟合与预测
5.3.4 长期时间序列数据的模型拟合与预测
5.3.5 稀疏时间序列拟合与预测
5.3.6 时间序列综合拟合与预测算法及预测结果评估
5.4 实验及效果评估
5.4.1 数据集及大数据实验方法
5.4.2 基于Word2Vec的商品文本向量表示
5.4.3 商品“主题”挖掘
5.4.4 用户兴趣时间序列拟合
5.4.5 实验结果讨论
5.5 本章小结
第六章 用户兴趣网络与推荐系统
6.1 引言
6.2 用户兴趣的相似性搜索
6.2.1 基于动态时间规整的时间序列距离计算方法
6.2.2 用户之间兴趣相似性的计算
6.3 基于图计算的用户兴趣社区发现
6.3.1 基于社区发现的用户聚类
6.3.2 兴趣社区划分质量的评价标准
6.3.3 兴趣社区发现算法:Fast Unfolding
6.4 推荐策略与方法构建
6.4.1 推荐策略一:基于兴趣时间序列预测的直接推荐
6.4.2 推荐策略二:基于用户兴趣社区的协同过滤式推荐
6.4.3 推荐策略三:综合推荐
6.4.4 推荐效果评估
6.5 相似性搜索、社区发现与推荐的实验及效果评估
6.5.1 相似性搜索
6.5.2 用户兴趣社区发现
6.5.3 商品主题推荐的效果评估
6.6 关于推荐系统的进一步讨论及管理启示
6.7 本章小结
第七章 结论与展望
7.1 结论
7.2 展望
致谢
参考文献
攻读博士学位期间取得的成果
【参考文献】:
期刊论文
[1]基于分布式LDA-Spark的微博用户兴趣挖掘[J]. 赵星雷,肖诗斌. 北京信息科技大学学报(自然科学版). 2017(03)
[2]基于背景和内容的微博用户兴趣挖掘[J]. 仲兆满,管燕,胡云,李存华. 软件学报. 2017(02)
[3]基于网络评论内容分析的餐饮消费者行为研究[J]. 吴丽云,陈方英. 人文地理. 2015(05)
[4]社交网络用户兴趣挖掘研究[J]. 何炎祥,刘续乐,陈强,梁伟,孙松涛. 小型微型计算机系统. 2014(11)
[5]基于本体与模式的网络用户兴趣挖掘[J]. 苏雪阳,左万利,王俊华. 电子学报. 2014(08)
[6]基于社会化标注的用户兴趣挖掘[J]. 扈维,张尧学,周悦芝. 清华大学学报(自然科学版). 2014(04)
[7]基于AT模型的微博用户兴趣挖掘研究[J]. 王永贵,张旭,刘宪国. 计算机工程与应用. 2015(13)
[8]基于主题图的用户兴趣挖掘模型研究[J]. 唐晓波,房小可. 情报学报. 2012 (04)
[9]网络日志规模分析和用户兴趣挖掘[J]. 郭岩,白硕,杨志峰,张凯. 计算机学报. 2005(09)
本文编号:3199501
【文章来源】:电子科技大学四川省 211工程院校 985工程院校 教育部直属院校
【文章页数】:141 页
【学位级别】:博士
【文章目录】:
摘要
abstract
第一章 绪论
1.1 研究背景、目的及意义
1.1.1 研究背景
1.1.2 研究目的
1.1.3 研究意义
1.2 研究内容和结构安排
1.2.1 研究内容
1.2.2 结构安排
1.3 研究方法和主要创新点
1.3.1 研究方法
1.3.2 主要创新点
1.4 本章小结
第二章 相关理论及文献综述
2.1 传统用户情感分析与兴趣挖掘方法
2.1.1 传统的消费者行为分析理论与方法
2.1.2 用户评论中的观点、主题挖掘
2.1.3 用户评论中的情感分类
2.1.4 用户兴趣、偏好挖掘及推荐系统
2.1.5 已有研究的不足之处及面临的新挑战
2.2 本文的研究思路:一种动态的大数据挖掘视角
2.2.1 数据的特征工程
2.2.2 增量式的分类与聚类方法
2.2.3 用户动态兴趣时间序列挖掘
2.2.4 大数据挖掘的方法与技术
2.3 本章小结
第三章 评论数据的特征工程:线性与非线性空间变换方法
3.1 引言
3.2 评论数据的分布特点与挖掘挑战
3.2.1 数据集详情
3.2.2 数据特点
3.2.3 挖掘挑战
3.3 评论数据的线性与非线性空间变换方法
3.3.1 维度相关性对策:基于奇异值分解的线性正交变换
3.3.2 距离校准:一种基于线性规划的距离度量学习方法
3.3.3 核变换拟合:Nystr?m非线性空间变换
3.3.4 线性与非线性空间变换方法的整合
3.3.5 增量学习分析
3.4 评论数据的分类提升效果评估及结果讨论
3.4.1 核函数最优参数的网格搜索
3.4.2 奇异值分解
3.4.3 空间变换
3.4.4 分类效果评估
3.4.5 结果讨论与管理启示
3.5 本章小结
第四章 情绪感知的用户观点挖掘:一种新的增量式自适应分类与聚类算法
4.1 引言
4.2 竞争型学习的理论基础及聚类算法
4.2.1 符号约定
4.2.2 竞争型监督学习的理论基础
4.2.3 原模型的优点与缺点
4.2.4 “非军事区”构建
4.2.5 所提出模型的网络拓扑结构
4.2.6 近似核变换方法
4.3 评论观点子模式识别:一种新的监督式聚类与分类算法
4.3.1 模型训练方法
4.3.2 “小批量”增量学习及分布式计算
4.3.3 数据标签预测
4.4 子模式识别及聚类、分类的性能评估及结果讨论
4.4.1 基准数据集
4.4.2 基于Nystr?m方法的核拟合
4.4.3 聚类与分类训练过程
4.4.4 AdaHS的收敛性测试
4.4.5 准确性与运行速度评估
4.4.6 实验结果讨论
4.5 基于AdaHS的观点挖掘实例及管理启示
4.6 本章小结
第五章 从评论数据中发掘用户兴趣:一种动态时间序列观点
5.1 引言
5.2 商品“主题”挖掘:商品文本的向量表示与聚类
5.2.1 商品的向量表示
5.2.2 主题挖掘:商品文本的向量化表示和聚类
5.3 “用户兴趣”时间序列的拟合与预测方法
5.3.1 用户与“主题”的交互及兴趣时间序列数据构建
5.3.2 兴趣时间序列的分类判别
5.3.3 短期时间序列数据的模型拟合与预测
5.3.4 长期时间序列数据的模型拟合与预测
5.3.5 稀疏时间序列拟合与预测
5.3.6 时间序列综合拟合与预测算法及预测结果评估
5.4 实验及效果评估
5.4.1 数据集及大数据实验方法
5.4.2 基于Word2Vec的商品文本向量表示
5.4.3 商品“主题”挖掘
5.4.4 用户兴趣时间序列拟合
5.4.5 实验结果讨论
5.5 本章小结
第六章 用户兴趣网络与推荐系统
6.1 引言
6.2 用户兴趣的相似性搜索
6.2.1 基于动态时间规整的时间序列距离计算方法
6.2.2 用户之间兴趣相似性的计算
6.3 基于图计算的用户兴趣社区发现
6.3.1 基于社区发现的用户聚类
6.3.2 兴趣社区划分质量的评价标准
6.3.3 兴趣社区发现算法:Fast Unfolding
6.4 推荐策略与方法构建
6.4.1 推荐策略一:基于兴趣时间序列预测的直接推荐
6.4.2 推荐策略二:基于用户兴趣社区的协同过滤式推荐
6.4.3 推荐策略三:综合推荐
6.4.4 推荐效果评估
6.5 相似性搜索、社区发现与推荐的实验及效果评估
6.5.1 相似性搜索
6.5.2 用户兴趣社区发现
6.5.3 商品主题推荐的效果评估
6.6 关于推荐系统的进一步讨论及管理启示
6.7 本章小结
第七章 结论与展望
7.1 结论
7.2 展望
致谢
参考文献
攻读博士学位期间取得的成果
【参考文献】:
期刊论文
[1]基于分布式LDA-Spark的微博用户兴趣挖掘[J]. 赵星雷,肖诗斌. 北京信息科技大学学报(自然科学版). 2017(03)
[2]基于背景和内容的微博用户兴趣挖掘[J]. 仲兆满,管燕,胡云,李存华. 软件学报. 2017(02)
[3]基于网络评论内容分析的餐饮消费者行为研究[J]. 吴丽云,陈方英. 人文地理. 2015(05)
[4]社交网络用户兴趣挖掘研究[J]. 何炎祥,刘续乐,陈强,梁伟,孙松涛. 小型微型计算机系统. 2014(11)
[5]基于本体与模式的网络用户兴趣挖掘[J]. 苏雪阳,左万利,王俊华. 电子学报. 2014(08)
[6]基于社会化标注的用户兴趣挖掘[J]. 扈维,张尧学,周悦芝. 清华大学学报(自然科学版). 2014(04)
[7]基于AT模型的微博用户兴趣挖掘研究[J]. 王永贵,张旭,刘宪国. 计算机工程与应用. 2015(13)
[8]基于主题图的用户兴趣挖掘模型研究[J]. 唐晓波,房小可. 情报学报. 2012 (04)
[9]网络日志规模分析和用户兴趣挖掘[J]. 郭岩,白硕,杨志峰,张凯. 计算机学报. 2005(09)
本文编号:3199501
本文链接:https://www.wllwen.com/shoufeilunwen/jjglbs/3199501.html