基于机器学习的文本分类研究与实现
发布时间:2025-06-19 22:10
随着互联网技术的快速发展,互联网上的文本数据变得越来越多,传统的人工文本类别划分方法已经无法应对当前的数据量,自动文本分类技术成为研究的热点。作为文本挖掘技术的主要分支,文本分类技术可以有效解决大数据发展下的文本自动分类需求。特征选择和文本分类算法是文本分类技术的两个关键部分,本文主要针对这两个部分进行研究。在特征选择部分,本文提出一种基于卡方统计量(CHI)和互信息(MI)的混合特征选择方法(CHMI),该方法首先针对卡方统计量方法对低频词敏感的缺点,引入词频因子进行改进,然后使用调节参数改善互信息方法对类别敏感的不足,最终结合改进后的两种方法,得到对低频词和类别均有较好处理效果的混合特征选择方法。实验结果表明,与传统的卡方统计量方法和互信息方法相比,本文方法在支持向量机、朴素贝叶斯和K最近邻分类器上,均可以有效提高文本分类的准确率。在文本分类算法部分,分类器采用支持向量机,支持向量机的核心是核函数,本文提出一种基于多项式核函数和高斯核函数的混合核函数。该核函数具有多项式核函数和高斯核函数的优点,既具有多项式核函数能够提取整体特征的能力,又利用高斯核函数对局部的学习处理能力优于整体的优...
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
专用术语注释表
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究现状与发展趋势
1.3 本文主要内容
1.4 本文的章节安排
第二章 文本分类
2.1 文本分类的定义
2.2 文本分类的流程
2.3 文本预处理
2.3.1 文本标记的处理
2.3.2 分词处理
2.3.3 去除停用词
2.4 文本表示及模型
2.4.1 文本表示
2.4.2 文本表示模型
2.5 特征选择技术
2.6 常用分类器
2.6.1 朴素贝叶斯分类器
2.6.2 K——最近邻算法
2.6.3 决策树算法
2.6.4 神经网络方法
2.6.5 支持向量机(SVM)
2.7 分类性能评价指标
2.7.1 查准率和查全率
2.7.2 F_β值
2.7.3 宏平均和微平均
2.7.4 BEP(Break-evenpoint)
2.8 本章小结
第三章 混合特征选择方法
3.1 特征选择方法概述
3.2 常见特征选择方法
3.2.1 文档频率(DF)
3.2.2 信息增益(IG)
3.2.3 互信息(MI)
3.2.4 卡方统计量(CHI)
3.3 改进的混合特征选择方法
3.3.1 CHI方法的不足
3.3.2 词频因子的引入
3.3.3 MI方法的不足
3.3.4 调节因子的提出
3.3.5 混合CHMI特征选择方法
3.4 本章小结
第四章 基于支持向量机的文本分类器
4.1 支持向量机理论基础
4.1.1 VC维理论
4.1.2 结构风险最小化原则
4.2 支持向量机
4.2.1 线性可分支持向量机
4.2.2 线性支持向量机
4.2.3 非线性支持向量机
4.3 支持向量机核函数的改进
4.3.1 核函数
4.3.2 常用核函数的缺点
4.3.3 混合核函数的提出
4.4 支持向量机多分类方法的改进
4.4.1 SVM多分类的处理方法
4.4.2 文本相似度度量参数的引入
4.4.3 基于文本相似度的一对一SVM多分类方法改进
4.5 本章小结
第五章 基于SVM的文本分类系统实现与仿真
5.1 实验平台说明
5.1.1 硬件与软件情况
5.1.2 Python文本处理技术
5.2 仿真系统的设计和搭建
5.2.1 数据集
5.2.2 文本预处理和特征选择
5.2.3 分类训练
5.3 仿真结果分析
5.3.1 特征选择方法分类结果比较
5.3.2 混合核函数仿真结果
5.3.3 SVM组合策略仿真结果分析
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 研究展望
参考文献
附录1 攻读硕士期间撰写的论文
致谢
本文编号:4050992
【文章页数】:70 页
【学位级别】:硕士
【文章目录】:
摘要
abstract
专用术语注释表
第一章 绪论
1.1 研究背景与意义
1.2 国内外研究现状与发展趋势
1.3 本文主要内容
1.4 本文的章节安排
第二章 文本分类
2.1 文本分类的定义
2.2 文本分类的流程
2.3 文本预处理
2.3.1 文本标记的处理
2.3.2 分词处理
2.3.3 去除停用词
2.4 文本表示及模型
2.4.1 文本表示
2.4.2 文本表示模型
2.5 特征选择技术
2.6 常用分类器
2.6.1 朴素贝叶斯分类器
2.6.2 K——最近邻算法
2.6.3 决策树算法
2.6.4 神经网络方法
2.6.5 支持向量机(SVM)
2.7 分类性能评价指标
2.7.1 查准率和查全率
2.7.2 F_β值
2.7.3 宏平均和微平均
2.7.4 BEP(Break-evenpoint)
2.8 本章小结
第三章 混合特征选择方法
3.1 特征选择方法概述
3.2 常见特征选择方法
3.2.1 文档频率(DF)
3.2.2 信息增益(IG)
3.2.3 互信息(MI)
3.2.4 卡方统计量(CHI)
3.3 改进的混合特征选择方法
3.3.1 CHI方法的不足
3.3.2 词频因子的引入
3.3.3 MI方法的不足
3.3.4 调节因子的提出
3.3.5 混合CHMI特征选择方法
3.4 本章小结
第四章 基于支持向量机的文本分类器
4.1 支持向量机理论基础
4.1.1 VC维理论
4.1.2 结构风险最小化原则
4.2 支持向量机
4.2.1 线性可分支持向量机
4.2.2 线性支持向量机
4.2.3 非线性支持向量机
4.3 支持向量机核函数的改进
4.3.1 核函数
4.3.2 常用核函数的缺点
4.3.3 混合核函数的提出
4.4 支持向量机多分类方法的改进
4.4.1 SVM多分类的处理方法
4.4.2 文本相似度度量参数的引入
4.4.3 基于文本相似度的一对一SVM多分类方法改进
4.5 本章小结
第五章 基于SVM的文本分类系统实现与仿真
5.1 实验平台说明
5.1.1 硬件与软件情况
5.1.2 Python文本处理技术
5.2 仿真系统的设计和搭建
5.2.1 数据集
5.2.2 文本预处理和特征选择
5.2.3 分类训练
5.3 仿真结果分析
5.3.1 特征选择方法分类结果比较
5.3.2 混合核函数仿真结果
5.3.3 SVM组合策略仿真结果分析
5.4 本章小结
第六章 总结与展望
6.1 工作总结
6.2 研究展望
参考文献
附录1 攻读硕士期间撰写的论文
致谢
本文编号:4050992
本文链接:https://www.wllwen.com/kejilunwen/zidonghuakongzhilunwen/4050992.html