基于自动化增量学习的文本分类研究
发布时间:2025-07-03 03:35
在公安业务的实际需求中,往往需要对网络上的文本信息进行筛选,也就是进行文本分类。在文本分类任务中,分类效果的好坏依赖于训练样本的数量和质量,要想获得一个有效的分类器,往往需要耗费大量的人力来对文本进行标记,同时,在很多情况下,我们所需要进行分类的文本往往是针对某一特定事件或人物的,这样的文本所占比例较低,往往很难收集到足够的训练样本。要想解决以上问题,就需要一个可以自动化增量学习的分类器。一般而言,分类器的实现有传统机器学习方法和神经网络方法。传统机器学习方法往往是基于统计学上的词语共现频率进行分类,该方法对样本数量依赖小,可以实现文本的简单分类;神经网络方法则是在语义理解的基础上进行分类,该方法对样本数量依赖大,但可以实现复杂的文本分类。针对这两种方法,本文设计了一个支持自动化增量学习的分类器系统,该系统采取了一定的策略,充分发挥了这两种方法的优势,在该系统中,首先使用少量的标记样本对多种分类器进行训练,在使用分类器进行文本分类的过程中,基于一定的规则,使用传统机器学习方法对分类结果进行筛选,生成带有一定噪声的标记样本,对分类器进行再训练,以此实现自动化增量学习的过程。经过实验证明,在...
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
本文编号:4055705
【文章页数】:64 页
【学位级别】:硕士
【部分图文】:
图1.1NNLM语言模型结构图
中国人民公安大学硕士学位论文-5-2003年,Bengio[13]为了改进这些缺点,首次将深度学习的思想融入到语言模型中,直接通过一个神经网络结构对N元条件概率进行评估,该模型的基本结构如图1.1。图1.1NNLM语言模型结构图模型可以分为四个部分,第一部分通过矩阵实现词到词向量....
图3.3树增强的朴素贝叶斯结构图
中国人民公安大学硕士学位论文-23-图3.3树增强的朴素贝叶斯结构图对于概率分布12,TAN分类器可表示为:用12=1(公式3.13)其中,表示在给定类节点的约束条件下12的最大权重跨度树,是在最大权重跨度树中的属性父节点,的取值为0或1。2.使用加权期望交叉熵进行特征提龋由于特....
图3.5线性分类的局限
中国人民公安大学硕士学位论文-26-==1(公式3.16)==1(公式3.17)式中为拉格朗日乘子,且≥。其中,当=时,该样本无效;当时,其支持向量才会影响分类效果,使支持向量集中仅包含着训练样本的有用信息,说明对支持向量进行增量学习是行之有效的,使得SVM这一机器学习技术具有了....
图3.6非线性分类的表现形式
中国人民公安大学硕士学位论文-26-==1(公式3.16)==1(公式3.17)式中为拉格朗日乘子,且≥。其中,当=时,该样本无效;当时,其支持向量才会影响分类效果,使支持向量集中仅包含着训练样本的有用信息,说明对支持向量进行增量学习是行之有效的,使得SVM这一机器学习技术具有了....
本文编号:4055705
本文链接:https://www.wllwen.com/kejilunwen/shengwushengchang/4055705.html
最近更新
教材专著