机器学习分类算法在中国工业企业数据库和海关数据库匹配上的应用

发布时间：2025-07-03 03:45

　　近些年来伴随着中国经济高速发展,中国的数字化建设也在稳步提升。得益于与中国的人口红利和国家政策对创业的大力扶持,从而产生了各个方面的微观数据集。其中有些数据集可以作为其他多个数据集的基础,从而将这多个孤立的数据集结合起来,形成能体现更多信息的新数据集,这样的数据集起到了桥梁作用,尤为重要。但是目前各个数据集间的关联,除了少部分建立了统一的编码,大部分还是以文本匹配为主。然而,由于我国的信息化建设发展起步晚、早期人员的信息化水平不足、各个数据集的产生相对独立等原因,导致了数据结构的不完整、录入不规范、记录方式不统一等一系列问题。这对上文所说的联合多个数据集来产生新数据集,从而进行新视角的研究工作十分不利。所以对两个数据集关联字段的解析匹配极其重要,目前解决这类问题的主要方法是对文本进行标准化处理后,再进行相似度匹配。但此方法存在一个明显的弊端,就是对数据缺失的情况是无能为力的,因此对于数据库间的匹配技术有待于我们进行进一步的研究和完善。鉴于此,本文的目的是在当前文本匹配方法的基础上,基于中国海关数据库和中国工业企业数据库,引入机器学习的概念,利用机器学习的分类算法去弥补基于文本的匹配方法的...

【文章页数】：52 页

【学位级别】：硕士

【文章目录】：
摘要
Abstract
1 绪论
    1.1 研究背景与意义
    1.2 国内外机器学习研究现状
    1.3 研究内容与结构安排
2 基于机器学习的微观数据匹配方法的研究现状及发展
    2.1 基于文本的常用数据匹配方法
    2.2 机器学习与微观数据匹配
3 中国工业企业数据库与海关数据库分析
    3.1 中国工业企业数据库和海关数据库概况
    3.2 中国工业企业数据库和中国海关数据库企业名称的匹配问题
    3.3 中国工业企业数据库和海关数据库分析结果
    3.4 小结
4 基于机器学习的微观数据匹配方法的应用研究
    4.1 数据选取
    4.2 数据预处理
    4.3 选取匹配特征
    4.4 基于K邻近算法的分类匹配
    4.5 基于决策树算法的分类匹配
    4.6 基于朴素贝叶斯算法的分类匹配
    4.7 实验结果与分析
    4.8 小结
5 结论与展望
    5.1 总结
    5.2 展望
参考文献
附录
    6.1 开发环境
    6.2 莱文斯坦编辑距离算法
    6.3 数据标准化处理
    6.4 独热编码
    6.5 PCA主成分分析代码
    6.6 K邻近算法
    6.7 决策树
    6.8 朴素贝叶斯
致谢

本文编号：4055717

资料下载

论文发表

支付宝下载

Download by Alipay
微信下载

Download by Wechat
会员下载

Download by Member

本文链接：https://www.wllwen.com/qiyeguanlilunwen/4055717.html

上一篇：国际铝协:2020年全球铝需求预计下降5.4%
下一篇：地沟油生产生物柴油补贴激励研究 ——基于动态博弈论的视角

论文发表

·知网|万方|维普|龙源|省级|国家级|科技核心|北大核心|南大核心CSSCI|EI|SCI|SSCI|