当前位置:主页 > 科技论文 > 搜索引擎论文 >

健康大数据预处理方法研究与实现

发布时间:2020-08-03 12:58
【摘要】:随着计算机科学与信息化技术的发展,人类社会逐渐步入互联网和大数据时代。医疗健康行业可通过大数据技术的支持,实现对现有资源的整合和重新调整,提高行业运行效率,挖掘产业巨大潜力。然而新时代的医疗数据有着海量、高纬度、结构复杂、信息庞杂等特点,不利于对健康数据进行直接分析。针对健康数据的预处理可以提高数据集的质量,降低数据规模,提高数据分析的效率和准确度。本文针对健康数据集的特点,结合现有的预处理技术,对预处理过程中的重复数据清洗、异常数据检测以及数据规约进行算法分析和改进,主要工作如下:(1)健康大数据重复数据清洗技术研究与改进。首先对现有的重复数据清洗技术进行分析和研究,然后针对健康数据集的特点提出合适的预处理方案。本文主要对前缀树的结构和特点进行分析,然后结合医疗数据特点对其进行改进,将改进后的前缀树用于对医疗数据的重复数据清洗。传统算法在数据量较大时其检测精度和算法执行效率都比较低,基于改进后的前缀树重复数据清洗技术能够有效的解决这个问题,数据集越大,其相对于传统算法的优势也越加明显。(2)健康大数据异常数据检测方法的研究与改进。首先研究现有的异常数据检测算法,并重点研究基于密度的孤立点检测算法。针对基于密度的孤立点检测算法对全局孤立点不敏感,且无法适应健康数据集数据量日益剧增的特点,提出了基于投票策略的全局孤立点检测算法和引入聚类思想的降低算法时间复杂度的改进算法。经过实验证明,改进后的算法对健康数据集能够更好的进行处理,在算法执行效率和孤立点检测的全面性上都有了较大提高。(3)健康数据集中数据规约算法的研究与改进。主要是对特征选择算法进行分析和研究,并重点研究基于随机森林的特征选择算法。针对计算特征重要度时,原算法忽略了单棵树中所体现的各特征重要程度大小关系的情况,提出了基于局部重要度的特征重要度计算方法。经过实验分析比较,改进后的算法能够选择到更好的特征子集,提高了分类模型的性能。(4)对健康数据集预处理系统的设计与实现。将肝病检验数据集应用到改进预处理算法中,以更直观的展示改进预处理算法的有效性。通过实验证明,使用改进后的预处理相关算法,能更为有效的提高健康数据集的质量,进一步提高数据分析模型的性能。
【学位授予单位】:电子科技大学
【学位级别】:硕士
【学位授予年份】:2018
【分类号】:TP311.13

【相似文献】

相关期刊论文 前10条

1 郑弦;;数据集采器在临床护理工作中的应用价值探讨[J];基层医学论坛;2017年12期

2 付强;索继江;邢玉斌;杜明梅;巩玉秀;单淑娟;林建;霍瑞;陈春平;李卫光;李六亿;王力红;吴安华;任南;胡必杰;高晓东;武迎宏;陆群;张乐辉;刘运喜;;医院感染监测基本数据集的建立及作用[J];中华医院感染学杂志;2016年11期

3 Long-xiang WANG;Xiao-she DONG;Xing-jun ZHANG;Yin-feng WANG;Tao JU;Guo-fu FENG;;TextGen:用于新型存储系统基准测试的真实文本数据集生成方法(英文)[J];Frontiers of Information Technology & Electronic Engineering;2016年10期

4 唐世浩;刘荣高;;卫星气候数据集的应用研究与发展分析[J];地球信息科学学报;2015年11期

5 刘娟;朱翔鸥;刘文斌;;基于交互信息的数据集特征结构研究[J];模式识别与人工智能;2014年01期

6 沈雯漪;;大型数据集数据挖掘算法研究[J];计算机光盘软件与应用;2014年16期

7 于灵雪;张树文;卜坤;杨久春;颜凤芹;常丽萍;;雪数据集研究综述[J];地理科学;2013年07期

8 职为梅;郭华平;范明;叶阳东;;非平衡数据集分类方法探讨[J];计算机科学;2012年S1期

9 吴克寿;曾志强;;非平衡数据集分类研究[J];计算机技术与发展;2011年09期

10 付优;;非平衡数据集的分类[J];电力学报;2010年04期

相关会议论文 前10条

1 缪国宇;刘洪鹏;苏文学;刘荣生;赵相东;;基于数据仓库的企业指标分析系统[A];中国计量协会冶金分会2012年会暨能源计量与节能降耗经验交流会论文集[C];2012年

2 郭景峰;杜京;马倩;邹晓红;;一种基于数据集性质的快速等差模式聚类算法[A];第二十五届中国数据库学术会议论文集(二)[C];2008年

3 孟烨;张鹏;宋大为;王雷;;信息检索系统性能对数据集特性的依赖性分析[A];需将论文集名称修改为“第十二届全国人机语音通讯学术会议(NCMMSC2013)论文集[C];2013年

4 田捷;;三维医学影像数据集处理的集成化平台[A];2003年全国医学影像技术学术会议论文汇编[C];2003年

5 冷传良;;飞机化铣成样板划线数据集设计方法探索[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年

6 范明;魏芳;;挖掘基本显露模式用于分类[A];第二十一届中国数据库学术会议论文集(技术报告篇)[C];2004年

7 刘通;张宇献;;基于加权平均数的模糊聚类有效性函数[A];第十届沈阳科学学术年会论文集(信息科学与工程技术分册)[C];2013年

8 于爱荣;刘晓明;曹雷;王俊;;NET Web Services数据集在Delphi中的处理与研究[A];中国航空学会信号与信息处理专业全国第八届学术会议论文集[C];2004年

9 冷传良;;基于CATIA V6的三维制造数据集的设计与管理[A];探索 创新 交流——第六届中国航空学会青年科技论坛文集(上册)[C];2014年

10 苏力德;;基于PDM系统实现民机数据的管理[A];第十届沈阳科学学术年会论文集(经济管理与人文科学分册)[C];2013年

相关重要报纸文章 前10条

1 记者 王莉英;行政审批网上全流程办理率年底超80%[N];深圳特区报;2017年

2 记者 金昶 通讯员 陈斯音;我国发布首款全球海洋Argo网格数据集产品[N];中国海洋报;2017年

3 中国青年报·中青在线记者 谢宛霏;为AI领域“造血”[N];中国青年报;2017年

4 记者 罗旭;全球人工智能挑战赛开赛[N];光明日报;2017年

5 记者 刘钊 通讯员 徐文慧 杨溯;自主研发数据集显示今年上半年最热[N];中国气象报;2015年

6 冉瑞奎 刘晓林 戴艳萍;均一化历史气温数据集问世[N];中国气象报;2006年

7 通讯员廖雅琴记者冯竞;“国人数字化可视人体数据集”完成[N];科技日报;2003年

8 记者 张梦然;科学家以图片数据集揭秘“生命奥秘”[N];科技日报;2015年

9 王素琴邋刘晓林 通讯员 王新华;宇如聪强调用好16个新数据集产品[N];中国气象报;2008年

10 金水高 刘丽华 陶庄;基本数据集标准新进展[N];计算机世界;2006年

相关博士学位论文 前10条

1 王建培;聚类有效性分析及其在电学层析成像中的应用[D];天津大学;2017年

2 杨勋;跨视域行人再识别若干问题研究[D];合肥工业大学;2017年

3 刘皓;基于深度学习的行人再识别问题研究[D];合肥工业大学;2017年

4 纳赛尔 阿里 穆罕默德 巴拉卡特;复杂化学数据的知识发现新型化学计量学算法研究[D];湖南大学;2005年

5 李宏;面向应用领域的分类方法研究[D];中南大学;2007年

6 余雳;虚拟可视鼠样品制备技术研究[D];华中科技大学;2006年

7 李超;高阶多数据集建模新方法与应用研究[D];哈尔滨工程大学;2017年

8 申彦;大规模数据集高效数据挖掘算法研究[D];江苏大学;2013年

9 严远亭;不完整数据集的多视角集成分类研究[D];安徽大学;2016年

10 谷琼;面向非均衡数据集的机器学习及在地学数据处理中的应用[D];中国地质大学;2009年

相关硕士学位论文 前10条

1 陈永红;健康大数据预处理方法研究与实现[D];电子科技大学;2018年

2 陈琢;中文语音情感挖掘的研究与实现[D];电子科技大学;2018年

3 关孜娉;基于NSJEP-list的强跳跃显露模式的挖掘方法及应用[D];湖南大学;2017年

4 张拯;基于文字条的自然场景文字检测算法研究[D];华中科技大学;2016年

5 闫立达;基于特征提取的网络测量数据集构建方法研究[D];新疆大学;2017年

6 刘洋;中医药数据集分类优化研究[D];中国中医科学院;2016年

7 孙渤禹;面向失衡数据集分类问题的研究与应用[D];哈尔滨理工大学;2014年

8 张飞;基于动态数据集的匿名化隐私保护技术研究[D];重庆交通大学;2013年

9 毕红净;动态数据集隐私保护技术研究[D];内蒙古科技大学;2010年

10 张林;面向大规模失衡数据集的数据挖掘研究[D];哈尔滨理工大学;2016年



本文编号:2779661

资料下载
论文发表

本文链接:https://www.wllwen.com/kejilunwen/sousuoyinqinglunwen/2779661.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户0aa90***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com