当前位置:主页 > 经济论文 > 宏观经济论文 >

物流票据信息提取与分析的研究

发布时间:2020-06-23 16:00
【摘要】:随着我国物流行业的迅速发展,使得物流运输中票据的使用量飞速增长。所有票据中的信息都需要录入计算机归档,使得处理票据的压力越来越大。现阶段对票据信息提取的处理方式有两种,第一种是依靠人工的方式,这种方式需要雇佣和培训专业人员,耗时耗力,且成本很高,难免会出现录入出错的情况。第二种是,简单版式的票据自动识别,只能识别一些格式简单且固定的票据,例如银行支票等。但物流领域使用的票据一般是复杂版式的表格型票据,这种票据方便信息录入、存储和管理,成为物流领域通用的票据形式,针对这种类型的票据,目前还没有一种可靠的技术可以快速准确的从中提取出所需的信息。本文通过以上分析,对物流票据进行了深入研究,提出了一种针对复杂格式的表格型票据自动提取信息的算法,能够实现快速的票据信息提取,准确率达98%以上。本文首先对票据进行特征提取,然后通过聚类分析来对票据进行自动类别标注,构建票据数据集,使用这些数据集训练分类器,再为每一类票据定义一个模板,通过模板匹配的方法定位到提取单元的位置,再利用文字识别获得提取单元内的信息。论文的工作如下:1、把不同种格式的票据统一转换为图像格式,通过对票据的分析,发现票据表格是票据的关键特征,利用数字图像处理技术对图像进行处理,获得票据中的表格信息,并利用这些表格提取出共计23个特征点。2、由于本文中使用的物流票据没有类别标注且数量大,所以通过聚类的方法对票据进行自动的类别标注,本文通过各种聚类算法的对比分析,选用K-Means++作为本文的聚类算法,并根据聚类结果构建数据集。然后对不同的分类器进行优化,对比各种分类器的性能后选取SVM作为本文票据分类的分类器。3、为了快速定位票据的提取单元,本文提出了一种基于模板匹配的提取单元定位算法,另外利用PyQt设计了一种交互式模板定义的工具,可以方便快速的定义模板。4、票据模板匹配中需要对票据中的字符进行识别和相似度计算,其中字符识别部分,对于纯文本的票据使用PDFMiner,对于纯图片的票据使用光学字符识别技术,其中字符相似度计算使用编辑距离。
【学位授予单位】:北京交通大学
【学位级别】:硕士
【学位授予年份】:2019
【分类号】:F259.2;TP391.41
【图文】:

票据,操作流程图,图像,图像格式


需要统一转换为图像格式进行保存,这样方便后续对票据进行统一的处理,逡逑本节对不同格式的票据利用不同的转换方法,使用Python编程语言,把所有格式逡逑的票据统一转换为图像格式,物流票据转图像的具体操作流程如图2-1所示。逡逑丨—?逦图像格式逦i逦1逡逑物邋I逦逦逦邋%煎义希渝澹掊澹校模棋甯袷藉澹危垮澹校模棋遄枷褚唬垮澹牛危腻义希慑危妫鲥邋五五危觯澹澹辏澹颍澹慑危殄巍危赍危蓿掊义希邸咤纹渌袷藉我唬孔晃校模棋邋危у义贤迹玻逼本葑枷癫僮髁鞒掏煎义希疲椋纾澹玻卞澹疲欤铮麇澹悖瑁幔颍翦澹铮驽澹猓椋欤欤簦铮椋恚幔纾邋澹铮穑澹颍幔簦椋铮铄义希ǎ保╁澹牛悖澹臁ⅲ祝铮颍涞雀袷降钠本葑怀桑校模棋义希停椋悖颍铮螅铮妫翦澹希妫妫椋悖迨俏颐浅S玫陌旃ぞ撸俏⑷砉净冢祝椋睿洌铮鳎蟛僮飨低冲义峡⒌摹3S糜校祝铮颍洹ⅲ牛悖澹臁ⅲ校铮鳎澹颍校铮椋睿舻龋希妫妫椋悖逯卸杂诓煌母袷降奈募煎义嫌凶怀桑校模频墓δ埽枰斯さ囊桓龈鲎唬僮鞑环奖闱依朔咽奔

本文编号:2727569

资料下载
论文发表

本文链接:https://www.wllwen.com/jingjilunwen/hongguanjingjilunwen/2727569.html


Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户455bc***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com