当前位置:主页 > 文艺论文 > 语言学论文 >

基于Python的彝文词典分词技术研究

发布时间:2025-03-20 06:45
  在英文的行文中,单词之间以空格作为自然分界符,英文可以直观的看出单词分界。而彝文只是句和段可以通过明显的标点符号来简单划界,词却没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,在词这一层上,彝文比英文要复杂得多。彝文分词是把彝语中的词用明显的符号分隔开,即将连续的彝文序列按照一定的规范重新组合成词序列的过程,即使用明显的符号将词语分隔,使词与词之间有明显的界限。彝文机器翻译、篇章理解、自动摘要、文本校对、自动标注等语言处理应用离不开分词。例如将彝语翻译成其它语言,首先得提取彝语中的所有词汇,然后再对提取的彝语词汇一一对应成所要翻译的语言词汇,再按照对应的语法重组,即可得到翻译的结果。除了机器翻译以外,语言处理其它的基础建设同样离不开分词。因此,在使用计算机处理彝语之前,首先得解决分词问题。此彝文分词研究根据彝语的特性及语法特征,从基础的彝文字符编码、文本、分词标准规范、词典等为基础。在参考借鉴主流的最大正向、最大逆向和最大双向三种语言分词技术后,在Python环境下实现目前比较完整的机械分词机制与构架。文本首先结合彝语的语言特点,将特殊结构“否定词”纳入分词词典,同时也制定了一...

【文章页数】:182 页

【学位级别】:硕士

【文章目录】:
中文摘要
ABSTRACT
摘要
绪论
第1章 彝文分词概述
    1.1 彝文分词的基本问题
        1.1.1 彝文字符编码
        1.1.2 彝语文本
    1.2 彝文分词难点
        1.2.1 彝文分词标准
        1.2.2 彝文分词规范和分词词典
        1.2.3 彝语分词中的消歧
        1.2.4 彝语未登陆词
    1.3 本章小结
第2章 彝文基本分词原理
    2.1 基于字符串匹配的分词方法
        2.1.1 最大匹配法(Maximum Match Method)
        2.1.2 最小匹配法(Minimum Match Method)
        2.1.3 双向匹配法(Bi-directional Match Method)
    2.2 基于统计的分词方法
    2.3 基于理解的分词方法
    2.4 分词方法比较
    2.5 本章小结
第3章 PYTHON环境下彝文分词实现原理
    3.1 机械分词的实现
        3.1.1 分词词典的建立
        3.1.2 Python环境下的彝文编码
    3.2 基于最大匹配法的彝文机械分词分实践
        3.2.1 彝文最大正向匹配的实际操作
        3.2.2 最大逆向匹配的实际操作
        3.2.3 最大双向匹配的实际操作
    3.3 本章小结
第4章 实验结果及分析
    4.1 实验环境及测评指标
        4.1.1 实验环境与资源
        4.1.2 测评指标
    4.2 实验内容与结果分析
        4.2.1 实验内容和结果
        4.2.2 结果分析
    4.3 本章小结
第5章 彝文机械分词系统说明
    5.1 源码封装过程说明
    5.2 系统安装与说明
    5.3 分词实例
    5.4 本章小结
结语及展望
    一、彝文机械分词总结
    二、对未来彝文分词标准的建议
    三、存在的问题与未来的展望
参考文献
致谢
附录一 (封闭测试)
附录二 (开放测试)



本文编号:4037549

资料下载
论文发表

本文链接:https://www.wllwen.com/wenyilunwen/yuyanxuelw/4037549.html

上一篇:基于说话人视角下善意谎言的语用分析  
下一篇:没有了

Copyright(c)文论论文网All Rights Reserved | 网站地图 |

版权申明:资料由用户2d6d3***提供,本站仅收录摘要或目录,作者需要删除请E-mail邮箱bigeng88@qq.com