基于多翻译引擎的汉语复述平行语料构建方法
发布时间:2021-02-04 00:28
复述指同一语言内相同意思的不同表达,复述生成指同一种语言内意思相同的不同表达之间的转换,是改进信息检索、机器翻译、自动问答等自然语言处理任务不可或缺的基础技术。目前,复述生成模型性能都依赖于大量平行的复述语料,而很多语言并没有可用的复述资源,使得复述生成任务的研究无法开展。针对复述语料十分匮乏的问题,我们以汉语为研究对象,提出基于多翻译引擎的复述平行语料构建方法,将英语复述平行语料迁移到汉语,构建大规模高质量汉语复述平行语料,同时构建有多个参考复述的汉语复述评测数据集,为汉语复述生成的研究提供一定的基础数据。基于构建的汉语复述语料,我们进一步对汉语复述现象进行总结和归纳,并进行复述生成研究。我们构建基于神经网络编码-解码框架的汉语复述生成模型,采用注意力机制、复制机制和覆盖机制解决汉语复述生成中的未登录词和重复生成问题。为了缓解复述语料不足导致的神经网络复述生成模型性能不高的问题,我们引入多任务学习框架,设计联合自编码任务的汉语复述生成模型,通过联合学习自编码任务来增强复述生成编码器语义表示学习能力,提高复述生成质量。我们利用联合自编码任务的复述生成模型进行汉语复述生成实验,在评测指标...
【文章来源】:情报工程. 2020,6(05)
【文章页数】:14 页
【部分图文】:
联合自编码任务的复述生成模型
本文采用以上评分标准对上述40对不同长度的汉语译文进行人工评分,由五个翻译引擎获得的汉语译文的人工评分结果统计如图1所示。其中,纵坐标表示不同句长的句对译文评分结果在3~5分的个数统计值。对句长为5和10的短句子来说,五个翻译引擎评分为3~5分的统计结果性能相当,搜狗和有道翻译有略微优势。对于句长为15和20的长句子,搜狗和有道评分为3~5分的句对分别有18个和19个,翻译性能优势明显。综合不同句长的评分统计结果,五个翻译引擎的综合排名为:有道、搜狗、百度、必应、谷歌,有道和搜狗翻译引擎可以在Quora数据集上取得更好地翻译性能。
本文编号:3017413
【文章来源】:情报工程. 2020,6(05)
【文章页数】:14 页
【部分图文】:
联合自编码任务的复述生成模型
本文采用以上评分标准对上述40对不同长度的汉语译文进行人工评分,由五个翻译引擎获得的汉语译文的人工评分结果统计如图1所示。其中,纵坐标表示不同句长的句对译文评分结果在3~5分的个数统计值。对句长为5和10的短句子来说,五个翻译引擎评分为3~5分的统计结果性能相当,搜狗和有道翻译有略微优势。对于句长为15和20的长句子,搜狗和有道评分为3~5分的句对分别有18个和19个,翻译性能优势明显。综合不同句长的评分统计结果,五个翻译引擎的综合排名为:有道、搜狗、百度、必应、谷歌,有道和搜狗翻译引擎可以在Quora数据集上取得更好地翻译性能。
本文编号:3017413
本文链接:https://www.wllwen.com/wenyilunwen/hanyulw/3017413.html