领取MOLI红包

相关机器翻译技术文章

发布日期:2025-01-04 16:14    点击次数:65
各种机器翻译方法的主要缺陷都是规模问题,都需要大量的工作为词典中的每个歧义条目生成一个分类器。由于这个原因,使用这些方法的大部分实验所报告的结果都来自2~12个词典条目(Ng and Lee(1996) 的研究工作是一个值得注意的特例,给出了对121个名词和70个动词的排歧结果)。把这些方法中的任何一个用于处理一种语言中的所有歧义单词,都将是一项浩大的工程。因此,大规模排歧的尝试都转向利用机器可读词典(machine readable dictionary)。在这类方法中,词典不但提供了构建涵义标注系统所需的意义,而且提供了将使用的目标涵义。这种方法的首次实现归功于Lesk(1986)。在该方法中,首先从词典中检索出排歧单词的所有涵义定义,然后把这些涵义中的每一个与上下文中的所有其他单词的词典定义相比较。与这些上下文单词之间具有最多重叠的涵义被选为正确的涵义。注意,在该方法中上下文单词的各种涵义是简单地混在一起计算的。为了更具体地说明该方法,我们来研究Lesk的例子,在已知pine和cone的定义的情形下为短语pine cone中的单词cone选择正确的涵义。pine 1 kinds of evergreen tree with needle-shaped leaves2 waste away through sorrow or illnesscone 1 solid body which narrows to a point2 something of this shape whether solid or hollow3 fruit of certain evergreen trees在这个例子中,Lesk的方法将选择cone作为正确的涵义,因为这个条目中的两个单词evergreen 和tree与pine条目中的单词相重叠,而其他条目中的单词都不与pine的定义中的单词相重叠。对于从Austen的Pride and Prejudice(《傲慢与偏见》)和一个AP新闻专线的文章中选取的较短的样例,Lesk报告的精度为50%~70%。该方法的主要问题在于:目标单词的词典条目相对较短,可能并不能提供足够的资料以生成理想的分类器,因为用于上下文的单词和它们的定义必须在与正确的涵义定义所包含的单词具有直接重叠时才会有用。对这个问题的一种修正方法是,扩充分类器中所用单词的列表,把一些相关的但在单独涵义定义中并没有出现的单词也包括进来。这可以通过加入那些在定义中用到了目标单词的单词来得以实现。例如,单词deposit在bank的American Heritage Dictionary (Morris,1985)的定义中并没有出现,但是bank却出现在deposit的定义中出现。因此,bank的分类器可以将deposit扩充进来作为一个恰当的特征。当然,仅仅知道deposit与bank相关并不会带来很大帮助,因为我们不知道是与bank的哪个涵义相关。特别是,为了把deposit作为一个特征,不得不了解它的定义中所用的是bank的哪个涵义。幸运的是,许多词典和辞典的条目中都包括了一个称为学科代码(subject code)的标签,它大致对应于主要的概念范畴。例如,在《现代英语朗文词典》(Longman's Dictionary of Contemporary English, 简称LDOCE) (Procter,1978)的bank条目中,用学科代码EC(Economics)表示bank的金融领域的涵义。已知这种学科代码,就能够猜测出带有学科代码EC的扩充术语应该与bank的这个涵义而不是任何其他涵义相关。Guthrie et al. (1991)报告的结果是,对于细粒度的LDOCE区分的正确率为47%,而对较粗的区分的正确率为72%。责任编辑:admin



Powered by Blast 中文站 @2013-2022 RSS地图 HTML地图

Copyright Powered by365建站 © 2013-2024