《通用英汉谓词语法标注方案.docx》由会员分享,可在线阅读,更多相关《通用英汉谓词语法标注方案.docx(17页珍藏版)》请在第一文库网上搜索。
1、通用英汉谓词语法标注方案摘要:经过语法标注的语料对语言的研究、教学、测试、词典编撰等各领域都具有重要意义。国内外语法标注的体系存在四个主要问题:(I)标注的重点各不相同,有的侧重结构,有的侧重功能,有的侧重语义;(2)标注的层次深浅不一;(3)在语法范畴的划分和术语的使用上各行其是;(4)国内树库的建设原创性不足,标注不够深入。本文作者从语言共性的角度出发,建立了一套通用的英汉谓词语法标注方案,区分语法形位和词汇形位,对语料的切分尽可能做到使英汉形位在形式、功能及意义上相互对应。我们通过对一个小规模英汉平行初级儿童读物语料库里的谓词进行标注,结果证明这套标注方案是可行的。关键词:英汉谓词;语法
2、标注;英汉平行语料库;儿童读物1、引言要想让机器理解和产出自然语言并从事语言间的互译,除了对不同语言的语料按照语言单位进行多层次切分并对切分后的语言片段进行语言间的语义匹配外,更重要的是,要对这些语言片段之间的语法关系进行分析和标注。为此,需要一个能对两种语言同时进行分析和标注的语法体系和标注方案(annotationscheme)。对语料库的语法标注始于上世纪80年代,现已开发出多个标注方案,对英语、汉语等不同语言的语料库进行了程度不同的标注,产生了规模不等的树形语法结构库,即树库(treebank)。其中美国宾夕法尼亚大学英语树库(ThePennTreebank,简称PTB)的标注方案还被
3、用来标注汉语,从而建立了宾大汉语树库(ThePennChineseTreebank,简称CTB)。由于所采纳的语法理论以及建库的目标等因素的不同,各个语料库之间很难做到信息共享。从语言对比的角度来说,不利于语言之间的对比分析。基于以上考虑,我们尝试着从语言普遍性的角度出发,构建了一套谓词语法标注体系。该体系采用统一的标注方式,既能用于标注英语语料,也能用于标注汉语语料。这样,不仅能获取语法知识,还可以进行语言之间的对比研究。同时,对于机器翻译来说也具有很大的启示Q2、国内外句法标注体系概述语法标注的目标是对语料文本进行句法分析和标注,从而形成树库语料。经过标注的语料可以用于语言学研究、语言教学
4、、语言测试、词典编撰等诸多理论研究和实践应用领域。上世纪80年代末90年代初美国宾夕法尼亚大学建立起第一个大规模树库一一宾大树库,紧接着英国建立了兰卡斯特利兹树库(1ancaster-1eedsTreebank)o之后许多国家纷纷建立起自己语言的树库,如德国萨尔州大学(Saaf1andUniversity)建立的带句法标注的德语报刊文本语料库(TheNEGRAcorpus)和斯图加特大学(UniversityofStuttgart)建立的TIGER树库以及捷克PDT树库等;汉语树库有美国宾夕法尼亚大学的汉语树库、中国台北中研院的中研院汉语树库(SiniCaTreebank)、北京大学中文树库和
5、北京大学现代汉语树库、清华汉语树库(TSinghUaChineseTreebank,简称TCT)、国家语委现代汉语树库等。宾大树库的标注体系经历了一个从简单到复杂的不断进化发展的过程。PTBT采用了骨架分析(Ske1-tonParsing)思想,形成比较扁平的句法结构树。该标注体系标注英语的8种短语、2种陈述句、从属句、Wh一直接疑问句、一般直接疑问句的次成分、不明类别以及4种零形式成分(MarCUSeta1.,1993)oPTB-2主要是用于提取述谓一论元结构(PrediCate-argumentstrut-ture)0目前Penn树库又把目光转向了语篇的标注。兰卡斯特的语法标注源自于Sam
6、pson对1ancas-ter-1eeds树库的手工分析,也采用骨架分析技术。这一标注体系使用详细的括号标识系统和简化的成分集(Garsideeta1.,1992),标注的成分包括6种短语、7种语句、句子、属格和并列成分。此外,还包括没有标识的成分和并列成分。尽管宾大树库和兰卡大学树库都采用的是骨架分析的方法,但是宾大树库的短语分类多于兰卡大学树库,而语句的分类较少。此外,宾大树库除了标注短语和句子两个层面外,还添加了功能标记。也就是说,宾大树库的标识集相对要全面一些。在德国首先建立起来的树库是NEGRA德语语料库(SkUteta1.,1998;Brantseta1.,1999),内容主要是经
7、过句法标注的新闻文本,大约有20,000个标注的句子。接着建立了规模更大、标注更全面的TIGER树库(BrantSeta1.,2002)oTIGER树库1O版中非终端节点的标识集标注的成分包括12种短语、3种并列形式、2种不定式、2种多形符形式、句子、语块、准语言、专有名词、特殊单位和话语层成分(Smith,2003)o可以看出,TIGER树库在短语分类上更细,标注层更深。捷克PDT语料库的标注体系是一个包含有3个相互关联层次的系统:一是形态(扩充的词类)标注,它含有特定词形的形态信息;二是分析性句法标注一一依存树的节点是带有标记的构句词形以及表示支配节点和依存节点之间句法关系的标注(如主语、
8、宾语、附语、状语等);三是句法语义标注,即依存树的节点是标有实义的构句词形和表示句法一语义关系的标注(如施事、受事、结果、出处和各种不同的状语修饰成分等)。捷克语料库句法标注的特点包括以下几点:每个词和标点符号都由一个节点表示;除树根外不增加节点;最终体现出来的是一棵依存树,树线(链接)被明确标出(标记粘着在依存树的依存成员上);允许有非投射。在最终的树图上每个节点的标注在分析句法层面上包括3部分:词汇(词形)、形态标记和句法标记(Hajio&Hajiaova,1997)oPDT的标注体系显然完全不同于前文所提到的其他树库。它标注的不是成分结构,而是句法关系。这主要和构建树库的语法理论有关,P
9、DT以依存语法(DePendenCyGrammar,TeSni6re,1959)为主,而其他的则以短语结构语法(PhraSeStructureGrammar,Chom-sky,1957)为主。从描述框架上看,PTB采用的句法结构树和PDT采用的依存树各有优势。句法结构树可以对不同层次的句法成分组合特点进行细致的描述,但缺点是有时层次比较深,操作起来比较麻烦,而且中心词(head)信息不突出。为此,PTB项目进行了一些改进,包括采用骨架分析方法减少层次深度,增加功能标记突出中心依存关系等。而依存树的优势则在于明确地标注出了中心词之间的句法依存关系,可以方便地转化为语义依存描述,但是对一些没有明确
10、依存关系的成分,它标注起来则有些力不从心(周强,2004:2-3)o此外,KarISSonetaI.(1995)提出的句法注释系统标注2种名词、7种谓词、3种形容词、2种主语、2种宾语、3种补语、2种状语、3种限定成分、其他后修饰语、3种关系和标题。该句法注释系统主要基于Kar1SSOr1等人创建的约束语法(ConstraintGrammar,CG),属于依存语法理论的一种。它包括词类标注、句法功能标注以及配价等相关信息。谓词网(Verbnet)是目前最大的在线英语谓词词典,其创建者是美国科罗拉多大学的Pa1mer和Kipper等教授。谓词网为自然语言处理(Natura11anguagePro
11、cessing,N1P)的应用提供了需要的信息,每一个谓词类包括成员集合、题元角色、句法框架、对每一个句法框架中论元的选择限制、句法框架中包含的语义谓词。这种句法框架只能反映序列关系,并不能反映出句子的结构和功能。在汉语方面,宾夕法尼亚大学的汉语树库CTB和中国台北中研院的汉语树库可分别看作是短语结构和依存结构树库的代表。宾大汉语树库句子的标注包括三个方面:词的切分、词类标注和句子分析。在句子分析层面上,鉴于汉语的词序比较严格,宾大汉语树库采取了短语结构而不是依存结构的分析方法。标注体系采取的是成分等级结构和功能标识相结合的办法(XUeeta1.,2005)o尽管宾大汉语树库采用的标注体例与英
12、语树库一样,但是有一个重要的不同之处:汉语树库要求一对带标记的括号代表一个结构语法关系,这使得具有不同语法关系的成分粘着在不同的层面上。就谓词词组内部结构而言,这就意味着补语和附语的标注处在不同的结构上。而对名词词组的内部结构来说,并列成分和它们共享的修饰语则粘着在不同的层面上(Xueeta1.,2005)O宾大汉语树库具有更新速度快、加工程度深、标注方法和算法上比较先进等特点。其缺点是,采用英语的语法框架来套汉语,难免出现削足适履的情况,标注结果有时与汉语为母语者的语感不符,不利于语言之间的对比研究。另外,标注的颗粒度有时候比较粗,在向依存结构树库转换时就会出错(王跃龙、姬东鸿,2009:5
13、0)o中研院汉语树库(Huangeta1.,2000;Cheneta1.,2003)从1986年起由中国台湾中央研究院词库小组(CKIP)建设。从中央研究院现代汉语平衡语料库中抽取句子,以基于信息的格语法(CaseGrammar,Fi11more,1968)的表达模式为基本架构,由计算机自动分析成结构树,再加以人工的修正和检验。该树库主要有以下特点:采用基于信息的格语法表达模式,兼顾了语法和语义两方面的信息。每一个中文句结构树不仅有语法的结构分析,而且表示出每个词之间的语义联系。在语义信息方面,不仅仅包含意义,而且包含其支配的论元和可能的修饰成分。在语法信息方面,标注了语法类别及其语法限制(陈
14、凤仪等,1999:88);中文句子的语法结构表达采取中心语主导原则(head-drivenprincip1e);同时提出了三项辅助原则:词类小而美原则、由左至右联并原则、扁平原则(陈凤仪等,1999:97)o中研院树库(陈凤仪等,1999:90-91)只包括6个词组和1个句结构树标识。除了以上的词组结构以外,还有其他一些和“的、地、得、之、至等组合成的词组。和宾大汉语树库相比,中研院树库更加关注语义结构的标注。北京大学汉语树库尽管规模较小,但构建时间较早(1997),对以后中国大陆树库的构建提供了样本。该树库参照了英语树库的处理经验并结合汉语分析的特点,确定了由19个标记组成的句法标记集(周强
15、等,1997:43)o它包括13种短语、2种句型、整句、句群、独立成分和直接引语。北大汉语树库对汉语短语的描述主要采用功能而不是结构分类的方法,因此具有以下特点:较好地体现了汉语语法单位之间的层次变化关系;建立了词与短语之间的功能对应关系;具有较强的适应性和可扩展性(周强等,1997:44)0和北京大学汉语树库相比,清华汉语树库的规模较大,覆盖面较广,比较真实地反映了汉语的全貌,是国内第一个大规模汉语树库,其句法信息丰富,加工层次较深(王跃龙、姬东鸿,2009:54)o该树库采用了完整的层次结构树描述框架,设计了双标记集的描述体系,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记
16、,分别描述其外部功能分布和内部组合特点,以期尽可能详细地描述汉语句子的句法组合信息(周强,2004:3)o成分标记集有16个成分标记,其中包括10种短语、2种句型、整句、句群、独立成分和直接引语;关系标记集有27个标记,包括15种结构和12种关系。目前,清华大学的研究人员已经开始在TCT上进一步进行更深层次的句法分析和词汇语义标注研究(周强,2004:7)o国家语委现代汉语语料库是从1990年开始,由国家语言文字工作委员会主持,组织语言学界和计算机界的专家学者共同建立的国家级语料库,是一个大型的通用语料库。该树库也采用结构和功能相结合的办法对短语进行标注,主要依据具有代表性的吕叔湘(1979)、朱德熙(1980)、胡裕树(1989)等的语法体系以及中学教学语法系统提要,既兼顾了我国主要的语法体系,又注意了与现行教学体系相衔接,具有科学性(靳光瑾等,2005:114)o国家语委语料库的汉语句法树标记集(靳光瑾等,2005:115)包括2个大类:短语功能和短语结构。此外,专门用于儿