中文信息处理与现代汉语语法(2)

时间:2021-03-23 16:25:49 论文范文 我要投稿

中文信息处理与现代汉语语法


 C组:天气好——好天气(主谓——偏正)很好——好得很(偏正——述补)
  来人了。——人来了。(述宾——主谓)
  一张票三元钱。——三元钱一张票。(主谓——主谓)这一组都是由于语序的不同而形成的结构和意义都不同的短语和句子。这些结构对人而言,稍加学习就可以理解,但这些给计算机理解意思增加了难度。需要人们把这些语序的变化形成的不同的结构概括出规律来,再用形式化的方式描述出来。输入到计算机里。
  
  三、歧义现象
  
  现代汉语短语结构的歧义是进行汉语句法分析的一大障碍。“句处理”要解决的核心问题是排歧问题,计算机面对的歧义,不只是我们人所能感觉到的诸如下面这样一些句子的歧义现象:
  
  (1)他正在输血。(他正给病人输血。/他病了,正输血。)
  
  (2)看望的是病人。(你看望的那个人是病人。/看望你的那个人是病人。)
  
  (3)我们急需进口产品。(我们急需进口的产品。/我们急需从国外进口产品。)
  某些在人看来不存在歧义的句子计算机会认为有歧义.例如:
  (4)a他被警察叫去罚了一百块钱。
  b他被警察叫去写了一份检查。例(4)a句和b句,在人的眼里结构是不一样的。a句“被警察”这个介词结构一直管到底。全句意思是“他被警察叫去,他被警察罚了一百块钱”:而b句“被警察”这个介词结构只 管到“叫去”,管不着“写了一份检查”。可是,计算机分辨不清楚。要让计算机分辨清楚,我们就得将“PP+VPI+VP2”(PP代表介词结构,VP1和VP2分别代表紧挨着的不同的动词性词语)这种结构中的PP对后面动词性词语管辖的范围及其条件与规则进行充分、准确的描写,并加以形式化,“交给”计算机。而这一类现象与规则我们过去根本就没有考虑过,更不用说研究了。
  其实以上所举的例子都存在歧义问题,因此,也可以这么说,“句处理”要解决的核心问题是排歧问题。
  中文信息“句处理”的研究工作,上个世纪80年代就开始了,最早进行“句处理”研究工作就是基于规则展开的,但上个世纪90年代初,基于规则的“句处理”研究工作遇到了重重困难与难关,主要是语言学家所提供的语言规则远远不能满足信息处理的需要。目前,为了解决好中文信息处理中的“句处理”难题,出现了一个竞相研究、竞相发展的局面。对于句处理,提出的各种策略和途径,归纳起来。主要有基于规则和基于统计这两种策略。基于规则的研究者,一般求诸专家的理性知识,由人来对语言知识进行抽象:基于统计者,一般求助于计算机对大规模语料库真实文本的统计分析,由计算机来抽象出语言知识。各种策略和途径,目前,我们还很难说哪一种是唯一正确的。各种策略和途径,表面看不同,其实,最终都需要依赖可靠的汉语知识来驱动计算机正确处理自然语言(汉语)。因此,“无论是比较传统的基于规则的处理策略,还是90年代以来方兴未艾的基于统计的方法,在对语言知识的需求这一点上实际上都是共同的。所不同者,走规则路线的研究者一般求诸专家的理性知识,由人来对语言知识进行抽象(比如以带有合一条件的规则形式给出)。而走统计路线的研究者一般求助于计算机对大规模的语料库的统计分析,由计算机来抽象出语言知识(比如以一定的数据结构记录的统计结果等)。两种路线孰优孰劣,不能笼统判断,只能跟具体的应用目标结合起来,由实践结果来评价。”目前,越来越多的学者提倡把两种方法结合起来使用。因此,相信在不久的将来,我们会攻克难关,实现计算机对自然语言的处理与理解的目标,使中文信息处理技术处于世界领先地位。
  
  参考文献:
  
  1.兰宾汉、邢向东:现代汉语(下册)[M].北京:中华书局,2007,48。
  2.亢世勇:面向信息处理的现代汉语语法研究[M].上海:上海辞书出版社,2004,177。
  3.陆俭明:现代汉语语法研究教程(第三版),[M].北京:北京大学出版社。2005年,51。
  4.詹卫东:面向中文信息处理的现代汉语短语结构规则研究[M].北京:清华大学出版社,2000,2。

请继续阅读相关推荐:毕业论文    应届生求职

毕业论文范文查看下载