首 页 中国教育 教育资源 科研发展 教育信息化 教育在线 CERNET 校园之窗
 站内搜索:
 特别推荐: ·高校有责任帮助大学生“村官”安心扎根农村 2008-04-14 10:12   ·户籍限制 进度不同 农民工子女纷纷返乡就读 2008-04-14 10:09   ·南京:民办幼儿园名称不得出现“国际”等字样 2008-04-14 10:07   ·中科院报告显示青少年中高中生心理健康水平差 2008-04-14 10:05   ·城市流动儿童接触使用媒体经验比留守儿童丰富 2008-04-14 10:02   ·京城区小升初方案下旬出台 部分校施行小派位 2008-04-14 09:52  
 当前位置:EDU首页 > 中国教育 > 教育研究 > 语言文字 > 专题研究 > 中文信息化
面向计算机的语言研究(二)
2001-11-14    国家语委 冯志伟

邮件收藏功能可以方便将本页内容发至您的邮箱收藏。

字体大小:

  (2)复苏期(1970-1976年):  

  在这个复苏期,研究者们普遍认识到,原语和译语两种语言的差异,不仅只表现在词汇的不同上,而且,还表现在句法结构的不同上,为了得到可读性强的译文,必须在自动句法分析上多下功夫。  

  早在1957年,美国学者英格维(V.Yingve)在《句法翻译的框架》(Framework for syntactic translation)一文中就指出,一个好的机器翻译系统,应该分别地对原语和译语都作出恰如其分的描写,这样的描写应该互不影响,相对独立。英格维主张,机器翻译可以分为三个阶段来进行。  

  第一阶段:用代码化的结构标志来表示原语文句的结构;

  第二阶段:把原语的结构标志转换为译语的结构标志;

  第三阶段:构成译语的输出文句。  

  第一阶段只涉及原语,不受译语的影响,第三阶段只涉及译语,不受原语的影响,只是在第二阶段才涉及到原语和译语二者。在第一阶段,除了作原语的词法分析之外,还要进行原语的句法分析,才能把原语文句的结构表示为代码化的结构标志。在第二阶段,除了进行原语和译语的词汇转换之外,还要进行原语和译语的结构转换,才能把原语的结构标志变成译语的结构标志。在第三阶段,除了作译语的词法生成之外,还要作译语的句法生成,才能正确地输出译文的文句。  

  英格维的这些主张,在这个时期广为传播,并被机器翻译系统的开发人员普遍接受,因此,这个时期的机器翻译系统几乎都把句法分析放在第一位,并且在句法分析方面取得了很大的成绩。  

  这个时期机器翻译的另一个特点是语法(grammar)与算法(algorithm)分开。  

  早在1957年,英格维就提出了把语法与“机制”(mechanism)分开的思想。英格维所说的“机制”,实质上就是算法。所谓语法与算法分开,就是要把语言分析和程序设计分开,程序设计工作者提出规则描述的方法,而语言学工作者使用这种方法来描述语言的规则。语法和算法分开,是机器翻译技术的一大进步,它非常有利于程序设计工作者与语言工作者的分工合作。  

  这个复苏期的机器翻译系统的典型代表是法国格勒诺布理科医科大学自动翻译中心的机器翻译系统。这个自动翻译中心的主任沃古瓦(B.Vouquois)教授明确地提出,一个完整的机器翻译过程可以分为如下六个步骤:  

  (1)原语词法分析,(2)原语句法分析,(3)原语译语词汇转换,(4)原语译语结构转换,(5)译语句法生成,(6)译语词法生成。  

  其中,第一、第二步只与原语有关,第五、第六步只与译语有关,只有第三、第四步牵涉到原语和译语二者。这就是机器翻译中的“独立分析-独立生成-相关转换”的方法。他们用这种研制的俄法机器翻译系统,已经接近实用水平。  

  他们还根据语法与算法分开的思想,设计了一套机器翻译软件ARIANE-78,这个软件分为ATEF,ROBRA,TRANSF和SYGMOR四个部分。语言工作者可以利用这个软件来描述自然语言的各种规则。其中,ATEF是一个非确定性的有限状态转换器,用于原语词法分析,它的程序接收原语文句作为输入,并提供出该文句中每个词的形态解释作为输出;ROBRA是一个树型转换器,它的程序接收词法分析的结果作为输入,借助语法规则对此进行运算,输出能表示文句结构的树形图;ROBRA还可以按同样的方式实现结构转换和句法生成;TRANSF可借助与双语词典实现词汇转换;SYGMOR是一个确定性的树-链转换器,它接收译语句法生成的结果作为输入,并以字符链的形式提供出译文。  

  通过大量的科学实验的实践,机器翻译的研究者们认识到,机器翻译中必须保持原语和译语在语义上的一致,一个好的机器翻译系统应该把原语的语义准确无误地在译语中表现出来。这样,语义分析在机器翻译中越来越受到重视。  

  美国斯坦福大学威尔克斯(Y.A. Wilks)提出了“优选语义学”(Preference Semantics),并在此基础上设计了英法机器翻译系统,这个系统特别强调在原语和译语生成阶段,都要把语义问题放在第一位,英语的输入文句首先被转换成某种一般化的通用的语义表示,然后再由这种语义表示生成法语译文输出。由于这个系统的语义表示方法比较细致,能够解决仅用句法分析方法难于解决的歧义、代词所指等困难问题,译文质量较高。  

  (3)繁荣期(1976-现在):  

  繁荣期的最重要的特点,是机器翻译研究走向了实用化,出现了一大批实用化的机器翻译系统,机器翻译产品开始进入市场,变成了商品,由机器翻译系统的实用化引起了机器翻译系统的商品化。  

  机器翻译的繁荣期是以1976年加拿大蒙特利尔大学与加拿大联邦政府翻译局联合开发的实用性机器翻译系统TAUM-METEO正式提供天气预报服务为标志的。这个机器翻译系统投入实用之后,每小时可以翻译6万-30万个词,每天可以翻译1500-2000篇天气预报的资料,并能够通过电视、报纸立即公布。TAUM-METEO系统是机器翻译发展史上一个里程碑,它标志着机器翻译由复苏走向了繁荣。  

  日本富士通公司开发的ATLAS-I(Automatic Translation System-I)系统是一个建立在大型计算机上的英日机器翻译系统,该系统以句法分析为中心,可进行科学技术文章的翻译,在FACOM M380计算机上,每小时可翻译60000词。  

  日本富士通公司开发的ATLAS-II机器翻译系统也建立在大型计算机上,但其翻译方式与ATLAS-I不同。ATLAS-I以句法分析为中心,而ATLAS-II则以语义分析为中心。该系统目前用于日英机器翻译。  

  此外,日本的实用化机器翻译系统还有:日立公司开发的HICATS(Hitachi Computer Aided Translation System)英日、日英机器翻译系统,日本电气公司开发的PIVOT英日、日英机器翻译系统,三菱电机公司开发的MELTRAN日英机器翻译系统,冲电气公司开发的PENSEE日英机器翻译系统,理光公司开发的RMT英日机器翻译系统,三洋电气公司开发的SWP-7800日英机器翻译系统,东芝公司开发的TAURAS英日机器翻译系统,日本布拉维斯公司(BRAVICE INTERNATIONAL)研制的BRAVICE PAK 11/73日英机器翻译系统等。  

  欧美除TAUM-METEO机器翻译系统之外,还陆续推出了一批实用化的机器翻译系统。  

  法国纺织研究所的TITUS-IV系统,可以进行英、德、法、西班牙等四种语言的互译,每种语言都有一部14000个词的机器词典,每秒钟可译240个词,主要用于翻译纺织技术方面的文献。  

  美国在乔治敦大学机器翻译系统的基础上,进一步开发了大型的机器翻译系统SYSTRAN,已提供试用。例如,提供给美国空军的SYSTRAN系统,词典有16万8千个词干形式和13万6千个词组,可进行俄英机器翻译,每小时可翻译15万词;提供给美国拉特塞克(Latsec)公司的SYSTRAN系统,可进行俄英、英俄、德英、汉法、汉英机器翻译,每小时可译30万-35万个词。SYSTRAN是目前应用最为广泛、所开发的语种最为丰富的一个实用化机器翻译系统。  

  美国罗各斯(LOGOS)公司开发的LOGOS-III机器翻译系统,可进行英语-越南语机器翻译和英俄机器翻译,词典有10万个词。  

  美国国家航空和航天的NASA系统,可进行俄英和英俄机器翻译。  

  美国魏德纳(WEIDNER)通讯公司WCC的WEIDNER机器翻译系统,可进行英语与法语、英语与德语、英语与西班牙语、英语与葡萄牙语之间的双向机器翻译,并可进行英语-阿拉伯语的单向机器翻译。  

  设在华盛顿的泛美卫生组织研制成的PAHO系统,可进行西班牙语-英语的机器翻译。从1980年以来,已经翻译了100多万词的资料。近来,他们又推出了ENGSPAN和SPANAM两个实用化系统。  

  德国西门子(SIMENS)公司与美国德克萨斯大学(TEXAS University)合作,研制成METAL系统,可进行德英机器翻译,词典包含1万个词条。  

  德国萨尔大学(Universitat des Saarlandes)研制成SUSY(Saarbrucken Automatic Translation System)系统,以德语为中介,可以进行俄语、英语、法语、世界语的机器翻译。比如,由英语译成法语,首先要由英语译成德语,再由德语译成法语,每小时可译15000词。  

  此外,还有一些大规模的机器翻译系统正在研制之中,例如,EUROTRA计划、Mu系统、ODA计划、DLT系统等。  

  1978年,欧洲共同体在继续使用和发展SYSTRAN系统的同时,提出了欧共体内七种语言(后来变为九种)之间进行任何一方向翻译的多语机器翻译计划EUROTRA,此计划于1982年正式实施,前后延续了十多年,至今尚未达到预期的结果。 

  日本在提出第五代计算机计划的同时,于1982年至1986年由政府开展了英日、日英机器翻译Mu系统的研制,接着,又由通产省出面,组织与亚洲四个邻国(中国、印度尼西亚、马来西亚、泰国)合作研究日语、汉语、印度尼西亚语、马来语、泰语五种语言互译的多语言机器翻译ODA计划,原定于1987年至1992年完成,现在延长至1995年初完成。  

  欧洲共同体在1982年开始实施EUROTRA计划的同时,还支持了多语言机器翻译系统DLT的可行性研究。从1984年开始,改由荷兰政府和荷兰的一家软件公司BSO各出资一半对此系统的研制进行长期的支持,从1984年到1992年每年投资均在100万美元左右。DLT系统原打算九十年代中期开始实用化,可是至今尚未得到满意的结果。  

打印】 【关闭】 【推荐给好友 】 【页面纠错

 

  延伸阅读
· 面向计算机的语言研究(一)
· 面向计算机的语言研究(三)
· 曙光: 4000A超级计算机亮相国家十五
· 中科院手性分析技术合作研究中心成立
· 东北师范大学氧化锌紫外光发射材料与器件研究取得新进展
· 优质胡萝卜汁加工技术研究项目通过鉴定
· 湖北省数据库工程技术研究中心成立
· 打破世界超级电脑格局的中国超级计算机
  主编信箱 | 投稿
教育专题:全国教育系统众志成城 抗震救灾
·惠普“e校园”有奖调查
·第24个教师节特别专题
·城乡全面免费义务教育
·汶川大地震英雄教师谱
·理性爱国 发愤成才
  文献资料
·2006年全国教育经费...
·2007年全国高校优秀...
·2007年全国教育系统...
·2007年全国优秀教师名单
·2007年全国中小学德...
  教育黄页
·理工科通讯(2008/12)
·教育院/系/研究所名录
·中国教育网络
·中国大学教学
·浙师大教育评论研究所
中国教育和科研计算机网版权与免责声明
  ①凡本网未注明稿件来源的所有文字、图片和音视频稿件,版权均属本网所有,任何媒体、网站或个人未经本网协议授权不得转载、链接、转贴或以其他方式复制发表。已经本网协议授权的 媒体、网站,在下载使用时必须注明“稿件来源:中国教育和科研计算机网”,违者本网将依法追究责任。 
  ②本网注明稿件来源为其他媒体的文/图等稿件均为转载稿,本网转载出于非商业性的教育和科研之目的,并不意味着赞同其观点或证实其内容的真实性。如转载稿涉及版权等问题,请作者在两周内速来电或来函联系。 
 
Copyright(c) 1994-2008 CERNIC,CERNET 京ICP备020072
版权所有:中国教育和科研计算机网网络中心
关于假冒中国教育网的声明 | 有任何问题与建议请联络:Webmaster@staff.cernet.com