|
[ 李宇明 ] 第四,语言生活状况报告的新闻发布已经五年了,我们对五年来的情况也做了一些比较。
[ 李宇明 ] 首先,我们发现这五年来,高频字使用非常稳定。看看05年到09年使用的情况,覆盖整个语料80%、90%、99%的高频字,用字数量基本上差不多。而且在最常用的3500字里面,这五年来有3358个字是相同的,说明语言生活用字比较稳定。
[ 李宇明 ] 二是每年的语言生活出现一些有特色的用字。这些有特色的用字,都反映了当年的重要事件。
[ 李宇明 ] 三是年度用字总表与现行规范字表之间的差异。比如最常用的是《现代汉语通用字表》,这是上个世纪制定,7000通用字。但是现在媒体里面,有661个字没有在这个字表里面出现。这种情况也说明了语言文字的规范应该根据时代的发展不断调整。同时,也说明了现在用大规模的语料统计方法看语言使用情况,提供很大的支撑。从词语来看,总体上高频字稳定使用,但是每一年高频词都有一些变化,这些变化都会体现当年的语言生活的变化的情况。
[ 李宇明 ] 第五,今年我们对8套小学语文教材的用字情况进行了比较分析,大陆6套、中国台湾1套、中国香港1套。这8套小学语文教材用字总共出现的字是3855个,其中生字出现最多的是人教社的新课标版,出现生字2997个,出现生字最少的是台湾的康轩版,2238个。这8套教材当中,在生字表里面共有的字是1397个,占总生字数的36.24%;有很多字是在其中一套教材里面出现,有505个,占13%。这个情况说明我们教材里面用字量虽然差别不大,但是哪个教材用哪些字,差别很大。要知道这是小学教育,小学教育用哪些字应大致差不多,但是通过统计,我们发现情况很不一样,每一套教材里面用哪些字差别比较大。
[ 李宇明 ] 首次出现生字的情况。小学第二个学期、第三个学期、第四个学期是出现生字的高峰,也就是一年级下学期和二年级,是识字的高峰。由于各种教学方法的不同,人教社新课标版生字起伏比较大,台湾康轩版生字出现曲线比较平稳。这可能是教学方法不一样产生的。
[ 李宇明 ] 今年对2009年少数民族语言情况进行了分析,主要是藏语和维吾尔语。藏语,主要是对小学藏文语文新课标教材用词情况进行统计,这是我国首次就少数民族语言文字教育教材使用状况进行调查,为教材的客观评价提供了一些定量的参考,也为藏文的量化字词教学提供一些根据,为今后更好地提高藏语文教材的编写质量奠定基础,从而更好地为藏语的双语教学服务。我们调查藏语教材,用的是青海民族出版社2009年5月出版的五省区语文实验教材的教科书。
[ 李宇明 ] 藏语文教材每一册的生词是双音节词最多,词长比例呈现这样的不等式,双音节词>单音节词>三音节词>四音节词。
[ 李宇明 ] 从课文用词来看,我们调查12册教材里面共出现藏语词种9000多条,词种总数97万左右。学习词种的数量不断增加,说明藏文小学课文的编写还是比较重视词语使用的科学性。我们还调查了高频词使用情况,特别500高频词的情况。还进行了其他的调查项目。
[ 李宇明 ] 维吾尔文的情况。使用的主要是9大网站的语料,有新疆政府网、昆仑网、天山网、教师网、医学网等9大网站。采集语料的时间跨度是从2006年到2009年。语料的内容涉及方方面面,有政治、经济、科学研究、教育、健康等多个方面,总共的语料数量不是很多,词符种数20万条,词符频次547万次、文本数15878个。调查了符号使用情况,总共使用了38种符号。维吾尔语构词非常有意思,有词干和词尾,我们对词尾的情况作了一些调查,有一个词表,很多专家觉得通过这样的调查加强对维吾尔文使用情况的了解是非常重要的。维吾尔文用词呈现出低频词种数庞大,说明维吾尔语还是充满活力的,词的数量很多。但是,使用起来还是相对集中,高频词使用集中,这些情况跟汉语的情况基本差不多。维吾尔文字母长度很长,1-4个字母的词比较少,使用4个字母以上的词为主。
[ 李宇明 ] 少数民族语言用词调查工作面临着两大困难。一是资料收集困难,电子文本没有汉语电子文本多。二是少数民族语言文字信息处理技术的平台问题,在怎么分词、怎么用计算机统计方面,还需要进一步加强。但是,调查的意义重大,调查得到的语言数据都是实态的,及时地发布数据可以为少数民族语言文字的规范化、标准化和信息化提供科学的支撑,也可以为科学研究和相关单位的决策提供参考。国家语言资源监测研究中心高度重视民族语言文字的监测与研究工作,今后这项工作还要继续进行。对今年的年度生活状况报告已经开始着手分析了,到明年我们再发布今年的语言生活状况报告的情况。谢谢各位。
推荐专题:教育部2010年第8次新闻发布会专题报道
推荐专题:纪念《国家通用语言文字法》颁布10周年专栏
|