|
王铁琨:报告当中首先引用了语言资源这个概念
王铁琨:李司长在报告当中首先引用了语言资源这个概念,过去我们总说语言是载体、语言是工具,很少有人讲过语言是一种资源。语言学者说到语言现象总是提醒张三这个用得不对,李四那个用得不对,批评的多。所以引用语言资源的概念,我觉得是一种进步。语言随着社会经济、生活的发展变化而变化,所以有必要对平面媒体、有声媒体、网络媒体,国家语言资源实施动态统计分析研究,逐步加强动态管理,并且要进行开发和利用。
我们这次调查主要采用的是计算机语料库的一些现代化手段,在定量和定性相结合的基础上,尽量增加了定量研究的成分,主要是试图用数据和事实说话。通过处理大规模的真实文本,这次调查确实得到了许多非常珍贵的数据,这些数据既有统计学的依据,同时又有语言学的意义。比如我们在80几万个文本文件当中,总的字次是9亿多字,汉字出现的字次是7亿多。在这么大的分量当中,真正的汉字字总数是多少呢?8225个。2005年的媒体用字是8000多字。...[全文] |
应有一个新观念 汉语是世界上比较好学的语言
现在发现媒体用了汉字是8225个,平面媒体、有声媒体和网络媒体共用的汉字是5607个。这就是我们现在语言生活的主要用字状况。 再看一下汉字的覆盖率。581个汉字就可以覆盖语料的80%,也就是你认识前581个字,就可以读懂媒体文字的80%。当覆盖率达到90%的时候只需要934个字。当覆盖率达到99%的时候需要2315个字。 我们和过去《现代汉语常用字表》比较,发现有很多不同。2500高频字当中有357字是一级常用字中所没有的。3500高频子与《现代汉语常用字表》比较,有398字是《现代汉语常用字表》中所没有的。
前7000字与《现代汉语通用字表》比较,有615字是《现代汉语通用字表》里所没有的。另一方面,《现代汉语通用字表》中的通用字有244个,在本次调查中没有发现。 这是不是现代媒体用字情况和当年制表用字发生了一些变化。 再看看汉字的其他情况,这里面有繁体字、异体字、不合现有规范的类推简化字、旧印刷自行、旧记量单位用字、方言字、汉字部件...[全文] |