|
媒体词语的使用特点:
(1)高频词语数量及高频词语用字数量较稳定。高频词语数量稳定在1万余条,高频词语用字数量稳定在2700个左右。这些高频词语主要是语文词语,也包括少数专有名词和时间表达式。
(2)高频词语中使用频率变化较大的词语体现了年度社会生活。与2010年相比,2011年度下列词语使用频率明显增加,反映了2011年的社会图景:卡扎菲、限购、校车、房产税、辛亥革命、欧债危机、瘦肉精、京沪高铁、塑化剂、乔布斯。
(3)媒体中大量词语出现频率较低,占年度全部词种数91%的词语仅覆盖全部语料的1%。这些词语主要是人名、地名、组织机构名以及时间、数字表达式等。
3.新词语
2011年从国家语言资源监测语料库中提取出新词语594条。其中三字词语最多,占51.68%;其次为四字词语,占21.04%;二字词占15.66%。三字词语比例持续占优势,与近几年多用热门格式造词有关。2011年持续了2010年的“××门、××族、××哥、××体、微××”格式,其中“××体、微××”特别活跃,如“咆哮体、淘宝体、宝黛体、撑腰体、高铁体,微电影、微访谈、微小说、微生活、微招聘”等。
594条新词语中,完全由汉字构成的有573条,占96.46%;其余21条大多是字母词,如“CDI(综合发展指数)、U站、4D报纸、hold住”等。
2006到2010年共搜获年度新词语2977条,在2011年语料中,这些年度新词语有40%能留存下来,年使用频次在10以上,如博客、微博、动车、80后、保障房;有1/4低频使用,年频次在10以下,如晒友、高薪蓝、秒杀族、雷词、发票奴;还有1/3会隐退,从语言生活中消失,如撞峰、晒黑族、有碗族、楼断断、俗贿。
4.姓氏
在全部语料中出现了704 835个不同的名字(包括带姓的称谓,如“欧阳女士”之类),这些名字或称谓共出现
13 364 915 次。姓氏785个,其中单字姓 497个,二字姓 278个,三字姓 10个。
排在前100位的单姓是:李、王、张、陈、刘、杨、周、黄、吴、赵、孙、马、胡、徐、郭、林、朱、金、郑、高、何、宋、罗、梁、谢、姚、韩、冯、许、邓、曹、丁、蔡、蒋、于、杜、叶、唐、温、沈、彭、袁、姜、余、潘、万、苏、曾、董、汪、鲁、范、田、陆、白、方、贾、肖、谭、崔、雷、吕、石、钟、任、韦、康、卢、江、牛、魏、程、孟、安、廖、夏、戴、邵、龙、钱、齐、秦、毛、汤、邱、洪、乔、俞、华、莫、梅、熊、薛、穆、易、侯、尹、顾、段、傅。
出现的二字姓如:欧阳、司马、诸葛、上官、司徒、慕容、闾丘、皇甫、西门、尉迟、公孙、东方、令狐、申屠、端木、夏侯、东郭、呼延、拓跋、万俟、长孙、澹台、鲜于。
|