- 政策解读
- 经济发展
- 社会发展
- 减贫救灾
- 法治中国
- 天下人物
- 发展报告
- 项目中心
|
每年发布的《中国语言生活状况报告》都会揭晓上一年度的“十大新词语”和“十大流行语”,许多人好奇—— 热词热语是怎么“选拔”的
《2011年中国语言生活状况报告》最近发布,伤不起、虎妈、淘宝体和另外7个词,被宣布为“十大新词语”,十二五开局、乔布斯、利比亚局势等则是“十大流行语”……
许多人好奇,这两个“十大”到底是怎么“选拔”的?该不是一帮人围一桌你一言我一语凑出来的吧?中国传媒大学教授侯敏对此回应:怎么可能?这可是历经监测、过滤、筛选、释义等一整套程序,从每年10亿字的语料中像沙里淘金那般“提炼”出来的。
从几万条中挑几百个
侯敏教授有着另一个头衔:国家语言资源监测与研究中心有声媒体语言分中心负责人。她介绍说,每年总量10亿字的语料,取自平面媒体、有声媒体和网络媒体,并且逐年积累形成三大语料库。
平面媒体语料库每年新采集5亿字,以15份国内报纸为样本,收入1月1日至12月31日的所有文字;有声媒体语料库年采集1亿字左右,以央视开云网页版-开云(中国)官方在线登录联播、央广开云网页版-开云(中国)官方在线登录与报纸摘要等广播电视主流开云网页版-开云(中国)官方在线登录栏目为样本,将1月1日至12月31日的视频与音频素材全部转换成文字;网络媒体语料库的年采集量约4亿字,收纳新浪、腾讯等网站开云网页版-开云(中国)官方在线登录栏目的全年语料。
语料备齐,先要人工“淘洗”一番,查找补正漏字、缺字、乱码等等,而后一股脑儿送进语言信息处理技术平台,平台上装着全切分软件、自动分词软件等。在电脑上输入“我是学生”,立马会被切分成我、是、学、生4个字与我、是、学生3个词。
新词语,当然要“新”。把2011年度的语料统统切分成词语之后,需借助软件把它们跟此前几年的词语作比对,去旧留新,剩下来的就构成了年度新词语候选集——候选的词语有多少?年均几万条。不过其中包含了大量人名、地名、机构名称、数字表达式、时间表达式等,这些没有语言学意义,不能算,得剔除。侯敏说,每年最终入围的几百个新词语,就是从这几万条候选词中遴选出来的。遴选完全由人工操作,选中的词语还要逐条释义,为此几十名专家得集体工作两个多月。这部分工作的成果,《2011年汉语新词语》今年8月将正式出版。
相比新词语,流行语的“选拔”简单些。利用电脑软件,统计出每个词在365天中的生命周期长短、出现频次高低等指标,然后对比前一年数据,使用频率相仿的即刻淘汰,而一旦发现使用频率“异峰突起”的,就留下。“迅速盛行、广为传播是流行语和其他词语的最大区别;从新出现或较少使用到广泛使用的间隔时间短,是流行语的显著特征。”中国传媒大学副教授滕永林说,流行语的人工筛选也相对轻松,候选集跟最后公布的流行语差别不太大。
“额的神啊”、“吊丝”为啥没选上?
2011年度语言生活报告公布后,有人对那些热词、热语有意见:“跟我们的感觉不一样啊?”“有些用得很多的网言网语怎么没入选,‘额的神啊’在哪儿?” “今年2月,我们就2011年度的热词、热语向网友征求意见时,就听到了各种建议。”侯敏教授说,网友们举出了不少新鲜的网络用词,问报告中怎么不见踪影?我跟他们解释:网络媒体语料库在采集语料时以网站的开云网页版-开云(中国)官方在线登录栏目为主,BBS论坛、网友留言与发帖不在其列,“‘额的神啊’仅仅在论坛里热度很高,所以‘落选’了。” 今年,“吊丝”一词的去留成了争论最激烈的一个议题。经过一应前道工序,它也进入了候选集,但专家们犯难:不选吧?确是新词,征求意见时网友呼声极高;选吧?这个词品位不高,想准确释义更难。“我们选词有标准,得是新词,得有一定使用频率,得能反映当今社会生活,还得‘干净’,要有一定品位。” 侯敏教授举例说,几年前“铁娘子”吴仪说出“裸退”一词,这个词的使用频率其实很低,但经专家讨论,还是入选了年度新词语,“‘裸退’展现了一种胸怀,指明了官员退休的新方向,值得称道。”再比如,对“蒜你狠”、“姜你军”能不能入选,反对的声音不小,说这些新词不伦不类、不够规范;但讨论再三,专家们最终倾向于认为“老百姓在涨价压力下,以苦中作乐的心态和充满智慧的调侃创出新词语,反映了社会生活和个人境遇,该收!”
少数民族语言也新词迭出但暂难筛选
国家语言资源监测语料库,除了汉语的,还有少数民族语言的,藏语、维语、蒙语……少数民族语言分中心副主任、中央民族大学教授赵小兵向记者介绍,他们每年度采集的不同语种的语料达2亿字,也来源于各大网站、报纸等。
少数民族语言每年也在不断冒出热词、热语,然而受技术手段制约,一时还选不出来。“软件不够水平啊!”赵小兵解释,少数民族语言文字有特殊性,目前分词软件的准确率在92%上下,而按照大规模语料处理的要求,准确率至少要达到95%才行。
他说:“虽然暂时还没选热词、热语,但我们对少数民族语料的分析一直在做,你想象不出工作量有多大——采用人机辅助处理,需要大量人工干预。目前我们已经完成了藏语、维语中小学教材和网络词语的统计分析。”
记者 王乐