标签归档:汉语信息处理

汉字字频表

这是我整理出来的一份汉字字频表。 包含汉字10029个。文件采用utf-8编码,换行符为LF,每个汉字一行, 数字是对应汉字在文库中出现的次数。汉字和数字由一个空格分隔。

语料文库是我自己从网络整理而来的,包含小说,杂志,科普图书,论坛帖子等,共计1亿多个字符(文本大小300M)。由于语料原自网络,受中国网站普遍采用GB2312,GBK,GB18030等汉字编码影响,这些编码表内的汉字字频可能会普遍偏高。

字频表文件下载点这里。 大家可免费使用, 引用请用链接注明来源。 谢谢。

以下为出现概率最高的50个汉字(汉字字频表 样本):
继续阅读

发表在 信息处理 | 标签为 , , , | 4 条评论