漢字字頻表

這是我整理出來的一份漢字字頻表。 包含漢字10029個。文件採用utf-8編碼,換行符為LF,每個漢字一行, 數字是對應漢字在文庫中出現的次數。漢字和數字由一個空格分隔。

語料文庫是我自己從網絡整理而來的,包含小說,雜誌,科普圖書,論壇帖子等,共計1億多個字符(文本大小300M)。由於語料原自網絡,受中國網站普遍採用GB2312,GBK,GB18030等漢字編碼影響,這些編碼表內的漢字字頻可能會普遍偏高。

字頻表文件下載點這裡。 大家可免費使用, 引用請用鏈接註明來源。 謝謝。

以下為出現概率最高的50個漢字(漢字字頻表 樣本):

的 3297023
一 1457301
是 1351322
不 1180802
了 1101932
我 884389
人 882330
在 796515
有 755533
這 728119
他 701933
來 544986
個 520640
上 481779
說 458096
中 449878
大 449758
為 419182
到 407893
也 395184
道 394611
你 393258
們 379450
出 367683
就 367473
時 352665
以 345967
之 339852
那 333349
和 324230
子 324078
地 319636
得 318594
自 315037
要 313208
着 306309
下 304634
可 292302
而 290081
學 289069
過 288254
生 287163
會 279275
對 277443
么 275780
然 275628
她 270942
國 261907
去 258723
里 254783
此條目發表在 信息處理 分類目錄,貼了 , , , 標籤。將固定鏈接加入收藏夾。

漢字字頻表》有 4 條評論

  1. shzh01 說:

    字頻表有什麼特別的用處么?

  2. npwjm 說:

    感謝提供!

  3. jixue li 說:

    謝謝分享。

發表評論