標籤歸檔:垃圾信息

reCAPTCHA:一次一個字地數字化圖書 google的絕妙創意

像下圖的驗證碼界面相信不少網友見過吧?

recaptcha

這個是Google和很多其它網站都在使用的驗證碼界面。我很久之前就遇到過了, 但我是到今天才知道它叫reCAPTCHA, 並且這背後的有藏着一個大陰謀--Google正在用它一次一字地數碼化傳統的打印在紙上的報紙和圖書!

每次reCAPTCHA會顯示兩個單詞。 這兩個單詞中有一個google是認識的, 另一個是google用掃描儀從圖書或報紙上掃描出來,用計算機識別不出來的難字。 用戶在填驗證碼後,google會根據那個已經認識那個單詞的輸入準確性判斷用戶是不是機器人。如果用戶通過測試, google就把用戶錄入的另一單詞作為對應難識別字的正解。。。 當然,google不會只相信一個人的判斷, 它會把這個難詞多次交給不同的人去識別, 然後統計分析出最可能的正解。 這樣的驗證驗被提交一次, 實際上就是在幫google錄入一個圖書的文字!

CAPTCHA驗證碼本來是在垃圾信息同機器人橫飛的年代,不得以被逼出來的一種費財費力的東西。 沒想到google會將之變廢為寶, 利用它來信息化圖書。 這可人類省下多少精力, 又可為自己帶來多少利潤呢?

我在想: 現在很多人花錢到健身房去健身,其實上在里做了很多無用功, 要是能用類似這些健身的功力來發電, 用這些電可以從井抽多少的水? 又可以節省多廢氣的排放呢?

google關於reCAPTCHA的更多說明(英文):
http://www.google.com/recaptcha/learnmore

reCPTCHA是開放api的。你可以在自己的網站上使用reCAPTCHA。 從上面的鏈接進去可以申請。

發表在 信息處理 | 標籤為 , , , | 一條評論