reCAPTCHA すごいけど、実際の価値はどんなもん

reCAPTCHA – キャプチャを利用した人力高性能OCR | 秋元@サイボウズラボ・プログラマー・ブログ
で紹介されていたreCAPTCHA は発想がすごいです。ユーザが無意識のうちに、サービス提供側の利益に貢献しているのがなんともいえない。

実際に
http://mailhide.recaptcha.net/
で適当なEmailアドレスを入力して、"Protect It!"を押すと、2つの単語のキャプチャ画像とフォームが表示されるので、正しい文字列を入力する。何回かやってみて、わざと間違えてみたりもしてみたが、両方とも正確に入力しないと、ProtectされたEmailアドレスはちゃんと表示されなかった。

ところで、ここでちょっと疑問なんだけど、2つとも正解の単語を入れないと、正解が表示されないってことは、2つとも文字認識できているってことでは?でなくても、相当正しいと識別されている単語が表示されているのではないか?だったら、それ以上人間の目でみて認識率を上げる必要もないのでは?と思ってみたり。スキャナの解像度とOCRソフトの改良をするほうが経済的に有意義ってことはないんだとうか?

普通に出版される本だって誤字のひとつや二つあるだろうに。それ以上の正確さをOCR後のテキストに求めているということなのかなあ。などなど、理論的にはきれいに整っているのだけど、実際にサービスとして運用するには、実際にどれほどの価値(売り上げ)があるんだとか、ユーザのサンプル数は大量に必要とか、課題がおおいんだろうなあ。


これから注目されるのは、動画の検索とか、動画の認識、識別とか、実際の課題としてあるものを解決していく人がでてくるといいなあ。