ウミガメのスープ

人件費を節約せよ

作者: UNC

これは僕がネットサーフィンしていたら偶然知った話なんですけど、ある会社が古書を読み取ってテキストデータにしたいと考えたんですね。
でも古書は文字が整ってないので文字を読み取るには機械じゃ無理でどうしても人力で1文字1文字読み取らないといけないんです。
しかしこの会社は別の会社と提携することにより、人件費をほとんどかけずに読み取り作業を進めることができたのです。
いったいどうやったのかわかりますか?もちろんブラック企業とかではありませんよ。

出題者が、解き手の進み具合に応じて上から順に出すためのヒントです。

ヒントはまだありません。

過去の実際のやりとりです。質問されたら参考に答えてください。

はい

人力で読み取りましたか?

YES ※ミスリード注意

いいえ

古書の文字は普通の人では読むことができませんか?

NO 読むことができます

古書の文字が整っていないのは人が書いたためですか?

YESNO 重要ではありません

いいえ

人件費が発生しなかったんじゃなく利益が生まれたのでプラスマイナス0になりましたか?

NO

いいえ

タイピングアプリの会社と連携しましたか?

NOですが発想は近いです

はい

古書は活字ですか?

YESとしておきます

いいえ

古書のジャンルは重要ですか?

NO

はい

会員制サイトのセキュリティで画像の文字を入力させるのは関係しますか?

YES

はい

核心古書のすべてのページの写真を撮って数文字ずつに分割し、ロボットではないことを証明するための会員登録の文字認証に使いましたか?

YES 思ったより早かったww

はい

画像の文字を入力させて人間かどうかを判別するセキュリティを提供する会社ですか?

YES

答え

古書をスキャンして画像データにするのは簡単なんですが、その画像に書かれていることをどう人出をかけず読み取るのかが問題な訳です。
そこで我々が会員登録とかで良くやらされる、画像の文字を読み取って書かせて機械でないことを証明させるアレをやってる会社と提携して、文字認証で2つの単語を入力させるようにしました。
1つ目は既に答えを知っている単語、2つ目はテキストデータにしたい古書の一部の単語が含まれた画像です。
サイトの利用者が2つの単語を読み取って入力すると1つ目の単語で認証が行われ、正しければ2つ目の単語も正しいと推測して単語の読み取り結果が保存されるというわけです。
これを膨大な利用者に対して行えば古書の全ての単語について単語の読み取り結果は保存され、古書のテキストデータ化が出来るというわけです。
利用者は知らず知らずのうちに古書のテキストデータ化に協力していたんですね。
保存しました

参加者に解説を表示中。各自が封を開けます。


💬 参加者チャット

この問題、気に入りましたか?

📺 配信・対面での出題にご利用いただけます。ご利用のルール(出典・改変について)