回答受付終了まであと3日

国会図書館・デジタルコレクションのデータを、OCR済みのテキストで閲覧することは可能でしょうか。

回答(1件)

Q:国立国会図書館デジタルコレクションを、OCR済みのテキストで閲覧することは可能でしょうか? A:通常の方法では、できません。 (1)このコレクションは、諸々の理由で、同図書館蔵書の誌面を画像としてスキャンし、著作権処理が済んだものをPDFでデジタル保存し同コレクションで公開するもの。OCR化はしません。というか、OCR化の精度はそこまでよくない(特に、古い時代の出版物については)のです。 (2)このコレクションは全文検索できるようにするため、画像化した誌面の情報を同図書館と民間会社が開発した超高度OCRツールを使って文字を切り出し、公開されているデジタルファイルにフルテキスト検索のためテキストデータが埋め込まれているそうです。そのため、特殊な方法で見ることができるとの報告が、以前、同種の質問をなさった方が、最後の「質問者からのお礼コメント」に寄せていらっしゃいました。 質問者の報告:「国立国会デジタルコレクション」ではなく、「次世代デジタルライブラリ」から全テキストデータのダウンロードができました。 https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q11284259681 /質問者からのお礼コメント https://detail.chiebukuro.yahoo.co.jp/qa/question_detail/q10282423785 /質問者からのお礼コメント

この回答はいかがでしたか? リアクションしてみよう