ブログで100万の秘訣ってなに?
詳しくはコチラ

米国議会図書館が機械学習で300年ぶんの新聞の画像を抽出し検索可能に

IT起業ニュース
昔の事件や人々に関する記録に関心のある歴史家たちは、かつては古い新聞の目録カードをかき分けていたが、次にマイクロフィルムをスキャンするようになり、やがてデジタルリストを検索するようになった。だが現代の技術は、個々の単語や写真に至るまで索引化を可能にした。米国議会図書館では、最新鋭の機械学習を使って1何世紀も前からの新聞記事の写真やイラストをデジタル化し分類する取り組みを進めている。
同図書館の「招聘イノベーター」の座を獲得したワシントン大学研究員であるBen Lee(ベン・リー)氏が主導するプロジェクトNewspaper Navigator(ニューズペーパー・ナビゲーター)では、アメリカの歴史に残る1600万ページぶんを超える新聞の画像を収集しデータを抽出している。
リー氏とその仲間は、昔の新聞や印刷物のデジタル化で先行しているChronicling America(クロニクリング・アメリカ)の仕事に刺激を受けた。Chronicling Americaは新聞のあらゆる内容を光学文字認識(OCR)でスキャンしているが、これはクラウドソース・プロジェクトでもあるため、さらなる分析のための画像の特定や切り出しは人の手が必要だ。ボランティアの作業員は、第一次世界大戦に関係する画像を枠で囲んで説明文を書き写し、画像を分類している。
この限定的な取り組みを見て、リー氏のチームは考えた。「印刷物

リンク元

コメント

タイトルとURLをコピーしました