もし私があなたにある部屋の一枚の写真を見せたなら、おそらくあなたはすぐに、目の前テーブルがあり、その前に椅子が置かれていて、両者はおそらくほぼおなじ大きさで、だいだいこれくらいお互いに離れていて、壁からはこれくらい離れているといったことを、すぐに説明できるだろう。その部屋のざっとした見取り図を書くのには十分だ。コンピュータビジョンシステムは、このような空間理解への直感を有してはいないが、DeepMindを用いた最新の研究は、これまで以上にその境地に近づきつつある。
このGoogleの研究組織から発表された新しい論文は、本日(米国時間6月14日)Science誌に掲載された(研究を引用したニュース記事も添えられている)。この論文が詳述するシステムは、事実上何も知らないニューラルネットワークが、1、2枚の静的2次元映像を見るだけで、ほぼ正確な3Dモデルを構築するというものだ。なお、ここで話題にしているのは、複数のスナップショットから完全な3D画像を構築する(Facebookがそれに取り組んでいる)という話ではなく、人間が世界を観察して分析する際の、直感的で空間的な認知を模倣しようとする試みだ。
私が「事実上何も知らない」と表現するとき、それはただ標準的な機械学習システムであるということを意味してはいない。ほとんどのコンピュータビジョンアルゴリズムは、教師付き学習と呼ばれるものを介して動
コメント