世界を観察することで、私たちは知覚に情報を与え続けている。そのことで私たちは片側しか見ることのできない、或いは一瞬しか見ることのできない物体の全体像を想像することを、かなり上手にできるようになる。しかし、コンピュータにとってそれはただ苦手な仕事だ。しかし幸いなことに、 バークレーのAI研究者が作成した賢い手法が、その性能を大幅に向上させてくれるかもしれない。
何かを2Dで見て、実際の大きさを正確に推測することができるなら便利だ。それはARやVR、クリエイティブなワークフローなどの中でオブジェクトを追跡することを助ける。だが、それは難しい!
次元を上げるということは、考えなければならないデータが大幅に増えるということだ。各辺が100ピクセルあり、全体で1万ピクセルの画像を考えてみよう。それを正確に再現しようとするならば、高さも100ピクセルになるかもしれない。その場合に必要なボクセルは合計で100万ピクセルになる。これで3Dというわけだ。そしてもう少しだけ正確性を増したいとしよう、例えば各辺128ピクセルとしてみる。すると必要なボクセル数は200万となる。
それぞれのボクセルの中身(すなわち「空」または「充填」のいずれか)は、元の画像を分析することによって計算されなければならず、リアルな忠実度が必要な場合には計算量は急速に増大する。
左の2D画像を、1辺16ボクセル、1辺32ボク
コメント