編集部注:本稿の著者Asaf Cohen(アサフ・コーエン)氏は、データ運用プラットフォームであるMetrolink.aiの共同設立者兼CEO。
ーーー
「80:20のルール」としても知られるパレートの法則は、結果の8割は、原因全体の2割に相当する事柄に起因しているのであり、その他の原因が結果に及ぼす影響は小さいとする。
データ関連の仕事をしている人なら、この80:20のルールの別バージョン、すなわち、データサイエンティストは実際の分析やインサイトの生成ではなく、雑然としたデータを整えるのに勤務時間の80%を費やしている、というフレーズを耳にしたことがあるのではないだろうか。通常なら30分で行ける道のりを、交通渋滞のために2時間半かかるという例を考えれば、このフレーズの言わんとするところが理解していただけるだろう。
実際には、ほとんどのデータサイエンティストはデータ分析に勤務時間の20%以上の時間を割いているだろうが、それでも雑然とした大量のデータを分析に適したものに整えるのに数え切れないほどの時間を費やしているのが現状だ。重複したデータを削除したり、すべてのエントリが正しくフォーマットされていることを確認したりすることもこのプロセスの一部であり、その他の準備作業もしなければならない。
Anacondaの最新の調査によると、このプロセスに平均して全体の時間の45%が費やされているこ
コメント