TechCrunchにビッグデータの記事(参照元)が掲載されているものの、肝心の五戒が書かれていないので、(自分が読むようにプレッシャーをかけるため)原著より該当部分をここに要約・翻訳してみます。
Bad Data Handbook: Cleaning Up The Data So You Can Get Back to Work より引用
ビッグデータ分析の五戒
汝、扱うデータに無知なる事なかれ
Know nothing about thy data扱うデータについてちゃんと知るべし。以上。
リアルなデータは、汚く、混乱したものだ。汚いことを知っているべき。事前に、ちゃんとデータが整理されていないことに時間を割くのは良い時間の投資だ。直感的に、データ分析に用いる時間の80%は、データの掃除と変換である。ちゃんと知っていれば、この時間を短縮できる。
汝、分析にあたり、一つのツールで済ませようとする事なかれ
Thou shalt provide your data scientists with a single tool for all tasksデータ分析を解決するにあたり、すべてを解決できる一つのツール、というのはない。様々なツールには様々な適性があり、用途によって使い分けられるべき。
汝、分析のために分析することなかれ
Thou shalt analyze for analysis’ sake only目的を持たない分析や探索に割く時間はもったいない。具体的な問いでなくとも、何か調べる目的は必ず持っているべきである。そして、実践的な目的を立て、分析の「やめどき」を知っているべきである。
たくさんのデータがあるからといって、分析のための分析をするべきではない。
汝、得られた知見をタコツボに入れることなかれ
Thou Shalt compartmentalize learnings組織で分析をするときには、知見を積極的に共有するべきだ。
何を見落としているのかに気づくことは、共有していないとできない。
大きい組織だと、往々にして同じ分析を複数部署がやっているのに遭遇する。それは無駄だ。
汝、データサイエンティストが万能と信じることなかれ
Thou shalt expect omnipotence from data scientistsデータサイエンティストには、色々な種類がいる。
プログラミング、数学、統計学、ビジネス、機械学習、コンピューターサイエンスなどなど、様々な専門家がいるものだ。現在の世界では、これらのサイエンティストが効果的に協業できるようなインフラができている。
だが、だからといって、一人のサイエンティストに万能を求め、すべてをうまく分析してくれると期待してはいけない。
すべての分野を理解できているタレントは、本当にごく希だ。最低でも2~3人のチームとして、任務にあたってもらおう。
言うは易し、ではありますが、特に1-4については、いろんな過去の例が思い当たります。そして、良い分析ができるときというのは、やっぱり戒律をちゃんと守れている時だったんですよね。
マネーフォワードでは、生活改善に役立つ様々なご提案ができるよう、データ解析・編集を含めて膨大な時間を開発に割いております。(上記をちゃんと踏まえて)有益なものをお届けできますよう精進して参りますので、よろしくお願いします。