CRISP-DMを活用する上で注意すること

こんにちは、CTO室AI推進部アナリストグループの足立です。私たちアナリストグループは、主に「プロダクトの課題発見のためのデータ分析」に取り組んでいます。ユーザの皆さんがサービスをより利用しやすくなるよう、データ分析によって得られた知見は様々な場面で活用しています。

 前回[1]は、多くのデータアナリストが参考にしているであろう、CRISP-DMと呼ばれるデータ分析のフレームワークを紹介しました。今回は、CRISP-DMを活用する上で注意することについて紹介します。

CRISP-DMのおさらい

 CRISP-DMは、データを中心に、ビジネス理解から始まり共有・展開に至るまで、6つの工程があります[1]。

  • ビジネス理解:背景を理解し課題を選定する
  • データ理解:データを集計・可視化して傾向を理解する
  • データ準備:データを機械が理解できる形へ変換する
  • モデル作成:変換したデータからモデルを作成する
  • 結果の評価:結果から課題を解決できるかどうか評価する
  • 共有・展開:得られた知見やモデルを業務フローやシステムへ導入する

活用する上で注意すること

 この記事[2]では、CRISP-DMを活用する上で注意することを4つ述べています。これらは、データ分析の成否を左右するものです。4つの注意点について以下に、理解した内容を自分の言葉で要約します。

①問題解決のみに捉われない

 目標を理解しその達成にかかる工数を最小限に抑えた上で、自由度の高い分析をすれば興味深い結果を得られるかもしれません。分析の結果は問題解決に役立たないかもしれませんが、そこから新たな着想を得られる可能性があります。しかし、やりたい作業ばかりに注力しすぎると、実際のビジネスに適用できない可能性もあることに注意しましょう。

②分析の指標のみで評価しない

 分析し得られたモデルの精度が高いことは、必ずしも目標の達成に直結するとは限りません。結果は、モデルの精度と目標の達成どちらの観点からも評価しましょう。これが不足すると、工程を一からやり直すことにつながりかねません。

③システム導入まで見据える

 モデルをシステムに導入したいとき、始めからそれも見据えて作業の計画を立てましょう。分析自体は評価の工程で終わったとしても、モデルは共有・展開の工程へ渡されます。モデルを運用する環境の構築や推論処理なども併せて検討しておくとよいでしょう。

④CRISP-DMは繰り返すもの

 ビジネス理解から共有・展開まで一周して終わり、ということは少ないでしょう。もし前提条件が変わればビジネス理解に戻って、データの質が変わればデータ理解に戻ってやり直すことは起こりえます。また、データ量が増えればモデル作成に戻って、モデルを新しいものに更新します。この反復がなければ結果の価値は下がり、機会損失につながるかもしれません。

まとめ

 CRISP-DMの分析サイクルを離れ、その先のシステム運用まで成し遂げたいとき、また別のフレームワークが必要になってきます。それはまた後日、別の機会に紹介することにしましょう。

参考文献

[1] CRISP-DMに沿ってデータ分析する
[2] Four Problems in Using CRISP-DM and How To Fix Them


マネーフォワードでは、エンジニアを募集しています。
ご応募お待ちしています。

【会社情報】
Wantedly
株式会社マネーフォワード
福岡開発拠点
関西開発拠点(大阪/京都)

【SNS】
マネーフォワード公式note
Twitter – 【公式】マネーフォワード
Twitter – Money Forward Developers
connpass – マネーフォワード
YouTube – Money Forward Developers

Pocket