【書評】『データサイエンティストの秘密ノート 35の失敗事例と克服法』〜みんな同じようなことで困ってる…でもこの本を読めば解決策が見つかる!

Amazonにおける本の紹介

近年ビジネスにおいて、現状を分析し、意思決定を行ったり、説得力のある提案をするためのツールとして、膨大なデータを介したデータ分析の必要性がますます高まっています。膨大なデータを蓄積し続けてはいるものの、それらを有効活用している企業は非常に少なく、分析ニーズも高まるばかりです。本書は、データ分析の初心者や企業担当者を対象に、データ分析の実際を解説するものです。

「人は成功からは学べない、失敗からこそ多くを学ぶのだ」という認識から、SBTが手掛けた事例を元に、データ分析を行う際に起こりやすい失敗事例とその克服法を解説します。これにより、読者は、リアリティのある、真に役立つデータ分析の実例を学ぶことができます。

著者は、豊富なデータ分析の経験を持つSBT社データサイエンス部のスタッフであり、ダイナミックかつ具体的な事例を紹介します。

amazon.co.jp

感想

失敗事例とその解決策がまとめられた本です。

「わたしもこういう失敗をしたことあるな…」というのを思い出してちょっと胃がきゅっとしましたが、本書では解決策も明確に提示してあるので、読み終わった後は元気になりました。

ふむふむ、こうすればよかったのか!

末尾の、若手データサイエンティストへのインタビューも面白かったです。

技術的な問題というよりは、顧客とのコミュニケーション業務の進め方について示唆が得られる本です。

こういうのは独学でなんとかなるものではなく、経験を積んでうまくなっていく性質のものだと思うので、「体験談」としてまとめられているのが理解しやすく、受け止めやすくて良かったです。

とくに有益だった失敗事例についてコメントします。

失敗事例1:分析目的から逸れた興味本位な分析をしてしまう

失敗事例2:ヒアリングで依頼者の本当の要望がくみ取れない

失敗事例3:依頼者へのヒアリングが中だるみ状態になる

このへんは「わかるわかる!」と膝打ちしながら読みました。

納得してもらいアクションにつながる分析をするには、なにより目的を明確にすることが重要ですが、そのためには依頼者の本当の要望を汲み取ることが必要で、そのために丁寧にヒアリングすることになります。ですが、ヒアリングってすごく難しい

時間が限られているのもありますし、ステークホルダーの方が分析に必要な情報を全てお持ちというわけではなかったりもして、なかなか核心に迫ることができない。そうこうしているうちに、依頼者の方も分析者も熱意が失われていく…

本書では、「頭を空っぽにして相手の話を聞き、相手の仕草や表情に気を配ることが大切」ということと、繰り返しヒアリングをする際に、「そのヒアリングは「何のためにやるのか」 、そのヒアリングは後々「どのような影響があるのか」 、そのヒアリングで「何を得られるのか」を明確にする」ということが書かれていました。

うーんたしかに依頼者の話をちゃんと聞けていなかったし、ヒアリングの目的が明確ではなかったかもしれません…

あと、分析フェーズでは、

失敗事例12:新たな分析手法にチャレンジしたが、時間が足りない

失敗事例13:必要のないモデルの構築に時間と費用をかけてしまった

失敗事例15:分析の計算処理に長い時間がかかってしまう

失敗事例21:現実の要因を多く反映した複雑なモデルを作ろうとしてしまう

というのが「あるある」だなと思いました。

解決策として、「シンプルにすること」「確実で簡単なモデルから試してみて、細かく報告する」ことが書かれていました。

これも、分析の目的がはっきりさせて、その目的を達成するためにスモールステップで仕事を進めていくということなのだと思います。

「シンプル」は本当、その通りだなと思うんですけど、どうしてもtoo muchになりがちですよね…

この点は報告フェーズの失敗事例

失敗事例31:報告資料のコメントがわかりにくいと言われてしまう

失敗事例32:情報を詰め込みすぎたスライドを作ってしまう

にもつながってきますね。

この本に載っている解決策は「たしかに!」ではあるのですが、意識していてもすぐにはうまくできるようにならないだろうなと思います。自分で経験し、試行錯誤しながら自分なりのやり方を身につけていく必要があります。でも解決策(の一つ)を知っているのと知らないのとでは、知っているほうがスムーズに上達するのではないかと思います。

35の失敗事例とその解決策という形でまとまっていて、とても読みやすいですし、失敗が書かれていて共感しながら読めるので、「分析のお仕事うまくいかないんだよな…」と思っている方は読んでみると前向きになれるかもしれません。

概要

はじめに

データ分析において失敗は避けられず、次に活かすことが重要です。失敗を予測し対策するのが理想的だが困難です。失敗を記録し組織内で共有することが大切で、本書ではソフトバンクのデータサイエンティストの35の失敗事例が提示されています。失敗を共有することでスキル向上と組織全体のデータ活用力が向上します。データ分析者は失敗から学び独自のフィロソフィーを形成し、洞察力を高めることができます。

Chapter1 3つのフェーズで進めるデータ分析プロジェクト

データ分析プロジェクトは3つのフェーズに分かれ、それぞれが3つのステップで構成されています。最初の「準備フェーズ」では目的や計画を立て、次に「分析フェーズ」で具体的な分析を行い、最後に「報告フェーズ」で結果を報告しアクションに導きます。

データ分析の各フェーズとステップは細かく説明され、特に「分析ストーリーステップ」や「データ収集整備ステップ」の重要性が強調されています。報告フェーズでは、コメント付きの報告書を作成し、アクションへ導くことが目指されます。失敗から得た知識や経験を共有し、データ分析の成功に貢献することが強調されています。

Chapter2 準備フェーズでつまづかないための10の失敗事例

失敗事例1:分析目的から逸れた興味本位な分析をしてしまう

分析目的を明文化し、分析結果とアクションのつながりを明確にすることが重要であり、資料や会議で分析目的を繰り返し強調することが必要です。

失敗事例2:ヒアリングで依頼者の本当の要望がくみ取れない

ヒアリング時に依頼者の本当の要望をくみ取るために、頭を空っぽにして相手の話を聞き、会話の空白を大切にし、相手の仕草や表情に気を配ることが大切です。

失敗事例3:依頼者へのヒアリングが中だるみ状態になる

毎回のヒアリングの意義を明確にし、目的・影響・便益を伝えることが重要です。

失敗事例4:分析者が人工知能のスペシャリストとして頼られてしまう

データ分析者は人工知能に関する相談を受けた際に、その導入自体を目的化せず、手段としての役割を強調し、過大な期待に対処し、現実的なアドバイスを提供すべきです。

失敗事例5:データ分析プロジェクト全体の青写真を描けない

データ分析プロジェクト全体の青写真を描く際に、逆算を活用してアクションから始め、必要なデータ、分析、分析結果を決定し、現実的で効果的な計画を策定することが重要です。

失敗事例6:プロジェクト開始時におけるメンバーの足並みがそろわない

データ分析プロジェクトの成功にはキックオフ・ミーティングを開催し、プロジェクト全体の目的、スケジュール、役割分担などを明確にし、参加者間のコミュニケーションを促進することが重要です。

失敗事例7:分析の途中で必要なデータの不足に気づいてしまう

キックオフ・ミーティングやプロジェクト開始時にデータの状況を確認し、足りないデータがあれば追加提供を依頼することが重要です。

失敗事例8:必要なファイルがどこにあるかわからない

データ管理と整理はデータ分析プロジェクトの成功に不可欠であり、データの所在、ファイル命名規則、整備手順を明確にし、機械的な整理を行うことで混乱や紛失を防ぐべきです。

失敗事例9:情報セキュリティの確認に時間をとられてしまう

情報セキュリティ確認に時間をかける必要があるため、データ分析プロジェクトを開始する前に個人情報や機密情報の確認と必要な手続きを行い、プロジェクトをスムーズに進める体制を整えることが重要です。

失敗事例10:分析者同士のコミュニケーションがうまくいかない

異なるバックグラウンドを持つ分析者同士のコミュニケーションは重要であり、互いのスキルと考え方を尊重し、疑問点を解消しながら協力してプロジェクトを進めることが必要です。引継ぎや協力の際に、前任者の判断や行動に対しても一定の理解と尊重を持つことが大切です。

Chapter3 分析フェーズを着実に進めるための20の失敗事例

失敗事例11:依頼者のすべての要望に応えようとしたが、時間が足りない

依頼者の要望を受けた際、すべての要望に応えようとするのではなく、プロジェクトの目的に合った最も重要な要望に集中し、一つ一つの分析に十分な時間とリソースを割り当てることが重要です。

失敗事例12:新たな分析手法にチャレンジしたが、時間が足りない

新しい分析手法に挑戦する際には、プロジェクト全体に影響を与えないように注意が必要です。まずは確実な方法でプロジェクトを進め、余力がある場合に新しい手法を試すことを検討しましょう。

失敗事例13:必要のないモデルの構築に時間と費用をかけてしまった

データ分析の本質はデータから事実を見つけ、アクションを行うことであり、高度な統計モデルや機械学習手法が必ずしも必要ではありません。

失敗事例14:データの現場が想像できず、データに対する理解が進まない

必要に応じて現場訪問やコミュニケーションを通じてデータの背後にある物理的なプロセスやコンテキストを理解しましょう。

失敗事例15:分析の計算処理に長い時間がかかってしまう

長時間の計算が必要なデータ分析プロジェクトでは、計算にかかる時間を事前に把握し、スケジュールに余裕を持たせることが重要です。また、必要に応じてシンプルなモデルへの変更や外部計算資源の利用を検討しましょう。

失敗事例16:追加データの必要性を説明できない

追加データの必要性を説明する際に、データ分析の精度向上やROI(Return on Investment)を具体的に示すことが重要です。

失敗事例17:Excelファイルの読み込みに失敗する

Excelファイルの読み込みに失敗することを避けるために、データ分析者は注意深くExcelファイルを確認し、潜在的な問題を事前に特定する必要があります。

失敗事例18:多様な種類のデータ項目の意味が理解できない

データの不備や誤りを見逃す可能性があるため、データ項目の意味を理解することはデータ品質の確保につながります。

失敗事例19:いくら分析しても報告できる結論にたどりつかない

分析の流れを管理する人と実際の作業をする人を分けることが有効です。また、分析の各段階ごとに一定の時間を空けて、頭を切り替えることも重要です。

失敗事例20:統計モデルは、科学的で客観的なモノだと思われてしまう

依頼者が統計モデルを科学的で客観的なものと誤解しないように、主観的な要素が含まれることを認識し、分析の進行と結果の解釈を説明することが大切です。

失敗事例21:現実の要因を多く反映した複雑なモデルを作ろうとしてしまう

最初にシンプルなモデルを作成して基本的な要素を確認し、その後で必要に応じて複雑なモデルに移行することが重要です。

失敗事例22:不適切な説明変数を使ってしまう

不適切な説明変数を使用することは、モデルの品質を損ねる可能性があります。特に、時間に依存するデータを使用する場合、適切な教師データを用意することが重要です。

失敗事例23:必要な正規化処理をしないまま入力してしまう

アルゴリズムのドキュメントをよく読み、正規化のオプションについて確認し、実験を通じて最適なアプローチを見つけることが重要です。外れ値にも注意し、適切な前処理を行いながらデータを正規化しましょう。

失敗事例24:説明変数を増やしすぎて分析が不安定になる

多重共線性に対処するためには、相関の高い変数を整理し、必要に応じて正則化や主成分分析を考用い、データの収集方法を見直す際にコストとROIを考慮します。

失敗事例25:過学習が生じてしまう

ハイパーパラメータの適切な調整と交差検証を行い、モデルの性能を正確に評価しましょう。

失敗事例26:意外な結果を期待されてしまう

データ分析には期待される成果が必ずしも意外なものとは限らず、多くの場合は既知の情報を定量的に裏付ける役割があります。依頼者とのコミュニケーションにおいて、データ分析の実際の成果と期待を適切に調整し、リアルな期待値を共有することが重要です。

失敗事例27:読みにくい分析スクリプトを書いてしまう

読みにくい分析スクリプトを避けるためには、適切なコメントを追加し、一貫した命名規則を設けることが重要であり、コーディング規約を用意してチーム全体で統一することが役立ちます。 “リーダブルコード” という書籍も参考になります。

失敗事例28:評価指標がビジネス上、有用ではなかった

精度指標がビジネス上の有用性と一致しないことがあるため、モデルの用途やビジネス上のニーズをよく理解し、適切な評価指標を選択するか、専用の指標を開発することが重要です。

失敗事例29:依頼者の意向を読み違え分析を進めてしまう

依頼者の意向を正確に理解し、分析の目的や課題を明確に把握することが非常に重要です。ヒアリングの際には、ヒアリング内容を文章化して依頼者に送り、確認を行うことが役立ちます。

失敗事例30:分析することが本分だと勘違いしてしまう

解釈と提言に十分な時間を割く必要があり、それらを効果的に伝えることが重要です。分析のゴールは計算結果を依頼者に理解させ、行動につなげることです。

Chapter4 報告フェーズでコケないための5つの失敗事例

失敗事例31:報告資料のコメントがわかりにくいと言われてしまう

事実と解釈のコメントを分ける、色分けする、矢印を使用するなど、視覚的な手法を用いて明示的に区別することで、報告資料の理解が向上する。

失敗事例32:情報を詰め込みすぎたスライドを作ってしまう

余計な情報を削除し、コメントを基にグラフや表を作成することで、分かりやすく効果的な報告資料を作成できる。

失敗事例33:重要なポイントがずれた報告書を作成してしまう

分析結果の報告書を作成する際に、分析者自身の苦労話や詳細な分析プロセスに焦点を当てず、依頼者が知りたい情報にフォーカスし、わかりやすく伝えることが重要です。

失敗事例34:確認しても報告書に、誤字・脱字や数字の間違えが残ってしまう

報告書を作成する際、誤字・脱字や数字の間違いを防ぐために、モニター上だけでなく、印刷物としても確認し、さらに実際の報告を想定して声に出して話しながら内容を確認することが大切です。

失敗事例35:徹夜明けの状態で報告会に臨み、有意義なディスカッションができない

報告会に臨む際、完璧な資料を作成することよりも、分析結果の報告とディスカッションに集中することが重要です。

Chapter5 データサイエンティストになりたい!という人に知ってもらいたい「とってもディープな私」

とっても Pythonな「白石卓也」の場合

分析スキルとビジネス知識の組み合わせが重要です。データサイエンティストは、分析スキルだけでなく、顧客の業務内容を理解し、分析結果を実務に活かすためのビジネス知識も必要です。

常に新しい分析手法や事例を調べて試すことが重要です。新しいキーワードや手法に対して好奇心を持ち、実装の練習をすることで、スキルを向上させることができます。

自分の得意な言語で実装することが学びの一環となります。特にPythonを使いながら、高度な分析手法を実装し、処理時間や基本的な理解を深めましょう。

とっても宇宙な「清水景絵」の場合

好奇心と学習への情熱が大切です。清水さんは、物理学からデータサイエンスへの転身を果たしましたが、常に新しい知識を求め、専門書や難解な分野にも挑戦することで、スキルを向上させました。

分析業務は課題解決のために存在し、その喜びが大きいです。民間企業でのデータ分析は、具体的な課題に対して解決策を提供することが主要な仕事です。依頼者から感謝の言葉をもらうことは、苦労を吹き飛ばす喜びとなります。

専門知識や技術スキルは大切ですが、柔軟性も必要です。清水さんは、異なる分野や専門外の分野にも挑戦し、新しいデータ分析の方法を学びました。データサイエンティストには多様なスキルが求められますが、柔軟性と適応力も重要です。

コメント

タイトルとURLをコピーしました