はじめに
#

趣味的に Google データアナリティクスプロフェッショナル認定証 の勉強を進めています。

https://www.coursera.org/professional-certificates/google-data-analytics?utm_medium=sem&utm_source=gg&utm_campaign=b2c_apac_google-data-analytics_google_ftcof_professional-certificates_cx_dr_bau_gg_sem_pr-ph_jp_ja_m_hyb_25-04_x&campaignid=22418537238&adgroupid=174635545141&device=c&keyword=google%E3%83%87%E3%83%BC%E3%82%BF%E3%82%A2%E3%83%8A%E3%83%AA%E3%83%86%E3%82%A3%E3%82%AF%E3%82%B9%E8%AA%8D%E5%AE%9A&matchtype=p&network=g&devicemodel=&creativeid=744976898133&assetgroupid=&targetid=kwd-2414201928678&extensionid=&placement=&gad_source=1&gad_campaignid=22418537238&gbraid=0AAAAADdKX6bcLPyf7FRFOzaKN2rGgADGc&gclid=EAIaIQobChMI78-Q99HjjgMVgfJMAh0tiheTEAAYASAAEgKOvfD_BwE

www.coursera.org

すぐ忘れてしまうので覚えておきたいところだけ記録しておこうと思います。

データに基づいた意思決定を行うための問いかけ
#

要件を聞き取りながら問題を明らかにして意思決定を行う手続きについてです。 Ask -> Prepare -> Process -> Analyze -> Share -> Act の順番で実施します。

6つの分析フェーズ
#

ステップ1:尋ねる(Ask)
#

問題を解決するためには理解することが必要です。以下を考慮しましょう。

問題の定義
ステークホルダの期待
問題にフォーカスする
ステークホルダとオープンなコミュニケーションを保つ
全体のコンテキストを俯瞰して見る

以下の質問に答えられる必要があります

どのテーマを探求していますか？
解決しようとしている問題は何ですか？
目標達成のためにデータを測定する指標は何ですか？ステークホルダーは誰ですか？
この分析の対象読者は誰で、それが分析プロセスやプレゼンテーションにどのような影響を与えますか？
このデータはステークホルダーの意思決定にどのように役立ちますか？

ステップ2:リスクマネジメントの準備(Prepare)
#

質問に答えるために必要なデータを考える。どのようなデータを収集、整理、利用して役立てるのかを決める。以下を考慮します。

どのメトリクスを測定するか
データベースからデータを探し出す
データを防御するためのセキュリティ対策を実施する

以下の質問に答えられる必要があります

あなたのデータはどこにありますか？
データはどのように整理されていますか？
このデータに偏りや信頼性の問題はありますか？データは ROCCC（信頼性・客観性・完全性・一貫性・現実性）を満たしていますか？
ライセンス、プライバシー、セキュリティ、アクセシビリティにはどのように対応していますか？
データの完全性はどのように検証しましたか？
そのデータはあなたの質問にどのように答える助けになりますか？
データに何か問題はありますか？

ステップ3:プロセス(Process)
#

データをクリーンアップし分析で利用可能な状態にする必要があります。以下を考慮します。

使用中のデータを表計算ソフトの関数で検索し、誤って入力されたデータを見つけます
SQL関数を使用して余分なスペースをチェック
繰り返し入力の削除
データのバイアスをチェック

以下の質問に答えられる必要があります。

どのツールを選び、なぜそれを選んだのですか？
データの完全性を確保しましたか？
データをクリーンにするためにどのような手順を取りましたか？
データがクリーンで分析可能であることをどのように確認できますか？
クリーニングプロセスを見直しや共有できるよう記録しましたか？

ステップ4:分析(Analyze)
#

データを並べ替えたりフォーマットすることで、以下の分析処理を実施します。

計算の実行
複数のソースからのデータの組み合わせ
結果の表を作成

以下の質問に答えられる必要があります。

分析を行うためにデータをどのように整理すべきですか？
データは正しくフォーマットされていますか？
データからどのような意外な発見がありましたか？
データの中にどのような傾向や関係性を見つけましたか？
これらの洞察はあなたの質問への答えや問題解決にどのように役立ちますか？

ステップ5:共有(Share)
#

ステークホルダの問題を解決し、どの様にそこに到達したかを示します。以下を目指します。

より良い意思決定
より多くの情報にも度づいた意思決定
より強力な成果
調査結果をうまく伝える

以下の質問に答えられる必要があります。

あなたのデータはどのようなストーリーを語っていますか？
あなたの発見は元の質問とどのように関連していますか？
対象となるオーディエンスは誰で、彼らと最も効果的にコミュニケーションする方法は何ですか？
データビジュアライゼーションは発見の共有に役立ちますか？
プレゼンテーションはオーディエンスにとってアクセスしやすいものになっていますか？

ステップ6:行動(Act)
#

以下を自問し行動します。

ステークホルダーのニーズや期待に応えるために、共有フェーズで提示した情報をどの様に活用できるか

以下の質問に答えられる必要があります。

分析に基づく最終的な結論は何ですか？
得られた洞察をどのように活用できますか？
発見に基づいて、あなたやステークホルダーが次に取れるステップはありますか？
発見を補強・拡張するために追加で使用できるデータはありますか？
ケーススタディをどのようにポートフォリオに掲載しますか？

よくある6つの課題のタイプ
#

どのような課題かを事前に想定しておくことは解決策を検討するのに大切です。

予測
- ターゲットにリーチするための最適な広告の配置を予測する。
分類
- パフォーマンスの高いカスタマーサービス担当者を識別する
- 特定の対応と顧客満足度との相関関係をかくにんする。
異常検知
- スマートウォッチで健康状態を監視する
テーマの識別
- ユーザの信念、実践、ニーズ等のデータを識別する
つながりの発見
- 荷物の運搬など複数の会社が連携するようなプロセスでデータ間のつながりを発見することで、プロセスの改善に役立てる
パターンの発見
- 機械のメンテナンスパターンを解析することで、正規のメンテナンスから1ヶ月以上遅れた場合にほとんどのの故障が発生することがわかる

:::message 「テーマを識別する」が意味を理解し難く「分類」との差異がわかりにくいです。イカのようなイメージです。

Categorizing things（分類する）共通の性質や属性に基づいてグループ分けすること。（例：商品の種類ごとに「飲料」「食品」「雑貨」に分ける）
Identify theme（テーマを見つける）データやアイデアの中から、背景にある大きな傾向や主題を見つけること。（例：「健康志向」が飲料・食品全体で共通するテーマと気づく） :::

SMARTに質問をする
#

SMARTという言葉が、質問をする時に気をつけるべきポイントになっています。

Specific : 具体的な質問か。必要なコンテキストの情報などを提供しているか。
Measureable : 測定可能な問いかけか
Action-oriented : 次の行動につながるか。計画を立てるのに役立つ情報が得られるか。
Relevant : 解決しようとしている問題に関連するか。
Time-bound : 時間的な制約を示しているか。いつのデータか。

上記に合わせ、質問は開かれた回答ができるようにしましょう。つまり、はい/いいえ、では答えられない質問です。

質問する際は以下の様にならないように注意しましょう。

誘導質問 : 特定の回答しか得られない質問。例）この製品は高すぎませんか？
漫然とした問いかけ : 具体的でなかったりコンテキストを提供しない問いかけ例）そのツールはあなたにとって有効ですか？

探索のためにデータを準備する
#

データフォーマットの例
#

様々な切り口ごとのデータの種類についての定義。

データの情報源
#

一次データ：自分自身が直接入手したデータ
- 20名から回収したアンケート調査データ
- 労働者グループから回収したアンケートのデータ
2次データ：他の人収集したデータ
- 地元のデータアナリティクス会社の顧客プロファイルを購入したデータ
- 大学が収集した人口統計データ
- 連邦政府が収集した国税調査データ

内部データ/外部データ
#

内部データ：自社システム内に保存されるデータ
- 人事部門が管理する、異なる事業部門にまたがる従業員の賃金
- 店舗ごとの売上データ
- 分布センター間の商品在庫レベル
外部データ：企業や組織の外部に保存されているデータ
- 組織全体の様々な役職の全国平均賃金
- 自動車ディーラーの顧客の信用レポート

連続データ/離散データ
#

連続データ：測定されたデータでほぼすべての値を持つ
- 小学３年生クラスの子供の身長
- ビデオのランタイムマーカ
- 温度
離散データ：カウントされ値の数が限られる
- 1日に病院を訪れる人の数
- 部屋の最大収容人数
- 当月のチケット販売枚数

::: message 連続的/離散的であることと離散値子どもの身長も温度も、ビデオのランタイムマーカも連続データとして定義されていますが、実際は離散値で観測されます。ここで私は離散値で表される連続データってどういうこと？と思いました。「データの本質（連続データ/離散データ）」と「表現形式（連続値/離散値）」の概念が混乱していることがわかりました。 :::

定性データ/定量データ
#

定性的：室または特性の主観的で説明的な尺度
- 好きな運動
- カスタマーサービスが最も良いブランド
- 若年層のファッションの好み
定量的：数値、量、範囲などの具体的かつ客観的な尺度
- 認定石のうち女性が占める割合
- アフリカの像の母集団数
- ある時刻における地球から火星までの距離

名義データ/順序データ
#

名義データ：順序が規定されることなくカテゴリ化された定性データ
- 初回顧客、再来顧客、定期顧客
- 新規応募者、既存応募者、社内応募者
- 新規掲載物件、値下げ物件、差し押さえ物件（競売物件）
順序データ：順序や尺度が設定された定量データタイプ
- 映画のレーティング
- 優先順位付き投票の選択（第1希望、第2希望、第3希望）
- アンケートで測定された満足度（満足、普通、不満）

::: message enumって順序データなの？って気になりますが、「識別や分類」が目的で、値同士に順序や距離の意味がない場合、例えば enum Color { RED, GREEN, BLUE } の場合は名義データ順序や差の大小が存在する満足度などは順序データになりそうです。 :::

構造化データ/非構造化データ
#

構造化データ：行や列など特定の形式で構成されたデータ
- 経費レポート
- 税務申告書
- 店舗在庫
非構造化データ：リレーショナルデータベースに列や行として格納できないデータ
- ソーシャルメディアへの投稿
- 電子メール
- ビデオ

:::message Google Data Analytics Certificateでは上記の定義が紹介されているのですが、この表現はいまいちかなと思います。というのはビデオなどもバイナリデータとしてRDBに登録できるので、誤解が生じやすい表現のように思います。

構造化データ：表形式のデータ
半構造化データ：JSONなど表形式ではないが構造化されているデータ
非構造化データ：構造化されていない画像やビデオなどのバイナリデータ :::

ダーティデータからクリーンデータへの加工
#

データに問題が見つかった場合
#

以下の判断基準でやるべきことを考えると楽になります。

サンプルサイズの計算
#

収集するデータのサンプルサイズの検討をする場合は以下のキーワードを知っておくと良いです。

用語	定義
母集団	調査の対象となるグループ全体。例えば、社内の人々の調査をする場合は、母集団は社内の全従業員
サンプル	母集団のサブセット。食品サンプルのように味見のデータ。従業員数が多すぎる場合に母集団から代表サンプルを選ぶ
誤差の範囲	母集団の結果とサンプルの結果の際のこと
信頼度	調査結果に対する確信度。例えば信頼度95%ならば同じ調査を100介した場合に95回は同じような結果になる。調査終了時の誤差の範囲に影響するため調査を開始する時に目標を定める。通常90%以上を目標として設定する。
信頼区間	母集団の結果が収まると考えられる値の範囲。標本の結果に `±誤差の範囲` となる
統計的有意性	P値とも呼ばれる。結果が偶然によるものか何らかの要因によるものかを判断するのに使われる。`0.8` 以上で判断されることが多い。

サンプルサイズ計算機
#

上記サンプルサイズを決めるための計算方法があり、信頼度、誤差の範囲、母集団のサイズ、を決めると必要なサンプルサイズを計算できる。

必要な調査数を決めるにあたっては上記サンプルサイズの用語定義に加え 推定回答率 が必要になる。推定回答率 とはアンケートを取ったうちで回答を貰える確率のこと。

サンプルサイズは例えば以下で計算できます。この結果を推定回答率で割ったものが必要な調査数となります。

https://www.surveymonkey.com/mp/sample-size-calculator/

www.surveymonkey.com

ダーティーデータ
#

収集したデータには不完全、不正確、または解決しようとしている問題とは無関係なデータを ダーティデータ と呼びます。

重複データ：複数回表示されるデータレコード
#

手動データ入力、バッチデータインポート、データ移行、などにより発生する可能性があります。

測定指標や分析の歪み、不正確なカウントや予測、データ検索時の混乱の原因となりえます。

旧データ：古いデータ
#

役割や会社が変わったりソフトウェアやシステムが古くなった場合に発生する可能性があります。

不正確な洞察・意思決定・分析、の原因となりえます。

不完全なデータ：重要なフィールドが欠けているデータ
#

不適切なデータ収集または誤ったデータ入力、などにより発生する可能性があります。

生産性の低下、不正確な洞察、必要なサービスの完了不能、等の原因となりえます。

不正確なデータ：完全ではあるが不正確なデータ
#

データ入力時の人為的なミス、偽情報、模擬データなどにより発生する可能性があります。

不正確な情報に基づく不正確な洞察や意思決定による収益損失の原因となりえます。

不整合データ：フォーマットが異なるデータ
#

誤って保存されたデータ、またはデータ転送中に挿入されたデータ

矛盾したデータポイントによる混乱や顧客の分類やセグメント化ができない原因となりえます。

データ可視化（ビジュアライゼーション）による、データの共有
#

マキャンドレスの法則
#

ビジュアル化する際に考えなくてはならない4つの指標をまとめた図です。

Information(data)：データそのもの
Story(concept)：説明したいストーリ
goal(function)：説明によって導き出したい結論
visual form(metaphor)：きれいなみため

すべて揃っていると Successful visualization となります。 Storyがないと boring となります。よく考えられている！

さいごに
#

Google データアナリティクスプロフェッショナル認定証では上記の他にSQLやRのパートもあります。興味がありましたやってみてください。

Reply by Email

Google Analytics Certificate メモ

はじめに
#

データに基づいた意思決定を行うための問いかけ
#