AI活用

生成AIでデータ分析する方法|できること・プロンプト例・おすすめツール2026年版

ChatGPT・Claude・Geminiといった生成AIの登場で、データ分析は「SQLを書ける一部の専門家のもの」から「日本語で問いかければ誰でもできるもの」に変わりつつあります。本記事では、生成AIで実際にできるデータ分析の範囲、業務で使えるプロンプト例10選、企業導入時のセキュリティリスクと対策、おすすめツールの選び方までを実務目線でまとめます。

H
Hiro
AIマーケター / PdM · 著者

生成AI×データ分析とは

生成AI(Generative AI)によるデータ分析とは、ChatGPTやClaude、Geminiといった大規模言語モデル(LLM)に対し、自然言語でデータの集計・可視化・解釈を依頼するアプローチを指します。従来はSQLBIツール、Pythonの知識が必要だった作業の多くを、「日本語で話しかける」だけで完結できるのが最大の特徴です。

技術的には、生成AIがCSVファイルや接続済みデータベースの内容を読み取り、必要に応じてPythonコードを内部で実行(コードインタープリタ機能)し、その結果を表・グラフ・自然言語の解説にして返してきます。「データの集計」「グラフ作成」「異常値検知」「相関分析」「要約レポート生成」までを1つの会話の中で進められます (参考: OpenAI Help: ChatGPT data analyst FAQAnthropic Docs)。

生成AIによるデータ分析の本質は「自然言語インターフェース」と「コード生成・実行能力」の組み合わせです。ユーザーは何をしたいかを言葉で伝えるだけで、裏側でAIが必要なクエリやコードを組み立てて結果を返してくれます。

データ分析の上位概念であるAI活用全体についてはデータ分析にAIを活用する方法で網羅的に解説しています。本記事ではそのうち「生成AI」のレイヤーに絞って深掘りします。

生成AIでできるデータ分析5つ

1. CSV・Excelをアップロードして即時集計

ChatGPTのAdvanced Data Analysis(旧Code Interpreter)やClaudeでは、CSV・Excelをアップロードして「月別売上を集計してグラフにして」と話しかけるだけで、内部でPandasのコードが生成・実行され、結果と可視化が返ってきます。Excel関数やピボットテーブルで30分かかる作業が、1分で終わるイメージです。

2. データの傾向把握と異常検知

「このデータの異常な値や、トレンドから外れているレコードを抽出して」という指示で、平均・分散・四分位といった統計指標を踏まえて外れ値を検出できます。マーケや営業の現場で「先週だけ突発的に数字が動いた要因」を初期スクリーニングするのに有効です。

3. 相関分析と原因仮説の生成

「広告費・気温・曜日と売上の相関を確認し、影響度の高い要因を3つ挙げて」のように依頼すると、相関係数や決定木的な要因分析を行ったうえで、ビジネス言語に翻訳した仮説を返してくれます。専門家レベルの統計的厳密性はありませんが、議論のたたき台としては十分使えます。

4. レポートの自動文章化(要約・解説)

集計結果を渡して「経営会議向けに3段落でサマリーを書いて」「前月比で良かった点・悪かった点を箇条書きで整理して」と依頼すれば、数値の羅列ではなく文章としてのレポートを瞬時に作れます。月次・週次レポートのドラフト作成では特に時間効率が高い領域です。

5. 分析プランの設計と進め方の壁打ち

「ECサイトの売上低下の原因を特定したい。どんなデータを見て、どんな順序で分析すべきか教えて」といった分析設計の壁打ちにも生成AIは強力です。どの指標をどう切るか、どんな仮説を立てるかを構造化して提案してくれるので、分析担当者の思考の補助線になります。

主要な生成AI分析ツール比較

「生成AIでデータ分析」と一口にいっても、汎用LLMをそのまま使うパターンと、データ基盤に直結した専用プラットフォームを使うパターンがあります。代表的な選択肢を比較します。

ツールタイプデータ接続日本語精度業務利用
Qubio専用プラットフォームBigQuery / Redshift / Snowflake 直結◎ (学習無効・権限管理)
ChatGPT Advanced Data Analysis汎用LLMCSVアップロード△ (機密データ要注意)
Claude (Anthropic)汎用LLMCSV / Artifact / MCP○ (Enterprise契約推奨)
Gemini Advanced汎用LLMGoogle Workspace連携○ (Workspace連携で強い)
Microsoft Copilot for DataBI統合Power BI / Fabric○ (Microsoft環境前提)

個人や小規模利用ならChatGPT・Claude・Geminiで十分ですが、業務データを継続的に分析するなら、データウェアハウスに直結するプラットフォーム型が安全かつ効率的です。ツール選定の詳細はAIデータ分析ツール比較6選もあわせてご覧ください。

実務で使えるプロンプト例10選

生成AIによる分析の精度は、プロンプト(指示文)の質で大きく変わります。「データ・前提・出力形式・分析観点」の4要素を明示するのがコツです。業務シーン別のテンプレートを紹介します。

① 月次売上レポートの叩き台

添付の売上CSVをもとに、(1) 当月売上と前月比・前年同月比、(2) 商品カテゴリ別TOP5、(3) 前月から大きく動いた指標、(4) 経営会議向けの3行サマリー、を出力してください。グラフは月次推移の折れ線のみ。数値はすべて元データから計算し、推測値は使わないでください。

② CVR低下の原因仮説出し

直近30日のセッション・コンバージョンデータです。CVRが7日連続で前月比10%以上下がっています。原因仮説を3つ、データから根拠を示しながら挙げてください。さらに追加で確認すべきデータがあれば3つ提案してください。

③ 広告効率の可視化

添付データから、媒体別のROAS(売上÷広告費)と前月比の変化を表にまとめ、ROASが下がっている媒体を特定してください。媒体ごとにCPA・CTRも併記してください。

④ 顧客セグメント分析

顧客テーブルから、購入金額・購入頻度・最終購入日(RFM)でクラスタを4つに分け、各クラスタの特徴と打ち手を提案してください。マーケ担当者にも伝わる平易な表現でお願いします。

⑤ 異常検知

過去90日の日次トランザクションデータから、Zスコア±2.5を超える異常日を抽出してください。曜日・天候・キャンペーン有無の列がある場合はそれも含めて、異常の理由を仮説立ててください。

⑥ A/Bテスト結果の解釈

A群・B群のCVRと標本数です。両側カイ二乗検定で有意差を判定し、p値・効果量・実用上のインパクトを「マーケターが意思決定できる形」でまとめてください。

⑦ 経営会議用サマリー文章化

このダッシュボード画像(または数値表)を、経営会議で5分で説明できる構成(結論→根拠→アクション)に文章化してください。専門用語は最小限に。

⑧ 競合・市場データの比較

自社と競合A・Bの月次シェア推移データです。直近6ヶ月で起きた変化のうち、自社にとってリスクとチャンスを各3つ挙げてください。

⑨ ファネル分析

ユーザー行動ログを使って、訪問→商品閲覧→カート→購入のファネルを描き、各ステップの離脱率を表にしてください。離脱率が業界平均より悪いステップを優先順位付きで指摘してください。

⑩ KPI設計の壁打ち

BtoB SaaSの新規受注数を伸ばすKPIを設計したい。北極星指標、サブKPI、それを支える行動指標を、ツリー構造で提案してください。各KPIの計測方法(必要なデータソース)も併記。

これらのプロンプトは、Qubioのような専用プラットフォーム上ではテンプレートとして保存・共有でき、誰でも同じ品質の分析を再現できるようになります。

生成AIデータ分析の活用事例

国内外で生成AIをデータ分析に取り入れている代表的なシーンを紹介します。詳細な業種別事例はAI活用企業事例10選もあわせてご覧ください。

  • EC・小売:日次の売上・在庫・広告データを生成AIに渡し、毎朝のサマリーをSlackに自動投稿。店舗マネージャーが数値を読む時間を月数十時間削減。
  • SaaS・スタートアップ:チャーンの原因仮説出し、機能利用ログのコホート分析、KPIツリーの設計を、データアナリスト不在のチームが生成AIで内製化。
  • 製造業:稼働ログ・歩留まりデータをもとに、生成AIが日次レポートと改善提案を生成。現場担当者がBIダッシュボードに張り付かなくて済むようになった事例。
  • マーケティング:媒体ごとの広告レポートを生成AIに横断させ、ROAS低下要因の仮説出しと改善案までを30分で完了。
  • カスタマーサポート:問い合わせログを生成AIに分類・要約させ、頻出トピック・解約予兆ワード・FAQ候補を週次で抽出。

共通するのは「定型レポート+人による深掘り」だった分析を、「生成AIによる初動の仮説出し+人による検証」に組み替えている点です。手戻りが減り、意思決定までの時間が大きく短縮されます。

業務利用のリスクと対策

生成AIによるデータ分析を業務に組み込むときは、以下の3つのリスクへの対策が必須です。

リスク1:機密データの漏えい・学習利用

無料版のChatGPTや個人プランで業務データをそのまま入力すると、学習に利用される設計になっているケースがあります。対策は「企業契約・APIプラン(学習無効化)の利用」「個人情報・取引先情報のマスキング」「社内利用ガイドラインの整備」の3点です (参考: IPA セキュリティガイドOpenAI Business Terms)。データウェアハウスに直結する企業向けAI分析プラットフォーム(Qubioなど)であれば、この問題は構造的に解決されます。

リスク2:ハルシネーション(数値の誤生成)

生成AIは、ときに「もっともらしいが実在しない数値」を生成します。対策は「集計はAIにコード実行させる(推測ではなく計算)」「主要指標は元データに戻して検算する」「複雑な数値分析は専用プラットフォームを使う」の3点。Qubioのようにセマンティックレイヤーで指標定義が固定されているプラットフォームでは、ハルシネーションのリスクが大幅に下がります。

リスク3:再現性の欠如

同じプロンプトでも結果が微妙に変わることがあります。経営判断や対外報告に使うレポートは、定型部分をテンプレート化し、AIに任せる範囲を「文章生成・初動仮説」に限定するのが安全です。完全自動化したい場合は、API経由で温度パラメータを下げ、出力を構造化(JSONなど)する設計にしましょう。

導入の始め方

生成AIをデータ分析に取り入れる現実的なステップは以下の通りです。

  1. 個人スコープで試す:まず分析担当者・マーケ担当が自分のCSVをChatGPT・Claude・Geminiにかけて、効果を体感する。
  2. 業務スコープを切る:機密度の高いデータと低いデータを分け、「低いデータから」生成AIを業務フローに組み込む。
  3. 企業向けプランへ移行:継続利用が見込めたら、ChatGPT Enterprise / Gemini for Workspace / Claude Teamなどの学習無効化プランに切り替える。
  4. 専用プラットフォームを検討:データウェアハウスに直結し、権限管理・セマンティックレイヤー・テンプレート共有を前提にしたプラットフォーム(Qubioなど)への移行を検討する。
  5. レポート自動化に発展:日次・週次・月次レポートを生成AIに自動生成させる仕組みを構築する。詳しくはレポート作成を自動化する方法を参照。

よくある質問

生成AIでデータ分析はできますか?

できます。ChatGPTのAdvanced Data Analysis、Claude、Geminiなどの生成AIはCSVを読み込んで集計・グラフ化・要約・原因分析まで実行できます。ただし無料版や個人プランをそのまま業務で使うと機密データの取り扱いに問題が出るため、企業利用ではAPI連携・データウェアハウス直結型のAI分析プラットフォームを選ぶのが現実的です。

生成AIに使えるデータ分析プロンプトの例を教えてください

「このCSVを読み込み、月別売上の推移を折れ線グラフで可視化して」「直近3ヶ月でCVRが下がった商品を抽出し、原因仮説を3つ挙げて」「広告費と売上の相関を散布図で示し、相関係数を計算して」など、データ・出力形式・分析観点をセットで明示するのがコツです。本記事のプロンプト例10選もご活用ください。

BIツールと生成AIによる分析はどう違いますか?

BIツールは事前に設計したダッシュボードを「見る」ツール、生成AIは自然言語で「問いかけて答えを得る」ツールです。BIは定型KPIモニタリングに、生成AIはアドホック分析・原因仮説・レポート文章化に向いています。両者は競合ではなく役割分担で、定型はBI・非定型はAIというハイブリッドが主流になりつつあります。詳細はBIツールが使われない本当の理由もあわせてご覧ください。

生成AIを業務でデータ分析に使う際のリスクは?

主に3つあります。①機密情報の入力リスク(無料版や個人ChatGPTでは学習に使われる可能性)、②ハルシネーション(数値の誤生成)、③再現性の不足(同じ質問でも結果が変動する)。対策はAPI経由・学習無効化された企業向け契約の利用、出力数値の元データ確認、定型分析はテンプレート化しての固定化です。

現場でよく起こるミスと、Qubioが構造的に起こさない理由

筆者がAIマーケター・PdMとして実プロジェクトで生成AI分析を進めるなかで、現場で繰り返し見てきた失敗パターンと、それが起こらない設計のあるべき姿を整理します。汎用LLMをそのまま業務に使うとどうしても踏むミスが、Qubioのようにデータ基盤に直結したプラットフォームでは「構造的に起こせない」点に注目してください。

観点別比較:汎用LLM(ChatGPT/Claude/Gemini) / Qubio

観点汎用LLMQubio
計算方法AIが推測 or コード生成→実行SQL生成→DBが計算
再現性プロンプト依存 (揺らぎあり)テンプレで固定
指標定義プロンプトで毎回伝えるセマンティックレイヤー
データ接続CSV手動アップロードDWH直結
学習利用設定次第で発生しうる学習無効・テナント分離
モデル更新の影響過去結果と乖離する可能性SQL層で吸収・結果は不変
監査ログ個人アカウント単位組織横断で完備

ミス①:ハルシネーションで実在しない数値が経営会議に持ち込まれる

汎用LLMにCSVを貼って「合計教えて」と聞くと、たまに「もっともらしいが実際の合計と違う」数値が返ります。AIが推測で計算してしまうケースです。これを発見できないまま経営会議の資料に使われた事例は実際に多数あります。

Qubioでの設計: 自然言語の質問はQubio内部で必ずSQLに変換され、実データウェアハウスに対して実行されます。AIが「数値を生成」するのではなく「クエリを生成→DBが計算」するため、推測値は構造的に発生しません。生成されたSQL・結果の検証も画面上で確認できます。

ミス②:プロンプトを毎回書き直して再現性ゼロになる

「先週ChatGPTで聞いた分析、もう1回やりたい」が、プロンプトの書き方が微妙に違って数値が変わる──現場で最も多い属人化のパターンです。会議のたびに微妙に違う数字が出れば信頼を失います。

Qubioでの設計: よく使う分析はテンプレート化してチームで共有でき、同じ問いには同じSQL・同じ結果が返ります。「誰が実行しても同じ」という再現性は、業務利用の最低条件です。

ミス③:部門ごとに「売上」の定義がズレてAIが矛盾した答えを返す

営業の「売上」と財務の「売上」が違う定義で集計されると、同じ質問でも部門ごとに違う数字が出ます。AIに自然言語で聞ける環境ほど、定義のばらつきが顕在化します。

Qubioでの設計: セマンティックレイヤーで「売上」「顧客」など主要指標の定義を一元管理。誰がどう聞いても同じ定義で計算されるため、定義揺れに起因する数字のズレが起きません。

ミス④:機密データを汎用LLMに貼り付けて学習に流出

無料版や個人プランのChatGPTに顧客情報や売上明細を貼り付けると、学習データとして利用される可能性があります。社内ガイドラインがあっても、現場の便利さに負けて貼られるのが現実です。

Qubioでの設計: テナント分離・学習無効・データはユーザーのデータウェアハウス内に保持。AIに送られるのは「質問テキスト+メタデータ」のみで、生データがLLM側に残らない設計です。

ミス⑤:CSVの文字コード・区切り文字・列名揺れでデータが壊れる

CSVをChatGPTにアップロードしたとき、Shift-JISが化けたり、列名の表記揺れ(「売上」vs「Sales」vs「sale_amount」)でAIが別の列を集計してしまう──地味ですが頻発するミスです。

Qubioでの設計: CSVのアップロードを介在させず、データウェアハウスの正規化済みテーブルに直接接続するため、文字コードや列名揺れの問題が発生しません。

ミス⑥:社内専門用語・略語をAIが勝手に解釈

「うちの『PR-23』の売上」「『北A』エリアの数字」のような社内製品コードや内部呼称は、汎用LLMには意味が伝わりません。AIが似た一般用語に勝手に置き換えて、別物の集計が返ってくるケースがあります。

Qubioでの設計: セマンティックレイヤーに社内用語のマッピングを登録できるため、「PR-23 = 製品マスタID 1023」のような社内固有定義をプラットフォームレベルで解釈。誰が問いかけても同じ製品の売上が返ります。

ミス⑦:モデルバージョンが変わると、過去分析と結果が変わる

ChatGPTやClaudeはモデルが定期的に更新され、同じプロンプトで同じCSVを渡しても結果のフォーマットや解釈が変わることがあります。「先月と今月で違うレポートになった」が起き、レポート品質の保証が困難になります。

Qubioでの設計: 数値計算はSQL層で固定されているため、モデルアップデートがあっても結果は不変。LLMの役割は「自然言語→SQL変換と要約」のみで、最終的な数字は常にDBが返す決定的な値です。

まとめ

生成AIはデータ分析のあり方を「専門家が時間をかけて行うもの」から「現場担当者が日本語で即座に行うもの」へと変えつつあります。一方で、業務データを安全かつ再現可能な形で扱うには、汎用LLMだけでは不十分で、データウェアハウスに直結し権限管理・セマンティックレイヤーを備えた専用プラットフォームの活用が現実解になります。

  • 生成AIでできるのは「集計」「異常検知」「相関分析」「文章化」「分析設計の壁打ち」の5領域
  • プロンプトは「データ・前提・出力形式・分析観点」の4点をセットで指定すると精度が上がる
  • 業務利用のリスクは「漏えい」「ハルシネーション」「再現性」。対策は企業向けプラン+専用プラットフォーム
  • 個人スコープから始め、徐々に業務フローに組み込み、最終的にデータ基盤直結型へ移行するのが王道

生成AIによるデータ分析を本格的に業務に組み込むなら、Qubioの導入相談・無料デモから始めるのが最短ルートです。自社のデータを安全に分析できる環境を、専任データアナリスト不要で構築できます。

H

Hiro

/ AIマーケター / PdM

AIマーケター・PdMとして、AI/LLMを活用したデータ分析・マーケティング自動化・プロダクト開発に従事。SQL不要の自然言語データ分析、生成AIの業務実装、セマンティックレイヤー設計を専門領域とする。実プロジェクトでの導入経験をもとに、現場で再現可能な手順と落とし穴の回避策を発信している。

Qubio

生成AIによるデータ分析をQubioで安全に始める

Qubioは日本語で話しかけるだけでAIがデータウェアハウス上のデータを安全に分析・可視化するプラットフォームです。BigQuery・Redshift・Snowflakeに直接接続し、機密データはAI学習に使われない設計。専任データアナリスト不要で全社員がデータを活用できます。導入相談・資料請求は無料です。