Claude Codeでデータ分析を効率化|前処理から可視化【2026】

データアナリスト・データサイエンティスト向けに、Claude Codeで前処理・EDA・可視化・notebook整備・レポート化を効率化する実践ワークフローを、pandasやmatplotlibのコード例とプロンプト例付きで解説します。

Claude Codeでデータ分析を効率化|前処理から可視化【2026】

結論:Claude Codeはデータアナリスト/データサイエンティストの「分析の手前にある作業」——前処理・探索・可視化・notebook整備・レポートの下書き——を会話とコード生成で巻き取り、人が「数値の妥当性と結論」に集中できる時間を作る。

  • 要点1:欠損・型・結合のpandasコードを指示文から生成し、CSV/Parquetを読み込んで前処理スクリプトを一発で組める。
  • 要点2:探索的データ分析(EDA)の集計・相関・分布の確認と、matplotlib/seabornの可視化コードまで一気通貫で下書きできる。
  • 要点3:分析notebook/スクリプトの再現性整備とレポートの解釈文ドラフトを任せ、アナリストは検証と意思決定に時間を回せる。

対象読者:pandas/Jupyterで日々分析を回しているデータアナリスト・データサイエンティスト、分析業務をチームで標準化したいリードエンジニア・PM。

今日やること:手元のサンプルCSV1本をプロジェクトに置き、「このデータの欠損・型・基本統計を確認するpandasコードを書いて」とClaude Codeに頼んでみる。

「分析そのものより、その手前のデータ整形と可視化コードの調整に時間を取られている」——これはデータ分析の現場で本当によく出る声です。実際、前処理・型変換・欠損処理・グラフの体裁調整といった作業は、頭を使う分析の前段にありながら、体感では時間の半分以上を持っていきます。

Claude Codeは、この「手前の作業」をターミナル上での会話でコード化してくれるエージェント型のコーディングツールです。ファイルを読み、pandasやmatplotlibのコードを書き、実行し、エラーが出れば直す——という分析スクリプトの組み立てを、自然言語の指示から進められます(Anthropic公式ドキュメント、2026年6月時点)。本記事では、データの読み込みからレポート化まで、5つの工程ごとに「どう指示すると何が返ってくるか」を、プロンプト例とコード例つきで解説します。

本記事の位置づけ:登場するコード・プロンプトは「実装パターンの解説(汎用化された手法)」です。具体的な企業名・固有データは含まず、サンプルデータを前提にしています。生成されたコードや分析結果の妥当性は、必ずご自身で検証してから業務に使ってください。

大前提:AIに任せていい工程、人が必ず握る工程

最初に線引きをしておきます。データ分析でClaude Codeを使うとき、「効率化していい部分」と「効率化してはいけない部分」を混同すると事故ります。

正直にお伝えすると、AIによる統計の解釈や結論の言語化は、それらしく見えて誤ることがあります。相関を因果と取り違える、外れ値の扱いを勝手に決める、サンプルサイズを無視して「有意」と書く——こうしたミスは、生成された文章だけ見ていると気づきにくいものです。

  1. AIに任せていい:定型的なコード生成(読み込み・型変換・欠損処理・結合)、可視化コードの下書き、集計クエリ、notebookのリファクタリング、レポートの文章ドラフト。
  2. 人が必ず握る:数値が正しいかの検証、分析手法の妥当性(その指標・その検定でよいか)、相関と因果の切り分け、最終的な結論と意思決定。

もう一つ重要なのが、入力するデータです。機密データ・個人情報を含む実データをそのままAIに渡さないのが原則です。氏名・顧客IDなどはマスキングするか、構造だけ同じサンプルデータ(ダミー)で組み立て、出来上がったスクリプトを手元の実データで実行する——この分け方が安全です。所属組織のデータ取り扱い規程にも必ず従ってください。

この前提に立った上で、以下5工程を見ていきます。

Claude Codeでデータ分析5ステップ。①前処理(欠損・型・結合:pandas)②EDA(集計・統計・気づき)③可視化(matplotlib/seabornのグラフ)④notebook整備(再現性)⑤レポート化(解釈の下書き)。数値・手法・結論は人が検証(相関と因果の混同に注意)、機密データは入れない。
Claude Codeでデータ分析5ステップ(前処理・EDA・可視化・notebook整備・レポート化)

工程1:データの読み込みと前処理を指示文から組む

分析の入り口は、CSVやParquetを読み込んで「使える形」に整えることです。Claude Codeにはまずデータの場所と、何を確認したいかを伝えます。いきなり「分析して」ではなく、構造の把握から始めるのがコツです。

まずデータの素性を確認する

data/sales_sample.csv を読み込んで、
- 行数・列数
- 各列のデータ型
- 欠損値の数(列ごと)
- 数値列の基本統計量(describe)
を確認するpandasコードを書いて、実行結果を要約してください。
不明な点があれば、コードを書く前に質問してください。

このように頼むと、おおむね次のようなコードが返ってきます。実行までClaude Codeがやってくれるので、結果を見ながら次の指示を出せます。

import pandas as pd

df = pd.read_csv("data/sales_sample.csv")

print("shape:", df.shape)
print(df.dtypes)
print(df.isnull().sum())
print(df.describe(include="all"))

欠損・型・結合をまとめて指示する

素性が分かったら、前処理の方針を具体的に指示します。ここで曖昧に「きれいにして」と言うと、勝手に行を削ったり値を埋めたりされて困るので、処理方法を明示します。

前処理を以下の方針で行うコードを書いてください。
- order_date 列を datetime 型に変換(変換できない値はNaTにして件数を報告)
- amount 列の欠損は「埋めずに」欠損のまま残し、欠損行数だけ表示
- region 列の表記ゆれ(全角/半角スペース)を正規化
- customers.csv を customer_id で左結合(多対一になっていないか件数で確認)
処理の各ステップで、前後の行数を print して差分が分かるようにしてください。
仮定した点は「仮定」と明記してください。

ポイントは「欠損を埋めるかどうか」を人が決めることです。欠損の補完(平均で埋める、前方補完するなど)は分析結果を左右する判断なので、AIに自動で決めさせず、まずは欠損を可視化させてから方針を指示します。pandasの欠損データの扱いは公式ユーザーガイドに整理されているので、補完手法を選ぶ際はそちらも参照すると安全です。

工程2:探索的データ分析(EDA)で気づきを洗い出す

前処理が済んだら、データの傾向や気づきを洗い出すEDAに入ります。Claude Codeの強みは、「この切り口で集計して」と言うだけで集計コードと結果がセットで返ってくる点です。仮説を口頭で投げて、すぐ数字で確認できます。

前処理済みの df を使って、探索的データ分析をしてください。
1. region 別・month 別の amount 合計をクロス集計
2. 数値列同士の相関行列(corr)を出力
3. amount の分布(ヒストグラムで分かる範囲)と外れ値の候補
4. 上記から読み取れる「気づき」を3点、箇条書きで
ただし「気づき」は観察された事実だけにとどめ、
原因の断定や因果関係の主張はしないでください。

最後の一文が効きます。これを入れないと、AIは「東日本の売上が高いのは○○だから」と、データにない理由を補完しがちです。EDAの段階では「何が起きているか(事実)」と「なぜか(解釈)」を分け、解釈は人が後でつけます。

相関と因果を混同させないために

相関行列を見て「Aが上がるとBも上がる」という関係が出たとき、AIに要約させると、しばしば因果のように書かれます。たとえば「広告費と売上に強い相関」を「広告が売上を生んでいる」と言い切るのは飛躍です。季節要因など第三の変数が両方を押し上げているだけかもしれません。

対策はシンプルで、要約文に「相関であって因果ではない」という制約を明示的に課すことです。相関係数の数字そのものはコードが正しければ正確ですが、そこから先の意味づけは人の領域だと割り切ります。

工程3:可視化コードを下書きさせ、体裁を詰める

グラフは、matplotlib/seabornの引数を一つずつ調整するのが地味に時間を食う作業です。Claude Codeに「こういう図が欲しい」と伝えれば、軸ラベル・凡例・色の指定まで含めて下書きしてくれます。

region別・month別の amount 合計を、月を横軸にした折れ線グラフで
可視化するコードを書いてください。
- region ごとに色を分けて凡例を表示
- 軸ラベルは日本語(matplotlibの日本語フォント設定も含めて)
- グリッドを薄く表示
- 画像は figures/sales_trend.png に保存(dpi=150)
グラフの種類が分析意図に合っているか、一言コメントしてください。

返ってくるのはこんなコードです。日本語フォントの文字化け対策まで含めて頼んでおくと、後から「豆腐(□)」になって直す手戻りが減ります。

import matplotlib.pyplot as plt
import seaborn as sns

sns.set_theme(style="whitegrid")
plt.rcParams["font.family"] = "Hiragino Sans"  # 環境に合わせて変更

pivot = df.pivot_table(index="month", columns="region",
                       values="amount", aggfunc="sum")

ax = pivot.plot(marker="o", figsize=(10, 5))
ax.set_xlabel("月")
ax.set_ylabel("売上合計")
ax.legend(title="地域")
plt.tight_layout()
plt.savefig("figures/sales_trend.png", dpi=150)

「グラフの種類が分析意図に合っているか一言」と添えておくと、たとえば「件数の構成比なら積み上げ棒のほうが読みやすい」といった提案も返ります。可視化のAPIはmatplotlib公式・seaborn公式に網羅されているので、細かい体裁を自分で詰めたいときは併せて参照してください。グラフの「見せ方が結論を歪めていないか」(軸を切って差を誇張していないか等)は、最後に人の目でチェックします。

工程4:分析notebook・スクリプトを再現可能な形に整える

手元でインタラクティブに進めたEDAは、たいてい「セルの実行順がぐちゃぐちゃ」「同じ前処理を何度も書いている」状態になりがちです。ここでClaude Codeに、notebookやスクリプトの整理を任せます。Jupyterの公式ドキュメントが示すように、notebookは再現性が命なので、整備の価値は高いです。

  1. 関数化:「読み込み→前処理→集計→可視化」の各ブロックを関数に切り出させ、上から実行すれば再現できる形にする。
  2. 重複排除:同じ処理が複数セルに散らばっていないかを点検させ、共通化する。
  3. 依存の明示:使っているライブラリのバージョンを requirements.txt に書き出させ、環境を固定する。
  4. パラメータ分離:ファイルパスや対象期間などを冒頭の設定セルにまとめ、数字をベタ書きしない構造にする。
このnotebook(analysis.ipynb)を再現可能な形にリファクタリングしてください。
- 前処理・集計・可視化をそれぞれ関数に切り出す
- セルを上から実行すれば同じ結果が出る順序に並べ替える
- ファイルパスと対象期間は冒頭の設定セルに集約
- 使用ライブラリを requirements.txt に書き出す
処理の中身(数値結果)は変えないこと。変える必要がある箇所は、
勝手に変えず、理由を添えて指摘だけしてください。

最後の「数値結果は変えるな」が安全装置です。リファクタリング中にロジックが書き換わり、集計値が変わってしまうのが一番怖いので、「挙動を変えずに整理だけ」と縛ります。整理後は、リファクタ前後で主要な集計値が一致するかを必ず突き合わせてください。

工程5:結果のレポート化と解釈の下書き

分析が固まったら、結果を人に伝えるレポートに落とします。Claude Codeは、集計表やグラフを材料に、報告書の文章ドラフトを書けます。ただしここが一番、相関と因果の混同や言い過ぎが起きやすい場所です。

analysis.ipynb の集計結果とグラフをもとに、
社内向けレポートの下書きをmarkdownで書いてください。
- 「観察された事実」と「考えられる解釈」を見出しで明確に分ける
- 数字は集計結果から引用し、勝手に丸めたり盛ったりしない
- 解釈には「〜の可能性がある」「要追加検証」など断定を避ける表現を使う
- 結論には、追加で確認すべきデータ・分析を「次のアクション」として列挙
レポートはあくまで下書きとして、最終判断は分析者が行う前提で書いてください。

このプロンプトの肝は「事実」と「解釈」のセクションを分けさせることです。読み手(経営層や他部署)に渡る文書で、事実と推測がごっちゃになっていると意思決定を誤らせます。下書きが上がってきたら、数値が集計結果と一致するか、解釈が事実の範囲を超えていないかを、人が一文ずつ確認します。

Claude Codeにはカスタムスラッシュコマンドや定型指示を登録する仕組みもあるので、「レポート下書きの型」を毎回同じ品質で出させたい場合は、指示テンプレートを保存しておくと安定します(設定方法はClaude Code公式ドキュメント参照)。

【要注意】データ分析でClaude Codeを使うときの失敗パターンと回避策

失敗1:欠損や外れ値の処理をAIに丸投げする

❌「データをきれいにして分析しやすくして」
⭕「欠損は埋めずに件数を報告して。外れ値の候補は除外せず印だけ付けて」

なぜ重要か:欠損補完や外れ値除外は分析結果を直接変える判断です。AIに自動で決めさせると、無自覚のうちに結論が変わります。可視化させてから人が方針を決めるのが鉄則です。

失敗2:生成コードを実データで検証せず信じる

❌ サンプルで動いたコードをそのまま本番データに流す
⭕ サンプルで組んだコードを、列の型・件数・集計値を確認しながら実データで検証する

なぜ重要か:実データには想定外の値(混在した型、想定外のカテゴリ、桁外れの数値)が紛れます。「動いた」と「正しい」は別物で、集計値の妥当性は人が確かめる必要があります。

失敗3:相関を因果として書かせてしまう

❌「広告費と売上の関係を分析して結論を書いて」
⭕「相関係数を出して。因果の主張はせず、相関であることを明記して」

なぜ重要か:相関の数字は正確でも、そこから「Aが原因でB」と書くのは飛躍です。第三の変数や逆の因果がありえます。意味づけは人の仕事だと切り分けます。

失敗4:機密データ・個人情報をそのまま入力する

❌ 顧客名・個人情報を含む実CSVをそのまま読ませる
⭕ 個人情報はマスキング、または構造だけ同じダミーデータでコードを組み、出来たスクリプトを手元で実行

なぜ重要か:分析対象に個人情報が含まれることは多く、取り扱いを誤るとコンプライアンス上の問題になります。所属組織のデータ取り扱い規程に必ず従ってください。

よくある質問(FAQ)

Q1. Claude Codeはデータ分析専用のツールですか?

いいえ。Claude Codeはターミナル上で動く汎用のエージェント型コーディングツールで、データ分析はその用途の一つです。pandasやmatplotlibを使う分析スクリプトの作成・実行・修正に向いています(Anthropic公式ドキュメント、2026年6月時点)。

Q2. pandasやmatplotlibを知らなくても使えますか?

コードの下書きはAIが書くので、ゼロからの記述は不要です。ただし生成されたコードや集計値が正しいかは人が判断する必要があるため、最低限「何をしている処理か」を読めること、統計や可視化の基本的な妥当性を判断できることは求められます。

Q3. 分析の結論までAIに出してもらってよいですか?

結論や意思決定は人が握るべき領域です。AIは統計の解釈で誤りうる(相関と因果の混同、サンプルサイズの無視など)ため、数値の妥当性・手法の適切さ・最終的な結論は必ずアナリストが検証してください。AIは下書きと補助に使うのが安全です。

Q4. 機密データや個人情報を含むデータも分析できますか?

実データをそのまま入力するのは避けてください。個人情報はマスキングするか、構造だけ同じダミーデータでスクリプトを組み、完成したコードを手元の安全な環境で実データに対して実行する方法が推奨されます。所属組織のデータ取り扱い規程・コンプライアンスに従ってください。

Q5. Jupyter notebookでの作業にも使えますか?

使えます。インタラクティブに進めたnotebookを、関数化・実行順の整理・依存関係の明示によって再現可能な形にリファクタリングする、といった整備に向いています。notebookの再現性についてはJupyter公式ドキュメントも参考になります。

まとめ:データ分析の「手前と後ろ」をAIに、判断は人に

Claude Codeをデータ分析に使う本質は、「分析そのものの代行」ではなく、「分析を取り囲む作業の効率化」です。前処理・EDA・可視化・notebook整備・レポート下書き——これらをAIに任せることで、アナリストは数値の妥当性検証と結論づけという、本来一番時間を割くべき仕事に集中できます。

今日からできる3つのアクション:

  1. サンプルCSVを1本用意し、「欠損・型・基本統計を確認するpandasコードを書いて」と頼んでみる。
  2. EDAの要約を頼むときは「因果の主張はせず相関のみ」と制約を必ず添える。
  3. レポート下書きは「事実」と「解釈」を分けさせ、数値が集計結果と一致するか自分で確認する。

関連して、分析スクリプトの品質を保つ運用はデータ基盤のSQLレビューをClaude Codeで標準化する5手順が、既存の分析コードベースを素早く把握する方法はClaude Codeで大規模コードベースを理解するが参考になります。Claude Code全般の使いこなしはClaude Code実践テクニック完全ガイド、大きな変更を安全に進める進め方はClaude Code Plan Mode実践ガイドにまとめています。

著者プロフィール

佐藤傑(さとう・すぐる)。株式会社Uravation代表取締役。X(@SuguruKun_ai)フォロワー約10万人。100社以上の企業向けAI研修・導入支援を手がける。著書『AIエージェント仕事術』(SBクリエイティブ)。SoftBank IT連載7回執筆。

参考・出典


Next Step

この事例を、自社の業務に置き換える。

対象業務、利用データ、評価基準、社内展開の順番まで整理すると、Claude Code導入の失敗を減らせます。

導入を相談する