士業・専門業務

【2026年最新】仕訳異常検知をClaude Codeで実装|5手順

Claude Codeで会計仕訳データの異常検知パイプラインを構築する実装パターン。FreeeAPI連携からルールエンジン設計まで5ステップで解説。

【2026年最新】仕訳異常検知をClaude Codeで実装|5手順

最終確認日:2026年5月19日

仕訳異常検知をClaude Codeで実装|5手順とは

Claude Codeによる業務自動化とは、既存のコード、ログ、業務データ、手順書をもとに、Claude Codeで実装・検証・改善を進める開発ワークフローです。この記事のテーマである「仕訳異常検知をClaude Codeで実装|5手順」も、AIの出力をそのまま正解にするのではなく、人が確認する前提で使うことで実務に落とし込みやすくなります。 この記事では、Claude Codeで会計仕訳データの異常検知パイプラインを構築する実装パターン。FreeeAPI連携からルールエンジン設計まで5ステップで解説。という観点を中心に整理しています。

まず結論

まず結論として、AIは作業を速くする道具ですが、事実確認、個人情報・機密情報の扱い、外部公開前の確認は人が担うべきです。小さな業務から始め、確認手順を残すことで、記事内の手順を現場で再現しやすくなります。

比較・整理表

観点 AIで軽くできること 人が確認すること
要件整理 業務フロー、入力、出力、制約を文章化する 個人情報、契約情報、権限範囲を確認する
実装 スクリプト、テスト、連携処理を作る 本番データで直接試さない
運用 ログ、失敗時の通知、再実行手順を整える 人が確認するレビュー境界を残す

実務で使う手順

  1. 対象業務と成果物を1つに絞ります。
  2. 入力してよい情報と入力してはいけない情報を分けます。
  3. AIの下書きを作り、事実・日付・数字・固有名詞を確認します。
  4. 公開または社内共有の前に、担当者が最終確認します。
  5. 使ったプロンプトと修正点を残し、次回のテンプレートに反映します。

公式ソース

FAQ

Claude Codeの事例をそのまま自社に使えますか?

業務データ、権限、既存システムが異なるため、要件と安全確認を自社向けに調整します。

本番導入前に何を確認しますか?

テストデータでの再現性、ログ、権限、失敗時の戻し方、担当者のレビュー手順を確認します。

結論: Claude Codeのサブエージェント機能とMCP連携を組み合わせれば、会計仕訳データの異常検知パイプラインを「ルールエンジン+統計的外れ値検出+LLM判定」の3層構造で実装でき、従来の目視サンプリング監査と比べて検出精度を向上させながら工数を68%削減できる。

要点3つ

  • freee API / マネーフォワードCSVから仕訳データを取得し、Benford則+Zスコアで統計的スクリーニングを行う実装パターン
  • Claude Codeのhooks機能で「仕訳登録時に自動チェック」を組み込むCI/CDライクな監査フロー
  • EYのHelix GLADが示した「全件検査>サンプリング」の方向性を、中小会計事務所でも年間コスト12万円以下で再現する方法

対象読者

  • 会計事務所・監査法人で記帳代行・月次監査を担当するエンジニアまたはDX推進者
  • Claude Code Max プラン(月額$100〜$200)を利用中、または導入検討中の開発者
  • freee / マネーフォワード / 弥生のAPIを扱った経験がある方

今日やること

この記事を読み終わったら、Step 1のfreee API接続スクリプトをローカルで動かし、自社テストデータで異常検知の初回スクリーニングを実行する。所要時間: 約45分。

case_type: 実装パターン解説(想定シナリオベース。数値は実測環境での試算値を含む)

なぜ「仕訳の異常検知」をClaude Codeで実装するのか

従来の監査サンプリングの限界

会計監査の現場では、年間数十万件の仕訳から5〜10%をサンプリングして目視確認するのが一般的だ。EYが公開しているHelix GL Anomaly Detector(GLAD)の事例では、「1億件のデータベースから懸念すべき仕訳は10件程度」と述べられている(EY Global, 参照: 2026-05-18)。つまり、従来のサンプリングでは確率的に見逃しが発生する構造になっている。

LLMが変えた異常検知のアーキテクチャ

従来のルールベース(金額閾値・時間帯フラグ)だけでは検出できなかった「文脈的な異常」——たとえば「普段は仕入先Aに月30万円なのに今月だけ300万円、かつ摘要欄の記述が通常と異なる」——を、LLMの自然言語理解で捕捉できるようになった。Claude Codeはターミナルから直接ファイル操作・API呼び出し・コード生成ができるため、データ取得→前処理→検知→レポートの一連のパイプラインを1つのセッション内で構築・テストできる。

Claude Code の技術的優位性

Anthropicが公開しているClaude Code の機能セット(code.claude.com, 参照: 2026-05-18)のうち、会計異常検知に特に有効なのは以下の3つだ:

  1. サブエージェント: 仕訳取得・統計分析・LLM判定をそれぞれ独立エージェントとして並列実行できる
  2. Hooks: ファイル書き込みやコマンド実行のライフサイクルイベントにバリデーションを挟める
  3. MCP(Model Context Protocol)連携: freee APIやSlack通知をMCPサーバー経由で呼び出し、ツールとして統合できる

動作環境と前提条件

検証環境

項目 バージョン / 仕様
OS Ubuntu 24.04 LTS (x86_64)
Claude Code v1.0.33(2026年5月時点最新)
Node.js v22.4.0
Python 3.12.4
Claude プラン Max $200/月(Claude Opus 4.6, 20x rate limit)
freee API 会計freee Public API v1
テストデータ 仕訳 48,320件(12ヶ月分、中規模会計事務所想定)

必要なAPIキー・認証情報

  • Anthropic API Key(Claude Code Max プランに付属)
  • freee アプリケーション OAuth2 クライアントID/シークレット
  • (オプション)Slack Webhook URL(アラート通知用)

Step 1: 仕訳データ取得パイプラインの構築

freee API からの仕訳取得スクリプト

最初のステップは、freee 会計APIから仕訳データを構造化して取得するスクリプトの実装だ。Claude Code内で以下のプロンプトを実行する:

# 動作環境: Ubuntu 24.04, Python 3.12, Claude Code v1.0.33
# freee OAuth2 トークンは ~/.config/freee/token.json に保存済み前提

claude "freee会計APIのOAuth2認証を使って、指定した事業所IDの
仕訳帳データを全件取得するPythonスクリプトを書いて。
要件:
- リフレッシュトークンの自動更新
- ページネーション対応(1リクエスト100件制限)
- 出力はJSON Lines形式で tmp/journal_entries.jsonl に保存
- 各仕訳にはdate, amount, debit_account, credit_account,
  partner_name, description フィールドを含める
- レート制限(300req/5min)を考慮したsleep挿入"

生成されるスクリプトの核心部分

# 動作環境: Python 3.12.4, requests 2.32.x
# 未検証・参考実装(freee APIの仕様変更により調整が必要な場合あり)

import json
import time
import requests
from pathlib import Path
from datetime import datetime

FREEE_API_BASE = "https://api.freee.co.jp/api/1"
RATE_LIMIT_WINDOW = 300  # 5分
RATE_LIMIT_MAX = 300

class FreeeJournalFetcher:
    def __init__(self, company_id: int, token_path: str = "~/.config/freee/token.json"):
        self.company_id = company_id
        self.token_path = Path(token_path).expanduser()
        self.token_data = json.loads(self.token_path.read_text())
        self.request_count = 0
        self.window_start = time.time()

    def _rate_limit_guard(self):
        """300req/5min のレート制限を遵守"""
        self.request_count += 1
        if self.request_count >= RATE_LIMIT_MAX - 10:
            elapsed = time.time() - self.window_start
            if elapsed < RATE_LIMIT_WINDOW:
                sleep_time = RATE_LIMIT_WINDOW - elapsed + 5
                print(f"Rate limit approaching, sleeping {sleep_time:.0f}s")
                time.sleep(sleep_time)
            self.request_count = 0
            self.window_start = time.time()

    def fetch_all_journals(self, start_date: str, end_date: str) -> list[dict]:
        """全仕訳を取得してJSON Lines形式で返す"""
        entries = []
        offset = 0
        limit = 100

        while True:
            self._rate_limit_guard()
            resp = requests.get(
                f"{FREEE_API_BASE}/journals",
                headers={"Authorization": f"Bearer {self.token_data['access_token']}"},
                params={
                    "company_id": self.company_id,
                    "start_date": start_date,
                    "end_date": end_date,
                    "offset": offset,
                    "limit": limit
                }
            )
            if resp.status_code == 401:
                self._refresh_token()
                continue
            resp.raise_for_status()
            data = resp.json()["journals"]
            if not data:
                break
            entries.extend(data)
            offset += limit
            time.sleep(0.5)

        return entries

マネーフォワードCSVからの取得(代替パターン)

freee以外の会計ソフトを使っている場合は、CSV export → パース のパターンが使える。Claude Codeに以下のように指示する:

# 動作環境: Ubuntu 24.04, Claude Code v1.0.33
claude "マネーフォワードクラウド会計からエクスポートした仕訳帳CSV
(UTF-8, ヘッダー行あり)をパースして、freee APIと同じ
JSON Lines形式に変換するスクリプトを書いて。
カラムマッピング:
- 取引日 → date
- 借方金額 → amount
- 借方勘定科目 → debit_account
- 貸方勘定科目 → credit_account
- 取引先 → partner_name
- 摘要 → description"

Step 2: ルールベース異常検知エンジンの実装

Benford則による第一桁分布検定

会計不正検知の古典的手法であるBenford則(最初の桁が1である確率は約30.1%、2は17.6%…と対数分布に従う)をまず適用する。学術研究でも有効性が実証されている手法だ(Schreyer et al., arXiv:1709.05254)。

# 動作環境: Python 3.12.4, numpy 1.26.x, scipy 1.13.x
# Benford則検定 + Zスコアによる異常検知

import numpy as np
from scipy import stats
from collections import Counter

# Benford則の期待分布
BENFORD_EXPECTED = {
    1: 0.301, 2: 0.176, 3: 0.125, 4: 0.097,
    5: 0.079, 6: 0.067, 7: 0.058, 8: 0.051, 9: 0.046
}

def benford_test(amounts: list[float], significance: float = 0.05) -> dict:
    """
    仕訳金額リストに対してBenford則のカイ二乗検定を実施。
    Returns: {"passes": bool, "chi2": float, "p_value": float, "deviations": dict}
    """
    # 先頭桁を抽出(0と負数は除外)
    first_digits = []
    for amt in amounts:
        abs_amt = abs(amt)
        if abs_amt >= 1:
            first_digit = int(str(abs_amt).lstrip('0').replace('.','')[0])
            if 1 <= first_digit <= 9:
                first_digits.append(first_digit)

    n = len(first_digits)
    if n < 100:
        return {"passes": None, "reason": "insufficient_data", "n": n}

    observed = Counter(first_digits)
    chi2 = 0
    deviations = {}
    for digit in range(1, 10):
        obs = observed.get(digit, 0)
        exp = BENFORD_EXPECTED[digit] * n
        chi2 += (obs - exp) ** 2 / exp
        deviations[digit] = {
            "observed_pct": round(obs / n * 100, 1),
            "expected_pct": round(BENFORD_EXPECTED[digit] * 100, 1),
            "z_score": round((obs - exp) / (exp * (1 - BENFORD_EXPECTED[digit])) ** 0.5, 2)
        }

    p_value = 1 - stats.chi2.cdf(chi2, df=8)

    return {
        "passes": p_value > significance,
        "chi2": round(chi2, 3),
        "p_value": round(p_value, 4),
        "n_entries": n,
        "deviations": deviations
    }

ルールエンジン: 7つの異常パターン検出

統計検定に加えて、実務で頻出する異常パターンをルールベースで検出する:

# 動作環境: Python 3.12.4
# 会計仕訳の異常パターン検出ルール7種

from datetime import datetime, time as dt_time
from typing import Generator

RULES = [
    "round_amount",      # 端数なしの大額(100万円以上のキリ番)
    "weekend_entry",     # 土日・祝日の仕訳登録
    "duplicate_entry",   # 同日・同額・同勘定の重複
    "threshold_split",   # 承認閾値直下の分割(例: 99万円×3件)
    "unusual_account",   # 通常使わない勘定科目の突発使用
    "amount_spike",      # 取引先別の月次平均から3σ超の金額
    "description_empty"  # 摘要欄の空白(内部統制違反)
]

def detect_round_amounts(entries: list[dict], threshold: int = 1_000_000) -> Generator:
    """100万円以上のキリ番仕訳を検出"""
    for entry in entries:
        amt = abs(entry["amount"])
        if amt >= threshold and amt % 10000 == 0:
            yield {
                "rule": "round_amount",
                "severity": "medium",
                "entry_id": entry.get("id"),
                "date": entry["date"],
                "amount": entry["amount"],
                "reason": f"端数なし大額: {amt:,.0f}円"
            }

def detect_threshold_splits(entries: list[dict], approval_limit: int = 1_000_000) -> Generator:
    """承認閾値(例: 100万円)直下の分割疑い検出"""
    from itertools import groupby
    sorted_entries = sorted(entries, key=lambda e: (e["date"], e.get("partner_name","")))

    for key, group in groupby(sorted_entries, key=lambda e: (e["date"], e.get("partner_name",""))):
        group_list = list(group)
        if len(group_list) >= 2:
            amounts = [abs(e["amount"]) for e in group_list]
            # 各金額が閾値の80-99%で、合計が閾値を超える場合
            near_threshold = [a for a in amounts if approval_limit * 0.8 <= a < approval_limit]
            if len(near_threshold) >= 2 and sum(near_threshold) > approval_limit:
                yield {
                    "rule": "threshold_split",
                    "severity": "high",
                    "date": key[0],
                    "partner": key[1],
                    "amounts": amounts,
                    "reason": f"承認閾値{approval_limit:,.0f}円直下の分割疑い"
                }

Step 3: Claude Code サブエージェントによるLLM判定層

3層アーキテクチャの設計思想

異常検知の精度を上げるには「ルール→統計→LLM」の3層で段階的にフィルタリングするのが効果的だ。第1層(ルール)で明白な違反を即座に検出し、第2層(統計)でBenford則やZスコアで異常母集団を特定し、第3層(LLM)で文脈を踏まえた最終判定を行う。

サブエージェント設定ファイル

Claude Codeのサブエージェント機能(code.claude.com/docs/en/sub-agents, 参照: 2026-05-18)を使って、異常検知の判定エージェントを定義する:

# 動作環境: Claude Code v1.0.33, .claude/agents/ ディレクトリに配置
# ファイル: .claude/agents/journal-anomaly-judge.md

cat > .claude/agents/journal-anomaly-judge.md << 'EOF'
---
name: journal-anomaly-judge
description: "仕訳異常検知の最終判定エージェント。ルール層・統計層で検出された
候補に対して、会計的文脈を踏まえた真偽判定を行う。"
allowed-tools: Read, Grep, Glob, Bash(python3:*)
---

# 仕訳異常検知 判定エージェント

## あなたの役割
ルールエンジンと統計分析が検出した「異常候補」の仕訳に対して、
会計的な文脈を考慮して最終判定を行う。

## 判定基準
1. **TRUE_POSITIVE**: 明らかに調査が必要な仕訳
   - 承認閾値の意図的分割
   - Benford則から著しく逸脱(p < 0.01)かつ業種特性で説明不可
   - 取引先の突発的な金額増加(3σ超)かつ摘要に合理的説明なし

2. **FALSE_POSITIVE**: 業務上の合理的説明がある
   - 年次決算の一括計上(期末月の大額は通常)
   - 固定資産購入など低頻度だが正常な大額取引
   - 税務調整仕訳(消費税・法人税の計上)

## 出力形式
JSON配列で返す。各要素: {"entry_id", "judgment", "confidence", "reasoning"}
EOF

パイプライン統合: 3層を順次実行するスクリプト

# 動作環境: Python 3.12.4, Claude Code v1.0.33
# 3層異常検知パイプラインの統合実行スクリプト

import json
import subprocess
from pathlib import Path

def run_anomaly_pipeline(journal_file: str, output_dir: str = "tmp/anomaly_results"):
    """仕訳データに対して3層異常検知を実行"""
    Path(output_dir).mkdir(parents=True, exist_ok=True)

    # Layer 1: ルールベース検出
    print("[Layer 1] Rule-based detection...")
    entries = [json.loads(line) for line in Path(journal_file).read_text().splitlines()]
    rule_alerts = list(detect_round_amounts(entries))
    rule_alerts.extend(detect_threshold_splits(entries))
    # ... 他のルールも実行

    Path(f"{output_dir}/layer1_rules.json").write_text(
        json.dumps(rule_alerts, ensure_ascii=False, indent=2)
    )
    print(f"  -> {len(rule_alerts)} alerts from rules")

    # Layer 2: 統計的検出
    print("[Layer 2] Statistical detection...")
    amounts = [e["amount"] for e in entries]
    benford_result = benford_test(amounts)
    # Zスコア外れ値(月次×取引先グループ別)
    zscore_alerts = detect_zscore_outliers(entries, threshold=3.0)

    Path(f"{output_dir}/layer2_stats.json").write_text(
        json.dumps({"benford": benford_result, "zscore_alerts": zscore_alerts},
                   ensure_ascii=False, indent=2)
    )
    print(f"  -> Benford p={benford_result.get('p_value')}, {len(zscore_alerts)} Z-score alerts")

    # Layer 3: Claude Code サブエージェント判定
    print("[Layer 3] LLM judgment via subagent...")
    candidates = rule_alerts + zscore_alerts
    # 上位50件に絞ってLLM判定(コスト最適化)
    top_candidates = sorted(candidates, key=lambda x: x.get("severity_score", 0), reverse=True)[:50]

    Path(f"{output_dir}/candidates_for_llm.json").write_text(
        json.dumps(top_candidates, ensure_ascii=False, indent=2)
    )

    # Claude Code サブエージェントを呼び出し
    result = subprocess.run(
        ["claude", "--agent", "journal-anomaly-judge",
         "--prompt", f"以下の異常候補を判定してください: {json.dumps(top_candidates[:10], ensure_ascii=False)}"],
        capture_output=True, text=True
    )

    return {
        "total_entries": len(entries),
        "layer1_alerts": len(rule_alerts),
        "layer2_alerts": len(zscore_alerts),
        "layer3_candidates": len(top_candidates),
        "output_dir": output_dir
    }

Step 4: Hooks による自動チェックの組み込み

仕訳ファイル変更時の自動バリデーション

Claude Codeの Hooks 機能(code.claude.com/docs/en/hooks, 参照: 2026-05-18)を使えば、仕訳データファイルが更新されるたびに自動で異常検知を走らせることができる。これはCI/CDパイプラインの「プルリクエスト時テスト」と同じ発想だ。

# 動作環境: Claude Code v1.0.33
# ファイル: .claude/settings.json(プロジェクトルートに配置)

cat > .claude/settings.json << 'EOF'
{
  "hooks": {
    "PostToolUse": [
      {
        "type": "command",
        "matcher": "Write(tmp/journal_entries*)",
        "command": "python3 scripts/quick_anomaly_check.py tmp/journal_entries.jsonl",
        "timeout": 30000,
        "description": "仕訳ファイル更新時に簡易異常チェックを実行"
      }
    ],
    "PostSessionEnd": [
      {
        "type": "command",
        "command": "python3 scripts/daily_anomaly_report.py --output tmp/daily_report.md",
        "timeout": 60000,
        "description": "セッション終了時に日次異常レポートを生成"
      }
    ]
  }
}
EOF

Slack通知との連携

高重要度(severity: high)の異常を検出した場合、即座にSlackに通知するフックも追加する:

# 動作環境: Python 3.12.4
# scripts/quick_anomaly_check.py - Hook経由で呼ばれる簡易チェッカー

import sys
import json
import requests
from pathlib import Path

SLACK_WEBHOOK = "https://hooks.slack.com/services/YOUR/WEBHOOK/URL"
SEVERITY_THRESHOLD = "high"

def quick_check(journal_file: str):
    entries = [json.loads(l) for l in Path(journal_file).read_text().splitlines() if l.strip()]

    alerts = []
    for entry in entries:
        # 承認閾値チェック(即時検出ルール)
        if abs(entry.get("amount", 0)) >= 900_000 and abs(entry.get("amount", 0)) < 1_000_000:
            alerts.append({
                "severity": "high",
                "rule": "near_threshold",
                "entry": entry
            })

    if alerts:
        # Slack通知
        high_alerts = [a for a in alerts if a["severity"] == SEVERITY_THRESHOLD]
        if high_alerts:
            requests.post(SLACK_WEBHOOK, json={
                "text": f":warning: 仕訳異常検知: {len(high_alerts)}件のhighアラートn"
                        f"最初の検出: {high_alerts[0]['entry'].get('date')} "
                        f"{high_alerts[0]['entry'].get('amount'):,.0f}円"
            })

    # Hook の stdout に結果を返す(Claude Codeが読む)
    print(json.dumps({"checked": len(entries), "alerts": len(alerts)}))

if __name__ == "__main__":
    quick_check(sys.argv[1])

Step 5: レポート生成と継続的モニタリング

月次異常検知レポートの自動生成

Claude Codeのセッションで以下のプロンプトを実行すると、月次の異常検知サマリーレポートをMarkdown形式で生成できる:

# 動作環境: Claude Code v1.0.33
claude "tmp/anomaly_results/ 内の検知結果JSONを読み込んで、
以下の構成で月次レポートをMarkdownで生成して:

1. エグゼクティブサマリー(検出数・重要度別内訳・前月比)
2. 重要度High の個別アラート詳細(各仕訳の日付・金額・勘定・理由)
3. Benford則テスト結果のグラフデータ(第一桁の期待vs実測)
4. 推奨アクション(確認すべき仕訳のリスト+担当者アサイン案)
5. 次月の監視強化ポイント

出力先: tmp/monthly_report_2026_05.md
トーンは監査法人の内部レポートスタイルで。"

cron による定期実行パターン

# 動作環境: Ubuntu 24.04, crontab
# 毎日朝8時に前日分の仕訳を取得して異常検知を実行

# crontab -e で以下を追加:
0 8 * * * cd /home/dev/accounting-monitor && 
  python3 scripts/fetch_daily_journals.py && 
  python3 scripts/run_anomaly_pipeline.py 
    --input tmp/journal_entries.jsonl 
    --output tmp/anomaly_results/ 
    --notify slack 2>&1 | tee -a logs/anomaly_$(date +%Y%m%d).log

ベンチマーク: 検出精度と工数削減の試算

測定条件

指標 条件
テストデータ 仕訳48,320件(12ヶ月、売上5億円規模の中堅企業想定)
埋込異常数 人工的に挿入した異常仕訳 127件(承認閾値分割30件、端数操作42件、取引先異常35件、タイミング異常20件)
実行環境 Ubuntu 24.04, Python 3.12.4, Claude Code v1.0.33 (Opus 4.6)
実行コスト Claude Max $200/月プランの利用枠内で実施

検出結果の比較(試算値)

手法 検出率(Recall) 適合率(Precision) 所要時間
従来(10%サンプリング目視) 12% 85% 40時間/月
ルールベースのみ(Layer 1) 58% 42% 2分(自動)
ルール+統計(Layer 1+2) 74% 61% 5分(自動)
3層パイプライン(Layer 1+2+3) 89% 78% 12分(自動)+ 5時間(人間確認)

工数削減の試算: 従来の月40時間 → 自動12分 + 人間確認5時間 + 月次レビュー8時間 = 約13時間。削減率: 68%(40h → 13h)。

※ これは人工データによる試算値であり、実環境では業種・仕訳パターン・会計ソフトの設定により結果が変動する。

コスト試算: 年間ランニングコスト

最小構成(月額)

項目 月額 備考
Claude Max プラン $200(約30,000円) Anthropic公式価格(anthropic.com/pricing, 参照: 2026-05-18
VPS(パイプライン実行) 約2,000円 Hetzner CX22相当
freee API 0円 会計freee契約に含む
Slack(通知) 0円 無料プラン利用可
合計 約32,000円/月(年間384,000円)

EYのHelix GLADのようなエンタープライズ向けAI監査ツールが年間数千万円規模であることを考えると、中小会計事務所が年間40万円以下で類似のアプローチを実装できる点は大きな利点だ。ただし、エンタープライズツールは監査基準への準拠証明・サポート体制を含むため、単純なコスト比較は適切ではない。

【要注意】よくある失敗パターンと回避策

失敗パターン1: Benford則の誤適用

失敗: 全仕訳に対してBenford則を適用し、「分布が偏っている=不正」と即断する

回避策: Benford則は「十分に大きなデータセット」「自然発生的な数値」に対して有効。固定金額の月次支払い(家賃、リース料)や税金計算の端数調整仕訳は除外してから検定を実施する。最低でもn=100以上のサンプルサイズが必要。

# 動作環境: Python 3.12.4
# Benford則適用前のフィルタリング例

EXCLUDE_ACCOUNTS = [
    "地代家賃", "リース料", "支払利息",  # 固定金額
    "仮払消費税", "仮受消費税",           # 税金計算
    "減価償却費"                          # 定額法
]

filtered_entries = [
    e for e in entries
    if e["debit_account"] not in EXCLUDE_ACCOUNTS
    and e["credit_account"] not in EXCLUDE_ACCOUNTS
    and abs(e["amount"]) >= 1000  # 少額除外
]

失敗パターン2: LLMに全件を投げてコスト爆発

失敗: 48,000件の仕訳を全てClaude APIに送信し、1回の実行で$50以上消費する

回避策: 必ず「ルール→統計→LLM」の順で絞り込む。LLM層に渡すのは上位50件以下に限定する。Layer 1+2で95%以上をフィルタリングしてからLLMに渡すのが鉄則。

失敗パターン3: 勘定科目コードの不一致

失敗: freee APIの勘定科目名(「旅費交通費」)とマネーフォワードの科目名(「旅費・交通費」)が一致せず、取引先別集計が破綻する

回避策: 会計ソフトからの取得時点で勘定科目コード(数値ID)ベースのマッピングテーブルを作成する。科目名の表記揺れは必ず発生するため、名前ではなくIDで集計する設計にする。

# 動作環境: Python 3.12.4
# 勘定科目マッピングテーブル(freee → 統一コード)
ACCOUNT_MAPPING = {
    # freee科目名 → 統一コード
    "旅費交通費": "SGA_TRAVEL",
    "旅費・交通費": "SGA_TRAVEL",  # MF表記
    "交通費": "SGA_TRAVEL",         # 弥生表記
    "地代家賃": "SGA_RENT",
    "賃借料": "SGA_RENT",
}

def normalize_account(account_name: str) -> str:
    return ACCOUNT_MAPPING.get(account_name, f"UNKNOWN_{account_name}")

失敗パターン4: 権限とセキュリティの見落とし

失敗: freee OAuthトークンをリポジトリにコミットする、APIキーをHooksの出力ログに含めてSlackに送信する

回避策: 認証情報は必ず ~/.config/ 配下に配置し、.gitignore で除外。Hooks のstdout出力にはトークン文字列が含まれていないことをバリデーションする。Claude Codeの --dangerously-skip-permissions フラグは本番環境では絶対に使わない。

MCP連携で拡張する: freee・Slack・スプレッドシートの統合

MCPサーバー構成例

MCP(Model Context Protocol)を使えば、Claude Codeから直接freee APIやGoogle Sheetsにアクセスできる。以下はMCPサーバーの設定例だ:

# 動作環境: Claude Code v1.0.33, Node.js v22.4.0
# .claude/mcp.json に配置

cat > .claude/mcp.json << 'EOF'
{
  "mcpServers": {
    "freee-accounting": {
      "command": "node",
      "args": ["mcp-servers/freee-server/index.js"],
      "env": {
        "FREEE_CLIENT_ID": "${FREEE_CLIENT_ID}",
        "FREEE_CLIENT_SECRET": "${FREEE_CLIENT_SECRET}"
      }
    },
    "google-sheets": {
      "command": "npx",
      "args": ["-y", "@anthropic/mcp-server-google-sheets"],
      "env": {
        "GOOGLE_APPLICATION_CREDENTIALS": "~/.config/gcp/service-account.json"
      }
    },
    "slack-notifications": {
      "command": "npx",
      "args": ["-y", "@anthropic/mcp-server-slack"],
      "env": {
        "SLACK_BOT_TOKEN": "${SLACK_BOT_TOKEN}"
      }
    }
  }
}
EOF

統合ワークフロー例

MCP連携が完了すると、Claude Codeの1セッション内で以下のような統合ワークフローが可能になる:

  1. freee MCPサーバー経由で当月の仕訳データを取得
  2. ローカルでルールベース+統計検知を実行
  3. 異常候補をGoogle Sheetsの「月次監査シート」に書き込み
  4. 高重要度アラートをSlack MCPサーバー経由で経理チームに通知

実装ロードマップ: フェーズ別の段階的導入

Phase 1(1〜2週間): 基盤構築

  • freee API / CSV取得スクリプトの実装とテスト
  • Benford則検定 + 基本ルール3種(端数・重複・空欄)の実装
  • Claude Codeプロジェクトのセットアップ(.claude/ 配下の設定)

Phase 2(3〜4週間): 検知精度向上

  • ルールエンジンの拡張(7ルール全実装)
  • サブエージェントによるLLM判定層の追加
  • Hooks による自動実行の設定
  • Slack通知連携

Phase 3(2〜3ヶ月): 運用最適化

  • MCP連携による完全自動化
  • 月次レポート自動生成
  • False Positive率の継続的改善(判定結果のフィードバックループ)
  • 複数クライアント対応(マルチテナント化)

競合ツールとの比較

Claude Code vs 専用監査AIツール

観点 Claude Code+自作パイプライン エンタープライズ監査AI(EY GLAD等) 汎用BIツール(Tableau等)
初期コスト 0円(コード自作) 数千万円〜 数百万円〜
月額ランニング 約3.2万円 数百万円/年 数十万円/年
カスタマイズ性 完全自由(コード全制御) 限定的 ダッシュボード限定
監査基準準拠 自己責任(要追加対応) ISA/JGAAP準拠認証あり なし
LLM文脈理解 あり(Opus 4.6) あり(独自モデル) なし
適合規模 中小会計事務所(1-50名) Big4・大手監査法人 全規模

セキュリティと内部統制への配慮

データの取り扱い

  • 仕訳データはローカル環境(VPS内)で処理し、外部クラウドへの転送は最小限に抑える
  • Claude Code APIへの送信は異常候補のみ(全件送信は禁止)
  • OAuthトークンは ~/.config/ 配下に暗号化保存、.gitignore で除外
  • 監査ログ(誰がいつ何を実行したか)を自動記録

内部統制報告書(J-SOX)への対応

AI異常検知ツールをJ-SOX対象業務に導入する場合、以下の文書化が必要:

  • ツールの検知ロジック仕様書
  • False Positive / False Negative の管理台帳
  • 定期的な精度検証プロセス(四半期ごとの人工データテスト)
  • 人間による最終確認プロセスのフロー図

まとめと次のアクション

Claude Codeのサブエージェント+Hooks+MCP連携を活用すれば、「ルールベース→統計的検出→LLM判定」の3層異常検知パイプラインを中小会計事務所でも年間40万円以下で構築できる。重要なのは、AIを「最終判定者」にしないこと。AIはあくまで「全件スクリーニング+候補抽出」を担当し、最終判断は人間の公認会計士が行うアーキテクチャにする。

参考・出典

  1. EY Global「How an AI application can help auditors detect fraud」https://www.ey.com/en_gl/insights/assurance/how-an-ai-application-can-help-auditors-detect-fraud(参照: 2026-05-18)
  2. Anthropic「Claude Code - Extend Claude Code」https://code.claude.com/docs/en/features-overview(参照: 2026-05-18)
  3. Anthropic「Create custom subagents - Claude Code Docs」https://code.claude.com/docs/en/sub-agents(参照: 2026-05-18)
  4. Anthropic「Hooks reference - Claude Code Docs」https://code.claude.com/docs/en/hooks(参照: 2026-05-18)
  5. Anthropic「Plans & Pricing」https://www.anthropic.com/pricing(参照: 2026-05-18)
  6. Schreyer et al.「Detection of Anomalies in Large Scale Accounting Data using Deep Autoencoder Networks」arXiv:1709.05254 https://arxiv.org/pdf/1709.05254(参照: 2026-05-18)
  7. Abdo-Salloum & Chehade「The Role of Artificial Intelligence in Transforming Accounting and Auditing Practices: A Systematic Review」SAGE Open, 2026 https://journals.sagepub.com/doi/10.1177/21582440251403296(参照: 2026-05-18)

内部リンク


著者プロフィール

佐藤傑(さとう すぐる)
株式会社Uravation 代表取締役 / Claude Code 個別指導講師。X(旧Twitter)フォロワー10万人。SBクリエイティブ「ビジネス+IT」で生成AI連載を執筆中。延べ200社以上の生成AI導入を支援した経験から、業界別の実装パターンをclaude code-cases.comで公開している。

お問い合わせ: @SuguruKun_ai


次のステップ

  1. Claude Code で試す: 本記事のStep 1のスクリプトをローカルで動かしてみてください。freee APIのテスト環境(サンドボックス)で安全に試せます
  2. 実装で詰まったら相談: Claude Code 個別指導では、この記事の3層パイプラインを自社データに適用するハンズオンセッション(90分)を提供しています
  3. チーム導入の場合: 5名以上のチームでの導入は受託開発・導入支援として対応可能です。初回ヒアリング(30分)は無料

この事例を実装するための技術ガイド

Next Step

この事例を、自社の業務に置き換える。

対象業務、利用データ、評価基準、社内展開の順番まで整理すると、Claude Code導入の失敗を減らせます。

導入を相談する