Claude Code vs Codex CLI の違いを最初にどう見るか
Claude Code と Codex CLI、どちらが優れた AI コーディングエージェントか——この問いに対する私の結論は「両方使え」です。
身も蓋もない回答に聞こえるかもしれません。しかし、フリーランスとして実際に両ツールを3ヶ月使い込んだ結果、たどり着いたのは「どちらか一方」ではなく「開発フェーズごとに最適なツールが違う」という事実でした。
この記事では、ベンチマーク比較や機能一覧の羅列ではなく、Claude Code と Codex CLI の違いを、設計・実装・レビュー・安全運用の観点でどう使い分けるべきかを具体的に解説します。Claude Code の導入手順を先に整理したい人は Claude Code の使い方 実践ガイド、MCP まで含めた運用設計を見たい人は Harness Engineering 入門 から読むと比較の前提が掴みやすいです。
30秒でわかるスペック比較
まず前提知識として、2026年3月時点の主要スペックを整理します。
| 項目 | Claude Code | Codex CLI |
|---|---|---|
| 開発元 | Anthropic | OpenAI |
| 主要モデル | Opus 4.6 / Sonnet 4.6 | GPT-5.4 / GPT-5.3-Codex |
| コンテキスト | 1M tokens(GA) | 272K(デフォルト)/ 1M(設定変更で有効化) |
| SWE-bench Verified | 80.8% | 約80%(GPT-5.4) |
| 月額(ヘビーユース) | $100(Max 5x) | $20(Plus)〜$200(Pro) |
| API入力単価 | $5 / 1M tokens(Opus) | $2.50 / 1M tokens(GPT-5.4) |
| API出力単価 | $25 / 1M tokens(Opus) | $15 / 1M tokens(GPT-5.4) |
| サンドボックス | アプリケーション層(Hooks) | カーネル層(Seatbelt / Landlock) |
SWE-bench のスコアは僅差。つまりコーディング能力そのものでは決定的な差がないのが2026年3月の現実です。
フェーズ別の使い分け——私の結論
3ヶ月間、受託案件と自社プロダクトの両方で使い比べた結果、以下の使い分けに落ち着きました。
設計フェーズ → Claude Code
アーキテクチャ設計や技術選定の壁打ちでは、Claude Code(Opus 4.6)が圧倒的に強いです。
# Plan Mode で設計を詰める
claude --model opus
> /plan このプロジェクトの認証基盤を設計してください。
> 要件: OAuth2 + RBAC、マルチテナント対応、既存のPostgreSQLスキーマとの整合性
Opus 4.6 の1Mコンテキストが活きるのがこの場面です。既存コードベース全体を読み込んだ上で、整合性のある設計を提案してくれます。一方、Codex CLI のデフォルト272Kでは大規模プロジェクトの全体像を把握しきれないケースがありました。
実体験: ある受託案件で、既存のNuxt 3アプリにマイクロサービスを追加する設計を依頼したところ、Claude Code は既存の API ルート180本を全て読み込んだ上で命名規則の一貫性まで考慮した提案をしてくれました。同じタスクを Codex CLI に投げると、既存コードの一部しか参照できず、命名規則が既存と微妙にズレた提案が返ってきました。
実装フェーズ → Codex CLI
反復的なコーディング作業では、Codex CLI のコストパフォーマンスが光ります。
理由は単純で、トークン単価が安いからです。API課金の場合、入力トークンで比較すると Codex(GPT-5.4)は Claude(Opus 4.6)の半額。1日に何十回もコードを生成する実装フェーズでは、この差が月末の請求額に直結します。
# Codex CLI で実装を進める
codex --model gpt-5.4
> src/services/auth/ 配下に OAuth2 のトークン管理を実装して。
> 設計書は docs/auth-design.md を参照。
さらに、Codex CLI のカーネルレベルサンドボックスはクライアントのコードを扱う受託案件で安心感があります。Claude Code のサンドボックスはアプリケーション層の制御なので、悪意ある .claude/settings.json が仕込まれたリポジトリをクローンした場合のリスクがゼロではありません(Check Point Research が RCE 脆弱性 CVE-2025-59536(2025年10月公開)/ CVE-2026-21852(2026年1月公開)を報告。いずれもパッチ適用済みですが、アーキテクチャレベルの差は残ります)。
レビューフェーズ → Claude Code
コードレビューでは再び Claude Code に戻します。理由は CLAUDE.md によるプロジェクト固有のルール適用が強力だからです。
<!-- CLAUDE.md にレビュールールを定義 -->
## コードレビュー基準
- エラーハンドリング: try-catch は必ず具体的な型を指定
- 命名規則: camelCase(変数・関数)、PascalCase(型・クラス)
- テスト: 新規関数には必ずユニットテストを追加
- セキュリティ: ユーザー入力は必ずバリデーション経由
CLAUDE.md に書いたルールは毎回のセッション開始時に自動で読み込まれるため、レビュー基準がブレません。CLAUDE.md の効果的な書き方については「CLAUDE.md の書き方 設計パターン集」で詳しく解説しています。Codex CLI にも AGENTS.md という類似機能がありますが、Claude Code の方がレイヤー構造(グローバル → プロジェクト → ローカル)が柔軟で、チーム開発での運用に向いています。
料金の現実——フリーランスの損益分岐点
フリーランスにとって最も切実な問題は料金です。「両方使う」と言ったものの、無制限に課金できるわけではありません。
私の実際の月額コスト
| 用途 | ツール | プラン | 月額 |
|---|---|---|---|
| 設計・レビュー | Claude Code | Max 5x | $100 |
| 実装 | Codex CLI | Plus($20)+ API従量 | 約$60〜80 |
| 合計 | 約$160〜180 |
損益分岐点の計算
フリーランスエンジニアの時給を5,000円と仮定します。
- 月額 $180 ≒ 約27,000円
- 損益分岐点: 月5.4時間の時短で元が取れる
体感では、AI エージェントの導入で1日あたり1〜2時間は確実に短縮できています。月20営業日で計算すると20〜40時間。投資対効果は10倍以上です。
ただし注意点があります。Claude Code の Max 5x プラン($100)はレート制限があり、1つの複雑なプロンプトで5時間枠の50〜70%を消費するケースが報告されています。「$100払えば使い放題」ではないことを理解した上で契約してください。
MCP 連携——ここが最大の差別化ポイント
多くの比較記事が見落としている点があります。それは MCP(Model Context Protocol)エコシステムの差です。
Claude Code は MCP サーバーを通じて外部ツールと連携できます。これは単なる「プラグイン」ではなく、AI エージェントを事業運営の自動化ハブにする技術です。
// .mcp.json の設定例
{
"mcpServers": {
"github": {
"command": "npx",
"args": ["-y", "@modelcontextprotocol/server-github"],
"env": { "GITHUB_TOKEN": "..." }
},
"slack": {
"command": "npx",
"args": ["-y", "@anthropic-ai/mcp-server-slack"],
"env": { "SLACK_BOT_TOKEN": "..." }
}
}
}
私が実際に使っている連携:
- GitHub MCP: PR 作成・Issue 管理を Claude Code 内から直接操作
- Slack MCP: クライアントへの進捗報告を自動生成
- 会計ソフト MCP: 請求書データの自動取得(freee 連携)
Codex CLI も2026年に入りMCPを公式サポートし、codex mcp add コマンドでサーバーを管理できるようになりました。ただし、現時点では Claude Code の方がMCPエコシステムの成熟度が高く、サードパーティ製サーバーの種類やコミュニティの蓄積で一歩リードしています。コーディング能力は互角でも、「コーディング以外の業務」まで含めた生産性では、MCP連携の充実度が差を生んでいます。
MCPを単なる連携機能ではなく、AIワークフロー全体の設計問題として捉えるなら「Harness Engineering とは?」も合わせて読むと、なぜ比較対象がモデル性能だけでは不十分なのかが見えやすくなります。
フリーランスの業務は、コードを書くだけではありません。見積もり、請求、クライアント対応、タスク管理——これらを1つのターミナルから操作できることの価値は、ベンチマークのスコア差よりもはるかに大きいのです。
よくある誤解と落とし穴
誤解1:「ベンチマークが高い方が実務でも優秀」
SWE-bench のスコアは「単一イシューの修正能力」を測っています。実務では、複数ファイルにまたがるリファクタリングや、ビジネスロジックの理解を伴う機能追加が求められます。ベンチマークと実務のギャップは想像以上に大きいです。
誤解2:「API課金が最もコスパが良い」
一見そう見えますが、API 課金には使いすぎリスクがあります。デバッグにハマって何十回もプロンプトを投げると、1日で $50 を超えることもあります。私は初月に API 課金だけで $400 を超えて痛い目を見ました。今はサブスクリプションをベースに、ピーク時のみ API 課金を併用する「ハイブリッド課金」にしています。
落とし穴: 両ツール共通の問題
どちらのツールも、「確認せずに突き進む」 傾向があります。特に大規模なリファクタリングでは、最初に1,000行の冗長なコードを生成し、指摘されると即座に100行に削減する——ということが日常的に起きます。
対策は CLAUDE.md / AGENTS.md に「大きな変更の前に計画を提示して確認を取ること」と明記することです。さらに Claude Code では Hooks を使えば、特定の操作を強制・禁止するガードレールをコードレベルで設定できます。ツールの性能を最大化するには、ツールに何をさせたいかを明文化する設定ファイルの品質がカギになります。
結論: フリーランスエンジニアへの推奨構成
| フェーズ | 推奨ツール | 理由 |
|---|---|---|
| 設計・アーキテクチャ | Claude Code(Opus) | 1Mコンテキスト、深い推論 |
| 実装・コーディング | Codex CLI(GPT-5.4) | トークン単価が安い、サンドボックスが堅牢 |
| レビュー・品質管理 | Claude Code | CLAUDE.md でルール統一 |
| 業務自動化 | Claude Code | MCP エコシステム |
最初の1ヶ月は片方だけを集中的に使い、次の月にもう片方を試すことをおすすめします。両方を同時に始めると、どちらの強みも実感できないまま「どっちも微妙」という印象で終わってしまいます。
まずは Claude Code の Max 5x($100/月)から始めて、実装量が増えてコスト圧迫を感じたタイミングで Codex CLI を併用する——これが、私がたどり着いた最もバランスの良い導入パスです。