Codex App Server ガイド — 自社プロダクトに埋め込むときの設計判断とJSON-RPC運用

Codex を自社プロダクトに組み込みたいとき、最初に詰まりやすいのはモデル選定ではありません。どの接続面で Codex を呼ぶかです。

単発の自動化なら non-interactive mode で足ります。既存のサーバー処理から呼ぶだけなら Codex SDK の方が早いこともあります。ですが、独自 UI を持つ IDE 連携、レビュー画面、社内ツール、長時間動く作業キューのように、Codex の進捗、承認、thread 継続、差分表示まで自前で扱いたいなら、App Server を先に理解した方が早いです。

この記事は、Codex App Server を「何となく高度そうな API」としてではなく、どんな要件のときに採用すべきかを切るための実務ガイドとして整理します。Codex 全体の運用像を先に掴みたいなら Codex 複数エージェント運用ガイド、再利用できる指示部品の設計から入りたいなら Codex Skills 設計入門、組織での権限・レビュー境界を整えたいなら AIコーディングツールの社内ガイドラインを先に読むとつながります。

先に結論: 独自クライアントを作るなら App Server、既存処理に呼び込むだけなら SDK からでよい

私の判断基準はかなり単純です。

App Server を選ぶ場面

独自 UI で Codex の進捗や承認待ちを描画したい
thread の start / resume / fork / archive を自前で扱いたい
差分、途中イベント、approval request をリアルタイムに扱いたい
IDE、デスクトップアプリ、長時間セッションのクライアントを作りたい

SDK から始める場面

サーバー側の Node.js から Codex を呼びたい
まずは 1 つの thread を run() で回せれば十分
UI よりも既存ワークフローへの組み込みが主目的
App Server の JSON-RPC binding をまだ持ちたくない

MCP Server や non-interactive mode が向く場面

既存の MCP ベース環境から Codex を callable tool として使いたい
CI で 1 コマンド実行して終わる
進捗イベントや diff 更新を細かく再現する必要がない

ここで重要なのは、App Server と SDK は完全な競合ではないことです。OpenAI の docs でも Python SDK は local App Server を JSON-RPC で操作する形になっており、実装上は App Server を包む層として使えます。つまり、App Server は下の基盤、SDK は一部ユースケース向けの扱いやすい入口、と理解した方がズレません。

Codex App Server は「Codex harness をクライアントから扱うための接続面」

2026年2月4日の OpenAI Engineering 記事では、Codex の web app、CLI、IDE extension、macOS app は同じ harness で動いており、その共通接続面が Codex App Server だと説明されています。ここでいう harness は、単なるモデル呼び出しではなく、次の塊です。

thread のライフサイクル管理
config と認証
shell / file / MCP / skills を含むツール実行
イベント永続化と再接続

つまり App Server の価値は、「Codex を API で叩ける」ことよりも、Codex の作業ループ全体を、クライアントが再利用できることにあります。

実際、OpenAI 側の説明でも App Server は長寿命プロセスとして動き、クライアントとは双方向の JSON-RPC over stdio でつながります。1 回のユーザー依頼に対して、レスポンス 1 回で終わるのではなく、途中イベント、approval request、最終結果まで複数の通知が流れる前提です。

この構造を理解していないと、App Server を「CLI の別名」だと思って設計してしまいます。そうすると、途中承認をどこで受けるか、resume した thread をどう見せるか、diff をいつ UI に出すかが全部後付けになります。

App Server を選ぶべきなのは「リッチな会話面」を自分で持ちたいとき

OpenAI Engineering の記事では、最初は Codex を MCP server として VS Code 側へつなぐ案も試したものの、IDE で必要な rich interaction を自然に表現しにくかったため、最終的に App Server へ寄せたと書かれています。

ここが検索意図の中核です。Codex App Server を調べる人が本当に知りたいのは、CLI コマンド一覧ではなく、なぜ App Server が必要だったのかです。

私なら、次の要件が 2 つ以上あるなら App Server を選びます。

ユーザーに進捗イベントを見せたい
approval を UI 経由で返したい
thread を後から resume したい
途中で fork して別案を試したい
独自クライアントで会話履歴を整形したい

逆に、make a plan を投げてテキストだけ受け取れればよいなら、App Server は重いです。その場合は SDK か non-interactive mode の方が実装コストに対して素直です。

最初に設計すべき4つの境界

App Server を触り始めたとき、私は機能一覧を追うより先に、次の4つだけ決めます。

1. initialize をどこで完了させるか

App Server では、最初に initialize ハンドシェイクを 1 回行い、capabilities や version を握ります。ここを曖昧にすると、クライアント更新時に後方互換の事故が出ます。

PoC の段階でも、少なくとも次は client 側で持っておいた方がよいです。

protocol version
experimental API を使うか
自分の client 名や service 名
承認 UI を出せるかどうか

CLI 的に雑に起動してすぐ prompt を投げる設計にすると、あとで thread resume や動的機能追加を入れるときに苦しくなります。

2. thread を「1回限りの実行」として扱わない

App Server docs では thread/start と thread/resume が基本で、さらに thread/fork、thread/archive、thread/rollback、thread/goal/set まで用意されています。これは、Codex が単発 API ではなく、状態を持つ作業単位として扱われる前提だからです。

私は thread を次の 3 種類に分けると整理しやすいと感じています。

使い捨ての調査 thread
PR ごとに続く review thread
長期目標を持つ automation / SRE thread

例えばコードレビュー画面なら、PR ごとに thread を切り、レビューコメント追加や再実行時は同じ thread を resume した方が、指摘の一貫性が保ちやすいです。逆に incident 調査のように仮説を分岐したいなら fork を前提にした方がよいです。

3. approval の往復を「例外処理」にしない

App Server の双方向性で一番重要なのはここです。サーバーからクライアントへ request が飛ぶのは、単なる通知だけではありません。承認待ちになったら、agent 側は止まり、クライアントの返答を待ちます。

このため、approval を UI の外で雑に処理すると壊れます。

悪い設計:

承認要求をログだけに出す
タイムアウト時の扱いを決めない
どの操作に対する承認か分からない

良い設計:

対象コマンド、対象ファイル、理由を UI に明示する
approve / reject の履歴を thread と結びつける
人間が不在なら中断させる

この考え方は、組織導入時のレビュー境界ともつながります。権限や監査をより広い運用ルールとして整理したい場合は AIコーディングツールの社内ガイドラインで書いた「入力境界」「実行境界」「レビュー境界」をそのまま流用できます。

4. event stream を「最終テキストの前処理」にしない

App Server の本質は event stream にあります。OpenAI の説明でも、1 回の client request から多くの event update が流れ、その安定した通知群を UI-ready な形へ整えているのが App Server です。

ここでよくある失敗は、最終メッセージだけ残して途中イベントを捨てることです。

それだと、次の価値を自分で殺します。

どこで止まったか分かる
approval 待ちを即座に見せられる
diff や進捗を途中で描画できる
resume 後に前回の状態を説明しやすい

私なら PoC でも、最低限 thread started、主要な progress、approval request、final response は UI かログへ残します。最初から完璧な event viewer を作る必要はありませんが、最後の文章だけ拾う実装にはしません。

SDK、MCP Server、Exec とどう使い分けるか

この比較を曖昧にした記事は多いですが、私は次のように切ります。

方式	向く用途	弱い点
App Server	独自クライアント、IDE、長時間セッション、承認 UI	JSON-RPC binding と event 処理が必要
Codex SDK	サーバー側のプログラム制御、内部ツール、CI 補助	クライアント UI の自由度は App Server ほど高くない
MCP Server	既存 MCP エコシステムから Codex を tool として使う	diff 更新や session semantics は薄くなる
non-interactive mode	単発実行、CI、1 コマンド自動化	会話継続や途中 UI には向かない

特に MCP Server は誤解されやすいです。OpenAI Engineering の記事でも、MCP 経由だと MCP が expose する面だけになるため、Codex 固有の rich session semantics を自然に載せにくいと整理されています。既存の agent platform に Codex をツール追加したいなら有効ですが、Codex 自体を会話面の中心に置く設計には向きません。

一方で SDK はかなり現実的です。TypeScript SDK は Node.js 18+ でそのまま使え、startThread() と run() で開始できます。App Server を自分で binding する前に、まず SDK で業務価値を確かめ、その後 UI 要件が強くなったら App Server へ降りる、という順番は十分ありです。

最初の実装は「単一 thread の reviewer」から始めるのが無難

App Server を入れると、つい何でも作りたくなります。マルチタブ、複数 thread 並列、auto-resume、goal 管理、fork 比較。ただ、最初にそこまで広げるとほぼ失敗します。

私なら 1 本目は次のように切ります。

パターン1: PR reviewer

PR 差分を入力として 1 thread を開始
approval が必要な操作は read-only 寄りに制限
指摘を event stream と最終サマリで表示

パターン2: SRE incident assistant

障害メモや stack trace から thread を開始
runbook やログ検索ツールへ接続
調査の途中経過を時系列に見せる

パターン3: 社内開発ポータルの coding assistant

repo を指定して thread 開始
承認が必要な変更だけ人間へ返す
diff と最終説明を同一画面で出す

いずれも共通しているのは、1 つの task を 1 thread として扱い、approval と event を捨てないことです。マルチエージェントへ広げるのは、その後です。並列化の設計論まで一気に見たいならマルチエージェントオーケストレーション 4パターン解説が補助線になります。

導入時の実務メモ

最後に、PoC で私が先に確認する項目を並べます。

local client なら App Server binary の配布方法を決める
App Server version を client 側で pin するか決める
thread ID と自前の task / PR / incident ID の対応を持つ
approval のログ保存先を決める
event stream を UI に何段階まで出すか決める
TypeScript なら codex app-server generate-ts、他言語なら generate-json-schema を入口にする

OpenAI Engineering の記事でも、VS Code extension や desktop app は platform-specific binary を同梱し、検証済み version に pin していると説明されています。ここは軽く見ない方がよいです。client と server の責務が分かれるほど、どの version の harness と話しているかが品質を左右します。

まとめ

Codex App Server は、単に Codex を API 化したものではありません。thread、approval、event stream を含む Codex harness を、自分のクライアントから扱うための接続面です。

だから判断軸はこうなります。

UI を持たず単発実行なら non-interactive mode
サーバー側から素早く組み込むなら SDK
既存 MCP 環境に Codex を足すなら MCP Server
独自クライアントで rich interaction を作るなら App Server

この順番で切れば、App Server を過剰採用せずに済みます。逆に、承認 UI や resume を本気で作りたいのに SDK や CLI だけで粘ると、どこかで必ず破綻します。まずは reviewer か incident assistant のような 1 thread 1 task の狭い PoC から始めるのが堅いです。