日本リージョンで OSS モデル API を提供するサービスの調査 — データレジデンシーとコーディングエージェント実用性で比較する

ターミナルや IDE に常駐して自律的にコードを読み書きするコーディングエージェントが、すっかり日常の道具になりました。なかでも MIT ライセンスの OpenCode は、特定の LLM ベンダーに縛られないプロバイダー非依存のアーキテクチャを採り、好みの API キーを差し替えるだけで使えます。その開発元である Anomaly 社は、複数の OSS・オープンウェイトモデルへのアクセスを月額 10 ドル（初月 5 ドル）で束ねた OpenCode Go を提供しており、コストパフォーマンスの高さで人気を集めています。

ただし OpenCode Go の API エンドポイントは、公式ドキュメント上、米国・EU・シンガポールに置かれており、日本リージョンはありません。最寄りはシンガポールです。個人情報保護法（APPI）への準拠や組織のデータガバナンス、そして自律エージェント特有の多重ループで効いてくるネットワークレイテンシを考えると、日本国内に推論インフラを持つ代替サービスを評価したくなります。

この記事では、OpenCode Go が束ねているような OSS コーディングモデルを「日本リージョンで」「OpenAI 互換で」呼ぶための代替サービスを、データレジデンシーとコーディングエージェントの実用性の両面から比較します。提供モデル・リージョン・料金は変動が激しいため、本記事の内容は 2026 年 6 月中旬時点の調査に基づく整理であり、本番採用前には各社公式ページで確認日基準の再確認を強くおすすめします。

評価軸 — 三条件とデータレジデンシーの落とし穴

コーディングエージェントから直接叩ける OSS モデル API を国内で選ぶとき、満たしたい条件は次の三つに集約されます。

日本リージョン / 国内完結: 推論が物理的に日本国内（東京・大阪）で実行され、できればデータが国外に出ない。
OSS / オープンモデル対応: Qwen・DeepSeek・GLM・Kimi といったオープンモデルをホストしている。
OpenAI 互換 API: base URL と API キーの差し替えだけで OpenCode・Cline・Cursor などから接続できる。

ここで最大の落とし穴が、データレジデンシーです。「リージョンを東京に設定する」ことと「データが日本国内に留まる」ことは、まったく別の話です。多くのマネージドサービスでは、エンドポイントを東京に向けても、実際の推論が米国などのグローバルプールで処理されることがあります。Google Cloud のドキュメントは「リージョナルエンドポイントだけではデータレジデンシーや特定リージョン内での ML 処理を保証しない」と明記し、グローバルエンドポイントはデータレジデンシー要件を満たさないとしています。Azure も Global 系デプロイは「デプロイされたどのリージョンでも処理されうる」と明言しています。

したがって、本記事では単に「東京リージョンがあるか」ではなく、「OSS モデルを、日本国内に処理を閉じた形で、マネージドに呼べるか」という厳しめの軸で各サービスを見ていきます。

日本リージョンで OSS モデルを呼べるサービス比較

主要な候補を、上記の三条件とデータ統制の観点で整理すると次のようになります。凡例は ◎ = 明確に対応、○ = 条件付き、△ = 限定的・要注意、✕ = 非対応です。

サービス	日本リージョン / 国内完結	主な OSS モデル	OpenAI 互換	データ統制	料金感
さくらのAI Engine	◎ 国内 DC 完結・学習非利用	gpt-oss-120b, Qwen3-Coder-480B/30B, llm-jp-3.1 ほか	◎ OpenAI / Anthropic 互換	国内法準拠・学習非利用	無料枠あり、gpt-oss 従量は入 15 / 出 75 円 / 1M tokens
OCI Generative AI（大阪）	○ 大阪で hosted 提供	gpt-oss-120b/20b（GA）, Llama 3.1/4, Grok	◎ 2026/1〜 API キー	ZDR エンドポイント, ソブリン AI	gpt-oss-120b 入 $0.15 / 1M tokens ほか
Google Cloud Vertex AI（東京）	○ regional は東京で処理（要確認）	gpt-oss, Llama 4, DeepSeek, Qwen3, Gemma	△ MaaS 独自・一部互換	regional は在リージョン、global は保証外	gpt-oss-120b 入 $0.09 / 出 $0.36 / 1M tokens
AWS Bedrock（東京）	○ In-Region で国内完結（OSS は JP geo 不可）	Llama 3.3/4, Mistral Large 3（gpt-oss 不可）	○ bedrock 互換層	SOC2 / ISO ほか, IAM / DPA	従量, Batch / Flex は 50% 引
Azure AI Foundry（Japan East）	△ 単一リージョンのみ・日本 Data Zone なし	Llama, gpt-oss, DeepSeek, Mistral, Qwen	○	Data Zone は米 / EU のみ	従量 / PTU
Fireworks AI（東京・Ent）	○ 東京拠点（dedicated / BYOC）	Llama, Qwen, DeepSeek, Kimi ほか 400+	◎	ZDR / SOC2 / HIPAA・レジデンシー制御	従量 + エンタープライズ契約
Cloudflare Workers AI	△ 東京エッジあり・実行地は非保証	Llama, Mistral, Gemma, Qwen3, gpt-oss, Kimi	○	推論の国内固定は不可	neuron 従量
国内 GPU IaaS + vLLM	◎ 国内 DC・専有	任意（Llama / Qwen / DeepSeek / gpt-oss を自前）	◎ 自前構築	統制最大（事業者の ISMS 等）	GPU 時間課金
Together / Groq / DeepInfra ほか	✕ 米国中心・日本リージョン非公表	Llama / Qwen / DeepSeek ほか多数	◎	残留は選択依存・日本 DC は個別交渉	低価格従量

以下、実務上の優先度が高い順に詳しく見ていきます。

さくらのAI Engine — 国内完結を最も素直に満たす

三条件を最も明快に満たすのが、さくらインターネットのさくらのAI Engineです。2025 年 9 月 24 日に一般提供を開始し、基盤は同社の GPU クラウド「高火力」です。すべてのデータ処理が日本国内のデータセンターで完結し、入力データは学習に利用されません。海外ベンダーの API と違い、米国の CLOUD 法などによる開示請求リスクを物理的・法的に避けられるため、APPI や行政機関のガイドラインを満たすセキュアなアプリケーション構築に向いています。

提供されている OSS モデルは、gpt-oss-120b、Qwen3-Coder-480B-A35B-Instruct-FP8、Qwen3-Coder-30B-A3B-Instruct、llm-jp-3.1-8x13b-instruct4 のほか、音声の whisper-large-v3-turbo、埋め込みの multilingual-e5-large などです。コーディングエージェント用途では Qwen3-Coder 系が適合します。API は base URL https://api.ai.sakura.ad.jp/v1 で OpenAI / Anthropic 互換のエンドポイント（/v1/chat/completions、/v1/responses、/v1/messages、/v1/embeddings など）を提供し、Cursor や qwen-code からの動作実績が報告されています。

料金面の強みも大きく、基盤モデルには無料枠（Chat 月 3,000 回、音声 50 回、埋め込み 1 万回まで）が常時開放されています。従量課金は gpt-oss-120b・llm-jp 系で入力 15 円 / 出力 75 円（いずれも 1M tokens あたり）です。検証記事（note の伊藤範彦氏）では、さくらの gpt-oss-120b が OpenAI の o4-mini と比べておおよそ 10 倍ほど安い（1 ドル 150 円・1M tokens 換算）とされています。無料枠だけで OpenCode や Cline の接続検証を始められる点は、個人開発者にとって最大の利点です。

本番で専有環境や閉域接続が必要になったら、2025 年 10 月 30 日提供開始のさくらのAIソリューションへ移行する、という段階設計が描けます。

OCI Generative AI（大阪）— 日本リージョンで gpt-oss をマネージドに

「gpt-oss や Llama を、日本リージョンのマネージドで使いたい」という要件に、ハイパースケーラーの中で数少なく応えるのが Oracle Cloud Infrastructure の OCI Generative AI です。Generative AI は 2024 年 12 月に大阪（Japan Central）で提供を開始し、Oracle 公式ブログによれば 2025 年 12 月に OpenAI の gpt-oss モデルを hosted オプションとして一般提供（GA）しました。

注目すべきは OpenAI 互換 API です。第三者の検証記事（Qiita の荒川裕司氏、2026 年 1 月）によれば、日本時間 2026 年 1 月 23 日に OCI Generative AI の API キーが登場し、OpenAI OSS・Meta Llama・xAI Grok について「API キーと base URL を設定するだけ」で利用でき、大阪リージョンで openai.gpt-oss-120b の動作が確認されたとされています。これは、ハイパースケーラーで「日本リージョン × gpt-oss × OpenAI 互換」が成立する数少ない事例です。料金は gpt-oss-120b が入力 $0.15 / 1M tokens、gpt-oss-20b が入力 $0.07 / 出力 $0.30 / 1M tokens といった水準で、ゼロデータ保持（ZDR）エンドポイントやソブリン AI オプションも打ち出されています。

ただし、リージョン別のモデル提供可否は変動するため、採用前に Oracle の「Models by Region」ページで大阪での提供を再確認してください。大阪での gpt-oss 動作確認は第三者記事に基づくもので、公式の SLA・料金は契約前に確認すべき点です。

Google Cloud Vertex AI（東京）— 証拠は厚いが残留保証の読み込みが要る

Google Cloud の Vertex AI Model Garden は、オープンモデルの提供形態が MaaS・セルフデプロイ・prebuilt コンテナ・カスタム vLLM の四層で整理されており、マネージドと自前運用を同じ基盤で選べるのが強みです。公式のオープンモデルのロケーション一覧には東京（asia-northeast1）が掲載され、gpt-oss・Llama 4・DeepSeek・Qwen3・Gemma などのエンドポイントが並びます。料金も gpt-oss-120b が入力 $0.09 / 出力 $0.36（1M tokens あたり）とモデル別に明示されています。

一方で、データレジデンシーの読み込みには注意が必要です。リージョナルエンドポイントを使えば ML 処理は指定リージョンで行われ、保存データも選択ロケーションに留まりますが、グローバルエンドポイントはデータレジデンシー要件を満たしません。さらに、オープン / パートナーモデルの残留保証の対象範囲は時期によって変動しており、過去には Gemini 系のみが対象とされていた経緯もあります。東京で OSS モデルをマネージドに使うこと自体は現実的になってきていますが、厳格な国内完結が要件なら、リージョナルエンドポイントの利用を明示し、対象モデルの残留保証を契約前に確認するのが安全です。

AWS Bedrock（東京）— Llama / Mistral は In-Region、gpt-oss は不可

既に AWS を使っている組織には、Amazon Bedrock の東京（ap-northeast-1）が現実解になります。Meta Llama（Llama 3.3 70B、Llama 4 Scout / Maverick）や Mistral（Mistral Large 3 ほか）が東京で利用可能で、IAM 統合と AWS の DPA・コンプライアンスがそのまま効きます。OpenAI 互換エンドポイントも提供され、料金は従量で Flex / Batch は 50% 引き、Priority は割増です。

ただし、いくつか重要な制約があります。第一に、gpt-oss-120b/20b は東京の Bedrock では未提供で、Bedrock 提供は米国中心です。東京で gpt-oss を動かすには SageMaker JumpStart 経由で自前 GPU 上に展開するしかありません。第二に、東京・大阪の間だけで国内完結する「日本（JP）ジオ」プロファイル（jp. プレフィックス）は、現状 Anthropic Claude 専用で、Llama・Mistral・gpt-oss といったオープンウェイト系には提供されていません。OSS モデルで日本データレジデンシーを満たすには、ap-northeast-1 の In-Region 直接呼び出し（In-Region 掲載モデルのみ）が確実です。Geo / Global プロファイルは避け、In-Region を明示指定してください。

Azure AI Foundry（Japan East）— 日本 Data Zone がない

Azure AI Foundry は、Llama・gpt-oss・DeepSeek・Mistral・Qwen など豊富な OSS モデルを Japan East で提供します。ただしデータレジデンシーの Data Zone は米国と EU のみで、日本 Data Zone は存在しません。日本のデータレジデンシーが必要な場合は単一リージョン（Regional / Standard）デプロイで Japan East を選ぶ必要がありますが、オープンウェイトモデルは Global Standard などのデプロイ形態に限定されることが多く、Global はどの地理でも処理されうると公式に明記されています。OSS モデルの日本リージョン内完結は、モデルごとの個別確認が必要で、限定的というのが正直なところです。

なお 2026 年 4 月には、Microsoft・さくらインターネット・ソフトバンクの 3 社協業が発表され、国内企業が自前の物理 GPU リソースを Azure 環境に引き込んでオープンモデル推論を行うハイブリッド構成の道も開かれつつあります。

Fireworks AI / Together AI — グローバル専業の国内配置とレイテンシ

グローバルな推論専業クラウドである Fireworks AI と Together AI は、低レイテンシと幅広いモデル対応が魅力です。Fireworks AI は東京に物理 GPU ファシリティ（AP_TOKYO_1 / AP_TOKYO_2）を持ち、Kimi K2.5 のような長文・推論モデルで高いデコードスループットを実証しています。ただし第三者の技術比較によれば、Fireworks のサーバーレスは米国リージョン稼働で、東京を含む非米国拠点は dedicated / on-demand / BYOC 形態となる点に注意が要ります。データレジデンシー制御や ZDR はエンタープライズ機能として提供されるため、日本 DC 必須なら個別契約での確認が前提です。

Together AI は 200 種以上のオープンモデルとバッチ処理による低コストが強みですが、こちらも公開情報ではサーバーレス推論は米国中心で、APAC のイン・リージョンなサーバーレスは公表されていません。Groq・DeepInfra・Novita・OpenRouter なども同様で、データレジデンシーが必須要件なら現状は国内勢が現実解、米国処理を許容できるならコストと速度で優位、という整理になります。

Cloudflare Workers AI と国内 GPU IaaS

Cloudflare Workers AI は、東京を含むグローバルエッジでサーバーレス推論を提供し、gpt-oss・Llama・Qwen3・Kimi など豊富な OSS モデルと OpenAI 互換 API を備えます。手軽さは随一ですが、どのエッジ拠点（国）で推論が実行されるかは保証されず、推論をデータレジデンシー的に東京へ固定する仕組みは未整備です。データレジデンシーが要件なら不適の可能性が高い、という点は押さえておく必要があります。

統制を最大化したいなら、国内 GPU 事業者の IaaS 上に vLLM で OpenAI 互換エンドポイントを自前構築する手もあります。さくらの高火力、GMO の GPU クラウド、ハイレゾの GPUSOROBAN などが国内 DC で GPU を提供しており、任意の OSS モデル（Llama・Qwen・DeepSeek・gpt-oss など）を国内で運用できます。運用負荷は増えますが、モデル選択とデータ統制は最大化できます。

レイテンシが自律エージェントに効く理由

データレジデンシーと並んで、日本リージョンを選ぶもう一つの理由がレイテンシです。コーディングエージェントの処理は単発のチャットと違い、ディレクトリ構造の把握、ファイルの読み込み、差分生成、テスト実行、再修正という多重ステップを繰り返します。1 タスクで推論ターンが数十回に及ぶことも珍しくありません。

タスク全体の待ち時間は、各ターンのネットワーク RTT・最初のトークンまでの時間（TTFB）・生成時間・ツール実行時間の総和になります。ここでネットワーク RTT がターン数だけ掛け算されるのが効いてきます。エンドポイントが米国や欧州にある場合、地理的距離による RTT は 1 往復あたり 200〜400 ms 以上加算され、これがターン数倍されるとタスク全体で数十秒から数分の悪化につながります。東京リージョンを使えば RTT は一桁 ms 台まで縮み、エージェントの応答はほぼ瞬時に始まります。人間と AI が協調して書き進める作業では、この差が体感の生産性を大きく左右します。

推奨戦略 — 要件から逆算する

ここまでの整理を、要件別の選定戦略にまとめます。

国内完結とプライバシーを最優先する組織: さくらのAI Engine
- APPI 準拠・国内完結・学習非利用・OpenAI 互換の四条件を最も明快に満たし、無料枠で即 PoC できます。本番で専有・閉域が必要になったら、さくらのAIソリューションへ。
gpt-oss / Llama を日本リージョンのマネージドで使いたい: OCI Generative AI 大阪
- 2026 年 1 月からの OpenAI 互換 API キーで、大阪の hosted gpt-oss を base URL の差し替えで使えます。採用前に大阪での提供可否を再確認してください。
証拠の厚いマネージド MaaS が欲しい: Google Cloud Vertex AI 東京
- 東京のオープンモデルエンドポイントが公式に列挙され、デプロイ形態とモデル別単価まで揃っています。リージョナルエンドポイントを明示し、残留保証の範囲を契約前に確認すること。
既に AWS / Azure に固定されている: AWS Bedrock 東京 In-Region（Llama / Mistral）
- gpt-oss が要件なら東京 Bedrock は不可なので、SageMaker JumpStart で自前展開するか、さくら・OCI へ。Azure は日本 Data Zone がない点に留意。
グローバル専業で日本 DC が必須: Fireworks AI エンタープライズ（東京 dedicated / BYOC）
- 米国処理を許容できるなら Together / Groq などがコストと速度で優位。
モデル選択とデータ統制を最大化したい: 国内 GPU IaaS（さくら高火力 / GMO / ハイレゾ）+ vLLM
- 運用は重いが、統制は最大です。

判断を分ける条件はシンプルです。

gpt-oss が必須でマネージドに使いたいなら、選択肢はさくらのAI Engine か OCI 大阪に絞られます。東京の Bedrock では gpt-oss を使えません。
推論を東京・大阪の国内に閉じたマネージドサービスを厳格に求めるなら、Bedrock の国内完結プロファイル（東京と大阪の間だけで処理を閉じる「JP ジオ」）が現状 Anthropic Claude 専用のため、OSS モデルでは In-Region の単一リージョン、国内事業者、または OCI 大阪のいずれかになります。
米国での処理を許容できてグローバルな低価格・高速を優先するなら、Together・DeepInfra・Groq が候補です。

まとめ

要点を整理します。

OpenCode Go は安価で優れたバンドルだが、提供リージョンは米国・EU・シンガポールのみで日本リージョンはない。
「リージョン = 東京」と「データが日本に留まる」は別問題。グローバルエンドポイントやマネージド MaaS では残留が保証されないケースが多い。
三条件（日本リージョン × OSS モデル × OpenAI 互換）を最も明快に満たすのは、さくらのAI Engine。gpt-oss をマネージドで日本に置きたいなら OCI 大阪が数少ない選択肢。
ハイパースケーラーは、東京エンドポイントの有無とオープンモデルの In-Region 提供可否が別物。Bedrock は gpt-oss が東京未提供、JP ジオは Claude 専用、Azure は日本 Data Zone なし、という制約を個別に読む必要がある。
レイテンシは自律エージェントの多重ループで掛け算的に効く。日本リージョンの一桁 ms 台 RTT は、米欧の 200〜400 ms と比べてタスク全体で数十秒から数分の差を生む。

最後に改めて強調しておくと、この領域は提供モデル・リージョン・料金の変動が激しく、各社の「モデル × リージョン」一覧は短期間で書き換わります。本記事はあくまで 2026 年 6 月中旬時点の見取り図であり、本番採用の前には必ず確認日基準で一次情報を当たってください。

以上、日本リージョンで OSS モデル API を提供するサービスを、データレジデンシーとコーディングエージェント実用性の観点で調査した、現場からお送りしました。