hermes agent をローカルで動かすクイックセットアップ — macOS と Ollama と qwen3.6:35b で完全ローカル構成

NousResearch が公開している hermes agent は、ターミナルに住んでいる人向けに作られた、自己改善型の AI エージェントです。「The Agent That Grows With You」を掲げていて、使ううちにスキルを獲得し、セッションをまたいで利用者のことを学習していくのが特徴です。

モデルプロバイダは Nous Portal や OpenRouter などのクラウドだけでなく、OpenAI 互換エンドポイントを指定できるので、Ollama を使えばローカル LLM だけで完全に閉じた構成を組めます。この記事では、macOS 上で hermes agent を入れて、Ollama でローカルに動かした qwen3.6:35b に繋ぐまでの最短手順を書き残します。クラウド API は一切使いません。

やることは 3 ステップだけです。

Ollama で qwen3.6:35b を pull する（事前準備として先に走らせておける）
hermes agent をインストールし、hermes setup でローカル Ollama に向ける
TUI を起動する

Ollama で qwen3.6:35b を pull する

まず、バックエンドになるモデルを Ollama 側に用意します。これは hermes を入れる前に済ませておける事前準備で、ダウンロードに時間がかかるので先に走らせておくと後の待ちが減ります。Ollama をまだ入れていない場合は公式サイトから macOS 版をインストールしてください。

モデルの取得はワンコマンドです。

ollama pull qwen3.6:35b

qwen3.6:35b は Qwen3.6 シリーズのモデルで、総パラメータ約 36B のうち 3B だけをアクティブにする MoE（A3B）構成です。Q4_K_M で量子化したダウンロードサイズは 24 GB です（モデルページ参照）。エージェント用途で重視されるリポジトリ規模の推論やコーディングに強いのが売りです。

24 GB のモデルなので、macOS で快適に動かすにはユニファイドメモリに余裕が必要です。Apple Silicon なら 32 GB 以上を目安にしておくと安心です。MoE 構成なのでサイズのわりに推論は速いですが、重み全体はメモリに載せる必要があるため、メモリが心許ない場合はひと回り小さい qwen3.6:27b に落とすのが確実です。

pull が終わったら、ローカルで応答が返るか軽く確認しておきます。

ollama run qwen3.6:35b "hi!"

hermes agent をインストールして setup でローカル Ollama に向ける

モデルのダウンロードを走らせている間に、本体の hermes agent を入れます。macOS、Linux、WSL2 向けには、公式のインストールスクリプトを curl で流し込むのが一番速いです（インストールガイド参照）。

curl -fsSL https://raw.githubusercontent.com/NousResearch/hermes-agent/main/scripts/install.sh | bash

前提条件は Git が入っていることだけで、Python 3.11 や Node.js v22、ripgrep、ffmpeg といった依存関係はインストーラがまとめて面倒を見てくれます。リポジトリの clone、仮想環境の作成、グローバルな hermes コマンドの設定まで自動です。

インストールが終わったら、初回セットアップウィザードを起動します。

hermes setup

hermes setup は、モデル、ターミナル、ゲートウェイ、ツール、エージェントといった設定をまとめて対話的に構成するウィザードです。プロバイダ設定は別コマンドの hermes model でも行えますが、わざわざ分ける必要はなく、この setup のモデル設定の中でまとめてローカル Ollama に向けてしまえます。

モデルプロバイダを選ぶ場面では「custom / self-hosted endpoint」にあたる選択肢を選び、Ollama が公開している OpenAI 互換エンドポイントを指定します。

http://localhost:11434/v1

Ollama は標準で 11434 番ポートに OpenAI 互換 API を生やしているので（Ollama の API ドキュメント参照）、hermes からは「OpenAI 互換のカスタムエンドポイント」として扱えます。API キーを求められたら、Ollama はローカルでは認証を必要としないので、ダミーの文字列を入れておけば動きます。モデル名には pull したときと同じ qwen3.6:35b を指定します。

ここまでで、hermes のリクエストはすべてローカルの Ollama に流れ、外部のクラウド API は経由しなくなります。

TUI を起動する

最後に、ターミナル UI を起動します。

hermes --tui

hermes --tui は、クラシックな CLI ではなくグラフィカルなターミナル UI を立ち上げるモードです（環境変数 HERMES_TUI=1 を立てるのと同じ効果です）。複数行編集、スラッシュコマンドの補完、会話履歴、ストリーミングのツール出力といった、ターミナルに住む人向けの機能がひととおり揃っています。

ここで一言投げてみて、Ollama 側のプロセスが動き、ローカルの qwen3.6:35b から応答が返ってくれば構成完了です。設定がうまくいかないときは hermes doctor で診断し、hermes logs でログを確認するのが手早いです。

まとめ

ここまでの手順をまとめると、こうなります。

ollama pull qwen3.6:35b でバックエンドのモデルを先に用意する
curl ... install.sh | bash で hermes agent をインストールし、hermes setup のモデル設定でカスタムエンドポイント http://localhost:11434/v1 を指定してローカル Ollama に向ける
hermes --tui で TUI を起動する

クラウド API を使わずに、自己改善型のエージェントを手元のマシンだけで動かせるのが、この構成の気持ちよさです。学習データや会話履歴が外に出ないので、まずは個人の作業環境で雑に試すには都合がよい構成だと思います。

慣れてきたら、hermes gateway で Telegram や Slack といったメッセージングプラットフォームに繋いだり、hermes skills でスキルを足したりと、エージェントを育てていく方向に進めます。そのあたりは hermes agent の公式ドキュメントを読みながら順に試していくのがおすすめです。

以上、hermes agent をローカルの Ollama で動かしている、現場からお送りしました。