Cloudflareのrobots.txtを管理するを「コンテンツシグナルポリシー」から「robots.txtでAIボットのトラフィックを指示する」へ設定変更して、AIボットによるクロールを許可しました
最近、当サイトの記事をClaude Codeに読み込ませてタスクを推進してもらおうとしたところ、コンテンツをうまく取得できないという問題に直面しました。
調査を進めた結果、原因がCloudflareの robots.txt 自動管理機能にあることが判明しました。本記事では、その解決のために行った設定変更の経緯と手順について解説します。
当初、robots.txt はAllowにしていた以外は特に意識しておらず、Cloudflareのデフォルトに近い設定で運用していました。具体的には、「robots.txt を管理する」機能において「コンテンツシグナルポリシー」が選択された状態です。
以前の設定:
[概要] > [AI クローラーを制御する] > robots.txt を管理する
コンテンツシグナルポリシーこの設定は、サイトのコンテンツがAIのトレーニングデータとして無断で利用されることを防ぐ目的で、主要なAIボット(CCBot, GPTBot, anthropic-aiなど)からのクロールをrobots.txtレベルでブロックします。
これにより、Claudeが当サイトの記事を参照しようとしても、コンテンツシグナルポリシーのルールに従ってアクセスが拒否されていたのです。
この問題を解決するため、Cloudflareはより柔軟な選択肢を提供しています。それが「robots.txt で AI ボットのトラフィックを指示する」という設定です。
新しい設定:
[概要] > [AI クローラーを制御する] > robots.txt を管理する
robots.txt で AI ボットのトラフィックを指示するこの設定に変更すると、Cloudflareは既存のrobots.txtファイル(もし存在すれば)に、AIボットグループ(Cloudflare-AI-Bot-Group)に対するDisallowルールを追加するようになります。サイト運営者は、このグループを利用して、許可・不許可をより細かく制御したり、あるいは既存のrobots.txtで上書きしたりすることが可能になります。
今回は、AIによるサイト情報の活用を促進するため、この設定に変更することにしました。
設定変更後、しばらく待ってから再度Claude Codeでサイトの記事URLを指定したところ、今度は問題なくコンテンツを読み込み、日々のプロダクト開発におけるタスクの依頼が可能になりました。
この変更により、当サイトが発信する情報が、生成AIを通じてより多くの人々の目に触れ、活用される機会が増えることを期待しています。AIによる情報収集が一般化する中で、robots.txtの管理はサイト運営者にとって改めて重要なテーマだと認識させられました。
同様の問題でお困りの方の参考になれば幸いです。
以上、Cloudflareのrobots.txtを管理するを「コンテンツシグナルポリシー」から「robots.txtでAIボットのトラフィックを指示する」へ設定変更して、AIボットによるクロールを許可した、現場からお送りしました。