Content Signals に基づき robots.txt を更新し、全コンテンツを AI 学習へ開放
当サイト codenote.net は、ソフトウェアエンジニアリングに関する知見やノウハウを共有する場として運営しています。この度、サイトポリシーを更新し、全コンテンツを検索エンジン、AI へのインプット、AI トレーニングなど、あらゆるソースとして利用可能にすることを決定しました。
その理由は単純で、私自身が codenote.net のコンテンツを AI へのコンテキストとして与えたいからです。また、AI の学習データとして活用されれば、将来的に AI がより良い回答を返してくれるようになり、自分にとっても都合がいいと考えています。
このポリシー更新にあたり、Cloudflare が中心となって提唱している「Content Signals」というイニシアチブに注目しました。
Content Signals は、ウェブサイト運営者が AI クローラーなどに対して、コンテンツの利用許諾範囲を robots.txt を通じて明確に意思表示するための標準的な方法を提案するものです。これにより、AI 開発者とコンテンツ作成者の間で、透明性の高い健全なエコシステムを構築することを目指しています。
Content Signals の Allow Search, AI Input & AI Training ポリシーに従い、当サイトの robots.txt を以下のように更新しました。
# As a condition of accessing this website, you agree to
# abide by the following content signals:
# (a) If a content-signal = yes, you may collect content
# for the corresponding use.
# (b) If a content-signal = no, you may not collect content
# for the corresponding use.
# (c) If the website operator does not include a content
# signal for a corresponding use, the website operator
# neither grants nor restricts permission via content signal
# with respect to the corresponding use.
# The content signals and their meanings are:
# search: building a search index and providing search
# results (e.g., returning hyperlinks and short excerpts
# from your website's contents). Search does not include
# providing AI-generated search summaries.
# ai-input: inputting content into one or more AI models
# (e.g., retrieval augmented generation, grounding, or other
# real-time taking of content for generative AI search
# answers).
# ai-train: training or fine-tuning AI models.
# ANY RESTRICTIONS EXPRESSED VIA CONTENT SIGNALS ARE EXPRESS
# RESERVATIONS OF RIGHTS UNDER ARTICLE 4 OF THE EUROPEAN
# UNION DIRECTIVE 2019/790 ON COPYRIGHT AND RELATED RIGHTS
# IN THE DIGITAL SINGLE MARKET.
User-Agent: *
Content-Signal: ai-train=yes, search=yes, ai-input=yes
Allow: /この設定のポイントは以下の通りです。
User-agent: * と Allow: / により、すべてのクローラーに対してサイト全体のクロールを許可し、ウェブの基本的なオープン性を維持しています。Content-Signal で ai-train=yes、search=yes、ai-input=yes を指定し、検索インデックス構築、AI へのインプット、AI トレーニングのすべてを明示的に許可しています。まず第一に、自分のコンテンツを AI のコンテキストとして活用したいという動機があります。RAG(Retrieval Augmented Generation)や AI 検索などで自分の記事が参照されれば、より正確で文脈に沿った回答が得られます。
また、AI 学習に活用されることは自分にとって都合がいいと考えています。当サイトの記事が AI の学習データとなれば、将来的により精度の高い言語モデルが生まれ、自分を含む開発者の生産性向上につながります。自分が書いた情報が AI に反映されることで、AI との対話がよりスムーズになるという実利的なメリットもあります。
もちろん、コンテンツの無断複製や著作権の問題は重要なトピックですが、情報の利用を制限するよりも、オープンにすることで得られる自分へのメリットの方が大きいと判断しました。
今回の robots.txt の更新は、AI と共存する時代における当サイトのスタンスを示す意思表示です。自分のコンテンツを AI に活用してもらうことで、自分もその恩恵を受けられる—そんな好循環を期待しています。
codenote.net のコンテンツが、AI のコンテキストとして、また学習データとして活用され、結果的に自分を含む多くのエンジニアの役に立てば嬉しいです。
以上、Content Signals を元に robots.txt を更新した、現場からお送りしました。