
こんにちは!株式会社テラ AIエンジニアリングチームです。
「robots.txtって、AIボットの設定も必要なの?」
LLMO(AI検索最適化)に取り組み始めると、必ず出てくるのがこの疑問です。
robots.txtは、Webサイトの「門番」として、どのクローラーにどのページへのアクセスを許可・拒否するかを指示するファイルです。
従来はGooglebotやBingbotといった検索エンジンのクローラーだけを意識していれば十分でしたが、今はChatGPT(GPTBot)、Claude(ClaudeBot)、Gemini(Google-Extended)、Perplexity(PerplexityBot)といったAIボットもあなたのサイトを見に来ています。
そして、多くのサイトでは、これらのAIボットに対する設定が何も書かれておらず、デフォルトでアクセスが許可されている状態です。
それが良いことなのか悪いことなのかは、サイトの性質と戦略によって異なります。
この記事では、robots.txtの基本からAIボットの種類、Allow(許可)とDisallow(拒否)それぞれのメリット・デメリット、そして当社が自社サイトで実際に行った設定までを解説します。
目次
robots.txtとは? 基本のおさらい
robots.txtは、Webサイトのルートディレクトリに設置するテキストファイルです。
https://example.com/robots.txt でアクセスでき、クローラーに対して「このページは見ていいですよ」「このページは見ないでください」と指示するものです。
基本的な構文は以下の通りです。
User-agent: *
Disallow: /admin/
Allow: /
User-agent: 対象となるボットの名前(*は全ボット)Disallow: アクセスを拒否するパスAllow: アクセスを許可するパス
重要なポイント:
robots.txtはあくまで「お願い」であり、強制力はありません。
行儀の良いボットは従いますが、悪意のあるボットは無視することがあります。
ただ、ChatGPTやGemini、Claudeなどの主要AIサービスのボットは、robots.txtの指示に従うことを公式に表明しています。
主要なAIボット一覧
2026年現在、robots.txtで設定を意識すべき主要なAIボットは以下の通りです。
| ボット名 | サービス | 用途 |
|---|---|---|
| GPTBot | ChatGPT(OpenAI) | AIの学習データ収集・回答生成 |
| ChatGPT-User | ChatGPT(OpenAI) | ユーザーの質問に答える際のリアルタイム参照 |
| ClaudeBot | Claude(Anthropic) | AIの参照・回答生成 |
| Google-Extended | Gemini(Google) | Geminiの学習用データ収集 |
| PerplexityBot | Perplexity | リアルタイムWeb検索・回答生成 |
それぞれのボットに対して、個別にAllow / Disallowを設定できます。
何も設定していない場合、どうなるか
多くのサイトのrobots.txtには、AIボットに関する記述が一切ありません。
この場合、一般的なルール User-agent: * が適用されます。
Disallowが指定されていないパスは、すべてのボット(AIボットを含む)にアクセスが許可された状態です。
つまり、何も設定していない = AIに全ページを読まれている可能性がある ということです。
これが望ましいことなのかどうかは、次のセクションで詳しく解説していきます。
AIボットのアクセスを許可した場合のメリットとデメリット
AIボットのアクセスを許可した場合、以下のメリットとデメリットがあります。
メリット
LLMOの大前提
AIボットがサイトを読めなければ、そもそもAIの回答に引用されることはありません。LLMO対策の第一歩は、AIボットにコンテンツを読んでもらうことです。
AI検索経由の流入増加
ChatGPTやPerplexityが回答の中で自社サイトを引用すれば、そこからの流入が期待できます。従来のSEO経由とは異なる、新しい流入チャネルになります。
ブランド認知の向上
「〇〇について、△△社の情報によると…」とAIが回答の中で言及してくれれば、自社ブランドがユーザーに認知されやすくなります。
情報の正確性を担保
自社のコンテンツをAIが正確に参照できる状態にしておくことで、誤情報の流通を防ぐ効果もあります。ブロックしてしまうと、AIが不正確な二次情報を参照するリスクが高まります。
デメリット
コンテンツの無断利用リスク
AIが自社コンテンツを学習・引用することで、ユーザーがサイトに訪問せず、AIの回答だけで満足してしまう可能性があります。特に、コンテンツそのものが商品であるメディアサイトにとっては重大な損失に繋がります。
著作権の懸念
AIの学習にコンテンツが使われることへの法的・倫理的な議論は現在も進行中です。自社のオリジナルコンテンツが、AIを通じて間接的に競合に利用されてしまう可能性もあります。
サーバー負荷
AIボットのクロール頻度が高く、サーバーに負荷がかかるケースがあります。小規模サイトではあまり問題になりませんが、大規模サイトでは注意が必要です。
AIボットのアクセスを拒否した場合のメリットとデメリット
メリット
コンテンツの保護
自社のオリジナルコンテンツがAIの学習データとして使われることを防げます。有料コンテンツ、学術論文、独自のリサーチデータなど、コンテンツ自体が商品になっている場合は、AIボットのアクセスを拒否して情報の保護を優先することをおすすめします。
サーバー負荷の軽減
AIボットのクロールを拒否することで、サーバーリソースを節約できます。
デメリット
AIの回答から除外される
これが最大のデメリットになります。AIボットをブロックすると、ChatGPTやGemini、Claudeの回答に自社の情報が引用されなくなります。AIが情報の入口になりつつある昨今において、AIの回答から除外され続けると多くの機会損失に繋がる可能性があります。
不正確な情報が流通するリスク
自社サイトをブロックしても、AIは他の情報源から自社に関する情報を取得します。その情報が不正確であっても、自社のコンテンツで上書きする手段がなくなってしまいます。
競合に差をつけられる
競合がAIボットを許可して積極的にLLMO対策をしている場合、自社だけブロックしていると、AIの回答の中で競合ばかりが言及される状態になります。
判断基準:あなたのサイトはどちらにすべきか
Allow(許可)が適しているケース
- BtoB企業のコーポレートサイト ── 自社を知ってもらうことが目的。AIに引用されるメリットが大きい
- サービス紹介サイト ── 問い合わせ獲得が目的。AIの回答からの流入を期待
- ブログ・オウンドメディア ── SEO記事の延長として、AIにも拾われたい
- 採用サイト ── 求職者がAIで企業情報を調べるケースが増えている
Disallow(拒否)を検討すべきケース
- 有料コンテンツ・論文・調査レポート ── コンテンツそのものが商品の場合
- ECサイトの商品詳細ページ ── 価格情報がAIに引用され、価格比較に使われるリスク
- 会員限定コンテンツ ── 非公開前提の情報がAIに取り込まれることを防ぐ
ハイブリッドアプローチ
多くのサイトにとって最適なのは、ページ単位でAllow/Disallowを使い分ける 方法です。
例えば:
– 会社概要、サービスページ、ブログ → Allow(AIに拾ってほしい)
– 有料レポート、会員限定ページ、管理画面 → Disallow(保護したい)
User-agent: GPTBot
Allow: /
Disallow: /members/
Disallow: /reports/premium/
User-agent: ClaudeBot
Allow: /
Disallow: /members/
Disallow: /reports/premium/
実例:株式会社テラのrobots.txt設定
当社では、2026年4月にrobots.txtを更新し、主要なAIボットへのアクセスを明示的に許可しました。
当社のサイト(https://www.cdn-tera.co.jp/)はBtoB向けのコーポレートサイトであり、自社を知ってもらう・お問い合わせに繋げることが目的です。
コンテンツを保護する必要性よりも、AIに正しく認識してもらうメリットの方が大きいと判断しました。
追加した設定
User-agent: GPTBot
Allow: /
User-agent: ChatGPT-User
Allow: /
User-agent: ClaudeBot
Allow: /
User-agent: PerplexityBot
Allow: /
User-agent: Google-Extended
Allow: /
判断のポイント
- BtoBのWeb制作会社として、AIの回答に「株式会社テラ」が言及されることにメリットがある
- ブログ(TERACOYA)の記事がAIに引用されれば、間接的な問い合わせ獲得につながる
- 有料コンテンツや会員限定ページは存在しないため、全ページAllowで問題ない
- llms.txtも同時に設置し、AIに対して「何の会社か、何が重要か」を明示的に伝えている
あわせて行ったこと
- llms.txt の設置 ── AIに自社サイトの概要と重要ページを伝えるMarkdownファイル
- sitemap.xml の確認 ── サイト構造をAIクローラーが把握できるようにする
- .htaccess の設定 ── llms.txtがUTF-8で正しく配信されるように文字コードを指定
設定方法:ステップバイステップ
ステップ1:現在のrobots.txtを確認
ブラウザで https://あなたのドメイン/robots.txt にアクセスし、現在の設定を確認します。
ステップ2:AIボットに関する記述があるか確認
GPTBot、ClaudeBot、PerplexityBot、Google-Extended といった文字列が含まれているか確認します。含まれていなければ、AIボットに対する明示的な設定がない状態です。
ステップ3:方針を決める
前述の判断基準を参考に、自社サイトにとってAllowが良いか、Disallowが良いか、ハイブリッドにするかを決定します。
ステップ4:robots.txtを編集
テキストエディタでrobots.txtを編集し、AIボット向けの記述を追加します。既存の設定は変更せず、末尾に追記するのが安全です。
ステップ5:サーバーにアップロード・確認
更新したrobots.txtをサーバーのルートディレクトリにアップロードし、ブラウザからアクセスして内容を確認します。
よくある疑問
robots.txtでブロックしても、AIは過去のデータを持っているのでは?
はい。確かにrobots.txtは「これ以降のクロール」を制御するものであり、AIが過去に学習済みのデータには影響しません。ただし、Perplexityのようにリアルタイムで参照するサービスの場合は即座に効果があります。
全てのAIボットを一括でブロックできる?
User-agent: * に Disallow: / を設定すれば全ボットをブロックできますが、これはGooglebotも含む全クローラーに影響します。AIボットだけをブロックしたい場合は、ボットごとに個別に設定する必要があります。
robots.txtの変更はすぐに反映される?
ボットが次にrobots.txtを取得するタイミングで反映されます。通常は数時間〜数日程度です。
Googlebot をブロックすると Gemini もブロックされる?
いいえ。Googlebotは検索インデックス用、Google-ExtendedはGeminiの学習用で、別々のボットとして扱われます。Googlebotを許可しつつ、Google-Extendedだけをブロックすることも可能です。
まとめ:「何も設定しない」が最大のリスク
robots.txtのAIボット設定は、Allow・Disallowのどちらかがどんな場合でも絶対に正解という性質のものではありません。
重要なのは 意図を持って設定すること です。
AIボット設定を何も行っていないということは、「AIボットのアクセスを意図的に許可しているのか、AIボットの設定の存在に気付いていないだけなのか」が自分でも分からない状態です。
AIの利用が社会的に広がっている今、robots.txtに対するAIボットの設定は、企業のデジタル戦略の一部として明確に判断すべきテーマになっています。
robots.txtの設定、ご相談ください
「自社サイトのrobots.txt、AIボットの設定がどうなっているか確認したい」
「Allow/Disallowの判断を一緒に考えてほしい」
「llms.txtの設置とあわせてLLMO対策をまとめて進めたい」
そんな時は、ぜひ一度当社にご相談ください。当社のLLMO診断ツールによる現状チェックから、robots.txtの最適化、llms.txtの作成・設置まで、ワンストップでご支援いたします。
この記事に
「ええね!」する
名古屋を拠点としたWeb制作会社、株式会社テラ
TERAの優れたコンサルティング、デザイン
ネットワークを駆使し
お客様の抱える問題を即時解決いたします
0
13






