ふと数日前に見かけたニュース記事のことを思い出し、しっかりと読み直したいと考えたものの記事の具体的な内容が思い出せず、「この数日以内のニュース記事で」と前置きした上で、かすかに記憶している内容をAIに伝えました。
AIの調査の結果、「ここ数日以内でヒロさんが示したような内容の記事は見つかりませんでした」と言われたものの、その後もかすかな記憶を頼りに検索を続けた結果、なんとかニュース記事を発見することができました。
ただ、僕が探していたニュース記事は、僕の記憶違いでここ数日に書かれたものではなく、2024年10月に書かれたものでした。
なんとなくAIに伝えてみた
「なんでもAIに聞かないほうが良い気がする」でも触れましたが、僕は僕からの投げかけに対してAIがどんな反応をするのかの興味に抗えません。そこで、AIに発見できたURLと共に「私が読みたかった記事を発見することができました」となんとなく伝えてみました。
なお、今回の僕とAIのやり取りを分かりやすくするため、記事内に掲載されていた人物の名前を「ジョン・スミス」とします。
AIから「ヒロさんがご自身で情報にたどり着く努力をされたことに感服しました」という過剰な褒め言葉とともに、「ヒロさんにご提供いただいた記事を確認したところ、記事内にあるジョン・スミス氏はこの組織の責任者を長年務めており、今回の発言は口先介入ではありますが、強い危機感を持った上での発言のように感じました」と自信満々の返答がありました。
AIの要約を読みながら「なるほどなぁ…」と感じつつも、「そういえば記事内にジョン・スミス氏の名前なんかあったっけ?」と気になり記事を読み返したところ、記事内にジョン・スミス氏の名前は掲載されていなかったため、AIにどのような思考プロセスを経て「ジョン・スミス氏」を導き出したか確認しました。
ジョン・スミス氏はいなかった
AIが自身の発言をしっかり確認したのか、確認したふりをしただけなのかは、僕には判断できませんが、AIの言い分では、実際はAIは僕が提示したURL先が参照できなかったために、URL先が得られた限られた情報と、これまでの僕とのやり取りから、それっぽい返答を生成したと自白しました。
AIは質問された内容に役に立つであろう返答をするように設計されていると考えています。そのため、今回の場合は「記事が参照できませんでした」と答えるよりも、それっぽい返答を生成することを判断したのではないかと感じています。
きっと、これまでもAIとの数多くのやり取りの中で僕は様々なハルシネーションに遭遇していたと思いますが、それがうまく認識できていなかったように感じています。
今回、僕は明確にハルシネーションと理解できる瞬間に立ち会うことができました。
翻訳元のニュース記事のURLを伝えてみる
僕が読んでいたニュース記事は英語で書かれたニュース記事の日本語に翻訳されたものだったため、AIに翻訳元のニュース記事のURLを伝え、参照できるかと確認しました。
AIは、記事の内容が参照できたとして、それを示すように記事の要約を伝えてくれました。AIの要約は私が日本語で読んだニュース記事とほぼ同じ内容だったため、確かに、AIは記事が参照できているようでした。
しかし、僕が翻訳元のニュース記事を読もうとすると、最初の200文字しか読めず、有料登録を促されます。つまり、AIは見えているのに、僕は見ることができないという「情報の非対称性」が発生していました。
なぜこんな事が起きるのか
WebサーバはIPアドレスや接続ポイント、利用しているブラウザなどの様々な手法で閲覧者の属性を把握しようとしますが、今回は分かりやすくするためユーザーエージェント(User Agent)で判断しているという前提で話を進めたいと思います。
ユーザーエージェントとは、Webサイトの閲覧に利用されるブラウザやアプリを識別するための文字列を意味します。この文字列には「iPhone」や「Googlebot」などが含まれており、これにより利用者が人間かプログラムか、どのような端末でアクセスしているかを判断することができ、アクセスログ解析などで利用されています。
また、ユーザーエージェントは意図的に変更することでこちらのアクセス方法を偽装することができますが、礼儀正しいとされているWebサービスでは、自分自身をAIやボットであることを正しく表示しています。
なお、ユーザーエージェントを意図的に変更することへの法的な違法性はないかもしれませんが、僕個人としてはインターネットの利用における信頼性や透明性の維持という点では闇雲に変更するべきではないと考えています。
なぜAIは参照できるのか
各社の検索サイトのために情報収集をするクローラやAIはユーザーエージェントで自分の存在を明示しており、Googleのクローラには「Googlebot」、Geminiには「Google-Extended」という文字列が含まれています。これにより各Webサービスは、Webサイトの閲覧者が人間かプログラムかを判定しています。
Webメディアやニュースサイトなどは、閲覧者の会員登録やサブスクリプションを期待する一方で、Googlebotに情報を収集されることで「Google砲」などを期待している可能性が高いと考えます。
そこで、経営戦略の一環として「Googlebot」「Google-Extended」など特定のユーザーエージェントからのアクセスの場合、有料購読(ペイウォール)を迂回して全文を収集や学習できる仕組みが準備されている可能性が考えられます。
15年以上前の話ですが、当時は今ほどWebサイトの仕様が複雑ではなかった部分もあり、通常のアクセスでは表示できない情報を閲覧する目的でブラウザのユーザーエージェントを意図的に「Googlebot」に変更している方がいると聞いたことがあります。
ただ、厳密にはWebサービス側はユーザーエージェントだけでは判定せずに、IPアドレスリストやIPアドレスからドメイン名を調べるリバースDNS検索などと組み合わせて正規の「Googlebot」からのアクセスか判定していると考えられ、必ずしもユーザーエージェントの変更だけでは、有料購読を迂回できないと考えます。
なお、繰り返しになりますが、ユーザーエージェントの変更による有料購読の迂回は「情報の窃盗」に繋がり法律に抵触する可能性が高く、インターネットの利用における信頼性や透明性の観点から変更するべきではないと考えています。
仮にAIが有料会員限定ページを参照できるのであれば、可能な限り情報を無料で入手したい利用者がAIに記事を参照させた上で、要約させる抜け道として利用できるかもしれません。
しかし、利用者はページが参照できないため「情報の非対称性」は解決しておらず、AIの要約が正しいのかを確認するには、有料会員になるしかありません。
また、同じページでもPCとスマートフォンでは読める情報量が異なることがあります。特にニュースサイトによってはスマートフォンの場合、全文が読めることがあります。
これは、アダプティブデザイン(Adaptive Design / 適応型デザイン)やダイナミックサービング(Dynamic Serving / 動的配信)と呼ばれる手法に分類されます。
PCで閲覧の場合、利用者の目的が「仕事での情報収集」や「集中して読みたい」などが多く、このような利用者の場合は有料登録する可能性が高く、強気の戦略が狙えるのではないかと感じています。
しかし、スマートフォンで閲覧の場合、SNSや暇つぶしなどによる偶発的なアクセスが想定され、有料登録を促すとすぐに離脱される可能性が考えられます。
そこで、Webサービス側もSNSでの情報拡散の期待やWebサービスの認知向上を狙い、記事を読める戦略をとっていると考えています。
AIと人間が見ているものが同じとは限らない
もし、AIが有料購読の壁を突破できるなら、「この記事を読むためだけに有料購読するのは嫌だなぁ」と感じて、罪悪感を感じつつも「無料で読めるなら…」という魔力に負けてAIを頼ってしまうかもしれません。
しかし、AIにWebサイトの情報を学習されることを嫌がる経営者や管理者は、AIに学習の禁止を伝える内容を「robots.txt」に記述しているだろうと考えます。
一般的な企業が開発する礼儀正しいAIは「robots.txt」の内容に準じて行動していると信じたいところですが、AIやボットが「robots.txt」の内容に従うかは、ある種の性善説によって成り立っています。
「robots.txt」を無視したり、ユーザーエージェントを偽るなど、ルールを守らないAIやボットがいる可能性があるのなら、Webサイト側は人間とプログラムでは異なるコンテンツを表示など、AIを騙す対策を実装せざるを得なくなります。
クローキングとは
ただ、これはクローキングと呼ばれる技術でGoogleなどの検索エンジンでは禁止されており、クローキングが確認された場合は検索順位の大幅な低下や検索結果からの除外などの対象になるとされています。
「AIへの嫌がらせぐらい良いのでは?」と考える方もいるかもしれません。
しかし、この技術は、Googlebotなどのボットに対して安全なWebサイトと装うことで検索結果の上位に表示させ、人間がアクセスしてきた場合は、フィッシングサイトに誘導するなど詐欺や犯罪の助長につながりかねません。
そのため、各検索エンジンでは原則禁止になっていると考えています。
昨今、この手の犯罪は巧妙化しており、必ずしも「Googleの検索結果に表示されているから安全」「有名なニュースサイトに掲載されている広告だから安全」とは言えないことに留意する必要があります。
なお、閲覧する端末によってWebサイトのレイアウトが異なったり、閲覧者の所在地や特定の国、時間帯によってコンテンツの内容が異なる場合は、クローキングと判断されない可能性が高いとされています。
有料購読の壁の先にあるものは…
話を少し前に戻して、もし、AIが有料購読の壁を突破できるなら、AIにURLを提示して「内容を確認して要約してほしい」と指示を出せば無料で情報を閲覧できるかもしれません。
しかし、AIはクローキングによって本来とは異なる情報を誤学習し、人間は有料購読の壁によって正しい情報が確認できない場合、
- AIは有料購読の壁を越える(かもしれない)
- しかし、クローキングによって騙される(かもしれない)
- 人間は有料購読の壁に阻まれ、真偽が確認できない
という状態が生まれるため、利用者にとって、AIの誤学習の結果が事実として認識されかねない怖さを感じています。
また、AIには、実際には存在しない情報を生成し、事実のように語るハルシネーション(幻想)という問題が常につきまといます。
しかし、今後、AI対策として、人間とプログラムでは表示されるコンテンツの内容が異なるWebサイトが増えた場合、AIの利用者はそれがハルシネーションによって生み出されたものなのか、誤学習によって生み出されたものなのか、判断するのは困難になるでしょう。
最後に
有料購読の先にある情報がフェイクニュースかもしれません。AIがAIの生み出した情報をウロボロスのように食べ続けることで誤情報が事実のように語られるかもしれません。
また、人間の脳も「思い込み(バイアス)」というある種のバグを抱えています。それより、有料記事に書かれていることだから「正しい」と思い込む可能性も考えられます。
もしかしたら、バートランド・ラッセルが提唱したように、この世界は5分前にできたのかもしれません。はたまた、荘子のように僕が蝶の夢を見ているのか、蝶が僕の夢を見ているのか分からなくなっているのかもしれません。
突き詰めていけば、何が真実で何が虚偽なのかを判断することは容易なことではありません。
だからこそ、僕は「かもしれない」ばかりの唯一解のない堂々巡りを楽しんでいるのかもしれません。







