Perplexity AIはどうやって有料記事を学習したのか？技術的仮説を徹底解説

Perplexity AIはどうやって有料記事を学習したのか？
まとめ

Perplexity AIはどうやって有料記事を学習したのか？

背景：新聞社による訴訟

日経新聞と朝日新聞が、検索型AI「Perplexity」を訴えた。訴因は、有料記事を無断で複製・保存し、要約に利用したことだとされる。これは著作権侵害や不正競争にあたる可能性が指摘されている。

読者

なんで有料記事がAIに出てきちゃうの？

普通ならペイウォールで守られていて、課金ユーザーしか読めない記事が、なぜAIの回答に含まれてしまったのか。その技術的な仕組みを仮説ベースで分解してみる。

ごりら

「どう突破したか？」をエンジニア視点で深掘りするぞ。

仮説1：有料ユーザーのセッションを利用

もっとも現実的なのは、有料ユーザーがPerplexityで検索した際に、自分のセッション情報（Cookieや認証トークン）を経由して記事本文が取得される仕組みだ。ユーザーが正規の契約者なので、記事本文そのものは正しく表示される。

読者

それなら一応「個人利用」の範囲じゃない？

問題は、その取得した本文をPerplexityが一時的に保存し、要約生成に使った上で、別ユーザーにも再利用してしまう点にある。これでは「有料ユーザーの正規アクセス」を入り口にした、ただ乗りデータベースができあがってしまう。

ごりら

つまり「キャッシュしたかどうか」が訴訟の争点になりそうだな。 [/gorilla> 仮説2：スクリーンスクレイピングもう一つ考えられるのは、ブラウザ拡張や専用アプリ経由で、ユーザーが読んでいる記事本文を裏でキャプチャし、Perplexityのサーバーに送信する方法だ。これはスクリーンスクレイピングと呼ばれる仕組みで、表向きは「記事要約サービス」に見えるが、実態は無断コピーの集積になる。 [reader] それってユーザーも気づかないかもね。 [/reader] 技術的には簡単で、DOMをパースすれば本文テキストを抽出できる。しかし、これをサーバー保存し他の利用者に再配布すれば著作権的にアウトだ。 [gorilla] 「一時処理」と「恒久保存」の線引きが決定的に重要だぞ。

仮説3：既存コーパスやAPIの流用

あるいは、過去に収集された大規模コーパス（Common Crawlなど）や、契約者向けAPI/RSSフィードを横流し的に利用していた可能性もある。こちらも利用規約違反や不正競争のリスクがある。

読者

直接スクレイピングじゃなくてもアウトになり得るんだね。

結局のところ「どうやって有料記事がPerplexityの知識ベースに入り込んだのか」が焦点であり、新聞社は22億円規模の損害賠償を求めている。

ごりら

海外でも同様の訴訟が相次いでいるから、グローバルな問題だな。

まとめ

有料記事がAIに利用される仕組みとしては、①有料ユーザーのセッションを通じた取得、②スクリーンスクレイピング、③既存データセットやAPIの流用、といった複数の可能性がある。ただし、いずれにしても「取得データを保存し他ユーザーに再利用する」行為が著作権侵害の決定打となる。今回の訴訟は、AIと有料コンテンツの境界線を問う重要な事例といえるだろう。

ごりら

ポイントは「どこからが学習で、どこからが不正コピーか」だ。エンジニアも法務リスクを意識して設計しないとな。