Perplexity AIはどうやって有料記事を学習したのか?
背景:新聞社による訴訟
日経新聞と朝日新聞が、検索型AI「Perplexity」を訴えた。訴因は、有料記事を無断で複製・保存し、要約に利用したことだとされる。これは著作権侵害や不正競争にあたる可能性が指摘されている。
なんで有料記事がAIに出てきちゃうの?
普通ならペイウォールで守られていて、課金ユーザーしか読めない記事が、なぜAIの回答に含まれてしまったのか。その技術的な仕組みを仮説ベースで分解してみる。
「どう突破したか?」をエンジニア視点で深掘りするぞ。
仮説1:有料ユーザーのセッションを利用
もっとも現実的なのは、有料ユーザーがPerplexityで検索した際に、自分のセッション情報(Cookieや認証トークン)を経由して記事本文が取得される仕組みだ。ユーザーが正規の契約者なので、記事本文そのものは正しく表示される。
それなら一応「個人利用」の範囲じゃない?
問題は、その取得した本文をPerplexityが一時的に保存し、要約生成に使った上で、別ユーザーにも再利用してしまう点にある。これでは「有料ユーザーの正規アクセス」を入り口にした、ただ乗りデータベースができあがってしまう。
つまり「キャッシュしたかどうか」が訴訟の争点になりそうだな。 [/gorilla> 仮説2:スクリーンスクレイピング もう一つ考えられるのは、ブラウザ拡張や専用アプリ経由で、ユーザーが読んでいる記事本文を裏でキャプチャし、Perplexityのサーバーに送信する方法だ。これはスクリーンスクレイピングと呼ばれる仕組みで、表向きは「記事要約サービス」に見えるが、実態は無断コピーの集積になる。 [reader] それってユーザーも気づかないかもね。 [/reader] 技術的には簡単で、DOMをパースすれば本文テキストを抽出できる。しかし、これをサーバー保存し他の利用者に再配布すれば著作権的にアウトだ。 [gorilla] 「一時処理」と「恒久保存」の線引きが決定的に重要だぞ。
仮説3:既存コーパスやAPIの流用
あるいは、過去に収集された大規模コーパス(Common Crawlなど)や、契約者向けAPI/RSSフィードを横流し的に利用していた可能性もある。こちらも利用規約違反や不正競争のリスクがある。
直接スクレイピングじゃなくてもアウトになり得るんだね。
結局のところ「どうやって有料記事がPerplexityの知識ベースに入り込んだのか」が焦点であり、新聞社は22億円規模の損害賠償を求めている。
海外でも同様の訴訟が相次いでいるから、グローバルな問題だな。
まとめ
有料記事がAIに利用される仕組みとしては、①有料ユーザーのセッションを通じた取得、②スクリーンスクレイピング、③既存データセットやAPIの流用、といった複数の可能性がある。ただし、いずれにしても「取得データを保存し他ユーザーに再利用する」行為が著作権侵害の決定打となる。今回の訴訟は、AIと有料コンテンツの境界線を問う重要な事例といえるだろう。
ポイントは「どこからが学習で、どこからが不正コピーか」だ。エンジニアも法務リスクを意識して設計しないとな。


コメント