MetaがAIモデルの訓練に、LibGenなどの海賊版書籍データベースから約82TBのデータを違法にダウンロードして使用した疑惑が浮上している。内部資料によれば、同社のCEOであるマーク・ザッカーバーグもこのデータ利用を承認していたとされる。
この問題は、著作権侵害を巡る訴訟の中で明らかになったもので、AI開発におけるデータ収集の倫理性が問われている。Metaはこれまで、AIモデル「Llama」の訓練において、著作権で保護された書籍を無断で使用したとして、作家らから訴訟を提起されている。
同社の内部コミュニケーションでは、社員が海賊版資料の使用に対する倫理的懸念を示していたが、最終的に使用が進められたとされる。この事態は、AI開発におけるデータ利用の在り方に一石を投じるものとなりそうだ。
Metaのデータ収集手法と海賊版書籍の利用実態

MetaがAI訓練のために82TBもの海賊版書籍を利用した疑惑は、同社のデータ収集手法に関する問題を浮き彫りにしている。内部資料によれば、Metaのエンジニアは著作権で保護された書籍をLibGenやSci-Hub、ResearchGateといった海賊版サイトから取得していたとされる。これらのサイトは学術論文や書籍を無断で公開することで知られ、著作権者から厳しく批判されてきた。
特に注目されるのは、Metaの社員間のやり取りだ。ある研究者は「海賊版コンテンツの使用は倫理的に問題がある」と指摘していたが、一方で「著作権問題を回避するためにVPNを使ってダウンロードすれば問題ない」といった発言もあったとされる。内部の議論では海賊版データの使用を制限すべきとの意見もあったが、最終的には利用が進められたことが今回の訴訟で明らかになった。
Metaは公式には「違法なコンテンツをAIの訓練に使用していない」としているものの、訴訟の証拠として提示されたデータには、同社がトレント経由で数千万冊の海賊版書籍をダウンロードしていたことが記されている。つまり、データを取得した事実は否定できず、問題はそれがAI訓練に活用されたかどうかに移っている。今後、裁判の進展によってMetaのデータ収集手法のさらなる詳細が明らかになる可能性がある。
AI訓練における著作権侵害のリスクと業界への影響
Metaの事例は、AI開発における著作権侵害のリスクを再び浮き彫りにした。AIの訓練には大量のテキストデータが必要だが、企業が正規のライセンス契約を結んでコンテンツを取得するコストは莫大である。そのため、一部の企業はコストを削減する目的で、インターネット上に流通するデータを無断で使用する傾向がある。
今回の訴訟を受け、著作権者側の反発が強まる可能性がある。すでに作家や出版社の団体は、AI企業に対して訓練データの開示を求める動きを強めている。米国ではOpenAIやMetaに対する訴訟が相次ぎ、企業が無断で著作物を使用していることへの法的な争点が明確になりつつある。日本においても、AIが著作権で保護されたコンテンツを学習することの合法性が議論される可能性がある。
一方で、著作権者とAI企業の間でライセンス契約を結ぶ動きも出始めている。例えば、News CorpやAP通信はAI企業との提携を進め、正式にコンテンツを提供する方針を取っている。Metaが今回の訴訟によって訓練データの取得方法を変更するかどうかは不明だが、業界全体としては、今後より厳格なルールのもとでデータ取得が行われる方向へ進む可能性が高い。
Metaの対応と今後の展望
Metaは今回の訴訟について公式なコメントを控えているが、これまでの事例を振り返ると、同社は規制当局や裁判所の圧力を受けた場合、方針を変更する傾向がある。例えば、欧州連合(EU)によるデータ保護規制が強化された際、Metaはデータの取り扱い方法を見直し、新たなプライバシー対策を導入した。今回の著作権問題に関しても、同様の対応を迫られる可能性がある。
また、MetaがAI開発を継続するためには、クリーンなデータソースを確保する必要がある。すでにMicrosoftやGoogleは出版社との提携を進め、正規のライセンス契約に基づくデータ活用を強化している。Metaも同様の方向に舵を切るか、それとも違法性を指摘される手法を継続するのかが今後の焦点となる。
一方で、Metaがこの問題を解決しない場合、規制当局による介入が強まる可能性がある。米国や欧州ではすでにAIのデータ利用を制限する動きがあり、今後新たな規制が導入されれば、Metaは現在のビジネスモデルを大きく見直さざるを得なくなるだろう。今回の訴訟は、単なる一企業の問題ではなく、AI業界全体の方向性を左右する重要な出来事となる可能性がある。
Source:BGR