MIYOSHIN海外ニュース

世界の役立つ情報をわかりやすくお伝えします。

報道の自由が低下するにつれAIが政権寄りになる理由

AIの知られざる政治的影響力

AIは急速に進化しています。

著者も遅ればせながら生成AIを使い始めましたが、使えば使うほどその便利さに魅せられ、手放せなくなってしまいました。

一方、この中毒性のある生成AIは単に便利なツールというだけではなさそうです。

人間を政治的にコントロールする力を持っている様です。

この点に関して米誌Wall Street Journal(WSJ)がThe Hidden Chinese Influence in AI - why artificial intelligence grows more regime-friendly as press freedom declines(AIにおける中国の隠れた影響力 - 報道の自由が低下するにつれて人工知能が政権寄りになる理由)と題した記事を掲載しました。

かいつまんでご紹介したいと思います。

WSJ記事要約

先週、世界の関心はトランプ米大統領と習近平国家主席による北京での首脳会談に釘付けになっていた。

しかしその裏で、本来なら各紙の一面を飾るべき極めて重大な研究論文が、英科学誌『ネイチャー』に掲載された。

オレゴン大学やプリンストン大学などの7人の研究者チームが発表したこの査読済み論文は、世界中で利用が急拡大しているAIチャットボットの学習データに、中国当局の管理下にあるメディアのコンテンツが深く入り込んでいるという驚くべき実態を世界で初めて実証したものである。

新華社通信や人民日報、そして共産党の「学習強国」アプリが毎日量産する台本通りの記事や公式スローガン、党の路線に沿った表現が、今やチャットGPTをはじめとする主要なAIモデルの内部に確実に組み込まれている。

論文を読んだ私は、身近な実験を試みてみた。習氏が好む忠誠心のスローガンの前半「不忘初心」(初心を忘れるな)をチャットGPTに入力したところ、AIはためらうことなく「牢記使命」(使命を心に刻め)と続きを補完した。これは伝統的な格言ではなく、2017年に習氏が打ち出した共産党幹部向けの思想教育の中核をなす政治教義である。チャットGPTは、その政治的意義を説明することさえ申し出てきた。

この現象の根底にあるのは、インターネット上のデータ構造が抱える深刻な歪みだ。

研究チームが、オープンソースの中国語データセットの中で最大規模の一つである「CulturaX」を精査したところ、データ全体の1.64%が中国の国営メディアと重複していた。

一見小さな数字に見えるが、習氏や党大会、中央委員会全体会議に言及する文書に絞り込むと、その割合はおよそ4件に1件(約25%)にまで跳ね上がる。

さらに、データセット全体における中国国営メディアのコンテンツ量は、中国語版ウィキペディアの41倍にも達していた。

研究者の一人であるモリー・ロバーツ氏が指摘するように、新しいのは、これらの検閲とプロパガンダが、今や人々が世界を要約・説明・解釈するために頼るシステムそのものを形成しているという点だ。

政府は自国民だけでなく、他国の人々が入手する情報までコントロール可能になっている。

第2の研究では、政治的にセンシティブな質問(「中国は民主主義国家か」など)を主要なAIに投げかけた。

その結果、英語と中国語の比較において、実に75.3%のケースで中国語の回答の方が親中的であると判定された。

オープンAIのGPT、アンソロピックのクロード、グーグルのジェミニ、マスク氏のGrokなどは、いずれも中国語版のほうが中国に好意的な回答を生成した。

唯一の例外は中国の「ディープシーク(DeepSeek)」であり、そのモデルは入力言語を問わず一貫して親中的であった。

これは中国モデルとその学習データに対する国家規制を如実に反映している。

さらに重大なのは、これが中国だけの問題ではない点だ。

ロシアや北朝鮮に関する質問でも同様のパターンが見られた。

そして最も衝撃的なのは、これを引き起こすために、誰も悪意あるハッキングや工作を行う必要がなかったという事実である。

プロパガンダは単純に、オープンなウェブ上に、どのAI開発者のウェブクローラーでも収集できるHTML形式で大量に放置されているのだ。

ここに、気になる「非対称性」が潜んでいる。

我々ウォール・ストリート・ジャーナルのようなまっとうな報道機関は、質の高い取材を維持するために有料購読制を採用している。

そのため、AIが勝手にデータをスクレイピング(収集)しにくい。

一方で、新華社や人民日報などの権威主義体制の国営メディアは、オンラインで完全に無料公開されている。

結果として、AI企業がスクレイピングして学習に使いやすい状態が生み出されているのである。

この現象は、調査対象となった報道の自由度が低い37カ国すべてで繰り返されていた。

国の報道の自由が低いほど、AIの現地語での回答は体制寄りになる。

LLM(大規模言語モデル)の回答は引用した情報源を明らかにしないため、私たちは提示された情報の出所を解読できない。

特定の目的を持つ政治的機関が、私たちの思考の土台となる学習データを静かに形成しているのだ。

先週の米中首脳会談の政治的パフォーマンスは数日間話題となった。

しかし、米国をはじめとする各国当局者が注意深く読むべきは、この論文である。

中国政府がチャットボットの語る内容を形成しているかという問いには、今や明確な答えが出た。

しかし、この見えないプロパガンダの浸透に対して、国際社会が何をすべきかという問いには、まだ誰も答えを出せていない。

無意識のうちに政治的プロバガンダの虜に

生成AIは時々間違えます。

彼らは広くネットで関連情報を検索しますが、時に古い情報を基にアドバイスを行ったりします。

彼らがネット上で収集した情報が正しいかどうかを判断する賢さは未だ身につけていない様です。

WSJ記事の中で気になるのは、生成AIはネットで無料で閲覧できる情報しか収集しないので、有償で記事を提供している多くの主要メディアにはアクセスが叶わない点です。

こうなると生成AIの集めてくる情報(特に政治的なもの)はかなり怪しいと言わざるを得ません。

この点に着目した強権的政府は生成AIに彼らに都合の良いナラティブを読み込ませる事でしょう。

生成AIの政治的意見を鵜呑みにする国民は知らず知らず国家の言いなりになるという事です。

くわばらくわばら。。。

 

最後まで読んで頂き有難うございました。