スタンフォード研究「ChatGPT以降のWebサイト35%がAI生成」、FigmaがAIエージェントでデザイン直接操作へ、推論モデルは「考えるほどバイアスが増す」

スタンフォード等の調査：ChatGPT以降のWebサイト、35%がAI生成

英インペリアル・カレッジ・ロンドン、Internet Archive、スタンフォード大学の共同研究チームが発表した論文「The Impact of AI-Generated Text on the Internet」は、インターネット上におけるAI生成テキストの蔓延を実証的に明らかにした。

ChatGPTが公開された2022年11月以降に作成されたWebサイトのうち、約35%がAI生成テキストを含んでいるとの推定結果が出たという。研究では「不自然に明るい文章」の拡散も指摘されており、AI生成コンテンツがインターネットの情報生態系に与える影響の深さが改めて浮き彫りになった。

なぜ重要か： インターネット上のコンテンツの質がAIによって大きく変容しつつあることを、大規模な実証データが裏付けた。これまで議論の多かった「AI汚染」の影響を定量的に示した点で、今後のコンテンツポリシーや検索エンジンの設計に影響を与える可能性がある。

FigmaがAIエージェントによるデザイン作成・編集機能を公開

Figma社は、AIエージェントがFigmaのキャンバス上でデザインを直接作成・編集できる機能の提供を開始した。注目すべきは、意図しないデザインが生成されることを防ぐ仕組みも組み込まれている点だ。

デザインツールの代表格であるFigmaがエージェント機能に本腰を入れたことで、UI/UXデザインのワークフローに大きな変化が起きる可能性がある。ただし「意図しないUI生成」を防ぐガードレールが実運用でどこまで機能するかは、今後の検証を待つ必要がある。

推論モデルの逆説：「考えれば考えるほどバイアスが増す」

arXivに発表された「More Thinking, More Bias: Length-Driven Position Bias in Reasoning Models」という論文は、直感に反する発見を報告している。Chain-of-Thought（CoT）推論やDeepSeek-R1のような推論チューニング済みモデルは、「じっくり考えることで浅いヒューリスティックバイアスを減らす」と考えられてきた。しかし実際には、推論軌跡が長くなるほど位置バイアス（Position Bias）が増大することが分かった。

13の推論モード設定で検証した結果、12設定において推論軌跡の長さと位置バイアススコア（PBS）の間に正の相関が確認された。671BパラメータのDeepSeek-R1では全体的なPBSは低いものの、最も長い軌跡の四分位では依然としてバイアスが観測されているという。

なぜ重要か： 推論モデルが「じっくり考えれば考えるほど正確になる」という前提に、重大な注意喚起を投げかける結果だ。特に多肢選択型の評価パイプラインでは、推論モデルを「順序にロバスト」と前提してはならないことが示された。

AIの認知能力は「超・言語、壊滅的・視覚」で不均一に進化

「Uneven Evolution of Cognition Across Generations of Generative AI Models」という論文は、生成AIモデルの認知プロファイルをウェクスラー成人知能検査（WAIS）に基づく心理測定フレームワークで評価した。結果は衝撃的だった。

言語理解とワーキングメモリでは人間の98パーセンタイル以上に達している一方で、知覚推理では1パーセンタイル未満という「極端に不均衡な認知アーキテクチャ」が明らかになった。6世代・2モデルファミリーにわたる追跡調査では、抽象的な定量推理においても「言語提示」と「視覚提示」で性能に大きな解離があり、言語ベースの記号操作への強いアーキテクチャ上のバイアスが確認された。

なぜ重要か： スケーリングだけでは「バランスの取れた人間のような汎用知能」に到達できない可能性を示唆している。現在のLLMの強みと弱みを正確に理解することは、適切な活用領域を判断する上で不可欠だ。

LLMの「計画能力」は近視眼的 — 推論トレース解析で判明

「Extracting Search Trees from LLM Reasoning Traces Reveals Myopic Planning」は、LLMの推論トレースから探索木を抽出・定量化する新しい手法を提案した論文だ。四目並べゲームを対象に分析した結果、LLMの探索は人間よりも浅く、性能は探索の「深さ」ではなく「幅」で予測されることが分かった。

最も興味深いのは、LLMは推論トレース内で深いノードを展開しているにもかかわらず、実際の手の選択はそれらの深いノードを無視した「近視眼的なモデル」で最もよく説明されるという点だ。人間では深い探索が性能を驱动するのとは対照的である。

なぜ重要か： LLMが「長く考えている」ように見えても、実際には浅い情報に基づいて判断している可能性がある。これはAIの推論能力に対する評価方法に根本的な問いを投げかける。

出典

ChatGPT以降のWebサイト35%がAI生成: ITmedia AI+ / スタンフォード大学等の研究
Figma AIエージェント機能: ITmedia AI+ / Figma社発表
More Thinking, More Bias: arXiv:2605.06672
Uneven Evolution of Cognition: arXiv:2605.06815
Extracting Search Trees from LLM Reasoning: arXiv:2605.06840