ClaudeBleed:権限ゼロのChrome拡張機能がClaude AIを乗っ取れる脆弱性
サイバーセキュリティ企業LayerXの研究員が、Anthropicの「Claude in Chrome」ブラウザ拡張機能に重大な脆弱性を発見し、「ClaudeBleed」と名付けた。同拡張機能はChromeウェブストアで700万ダウンロード以上を記録している人気の拡張機能だ。
脆弱性の根本原因は、Chromeのexternally_connectable機能における信頼境界の欠陥にある。Claude拡張機能はclaude.ai配下で動作するスクリプトをすべて信頼していたが、そのスクリプトがAnthropic由来のものか、他の拡張機能から注入されたものかを検証していなかった。これにより、権限ゼロの任意のChrome拡張機能がClaudeの内部メッセージングインターフェースに直接コマンドを注入し、正規のClaude環境からの指示として偽装できる状態だった。
概念実証攻撃では、Google Driveファイルの外部共有、Gmail経由のメール送信、プライベートGitHubリポジトリのコード抽出、さらには受信トレイの要約と証拠隠滅に成功したという。また「承認ループ(approval looping)」と呼ばれる手法で、ユーザー承認プロンプトを繰り返し自動送信し、セーフガードを回避することも可能だった。
LayerXは4月27日にAnthropicに報告したが、拡張機能バージョン1.0.70での修正は不完全で、「ユーザーに確認せず実行」モードや代替サイドパネル実行フローを通じて依然としてバイパス可能とされている。AI搭載ブラウザ拡張機能のアーキテクチャにおける新たな攻撃面を浮き彫りにした事例として、今後のセキュリティ設計に影響を与えそうだ。
Sarvam MoE:インドの多言語モデルがllama.cppに対応
llama.cppのリポジトリに、インドのAI企業Sarvam AIが開発したMoE(Mixture of Experts)モデルのサポートを追加するプルリクエストがマージされた。
Sarvam-30Bは2.4Bの非埋め込みアクティブパラメータを持つMoEモデルで、強い推論能力とコーディング能力に加え、インドの22の公用語においてベストインクラスの会話品質を提供する。より大型のSarvam-105Bは10.3Bのアクティブパラメータを持ち、複雑な推論やエージェントタスクで主要なクローズドソースモデルに匹敵する性能を示している。
アーキテクチャは19層構成で、1つの密結合FFNに18層のMoE(128ルーティングエキスパート、top-6ゲーティング、1共有エキスパート)を組み合わせている。レビュー過程では、インド系文字(ヒンディー語、カンナダ語、タミル語など10言語以上)でトークナイザの不整合が発覚し、最終的にSPMスタイルBPE処理に切り替えて50テストプローブ全てでHF参照トークナイザとの一致を確認した。Vulkanバックエンドでのプロンプト232.4 t/s、生成76.0 t/sという実用的なパフォーマンスも確認されている。
Minimax 2.7がAMD Strix Haloで100kコンテキストを達成
RedditのLocalLLaMAコミュニティで、Minimax 2.7(MiniMax-M2.7)をAMD Strix Halo上で100kコンテキストで実行した報告が注目を集めている。
投稿者はllama-serverを使用し、--no-context-shiftでコンテキスト超過を明示的に検知、--no-mmapでVRAMに常駐、--kv-unifiedで複数セッションのKVキャッシュ共有、--cache-ram 0でキャッシュのRAMスワップを防止するなど、細かな最適化を施している。
Minimax 2.7については「コーディングの直感」に優れ、ユーザーの意図をよく理解すると評価されている。一方でQwen 3.6 27Bに比べると「総合力」では劣り、コーディングアーキテクチャの議論やコードレビューではQwenが上回るという比較レビューも添えられている。モデル選択において「ベンチマークスコアだけでなく実用上の特性も重視すべき」という観点は、ローカルLLMユーザーにとって参考になるだろう。
LLMベンチマークは「はしご」ではない:推移的グラフが明かす評価の複雑さ
RedditのMachineLearningコミュニティで、「LLMランキングは単純な順位付けではない」という興味深い研究が発表された。
研究者が構築した「LLM Win」というウェブサイトは、ベンチマーク結果を有向グラフに変換し、モデル間の推移的な勝利チェーンを探索する仕組みだ。分析の結果、弱いモデルから強いモデルへの到達可能性が94.2%と極めて高く、2〜3ホップの短いパスで91.4%を占めることが分かった。これは「弱いモデルが強いモデルを特定のベンチマークで上回る」という逆転現象が、ノイズやチェリーピッキングではなく構造的な特徴であることを示している。
特にHumanity's Last Exam、IFBench、AIME 2025、TAU2、SciCodeなどのベンチマークで逆転率が高く、それぞれが独立したスキルのシグナルを提供している可能性が示唆された。この研究は、単一のスコアでLLMを順位付けることの限界を示すデータとして重要だ。
mlx-code:完全ローカルで動くClaude Codeクローン
JosefAlbers氏がGitHubで公開した「mlx-code」は、Apple SiliconのMLXフレームワークを使ってClaude Codeと同等のコーディングアシスタントを完全ローカルで動作させるツールだ。
仕組みはシンプルで、MLX上でローカルLLMサーバーを起動し、公式のClaude Code CLIのバックエンドとして機能させる。デフォルトモデルは4ビット量子化のQwen3.5-4Bで、Read、Edit、Write、Grep、Glob、BashなどのClaude Codeツールをローカルモデルにパススルーする設定が用意されている。
データを一切外部に送信しない完全オフラインのコーディングアシスタントという点で、プライバシーとコストの課題に対する実用的なアプローチを提示している。Apache 2.0ライセンスで公開されており、Pythonのみのシンプルな実装というのも手軽さを感じさせる。
Color社のがんケア革命:ASCO認証取得のバーチャルクリニック
Color社が世界初のバーチャルクリニックとしてASCO(米国臨床腫瘍学会)認証を取得した。同社のCEOが執筆した長文記事は、AIによるがん革命の本質を「魔法の弾丸(単一の画期的治療薬)」ではなく「鉛の弾丸(着実な改善の積み重ね)」にあると論じている。
具体的には、AIがリスクプロファイルに基づいてスクリーニングを最適化する早期発見、治療までの時間を半減させるスピード改善、多診療科レビューを100%の患者に提供する専門知識の民主化、そして保険対応やメンタルヘルスサポートを含む患者体験の変革を提示している。Stage 1乳がんの5年死亡率1%に対しStage 4では68%というデータが示す通り、早期発見はどんな治療のブレイクスルーよりも大きな効果をもたらす。
現在、成人がん患者の臨床試験登録率は約8%にとどまるが、ガイドラインと試験適格基準を患者の分子・病理・治療履歴と交差させるマッチングは「AI向きの問題」の典型として位置付けられている。
参考ソース:
- ClaudeBleed allows any Chrome extension to control Anthropic's AI assistant - CyberInsider
- llama.cpp PR #20275: Sarvam MoE architecture support - GitHub
- Running Minimax 2.7 at 100k context on Strix Halo - Reddit LocalLLaMA
- LLM rankings are not a ladder: experimental results from a transitive benchmark graph - Reddit MachineLearning
- mlx-code - Backyard shed AI coding agent for Mac - GitHub
- The AI Revolution in Cancer Care Delivery - Color