AI2がドメイン特化ルーティングのMoEモデル「EMO」を公開
Allen AI(AI2)が、新しいMixture-of-Experts(MoE)モデル「EMO」をリリースした。1Bアクティブ/14Bトータルパラメータで1兆トークンで学習されており、特に注目すべきはドキュメントレベルのルーティング機構だ。
従来のMoEはトークン単位でエキスパートを選択するが、EMOはドキュメント全体を見て適切なエキスパートを割り当てる。その結果、エキスパートがヘルスケアやニュースといったドメインごとにクラスタリングされる傾向が確認されており、表面的なパターンではなく意味的な領域分割が実現されている。
MoEのルーティング品質は実用性能に直結する課題であり、ドキュメントレベルでの意味的ルーティングというアプローチは今後のMoE設計に影響を与える可能性がある。
ローカルLLMの最適化が急加速 — Qwen 35B-A3Bが12GB VRAMで実用化
RedditのLocalLLaMAコミュニティで、Qwen3.6-35B-A3B(MoEモデル)をRTX 3060 12GBで稼働させる詳細なベンチマークが報告された。
主要な結果は以下の通り:
- 32Kコンテキストでプロンプト処理約89 tok/s、生成約43 tok/sを達成
- 12GB VRAMはMoEのGPUオフロード量を調整するスイートスポットとして機能
- Q8 KVキャッシュが実質的にパフォーマンス低下なしで利用可能
- 実用的なコーディング用途で十分な速度とコンテキスト長を確保
MoEモデルはアクティブパラメータが少ないため、VRAM制約のある消費者向けGPUでも大規模モデルの恩恵を受けやすい。35Bクラスのモデルが12GB VRAMで実用レベルの速度で動くことは、ローカルLLMの選択肢を大きく広げる成果と言える。
MTP + TurboQuantで262Kコンテキストを80+ tok/s処理
同じくLocalLLaMAで、Qwen3.6-27BをRTX 4090で動かし、MTP(Multi-Token Prediction)とTurboQuantのTBQ4_0(損失なし4.25 bpv KVキャッシュ)を組み合わせた結果が報告された。
262Kコンテキストで生成速度80〜87 tok/sを達成し、MTPドラフトのアクセプタンス率は約73%。最適化前の43 tok/sからほぼ2倍に高速化されている。llama.cppのフォークとして公開されており、コミュニティでの再現が可能だ。
ローカル環境で26万トークンを超えるコンテキストをこの速度で処理できることは、長文ドキュメントの処理や大規模コードベースの補完など、これまでクラウドAPIに頼っていた用途のローカル化を大きく前進させる。
MTPの効果はワークロード次第 — アクセプタンス率が鍵
一方で、MTPが常に有効とは限らないことも明らかになった。Gemma 4-26b-a4bを使った詳細なベンチマークでは、ワークロードによってMTPの効果に大きな差が生じている:
- コード生成: 75 tok/s → 114.8 tok/s(1.53倍高速、アクセプタンス率66%)
- 長文執筆: 75 tok/s → 71.1 tok/s(実質変わらず、アクセプタンス率31%)
- JSON出力: 51.3 tok/s → 25.6 tok/s(0.5倍に低下、アクセプタンス率8%)
分析によると、トークンのアクセプタンス率が50%を下回るとMTPのオーバーヘッドがメリットを上回る。コード生成のように予測しやすい系列ではMTPが強力な高速化手段となる一方、構造化出力や創作的な文章生成では逆効果になる可能性がある。
この結果は、MTPを採用するかどうかの判断を実際のユースケースに基づいて行うべきことを示している。
ペンタゴン「二度と単一AIプロバイダーに依存しない」
米国防総省の当局者が「二度と単一のAIプロバイダーに依存することはない」と明言した。Nextgovの報道によると、これは過去の特定ベンダーへの過度な依存からの教訓を反映したものとみられる。
軍事・安全保障分野でのAI調達において、ベンダーロックインを避け、複数プロバイダーを並行利用する方針が明示されたことは、AI業界の競争構造にも影響を与える可能性がある。大規模な政府契約を巡る競争が激化する中、各AI企業にとって防腐剤となる重要なシグナルだ。
PagayaのAI不動産ファンドが投資家に80%損失の返金を要求
イスラエルのAIフィンテック企業Pagayaが運用するAI駆動の不動産ファンドで、投資家が資本の80%を消失したとして返金を求めていることが分かった。Calcalistの報道によると、投資家はファンドの運用成績がAIモデルの予測を大幅に下回っていたと主張している。
AIを活用した金融商品のリスク管理に疑問が呈される事例であり、AIモデルの予測精度が実際の市場環境でどう機能するかという根本的な課題を浮き彫りにしている。
参照元:
- new MoE from ai2, EMO — Reddit LocalLLaMA
- Qwen 35B-A3B is very usable with 12GB of VRAM — Reddit LocalLLaMA
- Got MTP + TurboQuant running — Qwen3.6-27B -- 80+ t/s at 262K context on a single RTX 4090 — Reddit LocalLLaMA
- MTP is all about acceptance rate — Reddit LocalLLaMA
- Pentagon will 'never again' rely on a single AI provider, official says — Nextgov
- Pagaya investor seeks refund, claiming AI real estate fund wiped 80% of capital — Calcalist