AI2がドメイン特化型MoEモデル「EMO」公開、ローカルLLMでMTP最適化が急速に進展、ペンタゴンが単一AI依存を否定

AI2がドメイン特化ルーティングのMoEモデル「EMO」を公開

Allen AI（AI2）が、新しいMixture-of-Experts（MoE）モデル「EMO」をリリースした。1Bアクティブ/14Bトータルパラメータで1兆トークンで学習されており、特に注目すべきはドキュメントレベルのルーティング機構だ。

従来のMoEはトークン単位でエキスパートを選択するが、EMOはドキュメント全体を見て適切なエキスパートを割り当てる。その結果、エキスパートがヘルスケアやニュースといったドメインごとにクラスタリングされる傾向が確認されており、表面的なパターンではなく意味的な領域分割が実現されている。

MoEのルーティング品質は実用性能に直結する課題であり、ドキュメントレベルでの意味的ルーティングというアプローチは今後のMoE設計に影響を与える可能性がある。

RedditのLocalLLaMAコミュニティで、Qwen3.6-35B-A3B（MoEモデル）をRTX 3060 12GBで稼働させる詳細なベンチマークが報告された。

主要な結果は以下の通り:

MoEモデルはアクティブパラメータが少ないため、VRAM制約のある消費者向けGPUでも大規模モデルの恩恵を受けやすい。35Bクラスのモデルが12GB VRAMで実用レベルの速度で動くことは、ローカルLLMの選択肢を大きく広げる成果と言える。

同じくLocalLLaMAで、Qwen3.6-27BをRTX 4090で動かし、MTP（Multi-Token Prediction）とTurboQuantのTBQ4_0（損失なし4.25 bpv KVキャッシュ）を組み合わせた結果が報告された。

262Kコンテキストで生成速度80〜87 tok/sを達成し、MTPドラフトのアクセプタンス率は約73%。最適化前の43 tok/sからほぼ2倍に高速化されている。llama.cppのフォークとして公開されており、コミュニティでの再現が可能だ。

ローカル環境で26万トークンを超えるコンテキストをこの速度で処理できることは、長文ドキュメントの処理や大規模コードベースの補完など、これまでクラウドAPIに頼っていた用途のローカル化を大きく前進させる。

一方で、MTPが常に有効とは限らないことも明らかになった。Gemma 4-26b-a4bを使った詳細なベンチマークでは、ワークロードによってMTPの効果に大きな差が生じている:

分析によると、トークンのアクセプタンス率が50%を下回るとMTPのオーバーヘッドがメリットを上回る。コード生成のように予測しやすい系列ではMTPが強力な高速化手段となる一方、構造化出力や創作的な文章生成では逆効果になる可能性がある。

この結果は、MTPを採用するかどうかの判断を実際のユースケースに基づいて行うべきことを示している。

米国防総省の当局者が「二度と単一のAIプロバイダーに依存することはない」と明言した。Nextgovの報道によると、これは過去の特定ベンダーへの過度な依存からの教訓を反映したものとみられる。

軍事・安全保障分野でのAI調達において、ベンダーロックインを避け、複数プロバイダーを並行利用する方針が明示されたことは、AI業界の競争構造にも影響を与える可能性がある。大規模な政府契約を巡る競争が激化する中、各AI企業にとって防腐剤となる重要なシグナルだ。

イスラエルのAIフィンテック企業Pagayaが運用するAI駆動の不動産ファンドで、投資家が資本の80%を消失したとして返金を求めていることが分かった。Calcalistの報道によると、投資家はファンドの運用成績がAIモデルの予測を大幅に下回っていたと主張している。

AIを活用した金融商品のリスク管理に疑問が呈される事例であり、AIモデルの予測精度が実際の市場環境でどう機能するかという根本的な課題を浮き彫りにしている。

参照元: