Microsoft研究:AIモデルは長時間タスクを処理できない
Microsoftの研究者が、現在のAIモデルとエージェントが長時間のタスクをうまく処理できないことを明らかにした。この研究結果は、AIエージェントが自律的に複雑な業務を遂行するという期待に対して、まだ基本的な課題が残されていることを示している。
長時間にわたる一連の処理では、コンテキストの維持や途中の判断の整合性を保つことが難しく、タスクが長引くほど精度が著しく低下するという。AIエージェントを実際の業務で活用しようとする企業にとって、この「持続性の壁」は早急に解決すべき課題と言える。
現時点では、タスクを短い単位に分割して実行するといった回避策が現実的なアプローチとみられる。
NPM大規模サプライチェーン攻撃が170パッケージに波及
TanStackやMistral AIなどを標的とした大規模なNPMサプライチェーン攻撃が発生した。170以上のパッケージが影響を受けたとされる。
サプライチェーン攻撃は、信頼されているパッケージの依存関係を乗っ取り、悪意あるコードを紛れ込ませる手口だ。今回の攻撃は規模が大きく、広く使われているライブラリが標的となった点で深刻だ。
AI関連プロダクトの開発現場では、パッケージの依存関係を厳密に管理し、変更履歴を監視する仕組みの重要性が改めて浮き彫りになった。
MELT:反復推論のメモリ消費を定数化する新しいTransformer
Hugging Face Daily Papersで発表された「Memory-Efficient Looped Transformer(MELT)」は、LLMの反復推論(ループ推論)におけるメモリ消費を劇的に削減する新アーキテクチャだ。
従来のOuroなどのループ型モデルでは、推論を反復するたびにKVキャッシュが増大し、メモリが線形に膨らむ問題があった。MELTはレイヤーごとに単一のKVキャッシュを共有し、学習可能なゲーティング機構で更新する仕組みを採用。これにより、推論深度を深めてもメモリ使用量は一定に保たれる。
事前学習済みのOuroパラメータから軽量なポストトレーニングで移行でき、同サイズの標準LLMを上回る性能を維持しつつ、Ouro比で大幅に小さいメモリフットプリントを実現するという。反復推論のスケーラビリティという難題に実用的な解を提示する研究として注目される。
TMAS:マルチエージェント協調でテスト時計算をスケール
同じくHugging Face Daily Papersで報告された「TMAS」は、テスト時の計算スケーリングをマルチエージェントの協調で実現する手法だ。
独立した推論の試行を、エージェント間で検証・要約・経験の再利用・重複戦略の回避を行う協調プロセスに変換する。さらにハイブリッド報酬の強化学習でアライメントを強化し、より安定した反復推論を実現するという。
単一モデルの推論能力を深めるだけでなく、複数エージェントの知見を統合する方向でテスト時計算をスケールするアプローチは、今後の推論モデルの発展において有力な方向性と言える。
第一三共がAI活用でがん治療「世界トップ5」を目指す
第一三共は新たな中期経営計画の中で、2035年までにがん治療領域で世界トップ5の企業になるという目標を掲げた。この野心的な目標を支える柱の一つがAIの活用だ。
同社は売上収益3兆円、コスト2000億円削減という目標を掲げており、創薬プロセスの効率化や臨床開発の最適化にAIを大規模に導入する構えだ。日本の製薬企業がここまで明確にAIを中核戦略に位置づける例は珍しく、業界全体のAI活用を加速させる象徴的な動きとみられる。
Gemma 4 E4Bが短い文字起こしで優秀と話題に
ローカルLLMコミュニティで、GoogleのGemma 4 E4Bが短い音声の文字起こしにおいて高速かつ高精度に動作するという報告が注目を集めている。
1時間程度の長尺音声ではWhisperなどの専用ツールに軍配が上がるが、短いスニペットの文字起こしであればGemmaが十分に実用的であり、外国語にも対応するという。ローカル環境で手軽に使える点も評価されており、LLMの用途が対話やコーディング以外にも広がりつつあることを示唆している。
参照:
- Microsoft researchers find AI models and agents can't handle long-running tasks - The Register
- Mass NPM Supply Chain Attack Hits TanStack, Mistral AI, and 170 Packages - SafeDep
- Memory-Efficient Looped Transformer - Hugging Face Daily Papers
- TMAS: Scaling Test-Time Compute via Multi-Agent Synergy - Hugging Face Daily Papers
- 第一三共「世界トップ5」へ AI活用で挑む「売上収益3兆円」「コスト2000億円削減」の青写真 - ITmedia
- Gemma 4 E4B is great for short transcriptions - Reddit LocalLLaMA