ExLlamav3がDFlashで推論3倍速―ローカルLLM高速化の最前線

ExLlamav3がDFlash対応で大幅高速化、ローカルLLM推論の新基準へ

ローカルLLM推論エンジン「ExLlamav3」がここ数週間で急速な進化を遂げている。開発者のturboderpはGemma 4サポートに始まり、キャッシュ効率改善を経て、2週間前にDFlashサポートをリリースした。

DFlashは推論速度に劇的な改善をもたらしている。コーディングタスクでは従来比3.00倍、エージェント的なコード生成タスクで2.51倍、翻訳（reasoning）タスクでも2.06倍と、多くのユースケースで大幅な高速化を達成した。

さらに最新版ではモデル最適化も進み、Qwen3.5-35B-A3Bでは5090環境で21.0%、Trinity-Nanoでは72.4%もの推論速度向上を確認。ローカル環境でLLMを運用するユーザーにとって、実用的な選択肢が大きく広がっている。

Google FinanceのAI機能が欧州へ展開

Googleは、AIを活用した新機能を備えたGoogle Financeの欧州展開を開始した。現地の言語に完全対応し、投資情報の分析や可視化をAIが支援する機能が、ヨーロッパ各国のユーザーにも提供される。

AI搭載ファイナンスツールは、個人投資家が市場データをより直感的に理解できるよう設計されており、金融情報の民主化を進める動きの一環と言える。

DTap：AIエージェントのレッドチーミングを大規模に実行可能に

20ヶ月の開発期間と12万ドルのAPI費用を投じて、AIエージェントのセキュリティテストプラットフォーム「DecodingTrust-Agent Platform（DTap）」がオープンソース化された。

DTapは14の高リスク領域にわたる50以上の実世界環境をシミュレートし、公式のMCPやGUIから複製されたリアルなエージェントインターフェースを備えている。約7,000のレッドチーミングタスクと約4,000のポリシーに基づく悪意ある目標を含むベンチマーク「DTap-Bench」も同時公開。

主要なエージェントフレームワークとバックボーンモデルを評価した結果、現在のAIエージェントに体系的な脆弱性とゼロデイが存在することが明らかになった。エージェントの安全性確保に向けた重要な一歩だ。

AEM：マルチターンRLエージェントの探索・活用バランスを自動調整

強化学習（RL）によるLLMエージェントの性能改善は進んでいるが、長い対話軌跡の中で各ステップに適切な「功績」を割り当てる問題が残っていた。従来はプロセス報酬モデルなどの密な中間監督を導入していたが、これはチューニングの複雑さを増す要因になっていた。

今回提案された「AEM（Adaptive Entropy Modulation）」は、監督なしで信用割当を行う手法。エントロピーのダイナミクスをトークンレベルから応答レベルへと引き上げ、探索と活用のバランスを自動的に調整する。ALFWorld、WebShop、SWE-bench-Verifiedでの実験で、1.5Bから32Bまで幅広いモデル規模で一貫した改善を確認。最先端のソフトウェアエンジニアリングRLフレームワークに統合した場合、+1.4%の改善を達成した。

TextWeb：LLMエージェント向けにWebページをMarkdownでレンダリング

RedditのLocalLLaMAコミュニティで、LLMエージェント向けのMarkdown Webレンダラー「TextWeb」が公開された。

従来のスクリーンショットベースのアプローチは視覚モデルへの依存がありコストも高いが、TextWebはJavaScript実行を完全にサポートしつつ、WebページをLLMがネイティブに理解できるMarkdown形式で出力する。CLIとMCPサーバーの両方を提供しており、llama.cppのWeb UIとも連携可能。

Webページのナビゲーション、スクロール、テキスト入力、ボタンクリックなどが可能で、ローカルLLMエージェントの実用性を大きく引き上げるツールと言える。

SCOPE：複雑な画像生成指示を構造化仕様で追跡

テキストから画像への生成モデルは視覚品質で大きく進歩したが、ユーザーの複雑な意図を忠実に実現する課題は残っている。複数の制約条件が生成パイプラインの各段階で断片化される問題を「Conceptual Rift」と名付けた研究チームが、解決策として「SCOPE」を提案した。

SCOPEはユーザーの意図を「エンティティ・制約・未知」からなる構造化仕様として表現し、生成ライフサイクル全体で一貫して追跡する。新規ベンチマーク「Gen-Arena」で0.60 EGIP、WISE-Vで0.907を達成し、複雑な画像生成指示の忠実度を大幅に改善している。

出典: