Intel Optane Persistent Memoryで1兆パラメータモデルがローカル推論可能に

RedditのLocalLLaMAコミュニティで、Intel Optane Persistent Memory(PMem)を活用した自作PCでKimi K2.5(1兆パラメータ)を約4トークン/秒でローカル推論できたというビルドレポートが注目を集めている。

構成の鍵は、Intelが生産終了したOptane DCPMMを6本(計768GB)搭載し、DRAM 192GBをキャッシュとして動作させる「Memory Mode」を使用している点。GPUはRTX 3060 12GBのみという控えめな構成ながら、llama.cppのハイブリッドGPU/CPU推論とoverrode-tensorフラグを活用することで、Kimi K2.5のMoEアーキテクチャのアテンション重みをGPUに載せ、スパース専門家の重みをPMem/DRAMから処理する手法をとっている。

MoEアーキテクチャの性質上、全パラメータが常に必要になるわけではないことが、このような限定的なハードウェアでの推論を可能にしている。作者は「IntelがOptane PMemを生産終了したのは残念だ。現在のSSDオフロードやメモリ階層アプローチの方向性と相性が良かったはず」と述べている。

5000行のPythonでLLM向けGPUコンパイラをスクラッチ開発

RedditのMachineLearningコミュニティで、「5000行のPythonでスクラッチから構築したLLMコンパイラスタック」が話題になっている。

TVMが50万行以上のC++で構成され、PyTorchがDynamo、Inductor、Tritonを積み上げている現状に対して、著者はTinyLlamaやQwen2.5-7Bといった小規模モデルを6段階のIRを通じてCUDAカーネルに変換するミニマルなコンパイラを構築した。

RTX 5090でのベンチマークでは、FP32カーネルがPyTorch eager比で平均1.11倍、torch.compile比で1.20倍の性能を達成。小規模なリダクションやSDPA、KVプロジェクションでは最大4.7倍の高速化を記録しているという。

RMSNormレイヤーの最適化プロセスを例に、入力のsmemへのステージング、バンクコンフリクト解消、占有率高効率化など、CUDAエンジニアが手動で行う最適化を段階的に自動化する設計は、MLコンパイラの学習教材としても優れている。

288モデルでLLMのJSON出力信頼性を大規模テスト

LLMにJSON出力を要求した際に何が壊れるのか、288モデルの出力を体系的にテストした調査結果がHacker Newsで話題になっている。

API経由でJSONを取得する際、モデルによってはスキーマ違反、エスケープ漏れ、ネスト構造の崩れなど様々な問題が発生することが知られているが、今回のテストはその実態を包括的に浮き彫りにしている。

構造化出力(Structured Output)機能を備えるモデルでも、エッジケースでの挙動に差異があることが確認されており、本番環境でLLMのJSON出力に依存するシステムを構築する際の参考になる結果となっている。

Simon WillisonがLLMをshebang行で実行する手法を紹介

Simon Willisonが自身のTIL(Today I Learned)ブログで、スクリプトのshebang行(#!)にLLMを指定する手法を公開した。

llm CLIツールをshebang行に記述することで、自然言語で書かれたスクリプトファイルを直接実行できる仕組み。プロンプトと実行可能コードの境界を曖昧にするこのアプローチは、ワンライナー的なタスク自動化に新たな可能性を提示している。

WillisonのTILエントリは常に実践的で即座に試せる内容が多く、LLMのCLIツール活用に関心のある開発者にとって有益な知見となっている。

AI vs Microservices — アーキテクチャの転換点を考察

Michael Nygard氏が「AI versus Microservices」と題する記事で、AIエージェントの台頭がマイクロサービスアーキテクチャに与える影響について考察している。

マイクロサービスが「疎結合なコンポーネント間の協調」を前提としていたのに対し、AIエージェントは「自然言語による指示で自律的にタスクを遂行する」モデルへと移行しつつある。この変化が既存のサービス境界の設計方針にどう影響するか、そしてインフラストラクチャの抽象度がどこまで上がるのかについて鋭い分析を展開している。

Nygard氏は『Release It!』の著者としてソフトウェアアーキテクチャの分野で広く知られており、彼の視点は設計の前提そのものを見直す上で重要な示唆を含んでいる。

500kコンテキストを48GB VRAMで21トークン/秒で稼働

同じくLocalLLaMAコミュニティで、48GB VRAM(デュアルTITAN RTX)で50万トークンのコンテキストを21トークン/秒で処理できるという報告が投稿された。

使用したのはHuggingFaceに公開されていたNemotron-3-Super-64B-A12B-Math-REAP-GGUFという量子化モデル。元々は数学特化のチューンだが、エージェント的コーディングタスクでも予想以上に健闘すると報告されている。

50万トークンのコンテキスト長をコンシューマーGPUで実用的な速度で処理できることは、ローカルLLMの可能性を大きく広げる成果と言える。

Agentic AIがサイバー犯罪者に「国家級」の能力を与える懸念

Defense Oneの報道によると、Agentic AIがサイバー犯罪者に国家レベルの攻撃能力をもたらすという懸念が広がっている。

ペンタゴン首脳部はAgentic AIを積極的に活用している一方で、同じ技術が悪意のある行為者にも高度な自動化攻撃能力を付与するという「両刃の剣」の性質が指摘されている。

Agentic AIの自律的な計画立案・実行能力が、従来は国家レベルのリソースが必要だったサイバー攻撃を個人レベルの行為者にも可能にする懸念が具体的に議論され始めている。


Sources: