AdamWを超える新オプティマイザSTAM登場、メローニ伊首相が自らAIディープフェイク公開、メカニスティック解釈可能性研究への批判的議論

AdamWの固定モメンタムに代わる新オプティマイザ「STAM」が登場

TokenAIが「Stable Training with Adaptive Momentum（STAM）」と名付けた新しい最適化アルゴリズムを発表した。これまでAIモデルの訓練ではAdam、AdamW、LAMBなどが長く標準的に使われてきたが、これらには固定されたbeta1（モメンタム係数）による限界があった。

STAMの中核的なアイデアは、現在の勾配と過去のモメンタムの差分を測定し、差が大きい場合はbeta1を動的に下げることでノイズの多い訓練フェーズでも安定性を保つ仕組みだ。勾配が安定していればモメンタムを高く保ち、ノイズが増えれば自動的に抑えるという適応的な振る舞いを実現する。

軽量版のSTAMLiteはAdamWの置き換えとして設計されており、オプティマイザの状態メモリが約半分で済む。AdamWがパラメータサイズの約2倍のメモリを必要とするのに対し、STAMLiteは約1倍で済むため、実質的にGPU使用量を50%節約できるという。

ベンチマークでは、ハイパーパラメータスイープでAccuracy 0.61、Loss 0.91を達成。長期間の非定常MLPタスクではNAdamと並んで首位のAccuracy 0.97、Loss 0.09を記録している。

すでにSTAMを使ってゼロからLLMを訓練する試みも始まっており、実用性の検証が進むことが期待される。

メローニ伊首相が自らAI生成ディープフェイクを公開

イタリアのメローニ首相が、AIで合成されたとみられる自身の下着姿の写真を自らのSNSに投稿し、虚偽画像が捏造される危険性について警告した。

政治家が自ら被害に遭ったディープフェイク画像を公開して問題提起を行うという行動は、AIによる画像生成技術が社会に与える影響の深刻さを象徴している。AI生成画像の品質向上に伴い、政治的な標的だけでなく一般市民へのフェイク画像拡散リスクも高まっており、対策技術の重要性が改めて浮き彫りになった。

メカニスティック解釈可能性研究の方向性に批判的な議論

Redditの機械学習コミュニティで、メカニスティック解釈可能性（mechanistic interpretability）研究の現状について活発な議論が起きている。

2024年頃にスパースオートエンコーダ（SAE）やアトリビューショングラフなどの手法が注目を集めた同分野だが、最近のAnthropicの「Natural Language Autoencoders（NLA）」に対して懐疑的な声が上がっている。NLAはあるLLMで活性化を自然言語記述に圧縮し、別のLLMで復元する手法だが、ブラックボックス的なアプローチであること、SAEベースラインとの基本的な比較指標（FVE、再構成誤差）が欠けていることなどが指摘されている。

また、NLAの「活性化言語化」モジュールが活性化の説明を作り出してしまう「作話（confabulation）」問題も指摘されており、テスト時に説明が作話かどうかを判断できない場合、解釈可能性の根本的な目的を果たせないという批判がある。

議論の根底には、メカニスティック解釈可能性が本来の「モデル内部の理解」から、スケーラブルなアライメントや監視への道具へとシフトしつつあることへの懸念がある。

AIエージェントの監視ログツール「AgentBlackBox」が公開

Pythonパッケージ「AgentBlackBox」が公開された。AIエージェントの動作を記録する「フライトレコーダー」で、デコレータを1行追加するだけでLLM呼び出し、ツール実行、エラー、コストをすべて記録できる。

pip install agentblackboxでインストール可能。エージェントのデバッグや運用監視において、何が起きたかを事後的に追跡するニーズは高まっており、シンプルな導入方法は実用的と言える。

参考記事:

A new generation of AI models and one of the most powerful research papers out there. — Reddit LocalLLaMA
メローニ伊首相がAI生成とみられる自身の下着姿投稿　捏造画像通し「危険なツール」と警告 — ITmedia
Disillusionment with mechanistic interpretability research — Reddit MachineLearning
AIエージェントの「何が起きたか」を完全記録するPythonライブラリを作った — Qiita