DeepSeek V4完全版論文がFP4量子化対応訓練の全容を公開
DeepSeekが今週、V4のプレビュー版(58ページ)を大幅に拡充した完全版論文を公開した。最大の注目点は**FP4量子化対応訓練(QAT)**の実装詳細だ。
FP4 QATの仕組み
MoE(Mixture of Experts)のエキスパート重みをFP4に直接量子化し、訓練の後期段階でQATを実行する。従来の「訓練後に量子化」するアプローチではなく、量子化を前提に訓練自体を最適化する手法で、QKパスのCSAインデクサーもFP4活性化を採用し、99.7%のリコールを維持したまま2倍の高速化を達成している。推論はFP4重みでそのまま実行される。
劇的な効率改善
論文に掲載された効率比較表は衝撃的だ。V3.2をベースラインとした場合、V4-ProはFLOPsが27%、KVキャッシュが10%に削減。V4-Flashに至ってはFLOPsが10%、KVキャッシュが7%にまで圧縮されている。
学習安定性の工夫
トリリオンパラメータ級のMoEで頻発する「ロススパイク問題」に対し、2つのメカニズムを文書化している。
- Anticipatory Routing — メインモデルとルーターの更新を意図的に非同期にし、フィードバックループによる異常の増幅を防止。20%のオーバーヘッドはあるが、ロススパイク時のみ発動する
- SwiGLU Clamping — SwiGLUの線形パス(-10〜10)とゲートパス(max 10)にハードリミットを設定し、極端な値のカスケードを抑制
Generative Reward Model
RLHF用の独立した報酬モデルではなく、生成モデル自身に評価をさせるアプローチを採用。スコア付きデータで訓練し、推論を伴う自己評価を実現。人間のラベリングを最小限に抑えつつ、統一された訓練パイプラインを構築している。
評価結果
中国語の文章生成でV4-ProがGemini 3.1 Proに対して62.7%の勝率(文章品質では77.5%)。コーディングエージェント評価では52%のユーザーがV4-Proをデフォルトのコーディングモデルとして採用可能と回答。Redditの議論でも「先週からV4-Proに乗り換えたが、日常業務で品質低下を感じていない」との声が複数寄せられている。
FP4 QATの品質劣化が最小限に抑えられている点は、特にマルチエージェント構成でのコスト削減に直結する可能性がある。
感情AIが職場に「静かに浸透」— The Atlantic調査報道
The AtlanticのEllen Cushing記者による調査報道で、人間の感情をAIで読み取ると主張するソフトウェアが職場に静かに、しかし確実に広がっている実態が浮き彫りになった。
The Decoderがこの記事を紹介し、「疑似科学的(pseudoscientific)」という表現を使っている点が注目される。感情認識AIの科学的根拠については長年議論が続いており、主要なAI研究者からも懐疑的な声が上がっている。しかし実際の導入は理論的な議論を先行する形で進んでいる。
この問題は、AIの社会的影響が「規制の前に実装される」という構造的な課題を象徴している。職場での監視的AI利用については、EU AI Actなどで制限が強化されつつあるが、導入済みのシステムの運用実態は外部から把握しづらい。
ビッグテックのAI投資が7,250億ドルに、フリーキャッシュフローは10年来の低水準へ
Financial Timesの報道によると、主要テック企業のAI関連投資額が7,250億ドルに達し、その結果としてフリーキャッシュフローが過去10年で最低水準に落ち込んでいる。
投資規模の桁外れさが際立つ数字だ。この額は単なるインフラ投資ではなく、GPU購入、データセンター建設、人材獲得など、AI競争の全局面にわたる。一方で、投資に対するリターンがいつ、どの規模で実現するかは依然として不透明で、市場の警戒感も高まっている。
この動きは先日のCloudflareの1,100人削減(AI効率化による)と表裏をなす構造でもある。巨額投資をする側と、効率化で人員を減らす側 — AIの経済的影響が産業全体に非対称に波及している。
「クライアントが求めていたのはカルーセル、今はAIチャットボット」— AI流行のサイクル
Hacker Newsで69ポイントを集めた注目のエッセイ。ウェブ開発の現場で、「数年前はすべてのクライアントがカルーセルを要求し、次はパララックス、そして今はAIチャットボット」という流行のサイクルを風刺的に描いている。
技術トレンドがクライアントの要求をどう駆動するか、そして実際のユーザー価値とのギャップについて、実体験に基づく率直な分析が共感を呼んでいる。22件のコメントでも「AIチャットボットが本当に必要なサイトはどれだけあるのか」という根本的な問いが議論されている。
AIブームの「当然感」に対する健全な懐疑的な視点として、実務者にとって参考になる議論だ。
LLM-as-judgeのコード評価における限界
Hacker Newsで話題になった記事で、LLMをコード評価の「審査員」として使う手法の問題点を指摘し、代替アプローチを提案している。
LLM-as-judgeはRLHFや自動評価で広く使われているが、コード評価においては「動くかどうか」という明確な正解があるため、LLMの判断よりテストスイートの実行結果を優先すべきという主張だ。特にエッジケースやパフォーマンスの評価では、LLMの判断に一貫性が欠けるケースが報告されている。
LLM評価の限界を理解した上で、適切な評価パイプラインを設計する重要性を再認識させる内容となっている。