HiDream-O1-Image がオープンソース画像生成モデルとして注目を集める

中国のHiDream-aiが、統合画像生成基盤モデル「HiDream-O1-Image」の8Bパラメータ版をオープンソースで公開した。このモデルは、VAEや外部テキストエンコーダを使わず、生のピクセルを直接処理する「Pixel-level Unified Transformer(UiT)」アーキテクチャを採用している点が特徴だ。

テキストから画像生成、画像編集、被写体駆動のパーソナライズまで、1つのアーキテクチャで複数のタスクをこなす。最大2,048×2,048の高解像度合成に対応し、「Reasoning-Driven Prompt Agent」という内蔵エージェントが暗黙の知識やレイアウトを生成前に解決する仕組みも備えている。

Artificial AnalysisのText to Image Arenaでは、オープンウェイトモデルとして新たに#8位にランクイン。8Bという比較的小さなパラメータ数で、より大きなDiTモデルや主要なクローズドソースモデルに匹敵する性能を示している。

2026年5月8日に蒸留版と非蒸留版の双方が公開された。

Broadcom、OpenAI向けカスタムチップ製造に条件を提示

OpenAIとBroadcomによるカスタムAIチッププロジェクトが資金面で壁に直面している。The Decoderの報道によると、Broadcomは生産費の負担に対し、Microsoftがチップの40%を買い取ることを条件としているが、Microsoftはまだ同意していないという。

OpenAIのマネージャーSachin Katti氏は内部メッセージで、この依存関係を「financially unattractive(財務的に魅力的でない)」と評している。第1フェーズだけでも約180億ドルのコストがかかるとみられている。

OpenAIの自前チップ開発は、NVIDIAへの依存を減らす狙いがあるが、製造パートナーとの条件交渉が難航している形だ。最終的にMicrosoftが買い取りに同意するかどうかが、プロジェクトの行方を左右する。

Google「Preferred Sources」が検索品質をむしろ低下させる懸念

Googleが検索結果に導入した「Preferred Sources」機能について、The Decoderが批判的な分析を報じている。Googleはこの機能を「質の高いジャーナリズムを検索に取り込む」ためのものと説明しているが、実際にはほとんどのユーザーが手動設定を使わないため、Google側に「ユーザーの選択」という免罪符を与えるだけだと指摘されている。

結果として、オープンウェブのコンテンツをGoogle自身のAIインターフェースに置き換える流れが加速する懸念がある。

ChromeのAI機能が最大4GBのストレージを占有

The Vergeの報道(Hacker Newsで話題化)によると、Google Chromeに組み込まれたGemini NanoベースのAI機能が、最大4GBのストレージを占有している可能性が指摘されている。AIモデルをローカルで動かすための容量だが、ユーザーの明示的な同意なしにこれだけの容量が使われることへの懸念が上がっている。

ブラウザにAI機能を統合する流れは加速しているが、ストレージ消費という見えないコストについての議論も始まっている。

Google Workspace「AI Expanded Access」で企業のAI管理に新課題

Google Workspaceに「AI Expanded Access」というアドオンが登場し、エンドユーザーがAI機能を個別に直接購入できるようになった。ユーザー利便性は上がる一方で、企業の情報システム部門にとっては費用管理、利用状況の把握、セキュリティ面での新たな課題が発生する。

Qiitaの記事では、組織におけるAIツールの統制アプローチが議論されている。

その他のトピック

  • MiMo-V2.5の1Mコンテキストテスト: RedditのLocalLLaMAコミュニティで、XiaomiのMiMo-V2.5-IQ3_Sを1,048,576コンテキストでテストする試みが報告されている
  • Dikaletus: Mistral AIのAPIを使った会議録音・文字起こしツールがオープンソースで公開。R言語で書かれた「vibe coded」アプリとして興味深い
  • Terax: RustとTauriで作られたわずか7MBのAIターミナルアプリがHacker Newsで話題に