12Bで26Bをぶっ飛ばす!? Googleの無エンコーダーAIがもはやカオスで草

え、エンコーダーいらんの？Googleがぶち込んだ超直接処理

今回は、Googleが発表した「Gemma 4 12B」っちゅうAIモデルの話や。なんと、画像も音声も、専用の変換器（エンコーダー）を通さずにガンガン処理するっていう、常識ぶっ壊しの代物や。12B（パラメータ数120億）で、26Bの上位モデルに迫る性能を叩き出しとる。もう何が何やら、ワイ的には「え、そんなんアリなん？」って感じや。

従来のマルチモーダルAIは、画像ならViT、音声ならWhisperといった、いわば翻訳係がおった
Gemma 4 12Bはそれを全廃、生の画像と音声を直接Transformer（コア部分）にぶち込む
その結果、メモリ使用量わずか9GB！ノートPCでも動くし、速度も爆速で草

つまり、「あれやこれやと形を変える前に、そのままドン！」っていう、豪快すぎる設計なんよ。DeepMindの研究者も「直接処理」がポイントや言うてるし、ほんまやばない？

従来の「バラバラ翻訳」はもう古い。今は「ひとつにまとめてポン」

これまでのAIは、画像は画像専用の、音声は音声専用の変換器でゴチャゴチャやって、最後に言語モデルに渡しとった。これが「情報のロス」や「余計なズレ」の原因やったんや。Gemma 4 12Bはその壁をぶち壊して、画像も音声もテキストも、全部同じToken（トークン）っていう通貨で取りまとめて、一気に処理するんや。ほんま、どんだけスッキリしてるんかいな！

具体的には、画像は軽量な35Mの埋め込みモジュールで一発変換、音声はさらにラジカルで、なんと生の波形をそのままベクトル化。スペクトル変換とか一切なしや。おかげで、ノートPCの16GBメモリでも余裕で動くっちゅう優れものになったわけ。

実際のベンチマークでも12Bが26Bを追い詰める。怖ぁ！

海外のテストでは、RTX 4090で8.9kトークンのコード生成タスクをやらせたら、12Bが9GBしかメモリ使わず、26Bの15GB構成にガチで迫る性能を出したんよ。パラメータ差140億もあるのに、もう笑うしかないわ。コードの質も遜色なし。これには業界も「え、パラメータ数勝負の時代終わった？」ってざわついとる。

これの何がすごいかっつーと、もはやモデル開発が「とにかくモリモリに大きくする」って発想から、「いかに賢くコンパクトにするか」にシフトした証拠やからや。ほんま、エコじゃないけどエコやわ。

「無エンコーダー統一アーキテクチャ」が切り開く未来

この手法が確立されたことで、今後の多モーダルAI開発がガラリと変わる可能性大や。例えば新しい感覚（触覚とか）を追加したくなっても、専用の変換器を作らずに、「このデータ形式をトークンに変換するだけ」で理論上は組み込める。まだ完全に実証されとるわけやないけど、夢が広がるやろ？

ただ、現時点では複数ステップの複雑なタスクでちょっと混乱することもあるらしい。でもまあ、初期のスマホのタッチパネルみたいなもんで、方針さえ決まればあとは改良や。ワイは、これが2年後には当たり前になってる未来を確信しとるで。

【ワイの結論】大は小を兼ねる、じゃなくて小が大を食う時代きたで

Gemma 4 26Bの数字だけ見ると派手やけど、ホンマに歴史に残るのは12Bの方やと思う。だって、「無理に大きくしなくても賢くできる」って証明しちゃったんやから。庶民のワイとしては、高性能AIが軽くなって、安いパソコンでもサクサク動くってんのが最高に嬉しいわ。誰かワイのボロPCでも動くモデル、はよ作ってくれや。

▶ 元記事はこちら

🗓配信日時:2026/06/06 03:22