3行でわかる今回の話
- 中国の智譜AIが、モデルの回答速度を爆速にしたGLM-5.1高速版を出したで。
- 秒間400トークン(漢字200文字)という、人間が絶対無理な速度で文字を書き出す。
- 中身はエンジンの最適化とネットワーク構成の変更で、コスト削減と効率アップを同時に達成したらしいわ。
え、速すぎて草。何がすごいの?
中国のAI開発の智譜AI(Zhipu AI)っちゅうところが、新しく出したAPIがやばいんよな。普通、AIの速度を上げたいときは「モデルを小さくして頭を悪くする」っちゅうのが定石なんやけど、このGLM-5.1高速版は「頭の良さはそのままに、速度だけを爆速にする」っちゅう離れ業をやってのけたらしいで。
具体的にどれくらい速いかいうと、秒間400トークン。これ、漢字に直すと秒間200文字くらいや。プロの作家さんが数日かけて書く量を、1分もかからずに出し切るレベル。OpenAIのGPT-4oとかが秒間100〜150トークンくらいやから、その3〜5倍の速度やな。ほんまかいな、と思ってたけど、これが資本市場に刺さって株価が30%近く爆上がりしたっちゅうことや。
中学生でもわかる「爆速の秘密」
なんでこんなに速くなったのか、専門用語を抜きにして説明するとこんな感じや。
- TileRT(エンジンの最適化): 普通のAIは「計算して、待って、また計算して」を繰り返してるんやけど、TileRTは「ずっと計算しっぱくりのコンベアベルト」みたいにしたんよな。待ち時間がゼロになったから、効率が爆上がりしたわけや。
- Warp専門化: GPUの中にある小さな計算ユニットを「運ぶ係」「計算する係」「通信する係」に分担させた。1人で全部やるより、分業制にしたほうが断然速いのは当たり前やんか?
- ZCube(ネットワークの革命): サーバー同士の通信経路をシンプルにした。今までみたいに「迷路みたいな道を通って目的地に行く」んじゃなくて、「最短ルートが1本だけある」構造にしたから、通信の渋滞(ネットワーク混雑)が物理的に起きない仕組みにしたんや。
これ、今後のAI業界はどうなる?
速度が上がると、AIエージェント(AIが勝手にコードを書いて、検索して、タスクを完結させる仕組み)の効率が劇的に的に上がる。1回1秒の待ち時間を100回繰り返せば100秒のロスやけど、ここを削ればAIの体感速度はさらに爆速になる。あとは、NVIDIAのネットワーク機器の言い値で買わされてた部分にメスが入ったから、インフラコストも下がる可能性があるで。
ワイの個人的な感想:
秒間400文字とか、もう人間が読む速度を超えてるから、もはやAIがAIに読ませる時代が来たんちゃうか? そもそも、速度だけを追求して「1秒に200文字出すけど、中身がゴミ」やったら意味ないけど、性能を維持したままこの速度は正直エグい。中国のAI勢の追い上げ、ほんまにやばない?
▶ 元記事はこちら
🗓配信日時:2026/05/23 01:09


