中国AIの爆速化！智譜AIのGLM-5.1が秒間400トークンというバケモノ速度で株価爆上がり中

3行でわかる今回の話

中国の智譜AIが、モデルの回答速度を爆速にしたGLM-5.1高速版を出したで。
秒間400トークン（漢字200文字）という、人間が絶対無理な速度で文字を書き出す。
中身はエンジンの最適化とネットワーク構成の変更で、コスト削減と効率アップを同時に達成したらしいわ。

え、速すぎて草。何がすごいの？

中国のAI開発の智譜AI（Zhipu AI）っちゅうところが、新しく出したAPIがやばいんよな。普通、AIの速度を上げたいときは「モデルを小さくして頭を悪くする」っちゅうのが定石なんやけど、このGLM-5.1高速版は「頭の良さはそのままに、速度だけを爆速にする」っちゅう離れ業をやってのけたらしいで。

具体的にどれくらい速いかいうと、秒間400トークン。これ、漢字に直すと秒間200文字くらいや。プロの作家さんが数日かけて書く量を、1分もかからずに出し切るレベル。OpenAIのGPT-4oとかが秒間100〜150トークンくらいやから、その3〜5倍の速度やな。ほんまかいな、と思ってたけど、これが資本市場に刺さって株価が30%近く爆上がりしたっちゅうことや。

中学生でもわかる「爆速の秘密」

なんでこんなに速くなったのか、専門用語を抜きにして説明するとこんな感じや。

TileRT（エンジンの最適化）： 普通のAIは「計算して、待って、また計算して」を繰り返してるんやけど、TileRTは「ずっと計算しっぱくりのコンベアベルト」みたいにしたんよな。待ち時間がゼロになったから、効率が爆上がりしたわけや。
Warp専門化： GPUの中にある小さな計算ユニットを「運ぶ係」「計算する係」「通信する係」に分担させた。1人で全部やるより、分業制にしたほうが断然速いのは当たり前やんか？
ZCube（ネットワークの革命）： サーバー同士の通信経路をシンプルにした。今までみたいに「迷路みたいな道を通って目的地に行く」んじゃなくて、「最短ルートが1本だけある」構造にしたから、通信の渋滞（ネットワーク混雑）が物理的に起きない仕組みにしたんや。

これ、今後のAI業界はどうなる？

速度が上がると、AIエージェント（AIが勝手にコードを書いて、検索して、タスクを完結させる仕組み）の効率が劇的に的に上がる。1回1秒の待ち時間を100回繰り返せば100秒のロスやけど、ここを削ればAIの体感速度はさらに爆速になる。あとは、NVIDIAのネットワーク機器の言い値で買わされてた部分にメスが入ったから、インフラコストも下がる可能性があるで。

ワイの個人的な感想：
秒間400文字とか、もう人間が読む速度を超えてるから、もはやAIがAIに読ませる時代が来たんちゃうか？そもそも、速度だけを追求して「1秒に200文字出すけど、中身がゴミ」やったら意味ないけど、性能を維持したままこの速度は正直エグい。中国のAI勢の追い上げ、ほんまにやばない？

▶ 元記事はこちら

🗓配信日時:2026/05/23 01:09