受験勉強だけのAIはもう通用せん！大模型が脱・ガリ勉する時代、到来やで

要するに、AI界の「点数至上主義」が崩壊したっちゅう話や

今回は中国発のAIスタートアップ「DeepSeek（ディープシーク）」の話を中心に、大規模言語モデル（LLM）が直面してる大きな曲がり角について紹介するで。ワイらが学生時代に味わった「テストの点数だけが正義」みたいな世界から、いよいよ「実務で使えるかどうか」が問われるフェーズに突入したんや。

ベンチマーク（性能試験）の点数で競う時代はもう古い
今は「実際の仕事を最後までやり遂げられるか」が勝負
DeepSeekのトップ・梁文鋒（リャン・ウェンフォン）氏の独特な社風と、これからの課題が面白い

「週末返上で勉強してました」が通用せんくなる世界

梁文鋒氏って人がおってな。めっちゃ面白いんよ。資金調達に必死になるでもなく、社内イベントもやらへんし、SNSにも出てこない。社員は200人弱で、午後6時か7時には退社するらしいで。中国のIT業界でこんな会社、ほぼ奇跡やろ。

でもな、そのDeepSeekが今、ちょっとした岐路に立たされてるんよ。コア研究員が次々と辞めていったり、ストックオプションの価値が不透明だったり、AIエージェント（自律的に動くAI）のプロダクトマネージャーをようやく募集し始めたレベル。プログラミング支援ツールもまだ影も形もない。

つまり、「効率とオープンソースで他を圧倒してきた会社が、ただモデルを賢くするだけじゃダメや」と気づいたっちゅうことや。これはDeepSeekだけの話やないで。業界全体の流れなんよ。

試験の点数自慢してた天才が、現場でポンコツ扱いされる現実

ここ2年くらい、大規模言語モデルの開発って、まさに中国の高考（ガオカオ、大学入試）みたいなもんやった。ベンチマークのスコアが偏差値で、高いやつが「状元（首席）」や。けど今は、OpenAIはエージェントを、AnthropicはClaude Codeを、Googleはマルチモーダルを、それぞれガチで作り込んどる。みんなが答えを出そうとしてるのは「モデルって、結局どうやって人間の仕事を最後までやってくれるんや？」っちゅう問いや。

例えるなら、超優秀な受験生が就活の面接に行って、成績表見せて「すごいでしょ」って言ったら、面接官から「で、君はプロジェクトを一人で完遂できるの？　チームで協力できるの？　未経験のトラブルにどう対処するの？」って聞かれるみたいなもんや。

これが「大模型告别做题家时代」の中身やな。つまり「ガリ勉AIよ、さようなら」ってことや。

「Claude Code」のやらかしが教えてくれた、本当の強さの正体

今年3月末、AnthropicのClaude Codeのソースコードが流出するハプニングがあったんや。で、みんながコードを覗いてみたら、Claudeって想像以上にスゴい仕組みやったことがバレた。でも注目すべきは、モデル自体の賢さやないねん。「AIが実務で使えるようにする周辺システム」こそが肝やってこと。

具体的に言うと：

コスト意識：API呼び出すたびに金がかかるから、プロンプトを「変わらん部分」と「変わる部分」に分けてキャッシュ。ベンチマークには出てこんけど、現場ではめっちゃ大事や。
危険察知能力：四重の安全チェックで、自分で判断できることは勝手にやるし、ヤバそうなときだけ人間に聞く。まるで「空気が読める新人」やろ。
記憶力：長い会話を圧縮して大事なポイントだけをメモ。翌日サッと読み返して仕事続行できる。これも試験にはないスキルや。

要するに、いくらIQが高くても、工事現場にほっぽり出されたら何もできんのと同じで、「賢さ」を実際の仕事に結びつける仕組みがなければ意味がないんよ。

専用の「馬具」をつけなアカン時代になったんや

最近「Harness Engineering（ハーネス・エンジニアリング）」って言葉が流行ってる。Harnessは馬具のことや。馬を縛るんやなくて、力を正しい方向に導くための道具やな。AIの世界では、モデルが馬で、Harnessは手綱や鞍、ハンドルみたいなもんってわけや。

この考え方のキッカケは、2026年2月にTerraform開発者のMitchell Hashimotoが言った「Agentがミスったら、二度と同じミスをしない仕組みを作れ」って言葉やな。一見フツーのことに聞こえるけど、「競争力はモデルそのものより、それを御すシステムにある」って意味や。

さらに1月にはGoogle DeepMindのPhilipp Schmid氏が「The Harness is the Dataset（馬具こそがデータセットだ）」と言い放った。つまり、いいHarnessを作れば、モデルが仕事でどう失敗し、どう修正したかの記録がたまっていく。それが次のモデルを鍛える燃料になる、データのフライホイール（弾み車）が回り始めるんや。

AIの進化、たった数年で「質問力」から「システム力」へ

AI業界の変化をざっくり3段階でまとめると：

2022～2024年：「どう質問するか？」（プロンプトエンジニアリング）
2025年：「どんな情報を渡すか？」（コンテクストエンジニアリング）
2026年：「どういうシステムを組むか？」（ハーネスエンジニアリング）

つまり、競争の単位が「一文」から「一連の仕組み」にデカくなってるんよ。MiniMaxの創業者・閻俊傑（イェン・ジュンジエ）も「モデルの性能はもう横並び。中国企業は米国の50分の1のリソースで95%の性能を出せる。残り5%の差は勝負を決めへん」って言うとる。これからは、いかにそのモデルを現場で使える形にするかが勝負の分かれ目や。

DeepSeekよ、これが現実やで。さあ頑張りや

近々リリース予定のDeepSeek V4は、たぶんオープンソースでは最強やろうけど、圧倒的ってほどでもなさそうや。なぜなら、ユーザーごとに「強さ」の基準がバラバラになってきたからや。同じ時期に出る予定の騰訊（テンセント）絞り込み（混元）モデルも、点数勝負をやめると宣言してる。まさに「脱ガリ勉宣言」や。

DeepSeekには同情するけど、もはや象牙の塔で研究してるだけでは通用せん世界や。ツールを使いこなせるか、チームで協力できるか、想定外のトラブルに対処できるか。そんな「現場力」が問われるんや。ガリ勉AIがこれから社会に出ていく姿を、ワイはちょっと応援したくなったで。ま、実際に使うかどうかは値段次第やけどな。

▶ 元記事はこちら

🗓配信日時:2026/06/07 00:45