
要するに、AI界の「点数至上主義」が崩壊したっちゅう話や
今回は中国発のAIスタートアップ「DeepSeek(ディープシーク)」の話を中心に、大規模言語モデル(LLM)が直面してる大きな曲がり角について紹介するで。ワイらが学生時代に味わった「テストの点数だけが正義」みたいな世界から、いよいよ「実務で使えるかどうか」が問われるフェーズに突入したんや。
- ベンチマーク(性能試験)の点数で競う時代はもう古い
- 今は「実際の仕事を最後までやり遂げられるか」が勝負
- DeepSeekのトップ・梁文鋒(リャン・ウェンフォン)氏の独特な社風と、これからの課題が面白い
「週末返上で勉強してました」が通用せんくなる世界
梁文鋒氏って人がおってな。めっちゃ面白いんよ。資金調達に必死になるでもなく、社内イベントもやらへんし、SNSにも出てこない。社員は200人弱で、午後6時か7時には退社するらしいで。中国のIT業界でこんな会社、ほぼ奇跡やろ。
でもな、そのDeepSeekが今、ちょっとした岐路に立たされてるんよ。コア研究員が次々と辞めていったり、ストックオプションの価値が不透明だったり、AIエージェント(自律的に動くAI)のプロダクトマネージャーをようやく募集し始めたレベル。プログラミング支援ツールもまだ影も形もない。
つまり、「効率とオープンソースで他を圧倒してきた会社が、ただモデルを賢くするだけじゃダメや」と気づいたっちゅうことや。これはDeepSeekだけの話やないで。業界全体の流れなんよ。
試験の点数自慢してた天才が、現場でポンコツ扱いされる現実
ここ2年くらい、大規模言語モデルの開発って、まさに中国の高考(ガオカオ、大学入試)みたいなもんやった。ベンチマークのスコアが偏差値で、高いやつが「状元(首席)」や。けど今は、OpenAIはエージェントを、AnthropicはClaude Codeを、Googleはマルチモーダルを、それぞれガチで作り込んどる。みんなが答えを出そうとしてるのは「モデルって、結局どうやって人間の仕事を最後までやってくれるんや?」っちゅう問いや。
例えるなら、超優秀な受験生が就活の面接に行って、成績表見せて「すごいでしょ」って言ったら、面接官から「で、君はプロジェクトを一人で完遂できるの? チームで協力できるの? 未経験のトラブルにどう対処するの?」って聞かれるみたいなもんや。
これが「大模型告别做题家时代」の中身やな。つまり「ガリ勉AIよ、さようなら」ってことや。
「Claude Code」のやらかしが教えてくれた、本当の強さの正体
今年3月末、AnthropicのClaude Codeのソースコードが流出するハプニングがあったんや。で、みんながコードを覗いてみたら、Claudeって想像以上にスゴい仕組みやったことがバレた。でも注目すべきは、モデル自体の賢さやないねん。「AIが実務で使えるようにする周辺システム」こそが肝やってこと。
具体的に言うと:
- コスト意識:API呼び出すたびに金がかかるから、プロンプトを「変わらん部分」と「変わる部分」に分けてキャッシュ。ベンチマークには出てこんけど、現場ではめっちゃ大事や。
- 危険察知能力:四重の安全チェックで、自分で判断できることは勝手にやるし、ヤバそうなときだけ人間に聞く。まるで「空気が読める新人」やろ。
- 記憶力:長い会話を圧縮して大事なポイントだけをメモ。翌日サッと読み返して仕事続行できる。これも試験にはないスキルや。
要するに、いくらIQが高くても、工事現場にほっぽり出されたら何もできんのと同じで、「賢さ」を実際の仕事に結びつける仕組みがなければ意味がないんよ。
専用の「馬具」をつけなアカン時代になったんや
最近「Harness Engineering(ハーネス・エンジニアリング)」って言葉が流行ってる。Harnessは馬具のことや。馬を縛るんやなくて、力を正しい方向に導くための道具やな。AIの世界では、モデルが馬で、Harnessは手綱や鞍、ハンドルみたいなもんってわけや。
この考え方のキッカケは、2026年2月にTerraform開発者のMitchell Hashimotoが言った「Agentがミスったら、二度と同じミスをしない仕組みを作れ」って言葉やな。一見フツーのことに聞こえるけど、「競争力はモデルそのものより、それを御すシステムにある」って意味や。
さらに1月にはGoogle DeepMindのPhilipp Schmid氏が「The Harness is the Dataset(馬具こそがデータセットだ)」と言い放った。つまり、いいHarnessを作れば、モデルが仕事でどう失敗し、どう修正したかの記録がたまっていく。それが次のモデルを鍛える燃料になる、データのフライホイール(弾み車)が回り始めるんや。
AIの進化、たった数年で「質問力」から「システム力」へ
AI業界の変化をざっくり3段階でまとめると:
- 2022~2024年:「どう質問するか?」(プロンプトエンジニアリング)
- 2025年:「どんな情報を渡すか?」(コンテクストエンジニアリング)
- 2026年:「どういうシステムを組むか?」(ハーネスエンジニアリング)
つまり、競争の単位が「一文」から「一連の仕組み」にデカくなってるんよ。MiniMaxの創業者・閻俊傑(イェン・ジュンジエ)も「モデルの性能はもう横並び。中国企業は米国の50分の1のリソースで95%の性能を出せる。残り5%の差は勝負を決めへん」って言うとる。これからは、いかにそのモデルを現場で使える形にするかが勝負の分かれ目や。
DeepSeekよ、これが現実やで。さあ頑張りや
近々リリース予定のDeepSeek V4は、たぶんオープンソースでは最強やろうけど、圧倒的ってほどでもなさそうや。なぜなら、ユーザーごとに「強さ」の基準がバラバラになってきたからや。同じ時期に出る予定の騰訊(テンセント)絞り込み(混元)モデルも、点数勝負をやめると宣言してる。まさに「脱ガリ勉宣言」や。
DeepSeekには同情するけど、もはや象牙の塔で研究してるだけでは通用せん世界や。ツールを使いこなせるか、チームで協力できるか、想定外のトラブルに対処できるか。そんな「現場力」が問われるんや。ガリ勉AIがこれから社会に出ていく姿を、ワイはちょっと応援したくなったで。ま、実際に使うかどうかは値段次第やけどな。
▶ 元記事はこちら
🗓配信日時:2026/06/07 00:45


