by マーケティング部 おさい
今回は、ハーネスエンジニアリングという、AIの効果的な使い方として注目されている手法を紹介します。
(※下のマンガや、解説動画を見るだけでも、手早くハーネスエンジニアリングについて知ることができます。)
つい最近、ギャリー・タンさんが、「AIモデルとハーネスの関係」を、「エンジンと車の関係」にたとえて、わかりやすく説明してくれていました。そこで、そのたとえ話を紹介しながら、ハーネスエンジニアリングについて解説します。
動画でわかる、ハーネスエンジニアリング
※字幕を表示できる動画です(表示方法は、下記参照)。
※YouTube動画の映像の上に表示される「CC」のアイコンを押すと、字幕の表示/非表示を切り替えることができます。
※スマホのYouTubeアプリの場合は、映像の上をタップしたときに、右上に「CC」のアイコンが表示されます。
※パソコンの場合は、動画の再生中に、映像の上にマウスオーバーしたときに、右上に「CC」のアイコンが表示されます。
マンガでわかる、ハーネスエンジニアリング
※画像を押すと拡大表示できます。





ハーネスエンジニアリングってなに? AIを活用するための「エンジンと車」のたとえ話

生成AIを使っていて、こんなふうに感じたことはありませんか?
「AIがなんだか変な答えを返してきた」
「お願いしたことと、少しずれたことをしてきた」
「もっともらしいけれど、本当に信じていいのかわからない」
そんな時、「今のAIって、まだ性能が低いのかな…」とガッカリしてしまうかもしれません。ですが、じつはそれは、AIの性能が悪いのではなく、「AIの使い方に大事な工夫が足りていない」ことが原因かもしれないんです。
世界的に有名なスタートアップ支援組織、Y Combinator(Yコンビネーター)の社長 兼 CEOであるギャリー・タンさんは、AIとそれを使いこなす仕組みの関係を「エンジンと車」の関係に例えて分かりやすく説明してくれています。
ここからは、AIを「頼れる相棒」に変えるカギとなる、「ハーネスエンジニアリング」について一緒に探っていきましょう!
AIモデルは「完成した車」ではなく「エンジン」

AIはいろいろなことができるので、ついつい「AIはなんでもできるんだ」と思って、どんな作業でもAIに頼んでしまいがちです。
たとえば、AIに次のようなことを頼んだことはありませんか?
- 数値データを集めてグラフにしてほしい
- 画像をきれいに編集してほしい
- 必要な情報を探して、整理してまとめてほしい
- 数を正確に数えたり、形式を整えたりしてほしい
もちろん、AIはこうしたことをある程度こなせます。ですが、AIモデル単体で使うと、意外なところで失敗することがあります。
たとえば、
- もっともらしいけれど間違ったグラフを作ってしまう
- 画像の大事な部分を消してしまったり、崩れた形になってしまったりする
- 正しい情報源を使わず、それらしい説明を作ってしまう
- 単純な作業なのに動作が不安定になる
こうした問題が起きると、「AIは役に立たないな…」と言いたくなるかもしれません。ですが、ギャリー・タンさんのたとえ話を借りると、ここで見ているのは「完成した車」ではなく、「机の上に置かれたエンジン」なんです。

エンジンには大きな力があります。ですが、エンジンを机の上に置いただけでは、自動車のように走ることはできません。
自動車として動くためには、
- ハンドル
- ブレーキ
- タイヤ
- 進行方向を決める仕組み
- 全体を支える車体
などが必要です。
AIモデルも同じです。AIモデル単体には大きな力がありますが、それだけでは安定して目的どおりに働くとは限りません。本当に大切なのは、AIモデルそのものの賢さだけではなく、それをどんな仕組みの中で使うかなんです。
「裸のAIモデル」は、どうして動作が不安定なの?

ギャリー・タンさんは、AIモデルを単体でそのまま使う状態を、「裸のAIモデル」と表現しています。
これは、たとえるなら、エンジンだけを机の上で回して、車として使おうとしている状態です。当然、それではうまくいかないことが出てきます。
なぜなら、AIには最初からすべての機能がそろっているわけではないからです。
たとえばAIは、
- 毎回まったく同じように厳密な計算をすること
- インターネットから確実に最新データを取ってくること
- 出力内容の正しさを自動で点検すること
- 形式ミスを確実に防ぐこと
といった作業が、そのままでは苦手な場合があります。
AIは、本質的には「次に来る言葉や情報を予測する仕組み」です。
そのため、判断や要約、言い換え、整理、発想の補助は得意です。
一方で、厳密さが必要な処理や、確実な取得・検証が必要な仕事は、そのまま任せると不安定になりやすいんです。
AIの能力には「ギザギザの境界線」がある
ここで関係してくるのが、AIのギザギザの境界線(ジャグド・フロンティア、Jagged Frontier)という性質です。
これは、「得意なことと苦手なことに激しい差がある」という意味です。
「とても難しい問題には強いのに、意外なほど単純な作業で間違えることがあったりする」という、AIの性質のことです。
たとえば、
- 高度な説明や要約はうまい
- 複雑な文章構成もそれなりにできる
- でも、単純な数え上げや文字処理ではミスをする
- 最新データを持っていないのに、それらしい数字を出してしまう
といったことが起こります。

実際、AIに「最新の株価データを取ってきて、グラフにして」と頼むと、ネット接続や正確なデータ取得手段がないまま、もっともらしい数字を並べて、それっぽいグラフを作ってしまうことがあります。
また、画像編集でも、「いい感じに加工して」と頼んだ結果、必要な部分まで消してしまったり、元の形を勝手に変えてしまったりすることがあります。
これは、AIが悪意を持っているからではありません。正しい道具を持たないまま、無理に仕事をさせられているからなんです。
つまり、「AIは信用できない」と切り捨てる前に、AIになにを任せ、なにを別の仕組みに任せるべきかを考える必要があるのです。
そこで重要なのが「ハーネスエンジニアリング」

この問題に対する解決方法のひとつが、ハーネスエンジニアリングです。
ここで言う「ハーネス」とは、「AIモデルをきちんとコントロールし、必要に応じて他のツールともつなぎながら、意図した流れで全体を動かすための仕組み」のことです。
車のたとえで言えば、「エンジンを車として使えるようにするための、車体や配線や制御機構の全体」にあたります。
ちなみに「ハーネス」という言葉には、「馬に馬車を引いてもらうときに使う装具(馬具)」という意味もあります。「単体で強い力を持っている存在を、他の仕組みとつないで役立つ形にする」というイメージです。
AIにおいても、モデル単体をそのまま使うのではなく、必要な部品とルールを組み合わせて、確認しながら使えるシステムにしていくことが大切です。
ハーネスを構成する主な要素
では、ハーネスにはどんな要素があるのでしょうか?
車の部品を紹介するように、代表的な構成要素を見ていきます。
1. エージェントスキル(スキルファイル)

エージェントスキル(Agent Skills)は、AIに対して、「この仕事は、この順番で進めてください」と教えるための、くわしい手順書や、作業マニュアルのようなものです。
たとえば、
- 必要な情報を集める
- 足りない情報を確認する
- 必要なら計算ツールを使う
- 最後に決まった形式でまとめる
という流れを、あらかじめ明示しておきます。
単なる短いプロンプトではなく、かなり細かい業務手順を持たせることもあります。
これによって、AIが迷いにくくなり、意図していない作業の進め方をしにくくなります。
※一般的に、エージェントスキルは、単に「スキル」と呼ばれることが多いです。
※エージェントスキル(Agent Skills)の実態は、テキスト形式のファイル(マークダウンファイル)です。
2. 決定論的コード

すこしむずかしい言葉ですが、意味はシンプルです。
同じ入力に対して、毎回同じ正しい結果を返すプログラムのことです。
たとえば、
- 計算
- データ取得
- 検索
- 形式チェック
- 検証
のような仕事は、AIにそのまま任せるより、専用のプログラムに任せたほうが安心です。
AIモデルには「考えること」を任せ、厳密な処理はプログラムに任せる。
この役割分担だけでも、システム全体の安定性はかなり変わります。
3. リゾルバ

リゾルバ(リゾルバー)は、「この作業を誰に任せるか」を決める案内係です。
たとえば、
- 文章の構成や要約 → AIモデルに任せる
- 数字の計算 → 計算用プログラムに任せる
- 株価データの取得 → APIに任せる
- 画像加工 → 専用の画像ツールに任せる
というように、作業内容に応じて適切な担当へ振り分けます。
AIの苦手なことを無理にAIにやらせない。
これはハーネス設計のとても大事な考え方です。
4. 全体としてのハーネス

そして、こうした部品を全部つないで、ひとつの流れとして動かすのが、全体としてのハーネスです。
ハーネスがあることで、AIの出力をそのまま受け入れるのではなく、
- 元データと合っているか?
- 手順を飛ばしていないか?
- 形式が守られているか?
- おかしな値が混ざっていないか?
といった確認がしやすくなります。
つまり、「信じるしかないAI」から、「確認しながら使えるAI」へ変えていく仕組み
それがハーネスなのです。
「裸のAIモデル」と「ハーネス付きAI」は、なにが違うの?

「裸のAIモデル」と「ハーネス付きAI」の違いを、下記にまとめました。
裸のAIモデル
- 予測不能な動きをしやすい
- もっともらしいけれど間違うことがある
- 失敗したときに原因がわかりにくい
- 正確さや再現性が必要な仕事では不安定になりやすい
ハーネス付きAI
- ルールに沿って動かしやすい
- 必要な場面では専用ツールを使える
- 出力を検証しやすい
- 失敗しても、どこを直せばいいか見つけやすい
この違いはとても大きいです。
もし結果がおかしくても、「AIはダメだ」とあきらめなくて大丈夫です。
- スキルの説明が足りなかったのか?
- 決定論的コードに問題があったのか?
- リゾルバの振り分けが適切でなかったのか?
- 検証条件が弱かったのか?
といった形で、改善点を見つけやすくなります。

直せる仕組みであること。
これが、ハーネス付きAIの大きな価値です。
「完璧なAI」を待たなくていい

ここで重要なのは、信頼できるAIシステムを作る近道は、完璧なAIモデルの登場を待つことではないという点です。
いまあるAIモデルを、どういう仕組みで支えるか?
どうすれば苦手な部分を補い、得意な部分を活かせるか?
そこに目を向けることが、実用的なAI活用につながります。
ギャリー・タンさんは、「自動車の歴史は、エンジンへの不信感によって問題を解決してきたのではなく、シャーシの設計によって問題を解決してきた歴史だ」という主旨の話をしています。
これはとても示唆的です。
昔、自動車が登場したばかりの頃、エンジンは危険なものでもありました。
でも人々は、エンジンそのものを否定するのではなく、
- ブレーキ
- シートベルト
- 信号
- 道路ルール
- 車体設計
といった仕組みを整えることで、車を便利で実用的なものに育てていきました。
AIもそれに近い段階にあるのかもしれません。
大事なのは、「AIは完璧ではない」と知ったうえで、どう設計すれば安心して活用できるかを考えることです。
これからのAI活用で注目すべきもの
これからAIを使うときは、「どのAIモデルがいちばん賢いか」だけでなく、そのAIをどんなハーネスの中で動かしているかにも注目してみると、見え方が変わってきます。
AIモデル単体だけを見て評価すると、不安定さや失敗だけが目につきやすいです。
でも、ハーネスまで含めてひとつのシステムとして見ると、
- なにをAIに任せるか?
- なにを専用ツールに任せるか?
- どう確認するか?
- どこを改善すればよいか?
が整理しやすくなります。
問題は、「AIモデルが完璧かどうか」だけではありません。
本当に重要なのは、あなたがAIをどんな設計で使うかです。
まとめ
AIモデルは、そのままだと不安定なところがあります。
もっともらしいけれど間違ったことを言うこともあります。
ですが、それだけで「AIは役に立たない」と判断してしまうのは、もったいないです。
本当に大切なのは、AIモデルを単体で使うのではなく、エージェントスキル、決定論的コード、リゾルバ、検証の仕組みなどで支えることです。
そうすることで、
- AIの柔軟な判断力や発想力は活かしつつ
- 苦手な処理は別の仕組みで補い
- 結果を確認しながら使える
という、はるかに実用的な使い方ができるようになります。
AIは、「むき出しのままでは扱いがむずしい強力なエンジン」です。
でも、きちんとしたハーネスの中に組み込めば、自由自在に操作できる自動車のような、「頼れる相棒」へと育てていくこともできます。
これからAIを使うときは、「AIモデル」だけでなく、「AIを動かす仕組み」にも目を向けてみてください。
その視点があるだけで、AIとの付き合い方はかなり変わってくるはずです。
参考:ギャリー・タンってだれ?
この記事で紹介している、「AIモデルとハーネスの関係」と「エンジンと車の関係」のたとえ話を語ってくれているのが、ギャリー・タンさん(Garry Tan)です。
ギャリー・タンさんは、世界的に有名なスタートアップ支援組織である、Y Combinator(Yコンビネーター)の社長 兼 CEOであり、ゼネラルパートナーでもあります。(ちなみに、ChatGPTの生みの親として有名な、サム・アルトマンさんも、以前、Yコンビネーターの社長を努めていました)。ギャリー・タンさん自身も起業家、投資家であり、また、ソフトウェアエンジニアやデザイナーでもあります。
(※上の動画は、ギャリー・タンさんが開発した、AIエージェントを活用してソフトウェア開発チームを構築するためのツール「GStack」の紹介動画です。そのツールは、単にコードを書くAIツールではなく、アイデアの検証(プランニング)からUIデザイン、コーディング、テスト、レビューに至るソフトウェア開発の全プロセスを、AIエージェントの「チーム」として自動化・並列化することができるツールです。)
この記事の冒頭の動画や、マンガや、この記事の内容は、ギャリー・タンさんの下記リンクのX記事を参考にしています。この記事や動画やマンガで取り上げているのは、下記リンクのX記事で語られている内容の一部だけです。ですので、もし興味があれば、そのほかの部分もご参照ください。
- ギャリー・タンさんのX記事
Imagine if naked people were stupider. It turns out, naked models actually are.
(仮邦題「もし裸の人間がもっと頭が悪かったら、と想像してみてください。じつは、裸のモデルは本当にそのくらい愚かなんです。」)
参考:Y Combinator(Yコンビネーター)ってなに?
Y Combinator(Yコンビネーター、ワイコンビネーター)は、世界的に有名なスタートアップ支援組織です。スタートアップ企業向けの初期投資や、起業家育成プログラムを提供しています。Yコンビネーターは、これまでに、たくさんの世界的なスタートアップ企業を支援して、成功に導いてきました。(※Y Combinatorが支援したスタートアップ企業の一例:OpenAI、Airbnb、Stripe、Coinbase、DoorDash、Scale AI、Dropbox、Reddit、Instacart、GitLab、Kalshi、Replit、Twitch、などなど)。
(※上の動画は、Y Combinatorが支援した起業家たちに対して「どうやって最初のお客さんを獲得しましたか?」という質問をしている映像です。YouTube動画の「設定」→「音声トラック」→「日本語」に設定することで、日本語音声が聞けます。)
下の動画は、Y Combinatorのイベントで、下記のような、AI時代のテック業界を代表する経営者たちと、ギャリー・タンさんが対談している映像です。(4つ目の動画は、そのイベントの映像ではありません)。
- サム・アルトマンさん:OpenAI(オープンAI、オープンエーアイ) 共同創業者 & CEO
- イーロン・マスクさん:テスラ(Tesla Inc.) CEO、SpaceX(スペースX、スペースエックス) CEO、xAI(エックスエーアイ) CEO、X Corp.(旧Twitter) CTO
- サティア・ナデラさん:Minecraft(マイクロソフト) 会長 & CEO
- デミス・ハサビスさん:Google Deepmind(グーグル・ディープマインド) 共同創業者 兼 CEO、AIによる功績によりノーベル化学賞受賞
※下の動画のイベントは、「AI Startup School 2025」(AIスタートアップスクール2025)という題名のイベントで、上記のような、AI業界を代表する人たちを招いて行われました。そのイベントの映像は、こちらのYouTube動画の再生リストで視聴できます。
▼ サム・アルトマンさん:OpenAI 共同創業者 & CEO
▼ イーロン・マスクさん:テスラ CEO、SpaceX CEO、xAI CEO、X Corp. CTO
▼ サティア・ナデラさん:Minecraft 会長 & CEO
▼ デミス・ハサビスさん:Google Deepmind 共同創業者 兼 CEO、ノーベル賞受賞者
※上の動画は、英語の動画ですが、日本語字幕を表示させることができます。
※スマホのYouTubeアプリの場合は、映像の上をタップして、右上の歯車のアイコンを押してから、「字幕」→「自動翻訳」→「日本語」を選択すると、日本語字幕が表示されます。
※パソコンの場合は、映像の右上にある「字幕」アイコンを押してから、歯車のアイコン(「設定」)を押して、「字幕」→「自動翻訳」→「日本語」を選択すると、日本語字幕が表示されます。)
参考:「新しいAIモデル」より、「すこし古いAIモデル+ハーネス」のほうが性能が高くなることもある

ここでは、ハーネスの重要性がわかる事例を、ひとつ紹介します。(すこし専門的なソフトウェア開発の話になりますが、ご参考までに)。
その事例とは、「新しいAIモデルを一度の指示だけで使う場合」よりも、「少し古いAIモデル+すぐれたハーネス」のほうが高性能になる、という事例です。これは、実用上のAI性能が、AIモデル単体ではなく、ハーネス設計によって大きく左右されることを示唆しています。
ですが、「AIモデルの性能は重要ではない」というわけではありません。
重要なのは、「AIモデルか、ハーネスか」ではなく、「AIモデルの能力を、ハーネスによってどれだけ引き出せるか」です。
「新しいAIモデルを一度の指示だけで使う場合」よりも、「すこし古いAIモデル+ハーネス」のほうが高性能になる、ということの具体例として、よく引用されるのが、プログラミング課題のベンチマークである、HumanEvalに関する事例です。
AI業界の重要人物のひとりであるアンドリュー・ンさん(Andrew Ng)は、DeepLearning.AIの記事で、AIモデルのGPT-3.5を、ゼロショット、つまり、「一度の指示だけで使った場合」の正答率は48.1%であり、より新しいAIモデルであるGPT-4をゼロショットで使った場合の正答率は67.0%だったと紹介しています。
一方で、GPT-3.5を、反復的なエージェントワークフローに組み込んだ場合の正答率は、最大で95.1%に達したと説明されています。ここでいう「反復的なエージェントワークフロー」とは、計画・実行・検証・修正を繰り返せるようにする仕組みのことであり、この記事で説明している「ハーネス」によって実現される考え方に近いものです。つまり、より新しいAIモデルであるGPT-4を一度の指示だけで使うよりも、すこし古いGPT-3.5を、検証と修正を繰り返せる仕組みの中で使ったほうが、高いスコアになったということです。
(※アンドリュー・ンさん(Andrew Ng)は、AI研究・教育・事業化をつなぐ、世界的な重要人物の一人です。彼は、DeepLearning.AI創業者、AI Fundマネージング・ジェネラル・パートナー、LandingAIエグゼクティブ・チェアマン、Coursera共同創業者 兼 会長、スタンフォード大学非常勤教授などを務めています。また、過去にはGoogle Brainチームの創設時のリーダーや、Baiduの副社長 兼 チーフサイエンティストも務めました。)
(※注:上記の「正答率95.1%」という数値は、「GPT-3.5が単独で最初から完璧なコードを書いた」という意味ではありません。元になっているLDBという研究では、Reflexionなどによって生成されたプログラムを、GPT-3.5をデバッグ用の中核として使う仕組みによって修正しています。LDBは、コードを小さな実行単位に分け、実行結果や中間状態を確認しながら、どこにバグがあるのかを特定し、修正を繰り返す仕組みです。)
この事例が示しているのは、「古いAIモデル+ハーネスが、無条件に、新しいAIモデルよりもすぐれている」ということではありません。むしろ、重要なのは、AIモデルを使って一度だけ回答を得るのではなく、テストし、失敗を見つけ、修正し、再度検証する環境を与えることで、AIモデルの能力を大きく引き出せるという点です。
言い換えると、このHumanEvalの事例は、「AIモデル単体の賢さ」だけでは、実用上の性能は決まらないことを示唆しています。AIにどのような道具を与えるか、どのように失敗を検出するか、どうやって修正のループを回すか。そうしたハーネス設計によって、同じAIモデルでも、あるいは少し古いAIモデルでも、最終的な成果が大きく変わる、ということです。
参考:ハーネスエンジニアリングの定義は、十人十色

この記事では、ギャリー・ターンさんのたとえ話を紹介しながら、ハーネスエンジニアリングについて解説してきました。
ですが、じつを言うと、この記事で紹介している「ハーネス」は、あくまでも、ギャリー・タンさんが定義するところの「ハーネス」なのです。
AIの分野における「ハーネス」や「ハーネスエンジニアリング」という言葉は、まだ普及し始めたばかりの新しい言葉です。そのため、それらの言葉の定義は、まだ明確には定まってはいません。ハーネスエンジニアリングの定義については、いろいろな意見があり、まだ明確に確定的なハーネスエンジニアリングの定義があるわけではありません。
そこで、ここでは、ハーネスエンジニアリングについての補足として、いろいろな人たちが考える、いろいろな種類のハーネスエンジニアリングについて紹介したいと思います。
たとえば、「AIエージェントの″ハーネス″に関わる混乱と私見」という記事では、いろいろなAI企業などの人たちが、それぞれ独自の定義で使っている「ハーネス」という言葉を、「内部ハーネス」と「外部ハーネス」に分けて整理する考え方を紹介してくれています。
また、OpenAIや、Anthropicや、そのほかの企業や人々のハーネスエンジニアリングに関する考え方や意見については、下記リンクのページをご参照ください。
- OpenAI:ハーネスエンジニアリング:エージェントファーストの世界における Codex の活用 | OpenAI
- Anthropic:Effective harnesses for long-running agents \ Anthropic
※日本語訳(Google翻訳使用):長期間稼働するエージェントに対する効果的なハーネス \ Anthropic - 参考記事:Claude Code / Codex ユーザーのための誰でもわかるHarness Engineeringベストプラクティス – 逆瀬川ちゃんのブログ
(※また、「ハーネス」という言葉と、意味が重なる部分がある言葉として、また、広い意味で「ハーネス」と似たような意味やニュアンスがある言葉として、「ガードレール」や、「スキャフォールディング」という言葉もあります。「スキャフォールディング」(scaffolding)は、直訳すると「足場」という意味です。)
ハーネスを作って、AIの真の実力を引き出そう!

ここまでの話で、AIを活用するうえで、ハーネスが重要だということがお分かりいただけたかと思います。
あなたもハーネスエンジニアリングを実践して、AIの潜在能力を引き出してみませんか?





