ハーネスエンジニアリングってなに？ Y Combinator社長のギャリー・タンが語る、AIを活用するための「エンジンと車」のたとえ話

by マーケティング部おさい

今回は、ハーネスエンジニアリングという、AIの効果的な使い方として注目されている手法を紹介します。

（※下のマンガや、解説動画を見るだけでも、手早くハーネスエンジニアリングについて知ることができます。）

つい最近、ギャリー・タンさんが、「AIモデルとハーネスの関係」を、「エンジンと車の関係」にたとえて、わかりやすく説明してくれていました。そこで、そのたとえ話を紹介しながら、ハーネスエンジニアリングについて解説します。

動画でわかる、ハーネスエンジニアリング

※字幕を表示できる動画です（表示方法は、下記参照）。

※YouTube動画の映像の上に表示される「CC」のアイコンを押すと、字幕の表示／非表示を切り替えることができます。
※スマホのYouTubeアプリの場合は、映像の上をタップしたときに、右上に「CC」のアイコンが表示されます。
※パソコンの場合は、動画の再生中に、映像の上にマウスオーバーしたときに、右上に「CC」のアイコンが表示されます。

マンガでわかる、ハーネスエンジニアリング

※画像を押すと拡大表示できます。

ハーネスエンジニアリングってなに？ AIを活用するための「エンジンと車」のたとえ話

生成AIを使っていて、こんなふうに感じたことはありませんか？

「AIがなんだか変な答えを返してきた」
「お願いしたことと、少しずれたことをしてきた」
「もっともらしいけれど、本当に信じていいのかわからない」

そんな時、「今のAIって、まだ性能が低いのかな…」とガッカリしてしまうかもしれません。ですが、じつはそれは、AIの性能が悪いのではなく、「AIの使い方に大事な工夫が足りていない」ことが原因かもしれないんです。

世界的に有名なスタートアップ支援組織、Y Combinator（Yコンビネーター）の社長兼 CEOであるギャリー・タンさんは、AIとそれを使いこなす仕組みの関係を「エンジンと車」の関係に例えて分かりやすく説明してくれています。

ここからは、AIを「頼れる相棒」に変えるカギとなる、「ハーネスエンジニアリング」について一緒に探っていきましょう！

AIモデルは「完成した車」ではなく「エンジン」

AIはいろいろなことができるので、ついつい「AIはなんでもできるんだ」と思って、どんな作業でもAIに頼んでしまいがちです。

たとえば、AIに次のようなことを頼んだことはありませんか？

数値データを集めてグラフにしてほしい
画像をきれいに編集してほしい
必要な情報を探して、整理してまとめてほしい
数を正確に数えたり、形式を整えたりしてほしい

もちろん、AIはこうしたことをある程度こなせます。ですが、AIモデル単体で使うと、意外なところで失敗することがあります。

たとえば、

もっともらしいけれど間違ったグラフを作ってしまう
画像の大事な部分を消してしまったり、崩れた形になってしまったりする
正しい情報源を使わず、それらしい説明を作ってしまう
単純な作業なのに動作が不安定になる

こうした問題が起きると、「AIは役に立たないな…」と言いたくなるかもしれません。ですが、ギャリー・タンさんのたとえ話を借りると、ここで見ているのは「完成した車」ではなく、「机の上に置かれたエンジン」なんです。

エンジンには大きな力があります。ですが、エンジンを机の上に置いただけでは、自動車のように走ることはできません。

自動車として動くためには、

ハンドル
ブレーキ
タイヤ
進行方向を決める仕組み
全体を支える車体

などが必要です。

AIモデルも同じです。AIモデル単体には大きな力がありますが、それだけでは安定して目的どおりに働くとは限りません。本当に大切なのは、AIモデルそのものの賢さだけではなく、それをどんな仕組みの中で使うかなんです。

「裸のAIモデル」は、どうして動作が不安定なの？

ギャリー・タンさんは、AIモデルを単体でそのまま使う状態を、「裸のAIモデル」と表現しています。

これは、たとえるなら、エンジンだけを机の上で回して、車として使おうとしている状態です。当然、それではうまくいかないことが出てきます。

なぜなら、AIには最初からすべての機能がそろっているわけではないからです。

たとえばAIは、

毎回まったく同じように厳密な計算をすること
インターネットから確実に最新データを取ってくること
出力内容の正しさを自動で点検すること
形式ミスを確実に防ぐこと

といった作業が、そのままでは苦手な場合があります。

AIは、本質的には「次に来る言葉や情報を予測する仕組み」です。
そのため、判断や要約、言い換え、整理、発想の補助は得意です。
一方で、厳密さが必要な処理や、確実な取得・検証が必要な仕事は、そのまま任せると不安定になりやすいんです。

AIの能力には「ギザギザの境界線」がある

ここで関係してくるのが、AIのギザギザの境界線（ジャグド・フロンティア、Jagged Frontier）という性質です。

これは、「得意なことと苦手なことに激しい差がある」という意味です。
「とても難しい問題には強いのに、意外なほど単純な作業で間違えることがあったりする」という、AIの性質のことです。

たとえば、

高度な説明や要約はうまい
複雑な文章構成もそれなりにできる
でも、単純な数え上げや文字処理ではミスをする
最新データを持っていないのに、それらしい数字を出してしまう

といったことが起こります。

実際、AIに「最新の株価データを取ってきて、グラフにして」と頼むと、ネット接続や正確なデータ取得手段がないまま、もっともらしい数字を並べて、それっぽいグラフを作ってしまうことがあります。

また、画像編集でも、「いい感じに加工して」と頼んだ結果、必要な部分まで消してしまったり、元の形を勝手に変えてしまったりすることがあります。

これは、AIが悪意を持っているからではありません。正しい道具を持たないまま、無理に仕事をさせられているからなんです。

つまり、「AIは信用できない」と切り捨てる前に、AIになにを任せ、なにを別の仕組みに任せるべきかを考える必要があるのです。

そこで重要なのが「ハーネスエンジニアリング」

この問題に対する解決方法のひとつが、ハーネスエンジニアリングです。

ここで言う「ハーネス」とは、「AIモデルをきちんとコントロールし、必要に応じて他のツールともつなぎながら、意図した流れで全体を動かすための仕組み」のことです。

車のたとえで言えば、「エンジンを車として使えるようにするための、車体や配線や制御機構の全体」にあたります。

ちなみに「ハーネス」という言葉には、「馬に馬車を引いてもらうときに使う装具（馬具）」という意味もあります。「単体で強い力を持っている存在を、他の仕組みとつないで役立つ形にする」というイメージです。

AIにおいても、モデル単体をそのまま使うのではなく、必要な部品とルールを組み合わせて、確認しながら使えるシステムにしていくことが大切です。

ハーネスを構成する主な要素

では、ハーネスにはどんな要素があるのでしょうか？
車の部品を紹介するように、代表的な構成要素を見ていきます。

1. エージェントスキル（スキルファイル）

エージェントスキル（Agent Skills）は、AIに対して、「この仕事は、この順番で進めてください」と教えるための、くわしい手順書や、作業マニュアルのようなものです。

たとえば、

必要な情報を集める
足りない情報を確認する
必要なら計算ツールを使う
最後に決まった形式でまとめる

という流れを、あらかじめ明示しておきます。

単なる短いプロンプトではなく、かなり細かい業務手順を持たせることもあります。
これによって、AIが迷いにくくなり、意図していない作業の進め方をしにくくなります。

※一般的に、エージェントスキルは、単に「スキル」と呼ばれることが多いです。

※エージェントスキル（Agent Skills）の実態は、テキスト形式のファイル（マークダウンファイル）です。

2. 決定論的コード

すこしむずかしい言葉ですが、意味はシンプルです。
同じ入力に対して、毎回同じ正しい結果を返すプログラムのことです。

たとえば、

計算
データ取得
検索
形式チェック
検証

のような仕事は、AIにそのまま任せるより、専用のプログラムに任せたほうが安心です。

AIモデルには「考えること」を任せ、厳密な処理はプログラムに任せる。
この役割分担だけでも、システム全体の安定性はかなり変わります。

3. リゾルバ

リゾルバ（リゾルバー）は、「この作業を誰に任せるか」を決める案内係です。

たとえば、

文章の構成や要約 → AIモデルに任せる
数字の計算 → 計算用プログラムに任せる
株価データの取得 → APIに任せる
画像加工 → 専用の画像ツールに任せる

というように、作業内容に応じて適切な担当へ振り分けます。

AIの苦手なことを無理にAIにやらせない。
これはハーネス設計のとても大事な考え方です。

4. 全体としてのハーネス

そして、こうした部品を全部つないで、ひとつの流れとして動かすのが、全体としてのハーネスです。

ハーネスがあることで、AIの出力をそのまま受け入れるのではなく、

元データと合っているか？
手順を飛ばしていないか？
形式が守られているか？
おかしな値が混ざっていないか？

といった確認がしやすくなります。

つまり、「信じるしかないAI」から、「確認しながら使えるAI」へ変えていく仕組み
それがハーネスなのです。

「裸のAIモデル」と「ハーネス付きAI」は、なにが違うの？

「裸のAIモデル」と「ハーネス付きAI」の違いを、下記にまとめました。

裸のAIモデル

予測不能な動きをしやすい
もっともらしいけれど間違うことがある
失敗したときに原因がわかりにくい
正確さや再現性が必要な仕事では不安定になりやすい

ハーネス付きAI

ルールに沿って動かしやすい
必要な場面では専用ツールを使える
出力を検証しやすい
失敗しても、どこを直せばいいか見つけやすい

この違いはとても大きいです。
もし結果がおかしくても、「AIはダメだ」とあきらめなくて大丈夫です。

スキルの説明が足りなかったのか？
決定論的コードに問題があったのか？
リゾルバの振り分けが適切でなかったのか？
検証条件が弱かったのか？

といった形で、改善点を見つけやすくなります。

直せる仕組みであること。
これが、ハーネス付きAIの大きな価値です。

「完璧なAI」を待たなくていい

ここで重要なのは、信頼できるAIシステムを作る近道は、完璧なAIモデルの登場を待つことではないという点です。

いまあるAIモデルを、どういう仕組みで支えるか？
どうすれば苦手な部分を補い、得意な部分を活かせるか？
そこに目を向けることが、実用的なAI活用につながります。

ギャリー・タンさんは、「自動車の歴史は、エンジンへの不信感によって問題を解決してきたのではなく、シャーシの設計によって問題を解決してきた歴史だ」という主旨の話をしています。

これはとても示唆的です。

昔、自動車が登場したばかりの頃、エンジンは危険なものでもありました。
でも人々は、エンジンそのものを否定するのではなく、

ブレーキ
シートベルト
信号
道路ルール
車体設計

といった仕組みを整えることで、車を便利で実用的なものに育てていきました。

AIもそれに近い段階にあるのかもしれません。

大事なのは、「AIは完璧ではない」と知ったうえで、どう設計すれば安心して活用できるかを考えることです。

これからのAI活用で注目すべきもの

これからAIを使うときは、「どのAIモデルがいちばん賢いか」だけでなく、そのAIをどんなハーネスの中で動かしているかにも注目してみると、見え方が変わってきます。

AIモデル単体だけを見て評価すると、不安定さや失敗だけが目につきやすいです。

でも、ハーネスまで含めてひとつのシステムとして見ると、

なにをAIに任せるか？
なにを専用ツールに任せるか？
どう確認するか？
どこを改善すればよいか？

が整理しやすくなります。

問題は、「AIモデルが完璧かどうか」だけではありません。
本当に重要なのは、あなたがAIをどんな設計で使うかです。

まとめ

AIモデルは、そのままだと不安定なところがあります。
もっともらしいけれど間違ったことを言うこともあります。
ですが、それだけで「AIは役に立たない」と判断してしまうのは、もったいないです。

本当に大切なのは、AIモデルを単体で使うのではなく、エージェントスキル、決定論的コード、リゾルバ、検証の仕組みなどで支えることです。

そうすることで、

AIの柔軟な判断力や発想力は活かしつつ
苦手な処理は別の仕組みで補い
結果を確認しながら使える

という、はるかに実用的な使い方ができるようになります。

AIは、「むき出しのままでは扱いがむずしい強力なエンジン」です。
でも、きちんとしたハーネスの中に組み込めば、自由自在に操作できる自動車のような、「頼れる相棒」へと育てていくこともできます。

これからAIを使うときは、「AIモデル」だけでなく、「AIを動かす仕組み」にも目を向けてみてください。
その視点があるだけで、AIとの付き合い方はかなり変わってくるはずです。

参考：ギャリー・タンってだれ？

この記事で紹介している、「AIモデルとハーネスの関係」と「エンジンと車の関係」のたとえ話を語ってくれているのが、ギャリー・タンさん（Garry Tan）です。

ギャリー・タンさんは、世界的に有名なスタートアップ支援組織である、Y Combinator（Yコンビネーター）の社長兼 CEOであり、ゼネラルパートナーでもあります。（ちなみに、ChatGPTの生みの親として有名な、サム・アルトマンさんも、以前、Yコンビネーターの社長を努めていました）。ギャリー・タンさん自身も起業家、投資家であり、また、ソフトウェアエンジニアやデザイナーでもあります。

（※上の動画は、ギャリー・タンさんが開発した、AIエージェントを活用してソフトウェア開発チームを構築するためのツール「GStack」の紹介動画です。そのツールは、単にコードを書くAIツールではなく、アイデアの検証（プランニング）からUIデザイン、コーディング、テスト、レビューに至るソフトウェア開発の全プロセスを、AIエージェントの「チーム」として自動化・並列化することができるツールです。）

この記事の冒頭の動画や、マンガや、この記事の内容は、ギャリー・タンさんの下記リンクのX記事を参考にしています。この記事や動画やマンガで取り上げているのは、下記リンクのX記事で語られている内容の一部だけです。ですので、もし興味があれば、そのほかの部分もご参照ください。

ギャリー・タンさんのX記事
Imagine if naked people were stupider. It turns out, naked models actually are.
（仮邦題「もし裸の人間がもっと頭が悪かったら、と想像してみてください。じつは、裸のモデルは本当にそのくらい愚かなんです。」）

参考：Y Combinator（Yコンビネーター）ってなに？

Y Combinator（Yコンビネーター、ワイコンビネーター）は、世界的に有名なスタートアップ支援組織です。スタートアップ企業向けの初期投資や、起業家育成プログラムを提供しています。Yコンビネーターは、これまでに、たくさんの世界的なスタートアップ企業を支援して、成功に導いてきました。（※Y Combinatorが支援したスタートアップ企業の一例：OpenAI、Airbnb、Stripe、Coinbase、DoorDash、Scale AI、Dropbox、Reddit、Instacart、GitLab、Kalshi、Replit、Twitch、などなど）。

（※上の動画は、Y Combinatorが支援した起業家たちに対して「どうやって最初のお客さんを獲得しましたか？」という質問をしている映像です。YouTube動画の「設定」→「音声トラック」→「日本語」に設定することで、日本語音声が聞けます。）

下の動画は、Y Combinatorのイベントで、下記のような、AI時代のテック業界を代表する経営者たちと、ギャリー・タンさんが対談している映像です。（4つ目の動画は、そのイベントの映像ではありません）。

サム・アルトマンさん：OpenAI（オープンAI、オープンエーアイ）共同創業者 & CEO
イーロン・マスクさん：テスラ（Tesla Inc.） CEO、SpaceX（スペースX、スペースエックス） CEO、xAI（エックスエーアイ） CEO、X Corp.（旧Twitter） CTO
サティア・ナデラさん：Minecraft（マイクロソフト）会長 & CEO
デミス・ハサビスさん：Google Deepmind（グーグル・ディープマインド）共同創業者兼 CEO、AIによる功績によりノーベル化学賞受賞

※下の動画のイベントは、「AI Startup School 2025」（AIスタートアップスクール2025）という題名のイベントで、上記のような、AI業界を代表する人たちを招いて行われました。そのイベントの映像は、こちらのYouTube動画の再生リストで視聴できます。

▼ サム・アルトマンさん：OpenAI 共同創業者 & CEO

▼ イーロン・マスクさん：テスラ CEO、SpaceX CEO、xAI CEO、X Corp. CTO

▼ サティア・ナデラさん：Minecraft 会長 & CEO

▼ デミス・ハサビスさん：Google Deepmind 共同創業者兼 CEO、ノーベル賞受賞者

※上の動画は、英語の動画ですが、日本語字幕を表示させることができます。

※スマホのYouTubeアプリの場合は、映像の上をタップして、右上の歯車のアイコンを押してから、「字幕」→「自動翻訳」→「日本語」を選択すると、日本語字幕が表示されます。

※パソコンの場合は、映像の右上にある「字幕」アイコンを押してから、歯車のアイコン（「設定」）を押して、「字幕」→「自動翻訳」→「日本語」を選択すると、日本語字幕が表示されます。）

参考：「新しいAIモデル」より、「すこし古いAIモデル＋ハーネス」のほうが性能が高くなることもある

ここでは、ハーネスの重要性がわかる事例を、ひとつ紹介します。（すこし専門的なソフトウェア開発の話になりますが、ご参考までに）。

その事例とは、「新しいAIモデルを一度の指示だけで使う場合」よりも、「少し古いAIモデル＋すぐれたハーネス」のほうが高性能になる、という事例です。これは、実用上のAI性能が、AIモデル単体ではなく、ハーネス設計によって大きく左右されることを示唆しています。

ですが、「AIモデルの性能は重要ではない」というわけではありません。

重要なのは、「AIモデルか、ハーネスか」ではなく、「AIモデルの能力を、ハーネスによってどれだけ引き出せるか」です。

「新しいAIモデルを一度の指示だけで使う場合」よりも、「すこし古いAIモデル＋ハーネス」のほうが高性能になる、ということの具体例として、よく引用されるのが、プログラミング課題のベンチマークである、HumanEvalに関する事例です。

AI業界の重要人物のひとりであるアンドリュー・ンさん（Andrew Ng）は、DeepLearning.AIの記事で、AIモデルのGPT-3.5を、ゼロショット、つまり、「一度の指示だけで使った場合」の正答率は48.1%であり、より新しいAIモデルであるGPT-4をゼロショットで使った場合の正答率は67.0%だったと紹介しています。

一方で、GPT-3.5を、反復的なエージェントワークフローに組み込んだ場合の正答率は、最大で95.1%に達したと説明されています。ここでいう「反復的なエージェントワークフロー」とは、計画・実行・検証・修正を繰り返せるようにする仕組みのことであり、この記事で説明している「ハーネス」によって実現される考え方に近いものです。つまり、より新しいAIモデルであるGPT-4を一度の指示だけで使うよりも、すこし古いGPT-3.5を、検証と修正を繰り返せる仕組みの中で使ったほうが、高いスコアになったということです。

（※アンドリュー・ンさん（Andrew Ng）は、AI研究・教育・事業化をつなぐ、世界的な重要人物の一人です。彼は、DeepLearning.AI創業者、AI Fundマネージング・ジェネラル・パートナー、LandingAIエグゼクティブ・チェアマン、Coursera共同創業者兼会長、スタンフォード大学非常勤教授などを務めています。また、過去にはGoogle Brainチームの創設時のリーダーや、Baiduの副社長兼チーフサイエンティストも務めました。）

（※注：上記の「正答率95.1%」という数値は、「GPT-3.5が単独で最初から完璧なコードを書いた」という意味ではありません。元になっているLDBという研究では、Reflexionなどによって生成されたプログラムを、GPT-3.5をデバッグ用の中核として使う仕組みによって修正しています。LDBは、コードを小さな実行単位に分け、実行結果や中間状態を確認しながら、どこにバグがあるのかを特定し、修正を繰り返す仕組みです。）

この事例が示しているのは、「古いAIモデル＋ハーネスが、無条件に、新しいAIモデルよりもすぐれている」ということではありません。むしろ、重要なのは、AIモデルを使って一度だけ回答を得るのではなく、テストし、失敗を見つけ、修正し、再度検証する環境を与えることで、AIモデルの能力を大きく引き出せるという点です。

言い換えると、このHumanEvalの事例は、「AIモデル単体の賢さ」だけでは、実用上の性能は決まらないことを示唆しています。AIにどのような道具を与えるか、どのように失敗を検出するか、どうやって修正のループを回すか。そうしたハーネス設計によって、同じAIモデルでも、あるいは少し古いAIモデルでも、最終的な成果が大きく変わる、ということです。

参考：ハーネスエンジニアリングの定義は、十人十色

この記事では、ギャリー・ターンさんのたとえ話を紹介しながら、ハーネスエンジニアリングについて解説してきました。

ですが、じつを言うと、この記事で紹介している「ハーネス」は、あくまでも、ギャリー・タンさんが定義するところの「ハーネス」なのです。

AIの分野における「ハーネス」や「ハーネスエンジニアリング」という言葉は、まだ普及し始めたばかりの新しい言葉です。そのため、それらの言葉の定義は、まだ明確には定まってはいません。ハーネスエンジニアリングの定義については、いろいろな意見があり、まだ明確に確定的なハーネスエンジニアリングの定義があるわけではありません。

そこで、ここでは、ハーネスエンジニアリングについての補足として、いろいろな人たちが考える、いろいろな種類のハーネスエンジニアリングについて紹介したいと思います。

たとえば、「AIエージェントの″ハーネス″に関わる混乱と私見」という記事では、いろいろなAI企業などの人たちが、それぞれ独自の定義で使っている「ハーネス」という言葉を、「内部ハーネス」と「外部ハーネス」に分けて整理する考え方を紹介してくれています。

また、OpenAIや、Anthropicや、そのほかの企業や人々のハーネスエンジニアリングに関する考え方や意見については、下記リンクのページをご参照ください。

OpenAI：ハーネスエンジニアリング：エージェントファーストの世界における Codex の活用 | OpenAI
Anthropic：Effective harnesses for long-running agents \ Anthropic
※日本語訳（Google翻訳使用）：長期間稼働するエージェントに対する効果的なハーネス \ Anthropic
参考記事：Claude Code / Codex ユーザーのための誰でもわかるHarness Engineeringベストプラクティス – 逆瀬川ちゃんのブログ

（※また、「ハーネス」という言葉と、意味が重なる部分がある言葉として、また、広い意味で「ハーネス」と似たような意味やニュアンスがある言葉として、「ガードレール」や、「スキャフォールディング」という言葉もあります。「スキャフォールディング」（scaffolding）は、直訳すると「足場」という意味です。）