ハーネスエンジニアリングってなに? Y Combinator社長のギャリー・タンが語る、AIを活用するための「エンジンと車」のたとえ話

by マーケティング部 おさい

今回は、ハーネスエンジニアリングという、AIの効果的な使い方として注目されている手法を紹介します。

(※下のマンガや、解説動画を見るだけでも、手早くハーネスエンジニアリングについて知ることができます。)

つい最近、ギャリー・タンさんが、「AIモデルとハーネスの関係」を、「エンジンと車の関係」にたとえて、わかりやすく説明してくれていました。そこで、そのたとえ話を紹介しながら、ハーネスエンジニアリングについて解説します。

動画でわかる、ハーネスエンジニアリング

※字幕を表示できる動画です(表示方法は、下記参照)。

※YouTube動画の映像の上に表示される「CC」のアイコンを押すと、字幕の表示/非表示を切り替えることができます。
※スマホのYouTubeアプリの場合は、映像の上をタップしたときに、右上に「CC」のアイコンが表示されます。
※パソコンの場合は、動画の再生中に、映像の上にマウスオーバーしたときに、右上に「CC」のアイコンが表示されます。

マンガでわかる、ハーネスエンジニアリング

※画像を押すと拡大表示できます。

ハーネスエンジニアリングってなに? AIを活用するための「エンジンと車」のたとえ話

生成AIを使っていて、こんなふうに感じたことはありませんか?

「AIがなんだか変な答えを返してきた」
「お願いしたことと、少しずれたことをしてきた」
「もっともらしいけれど、本当に信じていいのかわからない」

そんな時、「今のAIって、まだ性能が低いのかな…」とガッカリしてしまうかもしれません。ですが、じつはそれは、AIの性能が悪いのではなく、「AIの使い方に大事な工夫が足りていない」ことが原因かもしれないんです。

世界的に有名なスタートアップ支援組織、Y Combinator(Yコンビネーター)の社長 兼 CEOであるギャリー・タンさんは、AIとそれを使いこなす仕組みの関係を「エンジンと車」の関係に例えて分かりやすく説明してくれています

ここからは、AIを「頼れる相棒」に変えるカギとなる、「ハーネスエンジニアリング」について一緒に探っていきましょう!

AIモデルは「完成した車」ではなく「エンジン」

AIはいろいろなことができるので、ついつい「AIはなんでもできるんだ」と思って、どんな作業でもAIに頼んでしまいがちです。

たとえば、AIに次のようなことを頼んだことはありませんか?

  • 数値データを集めてグラフにしてほしい
  • 画像をきれいに編集してほしい
  • 必要な情報を探して、整理してまとめてほしい
  • 数を正確に数えたり、形式を整えたりしてほしい

もちろん、AIはこうしたことをある程度こなせます。ですが、AIモデル単体で使うと、意外なところで失敗することがあります。

たとえば、

  • もっともらしいけれど間違ったグラフを作ってしまう
  • 画像の大事な部分を消してしまったり、崩れた形になってしまったりする
  • 正しい情報源を使わず、それらしい説明を作ってしまう
  • 単純な作業なのに動作が不安定になる

こうした問題が起きると、「AIは役に立たないな…」と言いたくなるかもしれません。ですが、ギャリー・タンさんのたとえ話を借りると、ここで見ているのは「完成した車」ではなく、「机の上に置かれたエンジン」なんです。

エンジンには大きな力があります。ですが、エンジンを机の上に置いただけでは、自動車のように走ることはできません。

自動車として動くためには、

  • ハンドル
  • ブレーキ
  • タイヤ
  • 進行方向を決める仕組み
  • 全体を支える車体

などが必要です。

AIモデルも同じです。AIモデル単体には大きな力がありますが、それだけでは安定して目的どおりに働くとは限りません。本当に大切なのは、AIモデルそのものの賢さだけではなく、それをどんな仕組みの中で使うかなんです。

「裸のAIモデル」は、どうして動作が不安定なの?

ギャリー・タンさんは、AIモデルを単体でそのまま使う状態を、「裸のAIモデル」と表現しています。

これは、たとえるなら、エンジンだけを机の上で回して、車として使おうとしている状態です。当然、それではうまくいかないことが出てきます。

なぜなら、AIには最初からすべての機能がそろっているわけではないからです。

たとえばAIは、

  • 毎回まったく同じように厳密な計算をすること
  • インターネットから確実に最新データを取ってくること
  • 出力内容の正しさを自動で点検すること
  • 形式ミスを確実に防ぐこと

といった作業が、そのままでは苦手な場合があります。

AIは、本質的には「次に来る言葉や情報を予測する仕組み」です。
そのため、判断や要約、言い換え、整理、発想の補助は得意です。
一方で、厳密さが必要な処理や、確実な取得・検証が必要な仕事は、そのまま任せると不安定になりやすいんです。

AIの能力には「ギザギザの境界線」がある

ここで関係してくるのが、AIのギザギザの境界線(ジャグド・フロンティア、Jagged Frontier)という性質です。

これは、「得意なことと苦手なことに激しい差がある」という意味です。
「とても難しい問題には強いのに、意外なほど単純な作業で間違えることがあったりする」という、AIの性質のことです。

たとえば、

  • 高度な説明や要約はうまい
  • 複雑な文章構成もそれなりにできる
  • でも、単純な数え上げや文字処理ではミスをする
  • 最新データを持っていないのに、それらしい数字を出してしまう

といったことが起こります。

実際、AIに「最新の株価データを取ってきて、グラフにして」と頼むと、ネット接続や正確なデータ取得手段がないまま、もっともらしい数字を並べて、それっぽいグラフを作ってしまうことがあります。

また、画像編集でも、「いい感じに加工して」と頼んだ結果、必要な部分まで消してしまったり、元の形を勝手に変えてしまったりすることがあります。

これは、AIが悪意を持っているからではありません。正しい道具を持たないまま、無理に仕事をさせられているからなんです。

つまり、「AIは信用できない」と切り捨てる前に、AIになにを任せ、なにを別の仕組みに任せるべきかを考える必要があるのです。

そこで重要なのが「ハーネスエンジニアリング」

この問題に対する解決方法のひとつが、ハーネスエンジニアリングです。

ここで言う「ハーネス」とは、「AIモデルをきちんとコントロールし、必要に応じて他のツールともつなぎながら、意図した流れで全体を動かすための仕組み」のことです。

車のたとえで言えば、「エンジンを車として使えるようにするための、車体や配線や制御機構の全体」にあたります。

ちなみに「ハーネス」という言葉には、「馬に馬車を引いてもらうときに使う装具(馬具)」という意味もあります。「単体で強い力を持っている存在を、他の仕組みとつないで役立つ形にする」というイメージです。

AIにおいても、モデル単体をそのまま使うのではなく、必要な部品とルールを組み合わせて、確認しながら使えるシステムにしていくことが大切です。

ハーネスを構成する主な要素

では、ハーネスにはどんな要素があるのでしょうか?
車の部品を紹介するように、代表的な構成要素を見ていきます。

1. エージェントスキル(スキルファイル)

エージェントスキル(Agent Skills)は、AIに対して、「この仕事は、この順番で進めてください」と教えるための、くわしい手順書や、作業マニュアルのようなものです。

たとえば、

  1. 必要な情報を集める
  2. 足りない情報を確認する
  3. 必要なら計算ツールを使う
  4. 最後に決まった形式でまとめる

という流れを、あらかじめ明示しておきます。

単なる短いプロンプトではなく、かなり細かい業務手順を持たせることもあります。
これによって、AIが迷いにくくなり、意図していない作業の進め方をしにくくなります。

※一般的に、エージェントスキルは、単に「スキル」と呼ばれることが多いです。

※エージェントスキル(Agent Skills)の実態は、テキスト形式のファイル(マークダウンファイル)です。

2. 決定論的コード

すこしむずかしい言葉ですが、意味はシンプルです。
同じ入力に対して、毎回同じ正しい結果を返すプログラムのことです。

たとえば、

  • 計算
  • データ取得
  • 検索
  • 形式チェック
  • 検証

のような仕事は、AIにそのまま任せるより、専用のプログラムに任せたほうが安心です。

AIモデルには「考えること」を任せ、厳密な処理はプログラムに任せる。
この役割分担だけでも、システム全体の安定性はかなり変わります。

3. リゾルバ

リゾルバ(リゾルバー)は、「この作業を誰に任せるか」を決める案内係です。

たとえば、

  • 文章の構成や要約 → AIモデルに任せる
  • 数字の計算 → 計算用プログラムに任せる
  • 株価データの取得 → APIに任せる
  • 画像加工 → 専用の画像ツールに任せる

というように、作業内容に応じて適切な担当へ振り分けます。

AIの苦手なことを無理にAIにやらせない。
これはハーネス設計のとても大事な考え方です。

4. 全体としてのハーネス

そして、こうした部品を全部つないで、ひとつの流れとして動かすのが、全体としてのハーネスです。

ハーネスがあることで、AIの出力をそのまま受け入れるのではなく、

  • 元データと合っているか?
  • 手順を飛ばしていないか?
  • 形式が守られているか?
  • おかしな値が混ざっていないか?

といった確認がしやすくなります。

つまり、「信じるしかないAI」から、「確認しながら使えるAI」へ変えていく仕組み
それがハーネスなのです。

「裸のAIモデル」と「ハーネス付きAI」は、なにが違うの?

裸のAIモデル」と「ハーネス付きAI」の違いを、下記にまとめました。

裸のAIモデル

  • 予測不能な動きをしやすい
  • もっともらしいけれど間違うことがある
  • 失敗したときに原因がわかりにくい
  • 正確さや再現性が必要な仕事では不安定になりやすい

ハーネス付きAI

  • ルールに沿って動かしやすい
  • 必要な場面では専用ツールを使える
  • 出力を検証しやすい
  • 失敗しても、どこを直せばいいか見つけやすい

この違いはとても大きいです。
もし結果がおかしくても、「AIはダメだ」とあきらめなくて大丈夫です。

  • スキルの説明が足りなかったのか?
  • 決定論的コードに問題があったのか?
  • リゾルバの振り分けが適切でなかったのか?
  • 検証条件が弱かったのか?

といった形で、改善点を見つけやすくなります。

直せる仕組みであること
これが、ハーネス付きAIの大きな価値です。

「完璧なAI」を待たなくていい

ここで重要なのは、信頼できるAIシステムを作る近道は、完璧なAIモデルの登場を待つことではないという点です。

いまあるAIモデルを、どういう仕組みで支えるか?
どうすれば苦手な部分を補い、得意な部分を活かせるか?
そこに目を向けることが、実用的なAI活用につながります。

ギャリー・タンさんは、「自動車の歴史は、エンジンへの不信感によって問題を解決してきたのではなく、シャーシの設計によって問題を解決してきた歴史だ」という主旨の話をしています。

これはとても示唆的です。

昔、自動車が登場したばかりの頃、エンジンは危険なものでもありました。
でも人々は、エンジンそのものを否定するのではなく、

  • ブレーキ
  • シートベルト
  • 信号
  • 道路ルール
  • 車体設計

といった仕組みを整えることで、車を便利で実用的なものに育てていきました。

AIもそれに近い段階にあるのかもしれません。

大事なのは、「AIは完璧ではない」と知ったうえで、どう設計すれば安心して活用できるかを考えることです。

これからのAI活用で注目すべきもの

これからAIを使うときは、「どのAIモデルがいちばん賢いか」だけでなく、そのAIをどんなハーネスの中で動かしているかにも注目してみると、見え方が変わってきます。

AIモデル単体だけを見て評価すると、不安定さや失敗だけが目につきやすいです。

でも、ハーネスまで含めてひとつのシステムとして見ると、

  • なにをAIに任せるか?
  • なにを専用ツールに任せるか?
  • どう確認するか?
  • どこを改善すればよいか?

が整理しやすくなります。

問題は、「AIモデルが完璧かどうか」だけではありません。
本当に重要なのは、あなたがAIをどんな設計で使うかです。

まとめ

AIモデルは、そのままだと不安定なところがあります。
もっともらしいけれど間違ったことを言うこともあります。
ですが、それだけで「AIは役に立たない」と判断してしまうのは、もったいないです。

本当に大切なのは、AIモデルを単体で使うのではなく、エージェントスキル、決定論的コード、リゾルバ、検証の仕組みなどで支えることです。

そうすることで、

  • AIの柔軟な判断力や発想力は活かしつつ
  • 苦手な処理は別の仕組みで補い
  • 結果を確認しながら使える

という、はるかに実用的な使い方ができるようになります。

AIは、「むき出しのままでは扱いがむずしい強力なエンジン」です。
でも、きちんとしたハーネスの中に組み込めば、自由自在に操作できる自動車のような、「頼れる相棒」へと育てていくこともできます。

これからAIを使うときは、「AIモデル」だけでなく、「AIを動かす仕組み」にも目を向けてみてください。
その視点があるだけで、AIとの付き合い方はかなり変わってくるはずです。

参考:ギャリー・タンってだれ?

この記事で紹介している、「AIモデルとハーネスの関係」と「エンジンと車の関係」のたとえ話を語ってくれているのが、ギャリー・タンさん(Garry Tan)です。

ギャリー・タンさんは、世界的に有名なスタートアップ支援組織である、Y Combinator(Yコンビネーター)の社長 兼 CEOであり、ゼネラルパートナーでもあります。(ちなみに、ChatGPTの生みの親として有名な、サム・アルトマンさんも、以前、Yコンビネーターの社長を努めていました)。ギャリー・タンさん自身も起業家、投資家であり、また、ソフトウェアエンジニアやデザイナーでもあります。

(※上の動画は、ギャリー・タンさんが開発した、AIエージェントを活用してソフトウェア開発チームを構築するためのツール「GStack」の紹介動画です。そのツールは、単にコードを書くAIツールではなく、アイデアの検証(プランニング)からUIデザイン、コーディング、テスト、レビューに至るソフトウェア開発の全プロセスを、AIエージェントの「チーム」として自動化・並列化することができるツールです。)

この記事の冒頭の動画や、マンガや、この記事の内容は、ギャリー・タンさんの下記リンクのX記事を参考にしています。この記事や動画やマンガで取り上げているのは、下記リンクのX記事で語られている内容の一部だけです。ですので、もし興味があれば、そのほかの部分もご参照ください。

参考:Y Combinator(Yコンビネーター)ってなに?

Y CombinatorYコンビネーター、ワイコンビネーター)は、世界的に有名なスタートアップ支援組織です。スタートアップ企業向けの初期投資や、起業家育成プログラムを提供しています。Yコンビネーターは、これまでに、たくさんの世界的なスタートアップ企業を支援して、成功に導いてきました。(※Y Combinatorが支援したスタートアップ企業の一例:OpenAI、Airbnb、Stripe、Coinbase、DoorDash、Scale AI、Dropbox、Reddit、Instacart、GitLab、Kalshi、Replit、Twitch、などなど)。

(※上の動画は、Y Combinatorが支援した起業家たちに対して「どうやって最初のお客さんを獲得しましたか?」という質問をしている映像です。YouTube動画の「設定」→「音声トラック」→「日本語」に設定することで、日本語音声が聞けます。)

下の動画は、Y Combinatorのイベントで、下記のような、AI時代のテック業界を代表する経営者たちと、ギャリー・タンさんが対談している映像です。(4つ目の動画は、そのイベントの映像ではありません)。

  • サム・アルトマンさん:OpenAI(オープンAI、オープンエーアイ) 共同創業者 & CEO
  • イーロン・マスクさん:テスラ(Tesla Inc.) CEO、SpaceX(スペースX、スペースエックス) CEO、xAI(エックスエーアイ) CEO、X Corp.(旧Twitter) CTO
  • サティア・ナデラさん:Minecraft(マイクロソフト) 会長 & CEO
  • デミス・ハサビスさん:Google Deepmind(グーグル・ディープマインド) 共同創業者 兼 CEO、AIによる功績によりノーベル化学賞受賞

※下の動画のイベントは、「AI Startup School 2025」(AIスタートアップスクール2025)という題名のイベントで、上記のような、AI業界を代表する人たちを招いて行われました。そのイベントの映像は、こちらのYouTube動画の再生リストで視聴できます。

サム・アルトマンさん:OpenAI 共同創業者 & CEO

イーロン・マスクさん:テスラ CEO、SpaceX CEO、xAI CEO、X Corp. CTO

サティア・ナデラさん:Minecraft 会長 & CEO

デミス・ハサビスさん:Google Deepmind 共同創業者 兼 CEO、ノーベル賞受賞者

※上の動画は、英語の動画ですが、日本語字幕を表示させることができます。

※スマホのYouTubeアプリの場合は、映像の上をタップして、右上の歯車のアイコンを押してから、「字幕」→「自動翻訳」→「日本語」を選択すると、日本語字幕が表示されます。

※パソコンの場合は、映像の右上にある「字幕」アイコンを押してから、歯車のアイコン(「設定」)を押して、「字幕」→「自動翻訳」→「日本語」を選択すると、日本語字幕が表示されます。)

参考:「新しいAIモデル」より、「すこし古いAIモデル+ハーネス」のほうが性能が高くなることもある

ここでは、ハーネスの重要性がわかる事例を、ひとつ紹介します。(すこし専門的なソフトウェア開発の話になりますが、ご参考までに)。

その事例とは、「新しいAIモデルを一度の指示だけで使う場合」よりも、「少し古いAIモデル+すぐれたハーネス」のほうが高性能になる、という事例です。これは、実用上のAI性能が、AIモデル単体ではなく、ハーネス設計によって大きく左右されることを示唆しています。

ですが、「AIモデルの性能は重要ではない」というわけではありません。

重要なのは、「AIモデルか、ハーネスか」ではなく、「AIモデルの能力を、ハーネスによってどれだけ引き出せるか」です。

「新しいAIモデルを一度の指示だけで使う場合」よりも、「すこし古いAIモデル+ハーネス」のほうが高性能になる、ということの具体例として、よく引用されるのが、プログラミング課題のベンチマークである、HumanEvalに関する事例です。

AI業界の重要人物のひとりであるアンドリュー・ンさん(Andrew Ng)は、DeepLearning.AIの記事で、AIモデルのGPT-3.5を、ゼロショット、つまり、「一度の指示だけで使った場合」の正答率は48.1%であり、より新しいAIモデルであるGPT-4をゼロショットで使った場合の正答率は67.0%だったと紹介しています。

一方で、GPT-3.5を、反復的なエージェントワークフローに組み込んだ場合の正答率は、最大で95.1%に達したと説明されています。ここでいう「反復的なエージェントワークフロー」とは、計画・実行・検証・修正を繰り返せるようにする仕組みのことであり、この記事で説明している「ハーネス」によって実現される考え方に近いものです。つまり、より新しいAIモデルであるGPT-4を一度の指示だけで使うよりも、すこし古いGPT-3.5を、検証と修正を繰り返せる仕組みの中で使ったほうが、高いスコアになったということです。

(※アンドリュー・ンさん(Andrew Ng)は、AI研究・教育・事業化をつなぐ、世界的な重要人物の一人です。彼は、DeepLearning.AI創業者、AI Fundマネージング・ジェネラル・パートナー、LandingAIエグゼクティブ・チェアマン、Coursera共同創業者 兼 会長、スタンフォード大学非常勤教授などを務めています。また、過去にはGoogle Brainチームの創設時のリーダーや、Baiduの副社長 兼 チーフサイエンティストも務めました。)

(※注:上記の「正答率95.1%」という数値は、「GPT-3.5が単独で最初から完璧なコードを書いた」という意味ではありません。元になっているLDBという研究では、Reflexionなどによって生成されたプログラムを、GPT-3.5をデバッグ用の中核として使う仕組みによって修正しています。LDBは、コードを小さな実行単位に分け、実行結果や中間状態を確認しながら、どこにバグがあるのかを特定し、修正を繰り返す仕組みです。)

この事例が示しているのは、「古いAIモデル+ハーネスが、無条件に、新しいAIモデルよりもすぐれている」ということではありません。むしろ、重要なのは、AIモデルを使って一度だけ回答を得るのではなく、テストし、失敗を見つけ、修正し、再度検証する環境を与えることで、AIモデルの能力を大きく引き出せるという点です。

言い換えると、このHumanEvalの事例は、「AIモデル単体の賢さ」だけでは、実用上の性能は決まらないことを示唆しています。AIにどのような道具を与えるか、どのように失敗を検出するか、どうやって修正のループを回すか。そうしたハーネス設計によって、同じAIモデルでも、あるいは少し古いAIモデルでも、最終的な成果が大きく変わる、ということです。

参考:ハーネスエンジニアリングの定義は、十人十色

この記事では、ギャリー・ターンさんのたとえ話を紹介しながら、ハーネスエンジニアリングについて解説してきました。

ですが、じつを言うと、この記事で紹介している「ハーネス」は、あくまでも、ギャリー・タンさんが定義するところの「ハーネス」なのです。

AIの分野における「ハーネス」や「ハーネスエンジニアリング」という言葉は、まだ普及し始めたばかりの新しい言葉です。そのため、それらの言葉の定義は、まだ明確には定まってはいません。ハーネスエンジニアリングの定義については、いろいろな意見があり、まだ明確に確定的なハーネスエンジニアリングの定義があるわけではありません。

そこで、ここでは、ハーネスエンジニアリングについての補足として、いろいろな人たちが考える、いろいろな種類のハーネスエンジニアリングについて紹介したいと思います。

たとえば、「AIエージェントの″ハーネス″に関わる混乱と私見」という記事では、いろいろなAI企業などの人たちが、それぞれ独自の定義で使っている「ハーネス」という言葉を、「内部ハーネス」と「外部ハーネス」に分けて整理する考え方を紹介してくれています。

また、OpenAIや、Anthropicや、そのほかの企業や人々のハーネスエンジニアリングに関する考え方や意見については、下記リンクのページをご参照ください。

(※また、「ハーネス」という言葉と、意味が重なる部分がある言葉として、また、広い意味で「ハーネス」と似たような意味やニュアンスがある言葉として、「ガードレール」や、「スキャフォールディング」という言葉もあります。「スキャフォールディング」(scaffolding)は、直訳すると「足場」という意味です。)

ハーネスを作って、AIの真の実力を引き出そう!

ここまでの話で、AIを活用するうえで、ハーネスが重要だということがお分かりいただけたかと思います。

あなたもハーネスエンジニアリングを実践して、AIの潜在能力を引き出してみませんか?