MAGAZINE

ルーターマガジン

AI/機械学習

生成AIはファイル内の埋め込み画像を見てくれるのか

2026.01.30
Pocket

昨今のAIブームの影響を受けて、各組織で内部ドキュメントをどのように生成AIで参照するかを思案していることかと想像します。 本記事では、そこで課題となるであろうファイル内の埋め込み画像の扱われ方について検証します。

お急ぎの方は 検証結果まとめ からご覧ください。最近のマークダウン一色のAI界隈に一石を投じる結果になっています。

目次

  1. 前提条件
  2. 検証対象ファイルの作り方
    1. HTML
    2. PDF
    3. マークダウン
  3. 検証と結果
  4. 検証結果まとめ
  5. 総論

1.前提条件

東京都の補助金ページ を対象に、HTML,PDF,markdownの3ファイルを対象に比較検証します。 今回の検証に用いる生成AIモデルは、2026年1月時点でGoogleの最も強力なエージェント型モデルであるgemini-3-pro-previewを使い、AIの思考プロセス中にGoogle検索しないよう「Grounding with Google Search」はOFFにします。

2.検証対象ファイルの作り方

HTMLファイルの作り方

検証対象の東京都の補助金ページをブラウザで開き、devtoolsからHTMLをコピーしファイルに保存します。この時に、HTML内の相対パスのURLが参照先を失わないように、以下のようなbaseタグを保存したHTMLファイルに追記します。

<base href="https://www.kankyo.metro.tokyo.lg.jp/climate/home/dannetsu-solar/">

PDFファイルの作り方

保存したHTMLファイルをブラウザで開き、ブラウザの印刷機能でPDFに印刷します。この時に印刷したPDF内の文字列が選択できることを確認します。選択出来ない場合は別の方法でPDFに印刷または変換します。

マークダウンファイルの作り方

HTML2markdownが出来れば良いのですが、scriptタグやmetaタグなど描画に現れない要素を含むHTMLをちょうどよく変換しれくれるものが見つからなかったため、生成AI(gemini-3-pro-preview)に変換してもらいました。 変換に用いたプロンプトは以下です。

添付のHTMLファイルに記載の内容をマークダウンに変換してください。

HTML内でimgタグで掲載されている画像は以下のようなマークダウン記法に正しく変換されていたため、このまま使用します。

### 補助項目(赤字部分がR7年度拡充等)

![補助項目](https://www.kankyo.metro.tokyo.lg.jp/documents/d/kankyo/2025-05-08-181614-729)

3.検証と結果

画像内の表にしか記載されていないV2Hの補助率と補助限度額を聞いてみます。

▼画像内の表

補助項目 補助率・補助額・上限額
V2Hの設置(戸建住宅のみ対象) 1/2(上限50万円)
10/10 (上限100万円(太陽光、V2H及びEV/PHVが揃う場合に限る))

▼プロンプト

添付の〇〇ファイルに記載されている内容から、V2Hの補助率と補助限度額を教えてください。

〇〇は添付したファイルの形式(HTML or PDF or マークダウン)をいれます。 補助率1/2と10/10の2系統の回答が期待値になります。

▼マークダウンを添付したときの生成AIの回答(HTMLも同様)

提供されたマークダウンファイルのテキスト情報に基づくと、V2Hの「補助率」および「補助限度額」に関する**具体的な数値は記載されていません。**

これらの詳細情報は、ファイル内の「### 補助項目(赤字部分がR7年度拡充等)」セクションにある**画像(`![補助項目](...)`)**の中に表として記載されていると推測されますが、テキストデータとしては読み取ることができません。

ファイル内のテキストから確認できるV2Hに関する情報は以下の通りです。

*   **申請受付窓口(戸建住宅向けV2H)電話番号**: 03-6633-3823
*   **併給に関する注意**: 都・クール・ネット東京が実施する他の同種の助成金(V2H等)と重複して受給することはできません。

回答の文言の違いはありますがHTMLの場合も同様に画像URL内の情報は参照してくれませんでした。

▼PDFを添付したときの生成AIの回答

添付のPDFファイル(4ページ目)の「補助項目」一覧表によると、V2H(戸建住宅のみ対象)の補助率と補助限度額は以下の通りです。

条件によって2つのパターンがあります。

**1. 基本**
*   **補助率:** 1 / 2
*   **補助限度額:** 50万円

**2. 太陽光・V2H・EV/PHVが揃う場合**
*   **補助率:** 10 / 10
*   **補助限度額:** 100万円

PDFを添付した場合は、画像内の情報も参照してくれて期待通りの回答を得られました。

4.検証結果まとめ

gemini-3-pro-previewに対して画像を含むPDF、マークダウン、HTMLファイルを添付し、埋め込み画像内の内容について質問した結果が以下。

  • PDFの場合、画像内も参照して回答してくれる。
  • マークダウン、HTMLの場合、画像内は参照してくれない。

5.総論

URLリンクとして画像が埋め込まれているHTMLやマークダウンでは、Geminiは画像内までは参照してくれませんでしたが、画像本体が埋め込まれているPDFに関しては画像内の情報まで参照して回答してくれました。生成AIの文脈において、PDFがマークダウンに完全に置き換わることは無いというのが現状の結論です。

Pocket

CONTACT

お問い合わせ・ご依頼はこちらから