このツールを使うにはログインが必要です
このツールはクレジットを消費する可能性があります。続行するにはログインしてください。

AI OCR → Markdown

概要

画像や PDF 文書からテキストを抽出し、構造化された Markdown に変換する AI OCR ツールです。表・ハイパーリンク・埋め込み画像もプレーンテキストと一緒に処理します。ファイルをアップロードすると認識が自動的に開始され、結果はページ単位で返されます。ページごとのコピーと全文書のダウンロードに対応しています。

認識精度に影響する要因

ソースファイルの品質が最も重要です。精度を上げるには以下が効果的です。

  • 150 DPI 以上のスキャンで文字が明瞭・遮りなし — 最高精度
  • ぼやけた写真、大きく傾いたページ、密度の高い透かし、6pt 以下の極小フォントはエラーの原因になります
  • 複数カラムや複雑なレイアウトは、ルールベースの従来型 OCR より精度良く処理されます

PDF はページごとに個別処理されます。処理時間はページ数に比例するため、1 回の送信は 50 ページ以内に抑えることを推奨します。

各ページの結果に含まれるもの

認識完了後、各ページは以下を返します。

  • Markdown 本文 — 見出し、段落、リスト、コードブロック
  • — Markdown のテーブル形式で抽出され、個別にコピー可能
  • ハイパーリンク — 文書内で見つかった URL を個別にリスト
  • 埋め込み画像 — 検出可能な場合、グラフや図をインライン base64 画像として抽出
  • ページのサイズと DPI — ソースページの元のピクセル寸法

対応ファイル形式

画像形式

  • JPEG、PNG、WEBP
  • GIF、BMP、TIFF
  • SVG(ベクター画像)
  • 単一ページのスキャンやスクリーンショットに最適

文書形式

  • PDF(何ページでも可)
  • 各ページを独立して認識
  • ページごとに結果表示・個別ダウンロード対応

結果のダウンロード

個々のページは .md(Markdown)または .txt(プレーンテキスト)としてダウンロードできます。複数ページの文書は「すべてダウンロード」で全ページを 1 つのファイルに結合し、ページ間を --- 区切りで分けます。