漢字・ひらがな・カタカナが混在した日本語テキストをひらがな・カタカナ・ローマ字に変換するツールです。サーバー側で Kuroshiro と Kuromoji の形態素解析エンジンが処理し、選択した変換モードに応じた結果を返します。
変換モードごとの出力の違い
通常モード:文字を直接置き換えます。東京に行きます → とうきょうにいきます(ひらがな変換時)。スペースなし、元の漢字なし。
分かち書きモード:語境界にスペースを挿入します。同じ入力が とうきょう に いきます になり、どこで単語が区切れるかを確認しやすくなります。
送り仮名モード:漢字を残しつつ、活用語尾部分だけをかっこで注記します。食べます → 食(た)べます。語幹は漢字のまま、変化する部分だけに読みが付きます。
振り仮名モード:すべての漢字に完全な読みをかっこで付けます。東京に行きます → 東京(とうきょう)に行(い)きます。教科書のルビ注音に相当するプレーンテキスト形式です。
ローマ字表記システムの選び方
変換対象をローマ字にした場合、3 つの表記規則から選べます。
ヘボン式(最も一般的)
- 英語の発音習慣に最も近い
ちょっと → chotto、新幹線 → shinkansen- 国際的な地名表記や教科書の標準
日本式 / パスポート式
- 日本式:五十音図に忠実 —
ちょっと → tyotto、し → si - パスポート式:現在の日本政府旅券基準 — 長音処理が異なり
大野 → Ohno(Oono ではない) - 日本式は学術言語学以外ではほぼ使われない
送り仮名・振り仮名モードとローマ字変換の組み合わせは効果が限定的です。かっこ内の読みはローマ字化されますが、元の漢字は漢字のままになります。発音注記を目的とする場合はひらがなを変換対象にする方が適しています。
読みが誤る原因と対処法
エンジンは Kuromoji 辞書を使って形態素解析を行います。よくある誤りのパターンは次のとおりです。
- 同形異音語:
今日は会話ではきょうですが今日はではこんにちです。周囲の文脈が少ないと誤りやすくなります - 固有名詞:地名・人名は非標準の読みが多く、辞書に収録されていないことがあります
- 新語・ネット用語:最近の造語は辞書に未登録のものがあります
読みが誤っていると感じたら、分かち書きモードに切り替えてエンジンが選んだ分割境界を確認してみてください。誤分割がある場合、そこが読み間違いの原因であることが多いです。
目的別の使い方のコツ
- 入力練習: 通常モード → ひらがな。長い文章より短い文の方が精度が安定します。
- 教材への注音: 振り仮名モード → ひらがな。長めのテキストを入れる方が同形異音語の精度が上がります。
- 漢字の読み確認: その単語だけを貼り付け、文全体を入れない方が分析が集中します。
- 日本語を知らない人向けの資料: 通常モード → ローマ字(ヘボン式)。分かち書きモードにすると単語の区切りがわかりやすくなります。