2026-3-20(AYSA西部部会会員 KNK)
AIはまだ画像の日本語を十分に読めない (2026年3月現在)

先日YouTubeを見ていたら、自慢げに「我が社は領収書の画像を全部AIに読ませて、自動で会計処理をしている」と言っている人がいた。私も数枚の領収書で試してみた。完全な表計算データが出力された。しかし現状でもこれで安心してはいけない。
イーロンマスク氏などは今年中にもAIは人間の知的能力を超えると言っている。
しかし情けない事に、先日縦書きで段組の日本の新聞の画像をAIにテキストにして貰った。難しい漢字も使ってあったが、明らかに大人ならはっきりと読めるものだったが、固有名詞や3字分を1字と解釈したりと全く使い物にならない。まず入り口の文字を認識するレベル「OCR」でこうなのだ。(2026年3月現在)
日本はこんな状態で、果たしてAIの恩恵に預かれるのだろうか?明らかにAIの学習量が少ないという事だ。また先日AIにイラストを描かせたことを思い出した。「日本風」と注意してもどうしても「中国風」になってしまうのだ。これなどAI先進国の中国からの膨大な学習データが提供されているからなのだろう。
日本型AIも良いだろうが、日本の学習データの少なさを何とかすべきではないか。(また進んでAIを使おうという機運もまだ盛り上がりが少ないということも一因か)。これでは便利な機能も制限されてしまう。なるべく文字がくっきりした解像度高めで曲がっていない「文字の画像」を読ませる必要がある。面倒だがカメラよりもスキャナーの方が良いという事。これもAIの学習量が増えればそんな事は無くなるだろうが。
(以下はとあるAIからの引用)
まだ完全に安心して任せられる段階ではない
縦書き日本語の新聞の文字起こしをお願いした。
人間ではハッキリ読める文字だが、かなり間違いがあった。
領収書の写真などをアップして、表計算を作成してもらう方法があるが、日本語に関してはまだまだの感じがする。
AIの能力はこれらの出力に対して大丈夫なのか?安心して任せて良いのか?
率直に言うと、「まだ完全に安心して任せられる段階ではない」が現実です。
ただし、「用途と使い方を選べば十分実用になる」レベルには来ています。
■ なぜ日本語OCR(文字起こし)は間違うのか
特に縦書きの新聞はAIにとって難易度が高いです。
主な理由は:
- 縦書きレイアウト(段組み・ルビ・見出し混在)
- 古いフォントや新聞特有の字体
- 似た漢字(例:未/末、口/ロ)
- 句読点や送り仮名の揺れ
- 画像の傾き・かすれ
人間には簡単でも、AIは「画像→文字」の変換をしているため、どうしても誤認識が起きます。
■ 領収書や表計算は比較的強い理由
一方で、領収書などは精度が高くなりやすいです。
- レイアウトが規則的(表形式)
- 数字・日付・金額などパターン化されている
- フォーマットが似ている
ただし日本語が入ると:
- 店名や但し書きで誤変換
- 税率や合計の取り違え
などは普通に起こります。
■ 「安心して任せていいか?」の結論
用途ごとに分けて考えるのが重要です。
◎ 任せてOK(実用レベル)
- 下書き・たたき台作成
- 大量データのざっくり整理
- 概要把握(新聞の内容要約など)
△ 注意して使う(確認前提)
- 領収書のデータ化
- 日本語文章の正確な文字起こし
- 表計算の自動生成
→ 必ず「人間の目でチェック」が必要
✕ 任せきりNG
- 金銭処理(確定申告など)
- 契約・法的文書
- 医療・重要判断
■ 精度を上げるコツ(かなり重要)
同じAIでもやり方で精度は大きく変わります。
- 画像はできるだけ高解像度・傾きなし
- 「縦書きです」と最初に明示する
- 「一文字も省略せず正確に」と指示
- 1回で終わらせず、再チェックさせる
→「間違いがないか再確認して」と追加
■ 現実的な使い方(おすすめ)
一番失敗しにくい運用はこれです:
- AIに文字起こしさせる
- 人間がざっと確認
- 気になる部分だけ再度AIに聞く
→ 「AI=作業の8割、人間=最終責任」
■ まとめ
- 日本語(特に縦書き)はまだ弱点あり
- 便利だが「完全自動化」は危険
- チェック前提なら十分使える
