AIで古文書を読んでみる? - つみかさね
https://3yokohama.hatenablog.jp/entry/2023/05/20/234309英会話の出来る人は世の中に急速に増えてきている。でも100年前の古文書は
読めない人ばかりになってしまった。読める人数千人(0.01%以下)と言われ
ている。古文書を読む会等は殆ど高齢者が多く若い人はかなり少ない。そこで
AIの進歩で古文書を読めるようになってきている。将来をみれば良い傾向だと
思う。そこでAIで古文書を読んでみた。
可読率という指標で古文書をAIがどれくらい読めているかを評価している。良
い結果を出しているものについては可読率95%以上のモノもある。
KuroNetくずし字認識サービスとAIくずし字認識アプリみを(miwo)というの
が現状で使うことが出来るツールです。
192文字 認識していない4文字、読み間違えているもの8文字で93%という評価
をつけている。原稿によってはそれどれ可読率も変わってくる。また何回か同
じ文書を読み直しても、読めたり、読めなかったりすることがある。KuroNet
くずし字認識サービスにログインは出来るようになったが、使い方がいまいち
判らない。そこで「みを(miwo)」を使ってみた。パソコン(Win10)にBlueS
tacks 5というAndroidアプリが動作させることが出来る環境をインストールし
ていて、「みを(miwo)」を動かしてみた。
源氏物語桐壺の冒頭4ページ、小林一茶の「おらが春」を冒頭から25ページ、
川和村地所論所書上 (王禅寺村志村家文書)を冒頭から20ページをそれぞ
れjpgファイルに変換して、メールで送り、Androidアプリメーラーで受信して、
画像として保存する。これらの題材は正解が容易に判る翻刻があるものにした。
確かな判定が出来るようにしてみた。
源氏物語、おらが春は原本が綺麗な古文で書かれている。活字本のような感じ
で綺麗です。だから可読率は高い。でも地方文書の川和村地所論所書上は間違
いだらけになってしまった。こんな文書はまだまだAIには無理な文書ですね。
かなり苦労している感じです。これだけ間違いが多いと、最初から人間が読ん
だ方が整理しやすいかも知れない。読み直すのに結構手こずった。
「みを(miwo)」を起動して、それらのファイルを翻刻する。そこでテキスト
としてコピーする。そしてWindows側のエディタに貼り付ける。何故かOSが違
ってもコピー&ペーストが出来ところがBlueStacks 5の良い所かな?
今回使った原本は比較的保存状態が良いので、可読率は高い。でも汚れ、欠損
等傷んでいる文書では高い可読率は期待できない。AIに読ませるというのは楽
ですが、実はアウトプットを一々人間がチェックする必要がある。特にどれを
正解とするか?不明とするか?欠損するかなど、どうしても人間に依存すると
ころが残ってします。そしてその最後の詰めを出来るのが人間の良い所。AIは
80点は取れるが、残りの20点を詰めて、100点にするのは人間の力がまだ未だ
必要ですね。今後の進化に期待したいと思います。
AIはくずし字が読めるのか?古今集十本による可読率ランキング
https://note.com/hituyu/n/n14e4a05a6c5d【検証】AIはくずし字が読めるのか【可読率ランキング】トップ3 - YouTube
https://www.youtube.com/watch?v=RNiPZ178T3Q&t=217sKuroNetくずし字認識サービス(AI OCR) | ROIS-DS人文学オープンデータ共
同利用センター(CODH)
http://codh.rois.ac.jp/kuronet/みを(miwo):AIくずし字認識アプリ | ROIS-DS人文学オープンデータ共同利
用センター(CODH)
http://codh.rois.ac.jp/miwo/【検証】古典籍の全文検索はできるのか(前篇)
https://www.youtube.com/watch?v=3ZgSnvKWM9k【検証】古典籍の全文検索はできるのか(後篇)
https://www.youtube.com/watch?v=YJd8M3OSL1w