投稿者 スレッド: AIで古文書を読んでみる?  (参照数 31 回)

admin

  • Administrator
  • Hero Member
  • *****
  • 投稿: 58817
    • プロフィールを見る
AIで古文書を読んでみる?
« 投稿日:: 5月 21, 2023, 02:51:46 pm »
AIで古文書を読んでみる? - つみかさね
https://3yokohama.hatenablog.jp/entry/2023/05/20/234309

英会話の出来る人は世の中に急速に増えてきている。でも100年前の古文書は
読めない人ばかりになってしまった。読める人数千人(0.01%以下)と言われ
ている。古文書を読む会等は殆ど高齢者が多く若い人はかなり少ない。そこで
AIの進歩で古文書を読めるようになってきている。将来をみれば良い傾向だと
思う。そこでAIで古文書を読んでみた。

可読率という指標で古文書をAIがどれくらい読めているかを評価している。良
い結果を出しているものについては可読率95%以上のモノもある。

KuroNetくずし字認識サービスとAIくずし字認識アプリみを(miwo)というの
が現状で使うことが出来るツールです。

192文字 認識していない4文字、読み間違えているもの8文字で93%という評価
をつけている。原稿によってはそれどれ可読率も変わってくる。また何回か同
じ文書を読み直しても、読めたり、読めなかったりすることがある。KuroNet
くずし字認識サービスにログインは出来るようになったが、使い方がいまいち
判らない。そこで「みを(miwo)」を使ってみた。パソコン(Win10)にBlueS
tacks 5というAndroidアプリが動作させることが出来る環境をインストールし
ていて、「みを(miwo)」を動かしてみた。

源氏物語桐壺の冒頭4ページ、小林一茶の「おらが春」を冒頭から25ページ、
川和村地所論所書上  (王禅寺村志村家文書)を冒頭から20ページをそれぞ
れjpgファイルに変換して、メールで送り、Androidアプリメーラーで受信して、
画像として保存する。これらの題材は正解が容易に判る翻刻があるものにした。
確かな判定が出来るようにしてみた。
源氏物語、おらが春は原本が綺麗な古文で書かれている。活字本のような感じ
で綺麗です。だから可読率は高い。でも地方文書の川和村地所論所書上は間違
いだらけになってしまった。こんな文書はまだまだAIには無理な文書ですね。
かなり苦労している感じです。これだけ間違いが多いと、最初から人間が読ん
だ方が整理しやすいかも知れない。読み直すのに結構手こずった。

「みを(miwo)」を起動して、それらのファイルを翻刻する。そこでテキスト
としてコピーする。そしてWindows側のエディタに貼り付ける。何故かOSが違
ってもコピー&ペーストが出来ところがBlueStacks 5の良い所かな?

今回使った原本は比較的保存状態が良いので、可読率は高い。でも汚れ、欠損
等傷んでいる文書では高い可読率は期待できない。AIに読ませるというのは楽
ですが、実はアウトプットを一々人間がチェックする必要がある。特にどれを
正解とするか?不明とするか?欠損するかなど、どうしても人間に依存すると
ころが残ってします。そしてその最後の詰めを出来るのが人間の良い所。AIは
80点は取れるが、残りの20点を詰めて、100点にするのは人間の力がまだ未だ
必要ですね。今後の進化に期待したいと思います。

AIはくずし字が読めるのか?古今集十本による可読率ランキング
https://note.com/hituyu/n/n14e4a05a6c5d
【検証】AIはくずし字が読めるのか【可読率ランキング】トップ3 - YouTube
https://www.youtube.com/watch?v=RNiPZ178T3Q&t=217s
KuroNetくずし字認識サービス(AI OCR) | ROIS-DS人文学オープンデータ共
同利用センター(CODH)
http://codh.rois.ac.jp/kuronet/
みを(miwo):AIくずし字認識アプリ | ROIS-DS人文学オープンデータ共同利
用センター(CODH)
http://codh.rois.ac.jp/miwo/

【検証】古典籍の全文検索はできるのか(前篇)
https://www.youtube.com/watch?v=3ZgSnvKWM9k
【検証】古典籍の全文検索はできるのか(後篇)
https://www.youtube.com/watch?v=YJd8M3OSL1w