KuroNetくずし字認識サービスの使い方
https://3yokohama.hatenablog.jp/entry/2023/05/21/204716KuroNetくずし字認識サービスは、IIIFに準拠した画像を対象に、多文字くず
し字OCR機能使用して古文書の翻刻をする無料サービスです。「KuroNetくずし
字認識ビューア」と「ダッシュボード」の2つのツールを利用します。両方と
もログインしておく必要があります。「KuroNetくずし字認識ビューア」でく
ずし字OCRを行う領域を指定し、「ダッシュボード」でくずし字OCRの動作状態
を表し、文字の解析を行います。
KuroNetくずし字認識ビューアは古文書をページ毎に表示することが出来ます。
次を押してページ移動します。くずしを認識したいところを選択して、選択範
囲を決めます。選択範囲が決まったら、その部分をクリックすると文書のURL
が表示されている上に「KuroNetくずし字認識サービス」という部分があるの
で、そこをクリックすると、「ダッシュボード」に選択した画像が移動します。
予約:実行、処理:完了、閲覧の場所を「実行」を押すと解析を行う。数分位
掛かって、処理が完了と出てくる。そこで閲覧を押すと、解析結果が文書の上
に赤字で翻刻を表示する。テキスト化も自動、手動、編集も出来る。このエデ
ィタは使いづらい感じです。
「KuroNetくずし字認識サービス」の使い方については、このサービスのペー
ジにあることはあるのですが、理解出来ない。何回も読み返しても駄目だった。
なるべく教えたくない。という意志をもって意地悪く書いてあるのかなと疑い
たくなるような内容でした。(本当は真面目に書きすぎて余計判らなくなった
という感じです)そこでChatGptで「KuroNetくずし字認識サービス」の使い方
を教えて下さいと入力すると「KuroNetくずし字認識ビューア」と「ダッシュ
ボード」の2つのツールを使うということ。ビューア表示された画像を選択範
囲を決めて「ダッシュボード」に送るということが一番に書いてあった。それ
でやり方の基本は判った。ChatGptの要約する力は凄いですね。「KuroNetくず
し字認識サービス」のページから持ってきたのでしょう。でも要領よく使って
いる。IIIFに準拠した画像の細かい説明が一杯出てきてよくわからなかった。
日本古典籍くずし字データセットの一覧に載っている文書はそのままこのシ
ステムで翻刻することが出来る。
このシステムは2022年10月頃最新版がリリースされていた。みを(miwo):AI
くずし字認識アプリ と同じ時期にリリースされていたらしい。でも知らなか
った。今回、調査して初めて判った。またKuroNetくずし字認識サービスも先
日読んだときは使い方がよくわからなかった。今日、本気で読んでみた。漸く
使い方が判った。使い方のマニュアルを作っておいた方が良さそうです。古文
書を読む人は大抵ITにはあまり得意でない人が多いから、判りやすいマニュア
ルがあると良いですね。
今後地方文書などをIIIF (International Image Interoperability Framework
)形式の画像にする方法を調べないといけない。今後の課題ですね。
KuroNetくずし字認識サービス
https://mp.ex.nii.ac.jp/kuronet/KuroNetくずし字認識サービス(AI OCR)
http://codh.rois.ac.jp/kuronet/#viewer書名一覧 | 日本古典籍くずし字データセット(IIIF形式の古文書画像が置い
てある)
http://codh.rois.ac.jp/char-shape/book/