「KuroNetくずし字認識サービス」の紹介ページ

古典のくずし字に接する機会があったのですが当然ながら全く判読できません。くずし字にも規則があるはずだから何かツールがないものかと 探していたらありました。Webツールですが公開されています。使い方が少々分かりにくいものの実に有用なツールと分かり、これを公開し てくれていることにいたく感動したので、多文字認識の使い方を画像を交えて紹介したいと思いました。ただし、勝手に紹介させていただくので ご本家様から苦情があった場合はすぐに閉鎖します。

1.トップページ[codh.rois.ac.jp/kuzushiji-ocr/]
このトップページ(下の画像)から入る必要はないけど一応敬意を表してここからスタート。「KuroNetくずし字認識サービス」のリンクをクリックして次のページに移動

トップページ

さらに下の画像の「KuroNetくずし字認識サービス」をクリックして次のページに移動

リンク先

下の画像(この画像を「画像A」とします)のページから作業を開始します。

処理開始ページ

2.使用方法の概要
くずし字認識は画像Aの水色背景の部分に書いてある「ダッシュボード」と「ビューア」で行います。ビューアに認識させたいくずし字を含む資料を読み込ませ、認識範囲を ダッシュボードに送り、ダッシュボード上で認識を実行させます。認識が成功したら結果を閲覧したり、テキスト化できます。結果の閲覧やテキスト化はビューア画面で行います。 テキスト化の操作がいまいちよく分からないので、ここでは閲覧までの流れを説明します。どうしてもテキスト化が必要な方はトライしてみてください。

3.ログイン又は登録
画像Aの右上の「ログインしてください」というリンクをクリックすると「ログイン」という次のリンクが現れるのでそれをクリック。すると下の画像のページが表示されます。 Google、Facebook、Twitter、emailのいずれかのアカウントを使ってログイン(登録)することになります。ここではemailを選択するので「Sign in with email」 をクリックし、次のページに移動します。

アカウント選択ページ

下の画像のページで自分の持っているemailアドレスを入力して「Next」をクリックすると次のページに移動します。

ログインアカウント入力ページ

下の画像はすでに登録済みのユーザーがログインする場合のページです。始めて登録する場合はユーザー名の入力とログインパスワードの入力を求められます。 ユーザー名はログイン後に各ページに表示されます。分かっているとは思いますが、ここで登録するパスワードに自分のemail等のアカウントのパスワードを 使わないよう注意しましょう。

ログインパスワード入力ページ

4.ログインすると下の画像のページが表示されます。先程の画像Aとほぼ同じですが右上にユーザー名が表示されているはずです。もし、「ログインしてください」という 表示になっている場合は、登録したアカウントとパスワードでログインしてください。
「ログイン後にダッシュボードへ移動」と表示されているリンクをクリックしてダッシュボードに移動します。

ログイン後のページ

5.下の画像がダッシュボードのページです。ユーザー名が右上とダッシュボードというタイトル文字の右に表示されます。ダッシュボードには過去に扱ったデータも 残っていますが、いつまで残っているのかは不明です。上から新しい順に並んでいます。下の画像では私が過去に扱ったデータが表示されています。
このページが表示されたらブラウザの機能を使って一旦前のページに戻ります。前のページに戻ってもダッシュボードは必要なときに表示されるので大丈夫です。

ダッシュボードのページ

6.下の画像のページに戻って、今度は「Kuroネットくずし字認識ビューアを起動」というリンクをクリックしてビューワを起動するページに移動します。

ダッシュボードのページから復帰

7.下の画像のページからビューワを起動するのですが、「IIIFマニュフェストURLを入力してください」というところに認識させたいくずし字のIIIFマニュフェストURLを入力する 必要があります。ここでは国立国会図書館古典資料からそのURLを調達することにします。ここではブラウザの別のタブで資料を調達します。

ビューア起動ページ

8.下の画像は国立国会図書館デジタルコレクションの中の「源氏物語」を開いているところです。左下にこの資料のIIIFマニュフェストURLが表示されているので このURLをコピーします。

国立国会図書館デジタルコレクションのページ

9.下の画像のページに戻って先程コピーしたIIIFマニュフェストURLを「IIIFマニュフェストURLを入力してください」という入力エントリーに貼り付け、 起動ボタンをクリックします

ビューア起動ページ

10.下の画像はIIIFマニュフェストURLから資料を読み込んでビューアが起動したところです。先程の国立国会図書館のデジタルコレクションの画像と違うようですが IIIFマニュフェストURLからあるまとまりで資料が読み込まれるので複数ページある資料の場合は先頭ページが表示されます。
まず、ビューアにログインします。ダッシュボードにはログインしましたが、こちらのビューアにもログインする必要があります。 右上の「ログイン」というリンクからダッシュボードにログインしたのと同じアカウント名でログインします。

ビューア表示ページ
11.ここでは先程と同じようにメールアドレスでログインします。
ビューアにログイン

12.ログインすると下の画像のように右上に登録したユーザー名が表示されます。その後、認識させたい箇所までページを進めます。

ログイン後のビューア

13.下の画像のように読み込まれた資料が表示される領域にマウスカーソルを移動するとその領域の右上に「■」のようなボタンが現れるのでそれをクリックします。

ビューアで範囲指定開始
14.下の画像のように認識させたい範囲を十字カーソルで選択します。
ビューアで範囲指定
15.範囲選択後、選択した範囲上でマウスをクリックします。
範囲指定をクリック

16.選択範囲上でマウスをクリックすると次のようなポップアップが現れるので「KuroNetくずし字認識サービス」をクリックします。

ポップアップ

17.下の画像のように、自動的にダッシュボードに移動して一番上に先ほど範囲指定した画像が取り込まれるので、画像の右側の「予約:実行」のリンクをクリックします。

ダッシュボードに移動

18.少し待っていると下の画像のようにくずし字OCRの「成功:閲覧」とか自動テキスト化の「処理:実行」などのリンクが現れます。

くずし字の認識

19.上の画像のページで「成功:閲覧」をクリックすると下の画像のように認識結果が閲覧できます。

認識結果の閲覧

20.ダッシュボードで自動テキスト化の「処理:実行」などの処理はいまいちよく分からないところがあり、私としては認識結果が閲覧できれば それで十分なので深く追求していません。テキスト化に興味がある方はトライしてみてください。
資料の汚れ具合や裏写りなどの影響もあるのか認識結果が100%正しいと言うわけではありませんが、くずし字に知識のない私にはとてもありがたいサイトです。

連絡先:renraku@kuzushiji.inblank.net
(メールアドレスは全角で表示していますのでご連絡いただく場合は半角に置き換えてください。また、あまりメールを確認していませんので対応が遅れるかも知れません。)