神沼も所属している電子書籍発行研究団体である竹の子書房で行っている「宮武外骨の著作を寄ってたかって電子的に復刻しちゃうぞ企画」、通称「外骨文庫」の作業についてご報告しますよ。
本日の作業はOCRで取り込んだデータから、1ページ分の記事を修正しながら読んでいくというもの。読みながら圏点(傍点とか丸傍点とか白丸傍点とか)やルビを打ち込んで行く作業を行いました。
基本的には作業はこの繰り返しです。OCRの成功率が低いので、結局人手による修正が必要です。一日1ページ作業したとしても、138ページありますから、作業従事者が一人なら半年がかりの作業になります。
作業を行った後で、EPUB形式でも書き出して今日の作業は終了。これは後でまた時間を取って本文を読み、誤字などを抜き出す作業のためです。EPUB形式にしておけば、様々な環境で読めるのが強みです。
先はまだまだ長いです。