「私刑類纂」の作業について

「私刑類纂」の作業について

そんな訳で私刑類纂の影印本(光学スキャンによる複製本みたいなものだと思って下さい)を入手したのは11月13日でした。既にこの日から今日の時点で2週間以上が経過しています。作業は色々とありましたが、基本的には旧仮名遣いと旧漢字との戦いになります。「猥褻風俗史」と比較すれば、総ルビでないので楽なものです。分量はありますが、割と快適に作業できます。

つまり、「猥褻風俗史」や「スコブル」といった本は総ルビなのです。こうなってくると作業量3倍以上になります。

影印本は勿論Scansnapで取り込みます。ハードカバーだろうが数十年前の本だろうが構うことはありません。カッターで背を切り落とし、さくさくと裁断してばりばりスキャンします。

2013 11 28 20 43 50

この時点で加藤さんを始めとした方々には驚かれてしまいました。いいじゃん。オリジナルじゃないんだし、という気持ちでしたが、僕は後にもっと心痛むことをすることになります。てへ。

スキャンはScansnapの「エクセレント」で、白黒2値で取り込みました。グレイスケールやカラーだとさすがに一枚の容量が大きすぎるかと懸念したためです。

だいたいこんな感じになっています。

スクリーンショット 2013 11 28 20 50 48

見ての通り、内容が酷い(褒め言葉

これらの取り込んだファイルは各ページ毎に保存して、OCRに掛けました。作業は加藤 (@azukiglg)さんに依頼。作業開始となりましたが、これからが結構難航する点が続出するのでした。ここら辺の作業はまた今後ご紹介します。