私刑類纂の進捗

お正月だから、という訳ではないのですが、ここ最近手が回っていなかった私刑類纂の打ち込みというかOCRの修正というかを行っています。

しかし、まぁ一日に2ページくらいです。

今日はp.53-54を打ち込みました。

  • 鵜坂神社の尻打祭
  • ○○と淫交せし者
  • 後妻打
  • 親の許さぬイタズラ娘

といった内容です。(○○の部分は差別用語なので伏せ字にしています)

相変わらず酷い内容が並んでいます。一つ例に出しますと、こんな感じです。

▲鵜坂神社の尻打祭

平安朝の頃、越中國婦負郡鵜坂神社にて行はれしといへる「尻打祭」は、多淫の女に對する神事としての刑罰なり、當日神主禰宜等立會ひて、其年媾曳せし男の數だけ尻を打ちしなりと云ふ
此變態と見るべき近江筑摩の鍋かむり祭は、今尚其形式存在すといへども、右の尻打祭は早く廢りて、今は同地方の人々も知らざる者多しと聞く
先年富山縣廰内務部にて古記錄を調査せしも、何等得る所なく、何時頃迄行はれし事なるかも不詳なりしと云ふ、然れども我輩察するに、源俊賴の家集に「いかにせむ鵜坂の森に身はすとも君が笞の數ならぬ身を」とあるを始めとして、多くの古書に散見する所なれば、全くの妄誕虛說にはあらざるべし、且つ郡名のネイ卽ち婦負といへるも、婦が笞を負ひしといへるに因めるならんかと思ふ

大変興味深いですね。

外骨文庫:私刑類纂の作業進捗(13.12.02)

神沼も所属している電子書籍発行研究団体である竹の子書房で行っている「宮武外骨の著作を寄ってたかって電子的に復刻しちゃうぞ企画」、通称「外骨文庫」の作業についてご報告しますよ。

本日の作業はOCRで取り込んだデータから、1ページ分の記事を修正しながら読んでいくというもの。読みながら圏点(傍点とか丸傍点とか白丸傍点とか)やルビを打ち込んで行く作業を行いました。

基本的には作業はこの繰り返しです。OCRの成功率が低いので、結局人手による修正が必要です。一日1ページ作業したとしても、138ページありますから、作業従事者が一人なら半年がかりの作業になります。

作業を行った後で、EPUB形式でも書き出して今日の作業は終了。これは後でまた時間を取って本文を読み、誤字などを抜き出す作業のためです。EPUB形式にしておけば、様々な環境で読めるのが強みです。

本日の作業結果の一部
本日の作業結果の一部

先はまだまだ長いです。

「 猥褻風俗史」をスキャンするの巻

寄ってたかって宮武外骨の著作を電子化しようじゃないの、というプロジェクトが立ち上がってから、もう一ヶ月近く経っている訳ですが、今回は「猥褻風俗史」(宮武外骨, 1911)という本をスキャンしてみました。

まずは原本を入手。2,000円しませんでしたが、明治四十四年発行のオリジナルをゲット。

これが猥褻風俗史の原本です
これが猥褻風俗史の原本です

そしてこれをスキャンする前に、思い切って中身をばらします。和装の本でしたので、糸を切ってやればバラバラ……。

ページごとにバラバラにします。結構状態は悪いですな
ページごとにバラバラにします。結構状態は悪いですな

家には実用的なフラットベッドスキャナが無いので、ここはいつも通りScansnapに頑張ってもらう訳です。まぁ、普通なら止めますわな。

A3キャリアシートよ、今こそ君の出番だ!
A3キャリアシートよ、今こそ君の出番だ!

普段余り出番のないA3キャリアシートをここぞとばかりに使ってみました。原本は何といっても和紙ですからね。そのままではScansnapに通すことができません。これは実験するまでもありませんでした。

順調にScansnapに読み込まれていく猥褻風俗史
順調にScansnapに読み込まれていく猥褻風俗史

そしてこれが読み取られた原稿。なかなか奇麗です。今回はカラーモードで、一切何も加工しない方針で読み取りました。

これが実際に読まれた結果です
これが実際に読まれた結果です

結構原本の状態がよろしくなくて、これからこれを加工して読みやすくしていくのです。たぶん。

引用文献

宮武外骨 (1911) 猥褻風俗史, 大阪, 雅俗文庫

「私刑類纂」の作業について

そんな訳で私刑類纂の影印本(光学スキャンによる複製本みたいなものだと思って下さい)を入手したのは11月13日でした。既にこの日から今日の時点で2週間以上が経過しています。作業は色々とありましたが、基本的には旧仮名遣いと旧漢字との戦いになります。「猥褻風俗史」と比較すれば、総ルビでないので楽なものです。分量はありますが、割と快適に作業できます。

つまり、「猥褻風俗史」や「スコブル」といった本は総ルビなのです。こうなってくると作業量3倍以上になります。

影印本は勿論Scansnapで取り込みます。ハードカバーだろうが数十年前の本だろうが構うことはありません。カッターで背を切り落とし、さくさくと裁断してばりばりスキャンします。

2013 11 28 20 43 50

この時点で加藤さんを始めとした方々には驚かれてしまいました。いいじゃん。オリジナルじゃないんだし、という気持ちでしたが、僕は後にもっと心痛むことをすることになります。てへ。

スキャンはScansnapの「エクセレント」で、白黒2値で取り込みました。グレイスケールやカラーだとさすがに一枚の容量が大きすぎるかと懸念したためです。

だいたいこんな感じになっています。

スクリーンショット 2013 11 28 20 50 48

見ての通り、内容が酷い(褒め言葉

これらの取り込んだファイルは各ページ毎に保存して、OCRに掛けました。作業は加藤 (@azukiglg)さんに依頼。作業開始となりましたが、これからが結構難航する点が続出するのでした。ここら辺の作業はまた今後ご紹介します。