mecabに新しい辞書を追加する

mecabに新しい辞書を追加した際の手順の記録。

１．辞書の元になるデータをダウンロードする

データとしてよく利用されているものに、wikipediaのタイトルリストやはてなキーワード、人名事典などがある。今回はwikipediaのタイトルリストを利用した。（はてなキーワードも追加した。このページの下のほう）

ダウンロード先URL
————————————-
http://dumps.wikimedia.org/jawiki/latest/jawiki-latest-all-titles-in-ns0.gz
————————————-

人名事典ならこちらのページからダウンロードできる
（個人的には人名事典は使わない。人名が普通名詞と結構かぶって、名詞の読みが人名なったり、長めの普通名詞が人名と区切られたりと不都合が起こる）
————————————-
http://www.mwsoft.jp/programming/munou/ime_dictionary_link.html#person
————————————-

２．不要なタイトルは削除する

ここからタイトルリストをCSVファイルに加工していく。保存名はwikipedia.csvとした。
まず秀丸エディタで開き、置換の繰り返しで不要タイトルを削除した。

個人的に削除したタイトルの条件

・数字だけのもの
・「(曖昧さ回避)」を含むもの
・３文字以下のもの

・次の言葉で始まるタイトル
————————————-
「日本の～」「日本に～」「日本と～」「日本で～」
「中国に～」「中国の～」
「アメリカに～」「アメリカの～」
「ヨーロッパに～」「ヨーロッパの～」
「.（ドット）～」
————————————-

次の文字を含むタイトル
————————————-
「,（カンマ）」←あるとフォーマットエラーになる。カンマを残すならエスケープが必要。
————————————-

・次の言葉で終わるタイトル
————————————-
「_(何か)」「一覧」「の登場人物」
————————————-

秀丸エディタのマクロで置換するファイル：右クリックしてダウンロード

３．辞典に登録できる状態に整形する

辞書に登録されている単語は通常CSVファイルでこのようになっている

————————————-
工藤,1223,1223,6058,名詞,固有名詞,人名,名,*,*,くどう,クドウ,クドウ
————————————-

値の意味は左から
————————————-
表層形,左文脈ID,右文脈ID,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,読み,発音
————————————-

なので一旦こうした。（スコア）は後で数字に置き換える。

————————————-
日清どん兵衛
————————————-

↓↓↓

————————————-
日清どん兵衛,0,0,（スコア）,名詞,固有名詞,*,*,*,*,日清どん兵衛,*,*,ウィキペディア
————————————-

＜20150814 追記＞
固有名詞のスコアは1でいいと思う。
————————————-
日清どん兵衛,0,0,1,名詞,固有名詞,*,*,*,*,日清どん兵衛,*,*,ウィキペディア
————————————-

このとき利用した秀丸エディタの正規表現

検索：^(.+)$

置換：¥1,0,0,（スコア）,名詞,固有名詞,*,*,*,*,\1,*,*,ウィキペディア

＜20150814 追記＞
スコア1の場合
————————————-

置換：¥1,0,0,1,名詞,固有名詞,*,*,*,*,\1,*,*,ウィキペディア
————————————-

次にスコアを登録する。
コストは、その単語がどれだけ出現しやすいかを示していて、小さいほど出現しやすいという意味になるらしい。

長いキーワードが優先されるよう設定したいので、文字数に比例してコストが小さくなるように設定した。こちらのサイトにある式を参考にコスト値を求める。

コストを求める式
—————————————–
コスト値 = -400 * (文字の長さの1.5乗)の整数
但し、最小で-36000
—————————————–

スコアの登録はUWSCでファイルから一行ずつ読み込んで置換。（秀丸エディタでの計算がよくわからなかったので）

//UWSCファイルの一部抜粋
///////////////////////////////////////////////////////

//タイトルの文字数
moji_suu = POS(“,0,0,（スコア）”,Line_data) – 1

cost = 0 //初期化

//文字数がマイナス（取得失敗）でべき乗するとエラーが出るようなのでIFで回避
IFB moji_suu > 0
cost = INT(-400 * POWER(moji_suu, 1.5))
　IF cost < -36000 THEN cost = -36000 ENDIF Line_data = REPLACE(Line_data,"（スコア）", cost) /////////////////////////////////////////////////////// 最初からすべてUWSCでやればよかったとも思った。秀丸エディタで面倒な置換を何度も繰り返す必要なかったなと。 ４．辞書のコンパイルとインストール

これ以降の作業は必要な辞書を全部そろえてからでいい。

参考サイト

辞書登録には「システム辞書」と「ユーザー辞書」があるが今回はシステム辞書に追加する。（登録に時間はかかるが解析は早い）

csvファイルをmecab-ipadic-2.7.0-20070801ディレクトリに移動する。
ここにcsvファイルも入れておく。この際、改行コードも「LF」になってることを確認した。

自分の環境のパス（cd でココに移動）
——————————————–
/home/username/local/mecab-ipadic-2.7.0-20070801
——————————————–
※↑おそらくこのパスは、辞典CSVファイルが入ったディレクトリならどこでもいい。既に消去してしまっていたら、一時ファイルを作ればいいと思う。そこで次のコマンドを実行する。

mecab-dict-indexを実行するので場所を確認
——————————————–
/home/username/local/libexec/mecab/mecab-dict-index
——————————————–
mecabが使える状態ならどこかにあるはず

コマンドを実行する。

実際のコマンド
——————————————–
/home/username/local/libexec/mecab/mecab-dict-index -f utf8 -t utf8
——————————————–
「-f」はCSVの文字コード、-「t」はバイナリ辞書の文字コードを指定。
（「mecab-ipadic-2.7.0-20070801」がカレントディレクトリでないとエラーが出る）

また、最初に実行した際、こんなエラーも出た
——————————————–
reading ./wikipedia.csv … dictionary.cpp(167) [n == 5] format error:
——————————————–

「,」を含むタイトルが残っていて、削除することでうまくいった。

最後にインストールも忘れずに行う
——————————————–
make install
——————————————–
※もし、インストール前のmecabディレクトリを消してしまっていた場合、インストールはできない。そのときはインストールは諦めて、新しくできた辞書ファイルを所定の場所に移動させる（置換）で辞書を追加することができる。

移動させるファイル名
——————————————
char.bin
sys.dic
unk.dic
matrix.bin
——————————————

移動前（ファイルができる場所）
——————————————
/home/username/local/mecab-ipadic-2.7.0-20070801
——————————————
↓↓↓

移動先
——————————————
/home/username/local/lib/mecab/dic/ipadic
——————————————

はてなキーワードの登録もやってみた

やりかたはwikipediaのときとほぼ一緒。

１．データをダウンロード

ダウンロード元
—————————-
•http://d.hatena.ne.jp/images/keyword/keywordlist_furigana.csv
—————————-

２．CSVファイルの整形

次の条件のタイトルは削除。

・「,（カンマ）」を含むもの
・「2001-01-01」のような日付だけのもの
・数値文字参照「&#～」を含むもの
・「ぱーせんとぜろぜろ」のタイトル（UTF-8に文字コード変換するとタイトルの%00（?
）が半角スペースに置き換わり、インストールエラーが出る。こんなの→「empty word is found, discard this line」）
・「明日（ぬくい）」という人名。残しておくと、「明日（あした）」が「ぬくい」と解釈されて邪魔
・「？？？」という項目

秀丸エディタのマクロで置換するファイル：右クリックしてダウンロード

そして、辞書用に並び替え。
—————————————————————–
ひかりのもり（タブ）光の森
—————————————————————–

↓↓↓

—————————————————————–
光の森,0,0,（スコア）,名詞,固有名詞,*,*,*,*,光の森,ひかりのもり,ひかりのもり,はてなキーワード
—————————————————————–

wikipediaのタイトルリストと違い、多くのタイトルにふりがな情報がある。

実際に使った秀丸エディタの正規表現

ふりがながある項目に対して有効
—————————————————————–
検索：^(.+)\t(.+)$

置換：\2,0,0,（スコア）,名詞,固有名詞,*,*,*,*,\2,\1,\1,はてなキーワード
—————————————————————–

ふりがながない項目用に次の置換も実行
—————————————————————–
検索：^\t(.+)$

置換：\1,0,0,（スコア）,名詞,固有名詞,*,*,*,*,\1,*,*,はてなキーワード
—————————————————————–

上記の正規表現で置換すると、ふり仮名のないタイトルにおいて、空欄「,,（連続カンマ）」ができてしまう。空欄は「*」に置き換える「,,」→「,*,」

あとは（COST）の部分を数値に置き換えて「mecab-dict-index」を実行、そしてインストール「make install」。（もしくは、ファイル移動）