2005.09.28 株式会社四次元データ 宮澤了祐
4.2. 単語の追加
Senでは奈良先端科学技術大学院大学の開発したIPADICという辞書を使用していますが、専門用語など辞書に入っていない単語もあります。 それらの単語もLuceneで使用したい場合、辞書に単語を追加する必要があります。 Senの辞書の形式は以下のようなCSVファイルになっています。
見出し語,コスト,品詞,品詞細分類1,品詞細分類2,品詞細分類3,活用形,活用型,原形,発音
コストは単語の発生しやすさです。小さいほどよく発生する単語になります。 だいたい3000程度で良いでしょう。 他の単語の連結と解析できるような固有名詞の場合には、それらの単語より小さい値を設定する必要があります。 詳しい辞書の形式は、同大学の情報科学研究科自然言語処理学講座の辞書の作り方を参照してください。
四次元データ,2500,名詞,固有名詞,一般,*,*,*,四次元データ,ヨジゲンデータ,ヨジゲンデータ
このテキストファイルを、適当な名前(例えば、usr.csv)という名前をつけて「dic」フォルダに保存します。 その後、「dic」フォルダのbuild.xmlの次の個所を変更します。
<java classname="net.java.sen.tools.MkSenDic" fork="true" maxmemory="140m"> <!-- <arg line="customize_dic.csv" /> -->
<java classname="net.java.sen.tools.MkSenDic" fork="true" maxmemory="140m"> <arg line="usr.csv dic.csv" />
ここで新たに作成したユーザー辞書の後ろにdic.csv
を入力しておく必要があります。
もし無ければ、IPADIC辞書が追加されません。
追加したのち、Antを実行して下さい。
辞書を作成したのちに、./bin/sen.bat
(Linuxはsen.sh)を実行して四次元データを形態素解析し
次のような結果になれば成功です。
四次元データ (四次元データ) 名詞-固有名詞-一般(0,6,6) ヨジゲンデータ ヨジゲンデータ
また辞書ファイル(connect.csv,dic.csv)が既に作成された後であれば、
net.java.sen.tools.MkSenDicのmainメソッドを、引数にusr.csv dic.csv
を指定して実行すれば、
Antを実行せずに同じ結果を得ることが出来ます。