市川市市川とかどうやって区切ればいいのか?

http://taku910.github.io/mecab/


また、teratailに興味をそそる質問が…


住所を分割する方法を探しています


市川市市川とかどうやって区切ればいいのか悩みますね。

そんなときこそ、形態素解析(けいたいそかいせき、Morphological Analysis)

で分かち書きすればいいんじゃないかなと思います。


やってみました。


市川市市川や四日市市も綺麗に分かち書きされてますね。

mecabの辞書ipadicは全国の住所が入っているのでまず問題なく行けそうです。

佐賀県杵島郡大町町大町もきれいに分かち書きされてます。

東京都府中市も京都府にならず、きれいに分かち書きされてます。


あとはphpやrubyで抜き出せばOKですね。

参考:

rubyのmecabバインディングnattoを使う


PHPコマンドラインの結果を取得する


PHP から Mecab を使うコード



追記:

郵便番号などで検索可能ならDBやデータもいらず

Google CGI API for Japanese Inputにてひっぱてこれます。

GETにて

http://www.google.com/transliterate?langpair=ja-Hira|ja&text=272-0034


JSON

[["272-0034",["千葉県市川市市川","272-0034 千葉県市川市市川","272-0034"]]]