2015年4月14日火曜日

日本語の名前の検索は苦労した

 以前、知人に相談されて、小規模な事務所の業務のためのデータベース作りに携わったことがある。10年以上前になるかな。

 その事務所が面白い。仕事がどんどん入ってきているのに、各仕事を紙の台帳によって管理していたたらしい。
 仕事相手や関係者からの電話がバンバンかかってくるのだが、そのつど紙の台帳を開いて記憶を頼りにどの案件かを特定していたという。
 その何が面白いかというと、そこの経営者がITで結構有名な人だったらしいということだ。

 相談を受けて面白そうな話なので乗ったわけだ。
 使い方は、電話がかかってきて、それをデータベースで調べて特定するというもの。
 対立相手からも電話がかかってくるから、相手がけんか腰で訳がわからなくても特定できるようなものがいるということで、いろいろ試した。
 うん、書いていて懐かしい。

 電話のやり取りで出てくるのは、人の名前だ。誰かしらの名前が出てくる。
 そこから何とか案件を特定する必要がある。
 だが、名前は検索がしにくいことに気がついた。

 例えばあべさん。安部、阿部、安倍、安陪といくつも候補が出てくる。わたなべさんだったらさらにバリエーションは豊富だ。
 これを漢字で検索するのは効率が悪い。
 そのため、安陪(あべ)とふりがなを入力するように、入力する側にルールを徹底してもらうということで解決をした。また、ふりがなについては他にも想定される読み方があれば入力しておくということをルール化した。例えば萩原さんについてはおぎはらもはぎわらも入力するようにしたわけだ。

 このルール化によって、検索はうまくいったとのことだった。

 

 今、Googleの検索を見ていると、漢字の違いなどを想定した検索結果が出ているね。
 現在の一般的な業務システムにおいてもああいったことができるようになっているのだろうか?