マーリンアームズ株式会社

機械翻訳 しっかり入門

第4章 辞書の「語数」に要注意

この章からしばらく翻訳ソフトの選択基準について検討してみましょう。この章ではまず,辞書について,とくにその語数について考えてみましょう。

翻訳ソフトの辞書の「語数」とは

一昔前「芸能人は歯が命」というコマーシャルが一世を風靡しましたが,ワープロソフトや翻訳ソフトなど「自然言語処理」をするソフトウェアにとっては「辞書が命」です。どんなにすばらしいワープロ(仮名漢字変換のプログラム)ができても,辞書に十分な数の単語が「登録」されていなければ,入力した仮名の文字列が思い通りに変換されずに,ヘンテコな漢字が並ぶことになります。翻訳ソフトも同様で,英単語の意味(日本語の訳語)が登録されていなければ,うまく訳されて正しい日本語が出てくるはずはありません。その意味で,「辞書の単語数」は翻訳ソフトを選択する上でひとつの指標にはなります。

最近の翻訳ソフトでは,20万語とか30万語とか,中には100万語などという単語が登録された辞書を売り物にしているものがあります。人間の頭の中にある単語の数は2万語とか3万語とかで,そのうち自発的に(自分が書いたり話したりするときに)使えるのは数千語程度だそうですから,100万語もあればもう十分,これ以上辞書は強化する必要はないのではと思われるかもしれません。

しかし,この100万という数字には裏があります。そもそも100万も英単語があるのでしょうか。今までに世の中で出版された英英辞典あるいは英和辞典のなかで50万語を超える単語数を誇るものはあったでしょうか。恐らくないはずです。ということは,翻訳ソフトの辞書に登録されている100万の単語のうちには,英英辞典に登録されていない単語がたくさん入っているのです。つまり,100万語というのはかなりの「上げ底」の数字なのです。

上げ底の下には,どのような単語が詰まっているのでしょうか。ひとつにはたくさんの「複合語」が独立した項目として数えられています。たとえば,小学館の『ランダムハウス大辞典 第2版』の「note」の説明には,次のような「複合語」の訳語が載っています。

thank-you note: 簡単な礼状
a man of note:名士
a family of note:名家

『ランダムハウス』では,これらの項目は単語「note」の説明にあるだけで,単語数としては数えられていません。しかし,翻訳ソフトの辞書では「thank-you note」も「a man of note」も「a family of note」も独立した1語として登録されているのです。noteのような基本的な単語にはこの種の複合語がたくさんありますから,このように別項目と数えることにより,辞書の語数をかなり増やすことができるのです。

じつは,こういった複合語を独立した単語として登録することには,単に宣伝の意味だけではなく,処理効率という面からも意味があります。「辞書引き」処理が単純になり,翻訳の速度が速くなるという面もあるのです。ですから,一概に翻訳ソフトのメーカーを責めるわけにはいかないのですが,こういった語を「単語数」として数えてよいかどうかには疑問が残ることには変わりがありません。

訳語の数

もうひとつ大きな問題が残っています。「登録単語数」には各単語ごとにどのような情報が書いてあるかはまったく問題になりません。たとえば,noteという単語に「ノート」というひとつの訳語だけが書いてあっても1語は1語なのです。noteのような基本的な単語はさまざまな意味で使われますから,本当は「覚え書き」「メモ」「注釈」「紙幣」などなど,10も20もの訳語が登録されていなければなりません。そして,可能ならばどのようなケースではどの訳語が使われるかを判定して「訳し分け」ができるようになっているのが理想です。訳仕分けの方は技術的に難しいのでやむを得ない面があるのですが,少なくとも訳語の数として,1つや2つでは明らかに不足なのです。

「今度のバージョンアップでは辞書の語数を10万語増やしました」などといえばすごい改良が行われたかのように思われますから,利用者は「ではアップグレードの申し込みをしようか」などと思ってしまいますが,辞書の登録単語数自体にそれほどの意味はないのです。重要なチェックポイントのひとつは,基本的な単語の訳語の充実度と訳し分けの精度,そして,もっとも重要なところは,次の章から説明する「辞書登録機能」の充実度なのです。

前の章 目次に戻る 次の章