検索や自動翻訳等についての 私見

2003.6


魔法の機械ではない

 最近、検索サイトや自動翻訳の技術が 急速に発達し、格段にインターネットが便利に利用できるようになった。
しかし、かってのMSーDOSやBASIC時代に育ったものとしては、その原理をユーザーがどこで学習するのだろうかという心配を感じる事が多く なった。
極端な例として、技術信仰として魔法や万能の技術を信じるものが増えているのではなかろうか。
このことは機械に対して過大な期待をもってしまう危険性があるように思える
。信仰になってしまうと、相互理解が難しくなる。

 そこで、検索と自動翻訳に関して素人 なりの理解をの述べてみたいと思う。


1. 検索

 MSーDOSのDOS窓やLinux のTerminalには、findや grepという単独で検索に利用できる FiLter又はCommandがある。
  又そこに使われている中心技術は、pointerを利用した patternmachingである。
Filter は、原則として左側から1文字毎にスキャンし一致した記号があれば、その行又はその位置を返す。
このようにして、フォルダー全体やファイルの中を検索する。
  Windowsでも メモ帳の中に検索があり、文章内の検索を体験できるようになっている。
  エディターでも文書内検索の機能をそなえたものがあり、あいまい検索として、ワイルドカード(wildcard)や正規表現(Reguler Expression)などの機能を伴っている。
  これらは、かって、固定フ ィールド長時代の検索とは其の原理を異にする事にも注意が必要である。
  これらの原理やその応用実習は現在ではUnix BSDやLinuxのterminalモードで体験出来る。
  是非、インターネットを指導される方々、単なる特定アプリケーションに精通しているだけではなく、あからさまに説明の必要がないが一層下に下りた研修を経てからにして頂き たい。 
  極めて機械的な作業がそこで行われているに過ぎないことがわかる。すべて検索にたよることは、難しい事もわかる。
万能ではない、その特質を知って使っていくことが大切であるとおもう。

2.翻訳

 かって、プログラミングが盛んな時期 があった。
  Fortlan,C,C++,Pascal.Cobol ,PL,Lisp
MASM等が知られいた。
  その時説明された事に、人間の使用する言語を自然言語
コンピュータが理解できる言語(命令等)をコンピュータ言語といい、プログラムとは人間の言葉(又はそれに近い高級言語)から機械 の解釈出来る言葉に翻訳する方法として、一括変換=コンパイラ、随語変換=インタプリタ(通訳さん)があるという説明が一般にもおこなわれてい た。
  コンピュータ言語処理と自然言語処理とは、原理的には密接な関係がある。
  理論はきわめて高度で単純ではないが、身近な例で言えば
日本語入力がある。
  これも一種の自動翻訳である。
  ローマ字変換。漢字変換をつかさどる中身を見ると、かっての管理工学研究所の日本語ワープロ「松」の変換部分「松茸」ではそれが、一般ユーザーにも公開され目で見られるよ うに配慮されていた。
  それによると、中身はj辞書、文法、inndexの3つより構成されていた。
  単漢字、文章変換
などの規則をつかさどる部分が其の中にある。
  (lex相当)。

Wカーニハン/P.J.ワインバーガー著

足立高徳 訳 

2)LaTex美文書作成入門   奥村 晴彦 著

3)Internet Watch「実践比較! オンライン翻訳サービスに有用な実践評価記事があるのでリンクする。参考と してほしい。

   さらにユーザー辞書登録では、品詞分類が要求された。
これらは他言語への翻訳のための辞書として将来意味が出てくる事を想定したものかも知れない。
  最初英和の試みは非常に困難を極めたと聞く。
 日本ではなくカナダなど海外の翻訳によってある程度成功したと言われる。
  第三言語(人造語)」に一旦翻訳した後、それぞれの自然言語に戻すという方式であると聞いた。
字句解析などは相当高度なものであろうと思うが、原理としては日本語ワープロに用語登録する際に英語を登録すればいぬー>dog 変換はすぐ出来 る。Perlあ るいはawkなどのプログラムでスクリプトを組み変換テーブルを参照して変換する。
 replace置換 の反復でも相当役に立った記憶がある。
 ある程度まとまった文節を登録しておけば比較的正確に見える翻訳が出来るが辞書が膨大になる。
単漢字の組み合わせでは、ありえない日本語が生成され
まともな文書は出来ない。
従って比較的1対1対応がとりやすい地名のカナ変換は問題なく出来るので、「世界の環境の変化」などの事例の地
名や国名には十分実用的ではあるが。
又エキサイトExicite翻訳で、htmlにスクリプトを加えると、URLからリンクした ページ全体が英文に、あるいは、韓国語に自動的に変換される面白い試みがある。
しかし、これは、正規に英文ページを作成したものとは異なるので、メニューに日本語・英語を選択する形式だと正規のものとまぎらわしいのであくまで機 械翻訳であるむね明記する必要がある。
もちろん機械翻訳の手をかりて、目を通して英文の文責がとれる形であれば問題はないが。

3. 数式の入力

 数式については、有名なTEXという アメリカ合衆国数学会公認ソフトがある。
sqrtr 3 等と入力すれば  を解釈し数式描画プログラムに青の値を渡し、それを変換する方法で挿入する。
  その方法で入力できる。 a^2+2ab+b^2をと綺麗に変換できる。
  これらもインタープリタが応用されていると思う。
  無理やり文字入力操作をしているわけではない。
  原理が分れば応用はやさしい。

Wカーニハン/P.J.ワインバーガー著

足立高徳 訳 

2)LaTex美文書作成入門   奥村 晴彦 著

3)Internet Watch「実践比較! オンライン翻訳サービスに有用な実践評価記事があるのでリンクする。参考と してほしい。


参考文献

1)プログラミング言語 AWK A.Vエイホ/B.Wカーニハン/P.J.ワインバーガー著

足立高徳 訳 

2)LaTex美文書作成入門   奥村 晴彦 著

3)Internet Watch「実践比較! オンライン翻訳サービスに有用な実践評価記事があるのでリンクする。参考と してほしい。