next up previous
Next: 研究の成果 Up: 「単一化に基づく日英文法の開発および言語知識評価支援システム」に関する成果概要 Previous: 研究の背景と目的

研究の内容

  
図 --1: システムの概観

HPSG(Head-driven Phrase Structure Grammar)をベースに入力文を解析 し、解析途中の過程を表示するシステムを作成した。同時に、解析と同じ 文法を意味的記述からの文生成のために使うための拡張を行なった。ま た、ある程度現実的な文の解析にはHPSGの使用は計算量的に問題になる ことが多い。その原因はあらゆる解析の可能性を考慮した解析をする必 要があり、しかもそれぞれの可能性の計算に単一化という計算的に負荷 の高い処理をするためである。語の統計的な振舞いを解析済みデータよ り取り出しておくことによって、解析結果に優先順位をつけることが可 能になり、それによって、確率の極めて低い解析の可能性を事前に排除 することができる。この考え方にしたがった統計的解析システムを試作 した。

HPSGをベースとする日英文法

HPSGをベースにして、日本語および英語文法記述を行なった。また、解 析過程を視覚的に把握できるように解析途中で得られる句のもつ情報の 表示や解析木を表示するためのインタフェースの開発を行なった。昨年 までは素性構造の単一化についても独自開発をしていたが、タイプ付き 素性構造への拡張を考えて、単一化処理については、Saarlande大学で 開発されたProFITシステムの使用が可能になるような設計も行なった。

統計的手法による統語解析

HPSGのような宣言的な文法だけでは現実的な言語解析を行なうことは難 しい。しかし、言語現象を正確かつ言語学的に健全な形で記述するため にはこのような理論的枠組が必要であり、文法記述の蓄積は重要な意義 をもつ。HPSGに基づく文法の開発と並行して、これを将来現実の文の解 析につなげるために、語の表層的な振舞いを統計モデルとして取り込ん だ荒い解析手法を開発し、その結果から明らかに無用の可能性を絞り、 かつ、統計的情報から得られる優先度を付与した形でHPSGによる解析を 行なうための処理の流れの実現を目指した。現在のところ、EDRの解析 済みコーパスから統計情報を抽出することによって統計パラメータの獲 得を行なっている。統計情報としては、文節の主辞の間の共起、係り関 係の共起、係り関係と係り距離の共起、読点などの有無と係り距離の関 係を取り出している。データが充分でない場合には主辞を語ではなく品 詞として統計をとるなどの工夫が必要である。

  
図 --2: 統計的係り受け解析の例

設計したシステムの概要を図--1に示す。矢印で示した部分が今 回作成したシステムである。解析済みのデータを利用した統計的な統語 解析システムにより可能性を絞られた結果が、より詳細な文法知識を用 いるHPSGベースのシステムに入力される。

本システムによる解析例を図 --2に示す。



next up previous
Next: 研究の成果 Up: 「単一化に基づく日英文法の開発および言語知識評価支援システム」に関する成果概要 Previous: 研究の背景と目的



www-admin@icot.or.jp