초록
한국어에는 복합문에서 영 대용이 빈번하게 발생하여 해석을 어렵게 한다. 따라서 본 논문에서는 한국어 영 대용어 처리를 위해 복합문 분해 알고리즘과 복합문 영 대용어 복원 규칙을 제안하고, 해결방법을 제시한다. 본 논문은 신문 기사의 복합문 중에서 보조용언 내포문을 제외한 인용문, 접속문, 내포문을 처리 대상으로 한다. 복합문 분해를 위해서는 복합문 구성에 관여하는 어미들의 어미 분류표를 이용하고, 영 대용어 복원을 위해서는 생략될 때 적용된 통사규칙을 역으로 이용한다. 인용문은 주어 인칭제약에 따른 동일 명사구 탈락규칙을, 명사화 내포문은 동일 명사구 탈락규칙을, 관형화 내포문은 관계 명사구 탈락규칙을 그리고 접속문은 접속 삭감규칙을 역으로 이용하여 처리한다. 제안한 방법을 이용한 결과 전체 영 대용어 중 83.53%가 해결 가능하며 11.52%는 부분적으로 해결 가능하다.
Zero anaphora occurs frequently in Korean complex sentences, and it makes the interpretation of sentences difficult. This paper proposes splitting algorithms and zero anaphora recovery rules for the purpose of handling zero anaphora, and also presents a resolution methodology. The paper covers quotations, conjunctive sentences and embedded sentences out of the complex sentences shown in the newspaper articles, with an exclusion of embedded sentences of auxiliary verb. We manage the quotations using the equivalent noun phrase deletion rule according to subject person constraint, the nominalized embedded sentences using the equivalent noun phrase deletion rule, the adnominal embedded sentences using the relative noun phrase deletion rule and the conjunctive sentences using the conjunction reduction rule in reverse. The classified table of the endings which relate to a formation of the complex sentences is used for splitting the complex sentences, and the syntactic rules, applied when being omitted, are used in reverse for recovering zero anaphora. The presented rule showed the result of 83.53% in perfect resolution and 11.52% in partial resolution.