• 제목/요약/키워드: 대용어해결

검색결과 36건 처리시간 0.02초

담화에서의 어휘지도를 이용한 한국어 무형대용어 탐지 및 해결 말뭉치 생성 (Building a Korean Zero-Anaphora Detection and Resolution Corpus in Korean Discourse Using UWordMap)

  • 윤호;남궁영;박혁로;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.591-594
    • /
    • 2020
  • 담화에서 의미를 전달하는 데 문제가 없을 경우에는 문장성분을 생략하여 표현한다. 생략된 문장성분을 무형대용어(zero anaphora)라고 한다. 무형대용어를 복원하기 위해서는 무형대용어 탐지와 무형대용어 해결이 필요하다. 무형대용어 탐지란 문장 내에서 생략된 필수성분을 찾는 것이고, 무형대용어 해결이란 무형대용어에 알맞은 문장성분을 찾아내는 것이다. 본 논문에서는 담화에서의 무형대용어 탐지 및 해결을 위한 말뭉치 생성 방법을 제안한다. 먼저 기존의 세종 구어 말뭉치에서 어휘지도를 이용하여 무형대용어를 복원한다. 이를 위해 본 논문에서는 동형이의어 부착과 어휘지도를 이용해서 무형대용어를 복원하고 복원된 무형대용어에 대한 오류를 수정하고 그 선행어(antecedent)를 수동으로 결정함으로써 무형대용어 해결 말뭉치를 생성한다. 총 58,896 문장에서 126,720개의 무형대용어를 복원하였으며, 약 90%의 정확률을 보였다. 앞으로 심층학습 등의 방법을 활용하여 성능을 개선할 계획이다.

  • PDF

무형대용어 해결 기술을 이용한 백과사전 표제어 복원 (Restoring Encyclopedia Title Words Using a Zero Anaphora Resolution Technique)

  • 황민국;김영태;나동열;임수종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.65-69
    • /
    • 2014
  • 한국어 문장의 경우 문맥상 추론이 가능하다면 용언의 격이 생략되는 현상 즉 무형대용어 (zero anaphora) 현상이 흔히 발생한다. 무형대용어를 채울 수 있는 선행어 (명사구)를 찾는 문제는 대용어 해결 (anaphora resolution) 문제와 같은 성격의 문제이다. 이러한 생략현상은 백과사전이나 위키피디아 등 백과사전류 문서에서도 자주 발생한다. 특히 선행어로 표제어가 가능한 경우 무형대용어 현상이 빈번히 발생한다. 백과사전류 문서는 질의응답 (QA) 시스템의 정답 추출 정보원으로 많이 이용되는데 생략된 표제어의 복원이 없다면 유용한 정보를 제공하기 어렵다. 본 논문에서는 생략된 표제어 복원을 위해 무형대용어의 해결을 기반으로 하는 시스템을 제안한다.

  • PDF

중심어 주도 단방향 차트 파싱을 이용한 문맥 대용어 해결 (A Resolution of Text Anaphora using Unidirection Chart Parsing in HPSG)

  • 김정해;조준모;이상국;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.386-392
    • /
    • 1996
  • 대용어(anaphor)는 한 문장이나 문장과 문장간에 같은 요소가 되풀이될 때 언어 사용의 경제성(language economy)을 위하여 잉여적 표현을 제거하는 방법으로, 좀 더 간략한 언어 표현으로 대치하여 쓰는 현상이다. 따라서 본 논문에서는 중심어 주도의 단방향 활성 차트 파싱을 이용하여 한국어 문장내에서 야기되는 문맥 대용어의 해결 방안에 대해 제안한다. 이는 자연어를 입력으로 하는 실용목적의 자연어처리 시스템 구축에 있어 필수적으로 요구되는 부분이다. 대용어 해결을 위해 먼저 전산학적인 대용어 정의를 내리고, 대용어와 선행어사이의 의미 분류 및 대용어 해결 과정에 필요한 처리 조건등을 설정하였다 또한 파서내에 대용어 처리를 위해 사전내 자질구조로 ANAPMAJ, ANAPMIN, PERSON, NUM, INDEX자질을 추가하였고, 대용어 해결을 위한 알고리즘을 제안하였으며, 기존에 개발된 HPSG 파서가 처리하는 모든 문장에서 야기된 문맥 대용을 해결하여 파서이후의 응용 시스템에서 이용할 수 있는 내적 표현을 보다 분명하게 형식화하였다.

  • PDF

한국어 복합문의 영 대용어 해결 (Zero Anaphora Resolution in Korean Complex Sentences)

  • 김미진;강보영;구상옥;박미성;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.694-696
    • /
    • 2002
  • 본 논문은 한국어 복합문에서의 영 대용어 해결을 위해 복합문 분해 알고리즘과 영 대용어 복원규칙을 제안하고, 해결 방법을 제시한다. 복합문 분해를 위해서는 복합문 구성에 관여하는 활용 어미들을 이용하고, 영 대용어 복원을 위해서는 생략될 때 적용된 통사규칙을 역으로 이용한다. 제안한 방법을 이용한 결과 전체 영 대용어 중 83.53%가 해결 가능하며 11.52%는 부분적으로 해결 가능하다.

  • PDF

설명문의 대용어 참조해결과정: 대용어와 지시사 생략 효과 (Anaphoric Reference Resolution in Expository Text: The Effects of Ellipsis)

  • 이재호
    • 인지과학
    • /
    • 제21권2호
    • /
    • pp.253-282
    • /
    • 2010
  • 이 연구는 대용어나 지시사가 생략된 조건에서 선행어의 전형성과 언급순서가 참조해결에 작용하는 효과를 살펴보기 위해서 2개의 실험을 실시하였다. 실험 1은 대용어 생략과 대명사 조건을 비교하였다. 대용어 생략은 전형성과 언급순서가 읽기과제에 반영되었고, 언급순서 효과가 탐사재인과제에 반영되었다. 반면에 대명사는 전형성과 언급순서 효과가 탐사재인과제에만 반영되었다. 실험 2에서는 지시사가 생략된 명사반복과 대명사 조건을 비교하였다. 명사반복이 대명사에 비해서 읽기시간이 길었으며, 언급순서 효과가 탐사재인과제에 반영되었다. 반면에 대명사는 전형성과 언급순서가 탐사재인과제에서 반영되었다. 이는 선행어와 대용어의 참조해결이 직선적이기보다는 역동적일 가능성을 시사하였다.

  • PDF

한국어 대용과 생략 해결을 위한 센터링 이론의 적용 (Centering for Korean Anaphora and Ellipsis Resolution)

  • 차건회;송도규;박재득
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.347-352
    • /
    • 1997
  • 대용(anaphora)과 생략(.ellipsis)지을 포함한 지시 해결(reference resolution)은 자연어 처리에 있어서 꼭 해결하고 넘어가야 할 문제이며 지시어가 가리키는 피지시어를 올바르게 찾아내는가의 여부가 자연어처리 시스템의 성패를 가름하는 중요한 요소가 된다해도 과언이 아니다. 본 논문에서는 한국어 대용과 생략을 해결하기 위한 기제로서 센터링 이론이 적합한가를 검토하고 나아가 언어에 따라서 다르게 제안된 Cf 목록의 순서를 한국어의 언어특성에 맞게 결정하는 기법을 제안한다. 센터링 이론에서 각 개별언어 간의 차이가 가장 두드러지게 나타나는 부분은 Cf 목록을 구성하는 요소들의 순서이다. 여기에서는 한국어와 언어적인 특성이 유사한 일본어를 대상으로 제안된 순서를 한국어에도 그대로 적용될 수 있는지 검토하고 문제점을 지적함과 동시에 개선 방안을 아울러 살펴보고자 한다.

  • PDF

대명사의 종류에 따른 참조해결과정

  • 이재호;이만영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.104-111
    • /
    • 1990
  • 대명사의 종류에 따른 대명사의 어휘적 특성이 대용어 참조해결에 미치는 효과를 살펴보기 위해서 두개의 실험을 수행하였다. 실험 1에서는 대명사 문장의 읽기시간과 선행어에 대한 어휘판단과제를 통해서 복수가 단수에 비해 읽기시간은 빠르지만, 어휘판단시간은 단수가 빠른 경향을 보였다. 그리고 단수는 애매성에 따라 반응시간의 차이를 보였다. 실험 2에서는 단수가 복수에 비해 어휘판단이 빠름을 반복하였다. 그리고 단수는 여전히 성별단서의 애매성에 대한 차이를 보였다. 이러한 결과는 대용어의 참조해결에 미치는 여러 요인 중에서 대명사의 어휘적 특성이 한 요인임을 증명하였다. 결론적으로 대명사의 종류에 따라 참조해결과정이 다르게 일어 날 가능성과 표상되는 글 모형도 달라질 수 있는 가능성을 제시하였다.

  • PDF

한국어 복합문에서의 제로 대용어 처리를 위한 분해 알고리즘과 복원규칙 (Splitting Algorithms and Recovery Rules for Zero Anaphora Resolution in Korean Complex Sentences)

  • 김미진;박미성;구상옥;강보영;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권10호
    • /
    • pp.736-746
    • /
    • 2002
  • 한국어에는 복합문에서 영 대용이 빈번하게 발생하여 해석을 어렵게 한다. 따라서 본 논문에서는 한국어 영 대용어 처리를 위해 복합문 분해 알고리즘과 복합문 영 대용어 복원 규칙을 제안하고, 해결방법을 제시한다. 본 논문은 신문 기사의 복합문 중에서 보조용언 내포문을 제외한 인용문, 접속문, 내포문을 처리 대상으로 한다. 복합문 분해를 위해서는 복합문 구성에 관여하는 어미들의 어미 분류표를 이용하고, 영 대용어 복원을 위해서는 생략될 때 적용된 통사규칙을 역으로 이용한다. 인용문은 주어 인칭제약에 따른 동일 명사구 탈락규칙을, 명사화 내포문은 동일 명사구 탈락규칙을, 관형화 내포문은 관계 명사구 탈락규칙을 그리고 접속문은 접속 삭감규칙을 역으로 이용하여 처리한다. 제안한 방법을 이용한 결과 전체 영 대용어 중 83.53%가 해결 가능하며 11.52%는 부분적으로 해결 가능하다.

문서요약을 위한 조응 대용 해결 (Resolution of Context Anaphora for Text Summarization)

  • 김상수;김계성;노태길;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.679-681
    • /
    • 2002
  • 한 문서에서 동일한 개체(Entity)를 지칭하는 고유명사가 다른 형태로 출현하는 현상은 문서요약의 품질을 떨어지게 만드는 요소이다. 이런 문제를 해결하기 위해서는 각각의 고유명사 및 지칭어를 인식하고 이들간의 상관 관계를 밝혀야 한다. 본 논문에서는 이런 문제를 개체명 조응 대용 관계로 정의하고 출현 특성에 따라 분류한 후 특성에 맡는 처리 방법을 보인다. 이를 위하여 고유명사의 조응 출현 양상에 따른 휴리스틱을 만들고, 고유명사를 지칭하는 명사들의 시소러스를 구축한 후 이들을 처리하는 방법을 제안한다.

  • PDF

Structural SVM을 이용한 백과사전 문서 내 생략 문장성분 복원 (Restoring Omitted Sentence Constituents in Encyclopedia Documents Using Structural SVM)

  • 황민국;김영태;나동열;임수종;김현기
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.131-150
    • /
    • 2015
  • 영어와 달리 한국어나 일본어 문장의 경우 용언의 필수격을 채우는 명사구가 생략되는 무형대용어 현상이 빈번하다. 특히 백과사전이나 위키피디아의 문서에서 표제어로 채울 수 있는 격의 경우 그 격이 문장에서 더 쉽게 생략된다. 정보검색, 질의응답 시스템 등 주요 지능형 응용시스템들은 백과사전류의 문서에서 주요한 정보를 추출하여 수집하여야 한다. 그러나 이러한 명사구 생략 현상으로 인해 양질의 정보추출이 어렵다. 본 논문에서는 백과사전 종류 문서에서 생략된 명사구 즉 무형대용어를 복원하는 시스템의 개발을 다루었다. 우리 시스템이 다루는 문제는 자연어처리의 무형대용어 해결 문제와 거의 유사하나, 우리 문제의 경우 문서의 일부가 아닌 표제어도 복원에 이용할 수 있다는 점이 다르다. 무형대용어 복원을 위해서는 먼저 무형대용어의 탐지 즉 문서 내에서 명사구 생략이 일어난 곳을 찾는 작업을 수행한다. 그 다음 무형대용어의 선행어 탐색 즉 무형대용어의 복원에 사용될 명사구를 문서 내에서 찾는 작업을 수행한다. 문서 내에서 선행어를 발견하지 못하면 표제어를 이용한 복원을 시도해 본다. 우리 방법의 특징은 복원에 사용된 문장성분을 찾기 위해 Structural SVM을 사용하는 것이다. 문서 내에서 생략이 일어난 위치보다 앞에 나온 명사구들에 대해 Structural SVM에 의한 시퀀스 레이블링(sequence labeling) 작업을 시행하여 복원에 이용 가능한 명사구인 선행어를 찾아내어 이를 이용하여 복원 작업을 수행한다. 우리 시스템의 성능은 F1 = 68.58로 측정되었으며 이는 의미정보의 이용 없이 달성한 점을 감안하면 높은 수준으로 평가된다.