• 제목/요약/키워드: 복합명사구

검색결과 3건 처리시간 0.019초

구문 다양성 해소를 위한 복합명사구 색인 방법 (A Method Of Compound Noun Phrase Indexing for Resolving Syntactic Diversity)

  • 조민희;정도헌
    • 한국콘텐츠학회논문지
    • /
    • 제11권3호
    • /
    • pp.467-476
    • /
    • 2011
  • 복합명사구는 단일어보다 명확한 의미를 갖기 때문에 의미적 정보처리에서 중요한 요소로 사용된다. 하지만 명사구의 표현형태의 다양성 때문에 같은 의미를 갖고 있다 할지라도 그 동일성을 판단하기 어렵다. 이에 본 연구에서는 이러한 구문 다양성 해소를 위해 복합명사구 색인 방법을 제안한다. 본 연구의 최종목적은 다양한 형태로 표현된 동일한 의미의 명사구를 동일한 형태의 색인어로 표현하는 것이며, 이를 위해 다음과 같은 과정을 따른다. 먼저 복합명사구 인식을 위한 규칙 템플릿을 생성하고, 국내학술논문 집합에 적용하여 복합명사구들을 추출한다. 일반적으로 복합명사구는 특정성이 크다. 이에 이를 고려한 색인어 합성규칙을 제안하고, 추출된 명사구에 적용한다. 본 연구의 성능을 객관적으로 평가하기 위해 HANTEC 2.0 테스트셋을 이용하였으며, 그 결과를 기준모델과 비교하였다. 실험과 비교를 통해 본 논문에서 제안하는 색인방법이 검색 정확률 향상에 긍정적으로 영향을 미치며, 정보검색의 성능을 향상시킬 수 있음을 확인하였다.

명사 의미 부류를 이용한 연속된 명사열의 구묶음 (Chunking of Contiguous Nouns using Noun Semantic Classes)

  • 안광모;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제10권3호
    • /
    • pp.10-20
    • /
    • 2010
  • 본 논문에서는 조사가 없는 연속된 명사열 중 하나의 명사처럼 쓰일 수 있는 명사열을 복합명사구라 정의하고, 의미 정보를 이용한 복합명사구의 구묶음 방법을 제시한다. 복합명사구의 구묶음에는 구문분석 말뭉치에서 추출한 명사쌍과 이들의 의미부류정보를 이용한다. 이러한 명사쌍과 의미부류정보는 신뢰도를 위해 세종말뭉치의 구문분석 말뭉치와 상세사전을 기반으로 구축하였다. 이들 정보를 이용한 복합명사구 구묶음 모듈은 길이(명사의 수)가 2 이상인 복합명사구에 대해서도 구묶음을 수행할 수 있다. 복합명사구 구묶음을 위해 '왼쪽명사-오른쪽명사' 쌍 38,940개, '왼쪽명사-오른쪽명사의미부류' 쌍 65,629개, '왼쪽명사의미부류-오른쪽명사' 쌍 46,094개, '왼쪽명사의미부류-오른쪽명사의미부류' 쌍 45,243개의 정보를 구축하여 이용하였다. 실험을 위하여 신문기사의 내용으로 이루어진 세종형태소분석 말뭉치로부터 길이가 3 이상인 조사와 결합하지 않은 연속된 명사열을 포함하는 1,000 문장을 임의로 선별하였으며, 실험결과는 86.89%의 정밀도와 80.48%의 재현율, 그리고 83.56%의 f-measure를 보였다.

두 개의 명사쌍으로 이루어진 복합명사사전을 이용한 연속된 명사열의 구묶음 (Chunking of Contiguous Nouns using Compound Noun Dictionary of Length Two)

  • 안광모;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.176-180
    • /
    • 2009
  • 구문분석에서 구문중의성(syntactic ambiguation)은 구문분석의 성능에 많은 영향을 미친다. 구문중의성을 일으키는 많은 요인들이 있지만, 특히 조사가 발달된 한국어의 구문분석에서 조사가 생략된 명사들은 구문중의성을 증가시키는 큰 요인 중 하나이다. 그렇기 때문에 조사가 없거나 생략된 연속된 명사열(contiguous nouns)의 길이가 길어질수록 구문중의성은 지수적으로 증가하게 된다. 따라서 현재까지의 연구에서는 이런 명사열들을 마치 하나의 명사처럼 구묶음을 하여 처리하는 경우가 많았다. 하지만, 조사가 없는 명사열들을 모두 하나의 명사구처럼 처리하여 구문분석을 수행할 경우, 주요 문장성분들이 잃어버리게 되는 경우가 발생한다. 따라서 본 논문에서는 하나의 명사처럼 쓰일 수 있는 조사가 없는 연속된 명사열을 복합명사구라고 정의하고, 두 개의 명사쌍으로 구축된 복합명사사전만을 이용하여 세 개 이상의 명사로 구성된 복합명사구들을 사전에 등록하지 않고도 복합명사구를 구묶음하는 방법에 대하여 기술한다. 실험을 위해 세종사전 150,546개의 예문에서 두 개 이상의 조사가 생략된 21,482개의 명사쌍을 추출하여 복합명사사전으로 변환하였으며, 총 6,316개의 사전 데이터가 구축되었다. 복합명사 구묶음 모듈은 조사가 생략된 명사열을 입력으로 받아서 우에서 좌로 검색하며 구묶음이 가능한 명사들을 연결하고, 연결된 명사들끼리 하나의 복합명사로 구묶음을 한다. 실험은 사전을 구축할 때 쓰였던 말뭉치와 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하여 수행하였다. 결과는 사전을 구축할 때 쓰인 말뭉치를 이용하였을 때는 96.76%의 정확도를 보였으며, 사전을 구축할 때 쓰이지 않은 말뭉치를 이용하였을 경우는 12.23%의 정확도를 보였다.

  • PDF