• 제목/요약/키워드: 복합명사 분해

검색결과 32건 처리시간 0.026초

문법형태소 네트워크를 이용한 자동색인 시스템의 설계 (Design of Automatic Indexing System Using Korean Morpheme Network)

  • 안성현;장재우
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.13-17
    • /
    • 1995
  • 본 논문은 한국어 특성을 적용하여 키워드를 자동으로 추출하는 기법을 제시한다. 기존에 제안된 명사 추출 시스템인 문법형태소 네트워크를 확장하여 단일 명사 뿐만 아니라 복합 명사를 색인어로 추출한다. 복합 명사는 단일 명사에 비해 보다 한정적 개념을 가지므로, 색인어로 추출될 때 문헌의 식별력을 높일 수 있다. 복합 명사를 구성하는 각각의 단일 명사를 인식함으로써 복합 명사를 분해하고, 간단한 구단위 구문분석을 수행하는 명사 결합 규칙에 따라 단일 명사들을 복합 명사로 합성하는 방법을 제시한다. 마지막으로 이와 같이 추출된 복합 명사에, 복합 명사를 구성하는 단일 명사간의 연관성을 고려하여 보다 정확한 가중치를 부여할 수 있는 새로운 가중치 부여 방안을 제시한다.

  • PDF

백오프 통계정보를 이용한 미등록어 포함 복합명사의 분해 (Segmenting Korean Nominal Compounds with an Unknown Morpheme Using Back-off Statistics)

  • 박재한;김명선;노대욱;나동열
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.65-72
    • /
    • 2004
  • 본 논문에서는 백오프 통계 정보를 이용하여 일반적인 복합명사 뿐만 아니라 외래어 미등록어를 포함한 복합명사도 잘 분해하는 방법을 제안한다. 본 시스템은 입력으로 형태소분석기가 내주는 많은 분석 후보들을 받는다. 단음절 명사를 포함한 분석 후보도 포함되므로 입력 분석 후보의 수는 대단히 많게 된다. 본 모듈의 주요 작업은 이 중에서 가장 좋은 분석후보를 선택하는 것이 된다. 미등록어가 포함된 경우 이에 부합되는 분석 후보를 잘 선택하는 시스템의 개발을 목표로 한다. 이를 위해서 본 시스템에서 사용하는 주요 정보는 단어간 어휘 바이그램 통계정보이다. 또한 외래어 미등록어의 인식 정확성을 높이기 위해 음절 바이그램 정보도 이용한다. 통계정보는 대량의 품사 태깅 말뭉치에서 추출하였다. 데이터 부족 문제를 해소하기 위해서 우리는 백오프(back-off) 평탄화(smoothing) 기법을 이용하였다. 미등록어가 포함된 복합명사의 분석 후보의 수를 줄이기 위한 기술도 연구하였다.

  • PDF

자동띄어쓰기 오류 수정 및 복합명사 분해 개요: 2018 차세정 언어처리 경진대회 (Overview of Automatic Spacing and Compound Noun Decomposition: 2018 Korean Natural Language Processing Contest)

  • 최진혁;류법모;오효정
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.193-196
    • /
    • 2018
  • 차세대정보컴퓨팅 개발사업 협의회에서 주최하고 한국어 정보처리 원천기술 연구개발 사업단에서 주관하는 2018 차세정 언어처리 경진대회가 개최되었다. "한국어 자동 띄어쓰기"와 "한국어 복합명사 분해"의 두 태스크로 진행되었고 각각 4팀, 2팀이 참가하였다. 주최 측에서 제공한 데이터만을 활용하는 closed 트랙과 각 참가팀이 추가 데이터를 활용하는 open 트랙으로 구분하여 평가하였다.

  • PDF

복합명사 분할과 명사구 합성을 이용한 통합 색인 기법 (Integrated Indexing Method using Compound Noun Segmentation and Noun Phrase Synthesis)

  • 원형석;박미화;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권1호
    • /
    • pp.84-95
    • /
    • 2000
  • 본 논문에서는 명사구 색인과 복합명사 분할을 포함한 복합명사 처리를 위해 통계 정보와 자연언어 처리를 제한적으로 이용 가능하게 하는 통합적 색인 기법을 제안한다. 먼저 색인과 검색에서 복합명사 분할 및 합성 모두를 고려한 통합 기법을 제시하고, 이를 위해 통계 정보와 제한적인 자연언어 처리를 모두 이용하는 통합 색인 기법을 제안한다. 먼저 형태소 분석 및 태깅 과정에서 단일어를 색인어로 추출하고 구문분석의 결과에서 명사구를 합성해 낸다. 구문 분석 실패 시에는 형태소 분석 및 태깅의 결과만을 사용하게 된다. 또한 태깅의 결과에서 복합명사를 골라 통계 정보를 이용하여 단일 명사로 분할하고 재합성한다. 분할된 단일 명사와 합성된 명사구는 기존의 단일어로만 이루어진 색인어를 보완하기 위해 색인어로 사용된다. 실험은 한국어 정보검색의 실험 집합인 KTSET 2.0과 KRIST SET을 사용하여 통합색인 기법이 복합명사 처리에 효율적임을 보였다.

  • PDF

고빈도어를 이용한 복합명사 색인어 추출 방안 (The Generation Methods of Composition Noun For Efficient Index Term Extraction)

  • 김미진;박미성;장혁창;최재혁;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.121-129
    • /
    • 1998
  • 정보검색이나 자동색인 시스템에서는 정확한 색인어의 추출이 시스템의 성능을 좌우하게 된다. 따라서 정확한 색인어의 추출이 매우 중요하다. 본 논문에서는 정보 검색시에 보다 정확한 문서를 찾아줄 수 있도록, 출현 고빈도어를 이용하여 효율적인 색인어 추출을 위한 합성 명사 생성방안을 제시한다. 이를 위하여 문서 내에서 출현 빈도가 높은 명사, 즉 상위 $30%{\sim}40%$의 고빈도 명사에 합성 및 분해 규칙을 적용하여 합성명사 색인어를 추출한다. 또한 본 논문에서 제시한 상위 $30%{\sim}40%$ 고빈도 명사합성에 대한 타당성을 검증하기 위하여 적절한 명사합성 빈도를 구한다. 제안한 방법을 적용한 결과 300어절 이하의 짧은 문서는 출현빈도 상위 30%까지의 명사를 합성했을 경우 저빈도 누락이 작았고 300어절 이상의 문서는 출현빈도 40%까지 합성하면 저빈도 누락이 상당히 줄어듦을 알 수 있었다. 그리하여 전체 색인어의 개수를 줄였고 색인어의 정확률을 높였다.

  • PDF

한글 TTS시스템에서 형태 음운론적 분석에 기반 한 발음열 생성 (Pronunciation Generation Based on Morphophonological Analysis in Korean TTS)

  • 정경석;박혁로
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (상)
    • /
    • pp.559-562
    • /
    • 2001
  • 한국어 TTS시스템에서 한 가지 모듈로써의 발음열 생성기는 한국어의 특성상 음운적 조건과 형태론적 조건 등에 의해 다양한 방법과 예외처리를 요구하고 한국어의 음운현상에 대한 체계적인 분석과 처리가 필요하다. 그래서 이 논문은 형태 음운론적 분석을 통한 발음열 자동 생성기법을 소개한다. 이 시스템은 형태소 분석을 선행한 후, 특수문자나 숫자 등을 정규화하고 복합명사 분해 사전을 이용한 복합명사 분해와 추가 조건을 통해 ㄴ-첨가 규칙을 전 처리한다. 그리고 음운 변화 현상을 분석하여 선택적으로 규칙을 적용하여 발음열을 생성한다. 제안된 시스템은 기존의 형태소 분석되지 않은 시스템에 비해 더욱 효과적인 음운, 형태소 변화를 가져옴과 함께, 특히 ㄴ-첨가가 적용되는 텍스트는 7$\sim$8%정도의 나은 발음열을 생성찬 수 있었다. 그 결과, 발음열 생성기는 한국어 TTS 시스템의 한국어 처리라는 고질적인 문제 해결에 좋은 방향과 결과를 기여할 수 있다.

  • PDF

한국어의 형태소해석 (Morphological Analysis of the Korean Language)

  • 이수현;;이주근
    • 대한전자공학회논문지
    • /
    • 제26권4호
    • /
    • pp.53-61
    • /
    • 1989
  • 한국어의 구문 및 의미해석등에 필요한 정보를 도출하기 위한 입력분의 형태해석에 대하여 기술한다. 명사구에서 명사와 조사를 분리하고, 복합명사의 분리점을 선택하는 조건을 규정하며, 변형된 복합명사를 처리하는 규칙을 표시한다. 그리고 규칙동사에서 어간과 어미를 분리하고, 변칙용언과 음운축약 등을 효과적으로 처리하기 위한 논리표현 형식을 제안한다. 이 논리표현은 해석규칙과 속성값으로 구성한다. 명사사전의 중복을 배제하기 위하여 "명사형 하다" 동사의 분리 처리와 Q parameter 도입에 의한 "이다"의 처리방법을 보이고, 또한 부정문의 처리형식도 유도하여 복합술부의 형태소와 기본형식을 제시한다.

  • PDF

한국어 복합문에서의 제로 대용어 처리를 위한 분해 알고리즘과 복원규칙 (Splitting Algorithms and Recovery Rules for Zero Anaphora Resolution in Korean Complex Sentences)

  • 김미진;박미성;구상옥;강보영;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권10호
    • /
    • pp.736-746
    • /
    • 2002
  • 한국어에는 복합문에서 영 대용이 빈번하게 발생하여 해석을 어렵게 한다. 따라서 본 논문에서는 한국어 영 대용어 처리를 위해 복합문 분해 알고리즘과 복합문 영 대용어 복원 규칙을 제안하고, 해결방법을 제시한다. 본 논문은 신문 기사의 복합문 중에서 보조용언 내포문을 제외한 인용문, 접속문, 내포문을 처리 대상으로 한다. 복합문 분해를 위해서는 복합문 구성에 관여하는 어미들의 어미 분류표를 이용하고, 영 대용어 복원을 위해서는 생략될 때 적용된 통사규칙을 역으로 이용한다. 인용문은 주어 인칭제약에 따른 동일 명사구 탈락규칙을, 명사화 내포문은 동일 명사구 탈락규칙을, 관형화 내포문은 관계 명사구 탈락규칙을 그리고 접속문은 접속 삭감규칙을 역으로 이용하여 처리한다. 제안한 방법을 이용한 결과 전체 영 대용어 중 83.53%가 해결 가능하며 11.52%는 부분적으로 해결 가능하다.

미등록어의 의미 범주 분석을 이용한 복합명사 분해 (Segmentation of Korean Compound Nouns Using Semantic Category Analysis of Unregistered Nouns)

  • 강유환;서영훈
    • Journal of Information Technology Applications and Management
    • /
    • 제11권4호
    • /
    • pp.95-102
    • /
    • 2004
  • This paper proposes a method of segmenting compound nouns which include unregistered nouns into a correct combination of unit nouns using characteristics of person's names, loanwords, and location names. Korean person's name is generally composed of 3 syllables, only relatively small number of syllables is used as last names, and the second and the third syllables combination is somewhat restrictive. Also many person's names appear with clue words in compound nouns. Most loanwords have one or more syllables which cannot appear in Korean words, or have sequences of syllables different from usual Korean words. Location names are generally used with clue words designating districts in compound nouns. Use of above characteristics to analyze compound nouns not only makes segmentation more accurate, helps natural language systems use semantic categories of those unregistered nouns. Experimental results show that the precision of our method is approximately 98% on average. The precision of human names and loanwords recognition is about 94% and about 92% respectively.

  • PDF

구묶음과 구간분할을 이용한 의존 관계 추출 기법 (A Method for Extracting Dependency Relations Using Chunking and Segmentation)

  • 박의규;조민희;김성원;나동열
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.131-137
    • /
    • 2004
  • 본 논문에서는 구묶음과 구간분할에 기반하여 한국어 문장에서 명백한 의존관계를 파악 추출하는 기법에 대해 다룬다. 구묶음 기법은 문장에 나타나는 복합 명사, 본용언/보조용언. 의존명사 등을 묶어서 문장의 구조를 단순하게 만든다. 특히 문장에 다양한 형태로 나타나는 의존명사의 처리를 강화하여 구묶음을 효과적으로 할 수 있도록 하였다. 구간분할 기법은 긴 문장을 여러 개의 구간으로 나누어 각 구간을 구문분석 한다. 각 구간은 분할 이전보다는 단순화된 형태이기 때문에 긴 문장보다는 중의성이 줄어들어 견고한 구문분석을 할 수 있게 된다. 본 논문에서는 한국어 구문분석 시스템 개발의 1 단계 과정으로써 일단 중의성이 있는 상황이 아닌 명백한 의존관계를 수집하는 것을 목표로 한다. 본 논문에서는 실험을 통하여 구묶음과 구간분할 기법이 문장의 구조 중의성을 줄여 줌으로써 보다 많은 명백한 의존관계를 정확하게 추출할 수 있음을 보였다.

  • PDF