• 제목/요약/키워드: compound noun

검색결과 68건 처리시간 0.024초

조사 유형 및 복합명사 인식에 의한 용어 가중치 부여 기법 (Term Weighting Method by Postposition and Compound Noun Recognition)

  • 강승식;이하규;손소현;홍기채;문병주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.196-198
    • /
    • 2001
  • 문서의 내용을 대표하는 용어를 추출하기 위해 일반적으로 영어에서는 명사구를 색인하는 기법을 사용하지만 주제어 추출의 관점에서 영어의 명사구가 한국어의 복합명사에 해당하기 때문에 한국어에서는 복합명사 색인 기법을 중요시하고 있다. 본 논문에서는 한글 문서에서 추출된 용어의 가중치를 결정하기 위하여 경험적인 방법에 따라 가중치를 계산하는 방법을 제안한다. 구체적인 가중치 계산 방법으로 용어 자체의 특성에 의한 가중치를 부여한 후에, 복합명사의 경계를 인식하여 띄어쓴 복합명사의 가중치를 조절하고, 다시 용어의 조사 유형에 따라 가중치를 재계산하는 방법을 제안한다. 신문기사에 대한 실험결과에 의하면 제안한 방법이 단순 출현빈도에 의한 주제어 추출 기법보다 정확도가 더 높았다.

  • PDF

Two-level 한국어 형태소 해석에서의 복합명사 처리 (A Compound Noun Processing in the Two-level Morphological Analysis of Korean)

  • 이근용;박기선;이용석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.505-507
    • /
    • 2002
  • Two-level 형태소 해석 모델은 단어들이 결합할 때 발생하는 철자변화를 처리하는 언어 독립적인 형태소 해석 모델이다. 그러나 한국어의 경우 활용과 첨용이 자유로운 교착어에 속하며 음절단위 표현법 때문에 two-level 모델을 이용한 형태소 해석 방법보다는 언어 종속적인 형태소 해석 방법을 사용하여 왔다. 한국어 용언과 다양한 변형을 처리하기 위한 two-level 규칙이 표현되었지만, 형태소 해석에서 사용하기 위해서 필요한 복합명사 치리와 미지어 처리에 대한 적절한 방법이 아직 계시되지 않았다. 본 논문은 어절 생성 규칙을 이용한 사전 구성을 이용하여 two-level 모델에서의 한국어 복합명사의 처리에 대해서 다루고, two-level 모델에서 한국어 복합명사 처리가 가능함을 보이고자 한다.

  • PDF

한국어 복합명사 분해 오류 탐지 기법 (Error Detection Method for Korean Compound Noun Decomposition)

  • 강민규;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.181-185
    • /
    • 2009
  • 복합명사를 분해하는데 있어서 발생하는 분해오류들은 대부분 예외상황들로 취급된다. 전체적으로 차지하는 비중은 크지 않은데 오류 처리를 위해 들어가는 비용이 상대적으로 크기 때문이다. 하지만 분해된 데이터를 색인기나 문서분류기, 기계번역기 등에 실제로 적용해야 할 경우, 분해오류들을 수정해주어야 더 나은 성능을 보일 수 있기 때문에 분해오류를 찾아내고 수정하는 방법을 고안해야 한다. 본 논문에서는 복합명사 분해기에서 추출된 결과를 살펴보고, 주요 분해오류들이 가진 공통적인 특징을 파악하여 분해오류를 발견하는 방법을 생각해보고자 한다.

  • PDF

합성명사 의미해석용 사전 구축을 위한 워크벤치 (Workbench for Constructing Dictionary for Semantic Analysis of Compound Noun)

  • 이경순;김도완;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-155
    • /
    • 2000
  • 본 논문에서는 한국어에서 빈번하게 나타나는 합성명사의 의미해석을 하기 위한 워크벤치를 설계하고 구현하였다. 합성명사 의미해석을 위한 사전 구축 지원 워크벤치의 기능은 합성명사를 이루고 있는 명사와 명사가 어떠한 의미관계로 결합하고 있는지를 밝히기 위해서 의미관계 패턴을 정의한다. 정의된 의미관계 패턴을 이용하여 합성명사를 자동적으로 추출한다. 추출된 합성명사 사전을 이용해서 각 명사의 상위개념에 대해서도 의미관계를 반영시켜서 합성명사의 의미관계를 해석할 수 있도록 하는 환경을 제공하고 있다.

  • PDF

자동 정렬을 통한 영한 복합어의 역어 추출 (Extraction of English-Korean Compound Noun Translation through Automatic Alignment Method)

  • 이주호;최기선;이재성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.309-314
    • /
    • 2000
  • 본 논문에서는 양국어로 된 병렬 코퍼스로부터 복합어의 역어를 추출하기 위한 정렬 방법을 제시한다. 여기에서는 개념어에 대한 양국어 공기정보를 사용하여 기본 정렬을 하고, 인접한 개념어로 정렬의 단위를 확장했다. 또한 재추정 기법을 사용하여 대역 확률을 계산함으로써 보다 높은 정확률을 얻을 수 있었다. 본 논문에서 제안한 방법을 적용하여 139,265개의 영어 어절로 이루어진 우루과이 라운드 영한 병렬 코퍼스에 대해서 실험한 결과 2,290개의 대역어 쌍을 얻었고, 그 정확률은 74%였다.

  • PDF

단어 가중치 값을 이용한 복합명사 제한적 확장 및 검색 성능 개선 (Improvement of retrieval system and generation of compound noun using word weight method)

  • 김현진;이충희;허정;장명길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (상)
    • /
    • pp.603-606
    • /
    • 2002
  • 자동색인이나 정보검색 엔진에서는 효율적인 색인어 추출이 주요한 요인으로 작용한다. 특히 색인 집합의 많은 부분을 차지하는 복합명사의 경우에는 색인과 검색 두 분야 모두에 큰 문제로 여겨져 왔다. 본 논문에서는 복합명사를 이루는 단일 단어 중에 단어 가중치가 높은 것을 중심으로 복합명사를 확장하는 방식을 이용하여, 색인어를 추출하여, 복합명사가 제한적으로 확장되는 효과를 보여 주며, 검색에서는 질의문에 나타나는 명사들에 이러한 가중치 값을 적용하여 검색에 효과를 높여 주는 방식을 제안한다.

  • PDF

한국어 연속음성인식을 위한 형태소 경계에서의 발음 변화 현상 모델링 (Modeling Cross-morpheme Pronunciation Variation for Korean LVCSR)

  • 이경님;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.75-78
    • /
    • 2003
  • In this paper, we describe a cross-morpheme pronunciation variation model which is especially useful for constructing morpheme-based pronunciation lexicon for Korean LVCSR. There are a lot of pronunciation variations occurring at morpheme boundaries in continuous speech. Since phonemic context together with morphological category and morpheme boundary information affect Korean pronunciation variations, we have distinguished pronunciation variation rules according to the locations such as within a morpheme, across a morpheme boundary in a compound noun, across a morpheme boundary in an eojeol, and across an eojeol boundary. In 33K-morpheme Korean CSR experiment, an absolute improvement of 1.16% in WER from the baseline performance of 23.17% WER is achieved by modeling cross-morpheme pronunciation variations with a context-dependent multiple pronunciation lexicon.

  • PDF

구조적 학술용어사전 구축에 있어서 인문사회분야 복합명사의 한자어 접미사 형태분석에 의한 용어의 개념화에 관한 연구 (A Study on the Conceptualization of Terminology for Construction of Structured Glossary - A Morphological Analysis of Sino-Korean Suffixes of Compound Noun in Humanities & Social Sciences)

  • 박성은;신유정
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2013년도 제20회 학술대회 논문집
    • /
    • pp.123-128
    • /
    • 2013
  • 본 연구는 한자어 접미사를 가진 학술용어 복합명사의 형태를 분석하고, 한자어 접미사를 가진 복합 명사의 범주화를 위한 알고리즘을 제시하는 것을 목적으로 한다. 연구의 배경은 구조적 학술용어사전의 구축과 관련하여 용어의 효율적인 개념화 방법론을 개발하는 것이다. 연구 목적을 이루기 위해 한자어 접미사를 가진 인문사회분야 복합명사의 형태를 분석하여, 출현 빈도가 10회 이상인 한자어 접미사를 각 분야별로 14개씩 추출하였다. 그리고 각 한자어 접미사가 배정된 개념범주와 개념범주 배정 빈도를 분석한 결과, 동음이의 한자어 접미사를 가진 경우 개념범주가 다양하게 배정될 수 있지만, 동음동형 한자어 접미사를 가진 경우에는 그렇지 않다는 특징을 파악하였다. 또한 특정 한자어 접미사가 하나의 개념범주에 배정된 빈도가 높고 그 외의 개념범주에 배정된 빈도는 현저히 낮을 경우 빈도가 높은 개념범주에 배정되는 것이 더 타당한 것으로 분석되었다.

  • PDF

한국어 합성 동사성 명사의 어휘구조와 다중 동사성명사 구문

  • 류병래
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2001년도 학술대회 논문집
    • /
    • pp.141-144
    • /
    • 2001
  • 본 논문의 목적은 ‘다중 동사성 명사 구문’(Multiple Verbal Noun Construe-tions)의 논항실현 양상을 이론 중립적으로 고찰해 보고, 이 분석을 제약기반 문법 이론인 최근의 핵 심어주도 구구조문법 (Head-driven Phrase Structure Grammar)틀 안에서, 특히 다중계승위 계를 가정하는 제약기반 어휘부를 기반으로 형식화해 논항의 실현과정을 기술하고 설명하는 것이다. 우선 일본어의 유사한 현상을 분석한 Grimshaw & Mester (1988)의 격실현 양상에 관한 일반화를 기반으로 한국어 동사성명사구문의 논항실현 양상을 ‘논항전이’ (argument transfer)라는 이론적 장치를 이용해 형식화할 수 있음을 보이고, 동사성 합성명사의 논항구조를 만들기 위해 ‘논항합성’(argument composition)이라는 이론적 장치를 제안한다. 나아가서 다중 동사성 명사구문의 논항실현 과정에서 보이는 겹격표지 현상을 ‘격 복사’(case copying)를 제안해 동사성 명사의 격표지가 합성 명사에서 분리되어 문장단위에서 실현될 때 동일한 격을 복사해 실현한다는 점을 주장하고자 한다. 이 주장을 뒷받침하기 위해 수동과 능동 등 문법기능의 변화현상에서 하위범주화된 요소들의 격변화가 자의적이 아님을 실례를 들어 보여 주고자 한다. 일본어의 경동사 (light verbs)에 관한 분석 인 Grimshaw Meste, (1988) 이래 한국어에서도 이와 유사한 구문에 대한 재조명이 활발하게 이루어져 왔다 (Ryu (1993b), 채희락 (1996), Chae (1997) 등 참조). 한국어에서 ‘하다’와 동사성명사(verbal nouns)가 결합하여 이루어진 ‘동사성명사구문’ (Verbal Noun Constructions)에 대한 기존의 논의는 대부분 하나의 동사성 명사가 ‘하다’나 ‘되다등 소위 문법기능을 바꾸는 ‘경동사’들과 결합하여 복합술어가 되는 문법적 현상에 초점이 맞춰져 있었다. 그와 비교해서 동사성 명사의 어근이 두 개 이상 결합하여 동사성명사들끼리 합성명사(compound nouns)를 이루고 그 동사성 합성명사가 문법기능의 변화를 바꾸는 ‘경동사’와 결합하여 이루어진 복합술어에 대해서는 논의가 거의 없는 형편이다. 특히 이 지적은 핵심어주도 구절구조문법틀 내에서는 논란의 여지가 없다. 본 논문의 대상은 바로 이러한 합성 동사성명사의 논항구조와 동사성명사에 의해 하위범주화된 논항들의 문법적 실현양상이다.

  • PDF

단위 명사간 보-술 관계를 이용한 한국어 복합 명사의 문장 복원 (Restoring Functional Word and Noun-Verb Syntactic Relations for Korean Compound Noun Analysis)

  • 양성일;김영길;서영애;박은진;나동렬
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.694-695
    • /
    • 2007
  • 한국어 문장의 구성은 명사, 동사와 같은 내용어와 조사, 어미와 같은 기능어로 크게 나눌 수있다. 문장의 핵심적인 의미 전달은 내용어에 의해 이루어지며, 한국어 명사구의 경우 잦은 기능어의 생략으로 명사 나열에 의한 복합 명사가 발생된다. 이렇게 발생되는 복합 명사를 구성하는 단위 명사들은 일부 문장 성분을 생략시켜 발생된 것으로, 생략 성분의 복원에 의해 본래의 문장 형태를 추정할 수 있다. 한국어 복합 명사의 경우, 생략되는 문장 성분은 대부분 접사, 조사와 같은 기능어로 국한되며, 기능어의 복원은 단위 명사 간의 격 관계와 의미 관계를 분석하여 이루어질 수 있다. 본 논문에서는 단위 명사간의 보-술 관계를 이용하여 복합 명사를 구성하는 단위 명사 간의 의존 관계를 추정하고, 추정된 의존 관계에 의해 생략된 격조사와 용언화 접사를 복원하는 방법을 제안한다. 구조 분석에서 사용되는 의미 격틀에 의해 결정되는 격 관계는 격조사와 용언화 접사의 복원을 결정하며, 올바른 본래의 문장 표현 복원을 위해 관형격 조사와 관형격 어미를 비롯한 특별한 형태의 복원은 통계 정보와 휴리스틱 규칙으로 결정한다.