• Title/Summary/Keyword: 의미정보 부착

Search Result 108, Processing Time 0.02 seconds

Word Sense Disambiguation of Polysemy Predicates using UWordMap (어휘지도(UWordMap)를 이용한 용언의 다의어 중의성 해소)

  • Bae, Young-Jun;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.167-170
    • /
    • 2013
  • 한국어 어휘의 의미를 파악하기 위하여 어휘의 의미 중의성을 해결하는 것은 중요한 일이다. 본 논문에서는 한국어 다의어 기반의 어휘 의미망과 용언의 논항정보 등의 관계가 포함된 어휘지도(UWordMap)를 사용하여 용언의 의미 중의성 해소에 대한 연구를 진행한다. 기존의 의미 중의성 해소 연구와 같은 동형이의어 단위가 아닌 다의어 단위의 용언 의미 중의성 해소 시스템을 개발하였다. 실험결과 실험말뭉치로 품사 태그 부착 말뭉치를 사용했을 때 동형이의어 단위 정확률은 96.44%였고, 다의어 단위 정확률은 67.65%였다. 실험말뭉치로 동형이의어 태그 부착 말뭉치를 사용했을 때 다의어 단위 정확률은 77.22%로 전자의 실험보다 약 10%의 높은 정확률을 보였다.

  • PDF

Semantic Role Transformation of Arguments using Predicate and Josa Information (술어와 조사 정보를 이용한 논항의 의미역 변환)

  • Seo, Min-Jeong;Seok, Mi-Ran;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.51-55
    • /
    • 2014
  • 의미역 결정 (Semantic Role Labeling) 은 문장 내의 술어와 이들의 논항들의 의미 관계를 결정하는 과정을 뜻한다. 의미역 결정을 하기 위해서는 대량의 말뭉치와 다양한 언어 자원이 필요한데, 많은 경우에 PropBank 말뭉치가 사용된다. 한국어 PropBank는 다른 언어에 비해 자료가 적어 그것만을 가지고 의미역 결정을 하기에 적절하지 않다. 또한 한국어 의미 분석을 위해서 지금까지는 세종 말뭉치나 의미역이 활용되어 오기도 하였다. 따라서 한국어 의미역 결정에서는 한국어 PropBank 뿐만 아닌 세종 의미역 표지 부착 말뭉치의 구축 역시 요구되는데 말뭉치 구축 작업이 수동 부착 작업이기 때문에 많은 시간과 비용이 소모된다. 본 논문에서는 이러한 문제점을 해결하기 위해 이미 구축되어 있는 한국어 PropBank 의미역을 세종 의미역으로 자동 변환하는 방법을 제시한다. 자동 변환을 위해서는 먼저 PropBank 의미역의 변환 후보 의미역을 구하여 이들 중에서 가장 적절한 의미역으로 변환한다. 자동 변환을 위해서는 크게 3 가지 특징을 활용하는데, 첫째는 변환 대상 논항의 의미 유사성이고, 둘째는 논항과 의미 관계를 가지고 있는 술어, 그리고 셋째는 논항과 결합되어 있는 조사이다. 이 세 가지 특징을 사용하여 정확한 의미역 변환을 위해 술어, 조사의 의미역 결합 확률 테이블을 구축한다.

  • PDF

Word Sense Disambiguation Using Word Link and Word Cooccurrence (단어링크와 공기 단어를 이용한 의미중의성 해소)

  • 구영석;나동렬
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2002.05a
    • /
    • pp.21-27
    • /
    • 2002
  • 본 논문은 문장 안에서 의미 중의성을 갖는 단어가 출현했을 때 그 단어가 어떤 의미로 사용되고 있는지 판별해 주는 방법을 제시하고자 한다. 이를 위해서 먼저 중의적 의미를 가지는 단어의 각 의미 (sense) 마다에 대하여 이 의미를 나타내는 주요단어 즉 종자단어와 연관성이 있는 단어들로 벡터를 구성하여 이 의미를 나타내고자 한다. 종자단어와 말뭉치의 문장을 통하여 연결된 경로를 가진 단어는 이 종자단어에 해당하는 의미를 나타내는 데 기여하는 정보로 본 것이다. 경로는 동일 문장에서 나타나는 두 단어 사이는 링크가 있다고 보고 이러한 링크를 통하여 이루어 질 수 있는 연결 관계를 나타낸다. 이 기법의 장점은 데이터 부족으로 야기되는 문제를 경감시킬 수 있다는 점이다. 실험을 위해 Hantec 품사 부착된 말뭉치를 이용하여 의미정보벡터를 구축하였으며 ETRI 품사 부착된 말뭉치에서 중의적 단어가 포함된 문장을 추출하여 실시하였다. 실험 결과 기존의 방법보다 나은 성능을 보임이 밝혀졌다.

  • PDF

Word Sense Disambiguation From Unlabelled Data (의미 부착이 없는 데이터로부터의 학습을 통한 의미 중의성 해소)

  • 박성배;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.330-332
    • /
    • 2000
  • 의미 모호성 해소는 문맥상의 한 단어의 올바른 의미를 밝히는 것으로, 대부분의 자연언어처리 응용에서 가장 중요한 문제 중 하나이다. 말뭉치로부터 얻어진 예제로부터 의미 모호성 해소 방법을 학습하기 위해서는 답이 알려져 있는 대량의 학습 예제가 필요하지만, 답이 알려져 있는 예제를 구하는 일은 사람의 간섭을 필요로 하므로 매우 비싼 작업이다. 본 논문에서는 답이 알려져 있는 학습 예제로 어느 정도 학습한 수, 답이 알려져 있지 않은 예제로 학습을 보충하는 방법을 통해 사람의 간섭을 최소화하였다. 결정트리 학습을 통한 한국어 명사에 대한 의미 결정 실험 결과, 본 논문에서 제안한 방법은 가장 많은 분포를 보이는 의미를 선택하는 경우보다 평균적으로 33.6%의 성능 향상을 보이며, 이는 전체 학습 예제의 답이 모두 알려져 있는 경우와 거의 비슷한 결과이다. 따라서, 한국어와 같이 신뢰할 만한 의미 부착 말뭉치가 없는 경우에 본 논문에서 제시된 방법은 매우 효율적이다.

  • PDF

Resolution of Korean Syntactic Ambiguity using Sentence Patterns Information and Clausal Segmentation (문형과 단문 분할을 이용한 한국어 구문 모호성 해결)

  • Lee, Hyeon-Yeong;Hwang, Yi-Gyu;Lee, Yong-Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.116-123
    • /
    • 2000
  • 한국어 구문 분석은 체언구 부착이나 부사구 부착의 문제를 가진다. 이런 부착의 문제는 많은 구문 모호성을 만들어 내어 올바른 의미를 가지는 파스 트리의 선택을 어렵게 한다. 한국어에서 이런 부착의 문제는 대부분 한국어 문장이 내포문을 포함하는 복문의 형태로 구성되어 있기 때문이다. 단문에서는 부착의 문제가 발생하지 않지만 복문에서는 체언구나 부사구가 어떤 용언에 부착하느냐에 따라 체언구 부착이나 부사구 부착의 문제가 발생한다. 따라서 용언이 가지는 정보를 이용하여 내포문의 범위를 결정해서 하나의 구문범주의 기능을 가지도록 분할한다. 이를 단문 분할이라 하며 문형이 가지는 필수격들을 최대로 부착하여 이루어진다. 단문분할을 하면 복문의 구조가 단문으로 바뀌므로 이런 부착의 문제가 자연스럽게 해결된다. 본 논문에서는 문형과 단문 분할을 이용하여 많은 구문 모호성을 해결할 수 있음을 제안한다.

  • PDF

Word Sense Disambiguation using Korean Word Space Model (한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소)

  • Park, Yong-Min;Lee, Jae-Sung
    • The Journal of the Korea Contents Association
    • /
    • v.12 no.6
    • /
    • pp.41-47
    • /
    • 2012
  • Various Korean word sense disambiguation methods have been proposed using small scale of sense-tagged corpra and dictionary definitions to calculate entropy information, conditional probability, mutual information and etc. for each method. This paper proposes a method using Korean Word Space model which builds word vectors from a large scale of sense-tagged corpus and disambiguates word senses with the similarity calculation between the word vectors. Experiment with Sejong morph sense-tagged corpus showed 94% precision for 200 sentences(583 word types), which is much superior to the other known methods.

A Design of Frame File Extension Tool for Korean PropBank (한국어 PropBank 프레임 파일 확장 도구 설계)

  • Lee, Jung-Kuk;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.126-129
    • /
    • 2011
  • 본 논문에서는 한국어 PropBank의 구축을 위한 동사의 프레임 파일 확장 및 구축에 대한 연구를 논한다. 문장 단위의 의미 분석에 있어서 가장 중요하다고 볼 수 있는 의미 역 결정을 위해서 필요한 언어자원중, PropBank는 동사의 술어-논항 구조를 태그해 놓은 말뭉치로써 가장 널리 쓰이는 언어자원 중 하나이다. PropBank는 크게 술어-논항 구조를 태그한 말뭉치와 개별 동사들의 논항 구조를 기술한 프레임 파일로 이루어져 있다. 한국어 PropBank 구축을 위해서는 구문 표지 부착 말뭉치에 술어-논항 구조의 표지 부착 작업 및 한국어 동사의 프레임 파일의 구축 및 확장이 이루어져야 하는데, 본 논문에서는 세종 계획에서 발표한 용언 격틀 파일을 사용하여 기존의 한국어 PropBank 프레임 파일을 확장하는 도구를 설계하였다.

  • PDF

The Construction of Predicate Subcategorization Using Tree Tagged Corpus (구문구조부착 말뭉치를 이용한 술어의 하위범주화 정보 구축)

  • Ryu, Pum-Mo;Jang, Myung-Gil;Park, Soo-Jun;Park, Jae-Deuk;Park, Doing-In
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.116-121
    • /
    • 1997
  • 한국어 문장에서 술어의 역할이 매우 중요하기 때문에 술어의 하위범주화 정보는 한국어 분석 및 생성에서 필수적이다. 그러나 기존의 한국어 술어의 하위범주화 사전은 전문가의 사전지식이나 직관에 의존하여 만들어졌기 때문에 주관적이고 오류의 가능성이 높으며 많은 수작업이 필요했다. 또 영역에 독립적인 하위범주화 정보를 구축하는 작업은 매우 어렵기 때문에 응용영역에 맞는 하위범주화 정보를 쉽게 구축하는 방법이 요구되었다. 본 논문에서는 구문구조부착 말뭉치를 이용하여 전문가의 제한된 개입만으로 통계정보와 명사의 의미정보를 포함하는 술어의 하위범주화 정보 구축 방법을 제안한다.

  • PDF

Construct ion of Korean Thesaurus Us ing Machine Readable Dictionary (기계가독사전을 이용한 한국어 시소러스 구축)

  • Lee, Ju-Ho;Un, Koaung-Hi;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.273-279
    • /
    • 2001
  • 시소러스는 자연언어처리의 여러 분야에서 이용 가능한 아주 유용한 정보이다. 본 논문에서는 기존의 구축된 시소러스를 기반으로 우리말 큰사전을 이용하여 한국어 명사 시소러스를 반자동으로 구축하는 과정을 소개한다. 우선 코퍼스의 고빈도어를 중심으로 사전에서 추출한 기본명사들의 각 의미에 1차로 의미번호 부착 후 그 결과를 이용하여 사전 정의문으로 각 의미별 클러스터를 구성했다. 그리고, 전단계에서 의미번호를 붙이지 못한 명사의 의미에 대하여 그 정의문과 클러스트들 간의 유사도를 계산하여 가장 유사한 의미번호를 후보로 제시하였다. 마지막으로 사전의 하이퍼링크를 사용하여 아직 의미 번호가 붙지 않는 명사의 의미에 의미번호를 부여했다. 각 단계에서는 사람의 후처리를 통해서 시소러스의 정확도를 높였다.

  • PDF