• Title/Summary/Keyword: 의미정보 부착

Search Result 108, Processing Time 0.03 seconds

Clustering Noun Using Syntactic Relations (용언의 구문관계를 이용한 명사 분류)

  • Kim, Hyun-Jin;Park, Se-Young;Jang, Myung-Gil;Park, Jay-Duke;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.111-115
    • /
    • 1997
  • 자연언어를 처리하는 응용시스템에서는 의미적으로 유사한 집합으로 분류된 단어들을 이용하는 것이 필요하다. 특히 한국어에서는 명사마다 함께 쓰이는 용언들이 제한되어 있다. 이 논문에서는 문장에서 용언과 명사의 구문 관계로 추출되는 정보를 이용하여 명사를 분류하는 방법을 제시한다. 또한 실제 코퍼스에서 추출된 명사들을 중심으로 의미적 집합으로 묶는 작업을 하고, 각 의미군마다 특징적인 구문 정보를 적용하여 자동 명사 추출에서 나타나는 모호성 해소에도 이용하였다. 용언의 구문관계 추출은 기존 연구된 용언 하위 분류 연구를 이용하였고, 코퍼스를 통해 얻은 명사와 용언을 이용하여 수정 및 보완하였다. 실험 코퍼스는 1만 문장 가량의 구문 구조가 부착된 코퍼스(Tree Tagged Corpus)를 이용하였다.

  • PDF

어의의 기술 -중간언어의 관점에서

  • 장석진
    • Proceedings of the Korean Society for Language and Information Conference
    • /
    • 2001.06a
    • /
    • pp.113-139
    • /
    • 2001
  • 중간언어 (interlingua, IL) 구축을 지향하는 시각에서 단어의 다의성 (polysemy) 문제를 각종 워드넷의 기술 방식과 용례를 대비하여 논의하고, 센스(어의) 번호를 부착한 세계 워드넷 (Would Wordnet) 데이터베이스를 구상하고, 이 연장 선상에서 (Pustejvsky 식) 생성 어휘 부와 TMR(텍스트의미표상)이론을 가미한 제약기반 통합문법(CUG)으로 IL구축에 다리를 놓고, 이로부터 개별언어 기술로 변환한다.

  • PDF

Analysis of Structural Ambiguities Using Syntactic Graph (구문 그래프를 이용한 구문적 애매성 분석)

  • Kim, Jae-Hoon;Seo, Jung-Yun;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1992.10a
    • /
    • pp.159-167
    • /
    • 1992
  • 한국어는 그 자체의 특성 때문에 영어와는 또 다른 형태의 구문적인 애매성을 포함하고 있다. 이와 같은 구문의 애매성을 해결하기 위해서는 여러 가지의 정보가 필요할 것이다. 예를 들면, 품사정보의 세분류, 명사들의 의미 속성정보들이 그것이다. 본 논문은 한국어 문장의 구문적인 애매성을 해결하기에 앞서 먼저 한국어 문장에 어떤 형태의 애매성이 포함되어 있는 지를 조사.분석한 것이다. 본 논문에서는 구문적인 애매성을 효율적으로 분석하기 위한 수단으로 구문 그래프를 이용하였다. 한국어 문장에는 다품사에 의한 애매성, 조사구 부착에 관한 애매성, 복합 체언구에 관한 애매성, 부사구 부착에 관한 애매성, 관형어의 수식 범위에 관한 애매성이 있다. 이들 중에서 복합 체언구에 의한 애매성이 가장 많은 애매성을 가지고 있었다. 즉, 실험 대상문장에서 발생가능한 전체의 애매성의 62%가 복합체언구에 관한 것이다. 따라서 한국어에서는 복합체언구에 관한 구문 구조적인 애매성 해소가 가장 우선적으로 해결해야 할 과제이다.

  • PDF

Syntax analysis of Korean based on CFG using Sentence Pattern Information as a constraint (문형을 제약 조건으로 하는 CFG 기반의 한국어 구문분석)

  • 이현영;황이규;배우정;이용석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.190-192
    • /
    • 1999
  • 한국어는 용언이 의미적 제약을 통해 문장을 지배하는 SOV 구조의 언어이다. 또한, 조사나 어미와 같은 기능어의 발달은 물론 관형절은 내포하는 문장이 주류를 이룬다. 따라서 한국어의 구문분석은 부착에 따른 많은 구문 모호성이 발생하게 된다. 본 논문에서는 조건단일화 기반의 CFG문법을 기술하고 문형을 구문 제약으로 하여 구문모호성을 해결하는 방안을 제시한다. 문형은 한국어의 특성을 용언의 하위범주화에 맞게 재분류한 문장의 구조적 유형을 말한다. 본 논문에서 제안하는 문형은 동사와 형용사를 구분하여 39가지로 설정하였다. 이런 문형 정보를 이용하여 관형형 어미를 갖는 용언이 최대의 정보를 가지도록 함으로써 관형절에서 발생하는 부사 및 체언구 부착의 문제가 해결된다. 또한 문형은 이중주어나 이중 목적어 문장을 처리할 수가 있어 한국어에서 발생하는 많은 구문모호성을 해결할 수 있다.

  • PDF

Korean Head-Tail POS-Tagger by using Transformer (Transformer를 이용한 한국어 Head-Tail 품사 태거)

  • Kim, Jung-Min;Suh, Hyun-Jae;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.544-547
    • /
    • 2021
  • 한국어의 품사 태깅 문제는 입력 어절의 형태소 분석 후보들로부터 통계적으로 적절한 품사 태그를 가지는 후보들을 찾는 방식으로 해결하여 왔다. 어절을 형태소 단위로 분리하고 품사를 부착하는 기존의 방식은 품사태그 정보를 딥러닝 feature로 사용할 때 문장의 의미를 이해하는데 복잡도를 증가시키는 요인이 된다. 본 연구에서는 품사 태깅 문제를 단순화 하여 한 어절을 Head와 Tail이라는 두 가지 유형의 형태소 토큰으로 분리하여 Head와 Tail에 대해 품사를 부착한다. Head-Tail 품사 태깅 방법을 Sequence-to-Sequence 문제로 정의하여 Transformer를 이용한 Head-Tail 품사 태거를 설계하고 구현하였다. 학습데이터로는 KCC150 말뭉치의 품사 태깅 말뭉치 중에서 788만 문장을 사용하고, 실험 데이터로는 10만 문장을 사용하였다. 실험 결과로 토큰 정확도는 99.75%, 태그 정확도는 99.39%, 토큰-태그 정확도는 99.31%로 나타났다.

  • PDF

Detecting Errors in POS-Tagged Corpus on XGBoost and Cross Validation (XGBoost와 교차검증을 이용한 품사부착말뭉치에서의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Park, Ho-Min;Cheon, Min-Ah;Yoon, Ho;Namgoong, Young;Kim, Jae-Kyun;Kim, Jae-Hoon
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.9 no.7
    • /
    • pp.221-228
    • /
    • 2020
  • Part-of-Speech (POS) tagged corpus is a collection of electronic text in which each word is annotated with a tag as the corresponding POS and is widely used for various training data for natural language processing. The training data generally assumes that there are no errors, but in reality they include various types of errors, which cause performance degradation of systems trained using the data. To alleviate this problem, we propose a novel method for detecting errors in the existing POS tagged corpus using the classifier of XGBoost and cross-validation as evaluation techniques. We first train a classifier of a POS tagger using the POS-tagged corpus with some errors and then detect errors from the POS-tagged corpus using cross-validation, but the classifier cannot detect errors because there is no training data for detecting POS tagged errors. We thus detect errors by comparing the outputs (probabilities of POS) of the classifier, adjusting hyperparameters. The hyperparameters is estimated by a small scale error-tagged corpus, in which text is sampled from a POS-tagged corpus and which is marked up POS errors by experts. In this paper, we use recall and precision as evaluation metrics which are widely used in information retrieval. We have shown that the proposed method is valid by comparing two distributions of the sample (the error-tagged corpus) and the population (the POS-tagged corpus) because all detected errors cannot be checked. In the near future, we will apply the proposed method to a dependency tree-tagged corpus and a semantic role tagged corpus.

Word Sense Classification Using Support Vector Machines (지지벡터기계를 이용한 단어 의미 분류)

  • Park, Jun Hyeok;Lee, Songwook
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.5 no.11
    • /
    • pp.563-568
    • /
    • 2016
  • The word sense disambiguation problem is to find the correct sense of an ambiguous word having multiple senses in a dictionary in a sentence. We regard this problem as a multi-class classification problem and classify the ambiguous word by using Support Vector Machines. Context words of the ambiguous word, which are extracted from Sejong sense tagged corpus, are represented to two kinds of vector space. One vector space is composed of context words vectors having binary weights. The other vector space has vectors where the context words are mapped by word embedding model. After experiments, we acquired accuracy of 87.0% with context word vectors and 86.0% with word embedding model.

How to Use Effective Dictionary Feature for Deep Learning based Named Entity Recognition (딥러닝 기반의 개체명 인식을 위한 효과적인 사전 자질 사용 방법)

  • Kim, Hong-Jin;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.293-296
    • /
    • 2019
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간과 같이 고유한 의미를 갖는 단어들을 찾아 개체명을 부착하는 기술이다. 최근 개체명 인식기는 형태소 단위나 음절 단위의 입력을 사용하는 연구가 주로 진행되고 있다. 그러나 형태소 단위 개체명 인식은 미등록어를 처리하지 못하는 문제점이 존재하고 음절 단위 개체명 인식은 단어의 의미를 제대로 반영하지 못하는 문제점이 존재한다. 본 논문에서는 이 문제점을 보완하기 위해 품사 정보를 활용한 음절 단위 개체명 인식기를 제안한다. 또한 개체명 인식 성능에 큰 영향을 미치는 개체명 사전 자질을 더 효과적으로 사용할 수 있는 방법을 제안하며 이 방법을 사용했을 때 기존의 방법보다 향상된 개체명 인식 성능(F1-score 0.8576)을 보였다.

  • PDF

Detecting Errors in Dependency Treebank through XGBoost and Cross Validation (XGBoost와 교차 검증을 이용한 구문분석 말뭉치에서의 오류 탐지)

  • Choi, Min-Seok;Kim, Chang-Hyun;Cheon, Min-Ah;Park, Hyuk-Ro;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.103-107
    • /
    • 2020
  • 의존구조 말뭉치는 자연언어처리 분야에서 문장의 의존관계를 파악하는데 널리 사용된다. 이러한 말뭉치는 일반적으로 오류가 없다고 가정하지만, 현실적으로는 다양한 오류를 포함하고 있다. 이러한 오류들은 성능 저하의 요인이 된다. 이러한 문제를 완화하려고 본 논문에서는 XGBoost와 교차검증을 이용하여 이미 구축된 구문분석 말뭉치로부터 오류를 탐지하는 방법을 제안한다. 그러나 오류가 부착된 학습말뭉치가 존재하지 않으므로, 일반적인 분류기로서 오류를 검출할 수 없다. 본 논문에서는 분류기의 결과를 분석하여 오류를 검출하는 방법을 제안한다. 성능을 분석하려고 표본집단과 모집단의 오류 분포의 차이를 분석하였고 표본집단과 모집단의 오류 분포의 차이가 거의 없는 것으로 보아 제안된 방법이 타당함을 알 수 있었다. 앞으로 의미역 부착 말뭉치에 적용할 계획이다.

  • PDF

Technology Trends for Internet of Things Security (사물인터넷(IoT) 보안 기술 동향)

  • Kim, Jin-Seok;Jun, Moon-Seog
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.471-472
    • /
    • 2017
  • 사물인터넷은 각종 사물에게 통신 기능 및 센서 기능 장치를 부착하여 인터넷에 연결될 수 있게 하고 각 사물들 간에 통신을 가능하게 하는 기술을 의미한다. 미국의 국가정보위원회는 2025년까지 다양한 분야에서 국가경쟁력에 영향을 미칠 수 있는 6대 기술 중 하나로 사물인터넷을 꼽고 보안 대책을 마련하고 있다. 여러 분야에 걸쳐 있는 사물인터넷의 보안 대책 수립을 위해 각 분야별로 다른 접근법을 제시하는 것이 필요하다.