• Title/Summary/Keyword: 언어획득

Search Result 236, Processing Time 0.027 seconds

Researches on the Convergence of Linguistic Knowledge Acquisition Process (언어지식 획득 과정에서의 수렴성 보장에 관한 연구)

  • Lee, Hyun-A;Park, Jay-Duke;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.416-420
    • /
    • 1997
  • 다양한 응용 목적의 대규모 실용적 언어지식 구축을 위해서는 한국어의 모든 언어현상을 수용할 수 있는 이상적인 언어지식(optimal linguistic knowledge) 획득을 목표로 연구해 나가야 한다. 본 연구에서 언어지식의 획득은 주어진 말뭉치의 분석을 통해 이루어진다. 주어진 말뭉치에서 새로운 언어현상이 발견되었을 경우, 기존의 언어지식은 새로운 언어현상을 수용할 뿐만 아니라 기존에 발견되었던 언어현상도 함께 수용할 수 있도록 바뀌어져야 한다. 이러한 변화의 원칙이 보장되어야만 언어지식의 양적 확장과 함께 질적 확장을 이룰 수 있다. 본 연구에서는 언어지식의 질적 확장을 언어지식의 수렴성이라고 정의하고 수렴성 보장을 위한 방법론을 연구한다. 수렴성 보장을 위해서는 먼저 언어지식 획득과정이 공정화, 자동화되어야 하고 언어지식이 변화할 때 수렴을 확인하는 과정이 필요하다. 수렴을 확인하기 위하여 구문구조 데이터베이스와 역사전(Inverted Dictionary)을 이용하는 방법을 제안한다. 지금까지는 언어지식의 양적 확장에만 치중해 왔으나 본 연구에서 제안된 방법으로 언어지식이 구축된다면 질적 확장도 함께 도모할 수 있을 것으로 기대된다.

  • PDF

An Automatic Korean Lexical Acquisition System (한국어 어휘자동획득 시스템)

  • Lim, Heui-Seok
    • Journal of the Korea Academia-Industrial cooperation Society
    • /
    • v.8 no.5
    • /
    • pp.1087-1091
    • /
    • 2007
  • This paper proposes a automatic korean lexical acquisition system which reflects the characteristics of human language acquisition. The proposed system automatically builds two kinds of lexicon, full-form lexicon and decomposition using Korean corpus as its input. As the experimental results using Korean Sejeong corpus of which size is 10 million Eojeols, the system acquired 2,097 full-form Eojeols and 3,488 morphemes. The accumulated frequency of the acquired full-form Eojeols covers the 38.63% of the input corpus and accuracy of morpheme acquisition is 99.87%.

  • PDF

Matrix Factorization Models for Knowledge Base Population (지식베이스 확장을 위한 행렬 분해 모델)

  • Kim, Jiho;Nam, Sangha;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.3-7
    • /
    • 2017
  • 지식베이스의 목표는 세상의 모든 지식을 데이터베이스화 하는 것이지만 지식 획득 능력의 부족으로 항상 지식 부족 문제에 시달린다. 지식 획득은 주로 웹 상에 있는 자연언어문장을 지식화 하는 외부적인 지식 획득을 통해 이루어지지만, 지식베이스 내부에서 지식을 확장해 나가는 방법에 대해서는 연구가 소홀히 이루어지고 있다. 따라서 본 논문에서는 내부적인 지식 획득을 위한 지식베이스 행렬 분해 모델을 소개한다. 본 논문에서 소개하는 방법은 지식베이스를 행렬로 변환한 뒤 행렬 분해 모델을 통해 새로운 지식에 대한 신뢰도를 점수화하는 방법이다. 본 논문에서 소개한 방법의 우수성과 실효성을 입증하기 위해 한국어 지식베이스인 한국어 디비피디아(2016-10)를 대상으로 본 모델의 정확도 측정 실험 결과를 소개한다.

  • PDF

An Incremental Acquisition of Terms Using Extended Variation Rules (확장된 변이 규칙을 이용한 용어의 점진적 획득)

  • Jung, Han-Min;Kim, Young-Kil;Choi, Sung-Kwon
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.111-117
    • /
    • 1998
  • 자연어 처리 응용 분야에서 다양하게 이용할 수 있는 용어들을 자동적으로 획득하고, 나아가 이 과정을 점진적으로 반복하여 수행함으로써 획득할 수 있는 용어의 수를 증가 시키고 그 용어들 간의 의미적 관계도 얻을 수 있다. 점진적인 용어 획득을 위하여 용어의 형태에 변이 규칙을 적용하여 새로운 용어를 획득하는 과정을 반복한다. 우리는 변이의 종류를 단어간의 변이 뿐만 아니라 단어 내의 변이 그리고 이 둘을 결합한 복합 변이로까지 확장하여 새로운 용어 획득 과정을 더욱 다양화하는 기법을 제시한다. 실험은 확장된 변이 규칙으로부터 얻은 용어들 중에서 기존의 단어간의 변이로부터 획득한 용어들의 비율이 전체의 38.6%라는 사실로부터 변이의 종류 및 규칙의 확장이 획득할 수 있는 용어들의 수를 증가 시킬 수 있다는 것을 보여준다.

  • PDF

Problem Analysis on Syntactic Linguistic Knowledge Acquisition and Design of a Supporting Tool (구문적 언어지식 획득 과정의 문제점 분석 및 지원도구 설계)

  • Lee, Hyun-A;Park, Jae-Deuk;Jang, Myung-Gil;Park, Soo-Jun;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.489-496
    • /
    • 1996
  • 자연어 처리에서 언어에 대한 지식은 전자사전과 문법규칙으로 구성되어 서로 상보적 관계에 있고, 각 어휘에 대한 품사 및 기타 자질-값에 의해 매개된다. 이러한 언어지식을 전통적인 방법에서는 국어자료의 분석에 경험이 많은 언어전문가의 직관에 다분히 의존하여 정의하였고, 말뭉치를 이용한 자동 획득 기법에서는 태그세트를 먼저 설정하고, 이 태그를 원시 말뭉치에 부착하여 태깅된 말뭉치로부터 자동으로 통계적 분석을 통하여 획득한다. 그런데 두가지 접근방법이 가지고 있는 공통적인 문제점은 품사나 자질-값의 정의 및 할당기준, 선악의 평가기준, 튜닝에 대한 적극적 대처 등이 마련되어 있지 않다는 점이다. 이 연구에서는 이러한 문제점의 발생원인을 말뭉치 분석 과정에서 살펴보고, 품사 및 자질-값의 설정과 할당기준을 마련하는 방법론 및 이를 적극적으로 지원하는 도구를 설계한다.

  • PDF

An Approach to Automatically Generating Infobox for Wikipedia in Cross-languages through Translation and Webgraph (번역과 웹그래프를 활용한 언어 간 위키피디아 인포박스 자동생성 기법)

  • Kim, Eun-Kyung;Choi, DongHyun;Go, Eun-Bi;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2011.10a
    • /
    • pp.9-15
    • /
    • 2011
  • 여러 언어로 작성되는 위키피디아의 경우 언어 간에 등록되어 있는 정보의 양과 내용이 달라 언어 간 정보를 상호 추출하고 서로 통합하는 연구에 대한 관심이 증가하고 있다. 특히, 위키피디아의 요약본으로써 의미가 있는 인포박스는 위키피디아 아티클에 존재하는 구조화된 정보 중 가장 근간이 되는 정보로, 본 논문에서는 위키피디아에 존재하는 인포박스를 1)소스 언어 자원으로부터 획득하여 타겟 언어로 번역하고, 2)번역된 결과물과 웹그래프를 이용하여 타겟 언어 데이터에서 획득하는 정보와 결합하는 과정을 통해 자동으로 인포박스를 생성하는 기법에 대하여 설명한다. 웹그래프는 위키피디아에 존재하는 링크 구조를 통해 서로 다른 두 용어간의 관련도를 측정하여 인포박스에 추가될 내용을 파악하는데 사용한다. 본 논문의 기법은 언어 간 인포박스를 생성하는 측면에서, 영어 인포박스 데이터를 입력으로 하여 한국어 인포박스 데이터를 생성하는 방식으로 진행하였다. 평가를 위하여 기존 한국어에 실제 존재하는 인포박스 데이터와 비교 실험하는 방식을 사용하여 평균적으로 40%의 정확률과 83%의 재현율을 나타내었다. 하지만, 기존 한국어에 존재하는 인포박스 데이터의 내용이 인포박스에 포함될 완전한 데이터를 모두 포함했다고 볼 수 없으므로 본 논문에서 제안하는 수행한 실험의 정확률이 상대적으로 낮게 나온 것으로 분석되었다. 실제 사람이 수작업으로 새롭게 생성된 인포박스 데이터의 적합성을 판별한 경우 평균 76%의 정확률과 91%의 재현율을 나타내었다.

  • PDF

Automatic Acquisition of Lexical Rules for Part-of-Speech Tagging (품사태깅을 위한 어휘규칙의 자동획득)

  • Lee, Sang-Zoo;Ryu, Won-Ho;Kim, Jin-Dong;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.20-27
    • /
    • 1998
  • 기존의 어휘규칙기반 품사태거는 품사문맥이나 어휘확률만을 사용하는 통계적 품사태거에 의해 해결되지 않는 형태론적 중의성을 어휘문맥을 참조하는 어휘규칙을 사용함으로써 효과적으로 해결할 수 있었다. 그러나 어휘규칙을 수작업으로 획득하기 때문에 규칙 획득에 많은 시간이 소요되어 소량의 규칙만이 사용되었다. 본 논문에서는 품사부착말뭉치로부터 어휘규칙을 자동으로 획득하는 방법을 제안한다. 제안된 방법으로 자동획득된 어휘규칙을 사용하여 실험말뭉치의 66.1%를 98.8%의 정확률로 태깅하였다. 이로써 통계적 품사태거만을 사용할 때(95.43% 정확률) 보다 어휘규칙과 결합할 때(96.12% 정확률) 통계적 품사태거의 성능이 약 15.1%(0.69% 정확률)만큼 향상되었다. 또한 제안된 방법은 영어 품사태깅에 대해서도 효과적임이 실험을 통해 증명되었다.

  • PDF

Acquirement and Storage of Knowledge in Intelligent Character System Using Question Answering System (질의응답시스템을 활용한 지능형 케릭터 시스템에서 지식의 획득과 저장)

  • Park, Hong-Won;Lee, Ki-Ju;Lee, Su-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.124-128
    • /
    • 2002
  • 질의응답시스템을 활용한 지능형 케릭터 시스템에서는 지능형 케릭터가 사용자(게이머)의 질의에 대해 응답할 때 해당 케릭터에 특정 지식이 주어지지 않은 경우에 대비하여 해당 지식을 질의의 주체인 사용자 혹은 다른 외부변수로부터 획득하는 방법론과 획득한 지식을 지능형 케릭터의 지식구조에 저장하는 방법론에 대한 연구가 병행되어 왔다. 본 논문에서는 지능형 케릭터가 사용자가 입력한 자연어 문장으로부터 특정 지식을 획득하고 획득한 지식을 정해진 방법에 따라 지능형 케릭터가 이해할 수 있는 지식구조로 구조화하는 방법론에 대해 구체적인 예를 통해 상세하게 설명한다.

  • PDF

Algorithmic approach for handling linguistic values (언어 값을 다루기 위한 알고리즘적인 접근법)

  • Choi Dae Young
    • The KIPS Transactions:PartB
    • /
    • v.12B no.2 s.98
    • /
    • pp.203-208
    • /
    • 2005
  • We propose an algorithmic approach for handling linguistic values defined in the same linguistic variable. Using the proposed approach, we can explicitly capture the differences of individuals' subjectivity with respect to linguistic values defined in the same linguistic variable. The proposed approach can be employed as a useful tool for discovering hidden relationship among linguistic values defined in the same linguistic variable. Consequently, it provides a basis for improving the precision of knowledge acquisition in the development of fuzzy systems including fuzzy expert systems, fuzzy decision tree, fuzzy cognitive map, ok. In this paper, we apply the proposed approach to a collective linguistic assessment among multiple experts.

A Corpus Formalization for Extracting the Syntactic Relations (구문 관계 지식 추출을 위한 코퍼스 정규화에 대한 연구)

  • Cho, Jeong-Mi;Cho, Young-Hwan;Kim, Gil-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.207-215
    • /
    • 1996
  • 대량의 코퍼스를 이용해 여러 가지 일반적인 언어 현상을 관찰하고, 언어 지식을 자동으로 획득하여 자연 언어 처리의 여러 분야에 이용하는 등의 연구가 활발히 진행되고 있으며, 이에 따라 코퍼스에 대한 필요성이 날로 증가하고 있다. 코퍼스에서 추출할 수 있는 유용한 지식 중의 하나가 구문 관계 지식이다. 그러나 한국어에 자주 나타나는 격이동이나 생략 현상, 복합어의 이형태 등은 정확한 지식 획득을 어렵게 할 뿐 아니라 자료 회귀 문제를 더욱 심화시킨다. 본 논문에서는 한국어의 문법적인 특징을 반영한 코퍼스정규화에 의해 이러한 문제를 해결하고자한다.

  • PDF