• Title/Summary/Keyword: 한국어 워드넷

Search Result 27, Processing Time 0.021 seconds

Open Korean WordNet (KWN): Dictionary-based Semi-Automatic Development (한국어 오픈 워드넷 (KWN) : 사전 기반의 반자동 구축)

  • Lee, In Keun;Hwang, Dosam;Hahm, Younggyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.193-196
    • /
    • 2014
  • 본 논문에서는 사전자원에 기반한 한국어 워드넷(Open Korean WordNet: KWN)의 반자동 구축 방법을 제안한다. 제안한 방법에서는 각 전문분야별로 분류된 영어-한국어 대역사전, 일본어-한국어 대역사전을 이용하여 영어 워드넷(Princeton WordNet 3.0)과 일본어 워드넷(Japanese WordNet 1.1)의 어휘를 번역하였다. 그리고 번역 결과의 애매성을 해소하기 위하여, (1)영어와 일본어에 대한 한국어 대역어의 중복 여부, (2)사전의 분야 정보와 워드넷의 계층구조를 고려하였다. 제안한 방법으로 117,659 개의 워드넷 synset 중 63,221 개(약 54 %)의 synset에 대한 자동번역을 수행하여 한국어 워드넷을 구축하였다. 그리고 워드넷 synset의 정의문은 한국어 사전의 정의문을 참조하여 한글화 할 수 있도록 하고, 이 과정을 지원하기 위한 정의문 추천 알고리즘을 제안한다. 제안한 방법에 기반하여 전문가들이 상호 협력하여 한국어 워드넷을 구축할 수 있는 시스템을 개발한다.

  • PDF

Construction of Korean Verb Wordnet Using Preexisting Noun Wordnet and Monolingual Dictionary (명사 워드넷과 단일어 사전을 이용한 한국어 동사 워드넷 구축)

  • Lee, Ju-Ho;Bae, Hee-Suk;Kim, Eun-Hye;Kim, Hye-Kyong;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.92-97
    • /
    • 2002
  • 의미기반 정보 검색, 자연어 질의 응답, 지식 자동 습득, 담화 처리 등 높은 수준의 자연언어처리 시스템에서 의미처리를 위한 대용량의 지식 베이스가 필요하다. 이러한 지식 베이스 중에서 가장 기본적인 것이 워드넷이다. 이러한 워드넷을 이용함으로써 여러 의미 사이의 의미 유사도를 구할 수 있고, 속성을 물려받을 수 있기 때문에 비슷한 속성을 가진 의미들을 한꺼번에 다루는 데 유용하다. 본 논문에서는 기본 어휘를 바탕으로 기존의 명사 워드넷과 단일어 사전을 이용하여 한국어 동사 워드넷을 구축하는 방법을 제시한다. 본 논문에서 1차 작업을 통하여 구축한 동사 워드넷에는 동사 1,757개에 대한 4,717개의 의미(중복을 포함하면 모두 5,235개의 의미)를 포함하고 있으며 특별히 의미가 많이 편중된 14개의 개념에 속한 571개의 의미를 53개의 세부 개념으로 재분류하여 최종적으로 모두 767개의 계층적 개념으로 구성된 동사 워드넷이 만들어 졌다.

  • PDF

Semi-automatic Event Structure Frame tagging of WordNet Synset (워드넷 신셋에 대한 사건구조 프레임 반자동 태깅)

  • Im, Seohyun
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.101-105
    • /
    • 2018
  • 이 논문은 가장 잘 알려진 어휘부중 하나인 워드넷의 활용 범위 확장을 위해 워드넷 신셋에 "사건구조 프레임(Event Structure Frame)"을 주석하는 연구에 관한 것이다. 워드넷을 비롯하여 현재 사용되고 있는 어휘부는 풍부한 어휘의미정보가 구조화되어 있지만, 사건구조에 관한 정보를 포함하고 있지는 않다. 이 연구의 가장 큰 기여는 워드넷에 사건구조 프레임을 추가함으로써 워드넷과의 연결만으로 핵심적인 어휘의미정보를 모두 추출할 수 있도록 해준다는 점이다. 예를 들어 텍스트 추론, 자연어처리, 멀티 모달 태스크 등은 어휘의미정보와 배경지식(상식)을 이용하여 태스크를 수행한다. 워드넷에 대한 사건구조 주석은 자동사건구조 주석 시스템인 GESL을 이용하여 워드넷 신셋에 있는 예문에 먼저 자동 주석을 하고, 오류에 대해 수동 수정을 하는 반자동 방식이다. 사전 정의된 23개의 사건구조 프레임에 따라 예문에 출현하는 타겟 동사를 분류하고, 해당 프레임과 매핑한다. 현재 이 연구는 시작 단계이며, 이 논문에서는 빈도 순위가 가장 높은 100개의 동사와 각 사건구조 프레임별 대표 동사를 포함하여 총 106개의 동사 레마에 대해 실험을 진행하였다. 그 동사들에 대한 전체 워드넷 신셋의 수는 1337개이다. 예문이 없어서 GESL이 적용될 수 없는 신셋을 제외하면 1112개 신셋이다. 이 신셋들에 대해 GESL을 적용한 결과 F-Measure는 73.5%이다. 향후 연구에서는 워드넷-사건구조 링크를 계속 업데이트하면서 딥러닝을 이용해 GESL 성능을 향상 할 수 있는 방법을 모색할 것이다.

  • PDF

A Design of Dynamic Question Generation System using a Voluntary Extraction and Division Methodbased on WordNet (워드넷 기반의 임의 추출 분할 방식을 이용한 동적 문제 출제 시스템 설계)

  • 추승우;오정석;김유섭;이재영
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10a
    • /
    • pp.283-285
    • /
    • 2004
  • 문제 은행 방식을 사용하는 웹 기반 학습 시스템의 문제점으로 지적되었던 문제 유출에 따른 평가의 공정성 문제를 해결하고자 임의 추출 분할 방식을 이용한 동적 문제 출제 시스템이 제안되었다. 하지만 이 시스템 또한 문제 은행 방식을 사용하여 위의 문제를 해결하려고 하였다. 본 논문에서는 이러한 문제점을 해결하기 위하여 단어간의 관계를 계층적으로 표현한 어휘 데이터베이스인 한국어 워드넷을 활용한 방법을 적용하였다 먼저 임의 추출 분할 방식으로 출제된 문제의 예제 문항을 형태소 분석기를 이용하여 명사들을 추출한다. 이 명사들을 이용하여 한국어 워드넷에서 해당 면사의 상위 개념 또는 동일 개념의 Synset을 추출한다. 이렇게 추출된 Synset으로 다른 예시 문항이지만 의미적으로 유사한 다양한 예제 문항을 생성하려는 시스템을 제안한다. 제안된 시스템의 사용으로 평가의 공정성 문제를 해결하고자 한다.

  • PDF

Wordnet Extension for IT terminology Using Web Search (웹 검색을 활용한 워드넷에서의 IT 전문 용어 확장)

  • Park, Kyeong-Kook;Lee, Kwang-Mo;Kim, Yu-Seop
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.189-193
    • /
    • 2007
  • In this paper, we designed a methodology to expand the WordNet. We added unknown terms like IT technical terms to the existing WordNet by using web search. The WordNet is an online taxonomy representing the relationships among terms, but it usually showed limitation to contain new technical terminologies. That's why we tried to expand the WordNet. Firstly, when we met unregistered terms in WordNet, we built a query of those terms for web search. Given a web search results, we tried to find out terms with a high-level relatedness with the unregistered terms. We used the Korean Morphological Analyzer to score the relatedness between terms and located the unregistered term as a hyponym of terms with high score of relatedness.

  • PDF

Linking OntoCloud to WordNet (OntoCloud와 워드넷 연결)

  • Park, Kwang-Hee;Kim, Eun-Kyung;Choi, DongHyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.172-176
    • /
    • 2010
  • 본 논문에서는 위키피디아의 '틀(temp late)'을 기조로 하여 작성된 온톨로지인 OntoCloud의 신뢰도를 보장하고 공유 및 재사용을 가능하게 하기 위하여 또 다른 어휘집합체인 워드넷(WordNet)과의 매핑을 한다. 온톨로지 매핑 기술은 온톨로지 개발 기술의 한 방법으로, 서로 비슷한 도메인을 대상으로 이미 구축되어진 서로 다른 다수의 온롤로지를 연결시킴으로서 하나의 풍부한 정보를 가지고 있는 연결망을 구축하는 방법이다. 본 논문에서는 OntoCloud와 워드넷을 두개의 온톨로지로 정의하고 각 온톨로지의 개념에 대한 정의문 비교 방법을 통해서 두개의 온톨로지에 존재하는 유사한 개념을 연결한다. 이렇게 매핑된 정보들은 OntoCloud 개념을 워드넷 어휘로 연결함으로써 개념에 대한 직관적인 이해를 돕고, 워드넷에 연결된 다른 시소러스 (예: SUMO, CoreNet 등)와 간접적으로 연결할 수 있는 틀을 마련한다. 또한 온톨로지의 상하위 계층정보를 자동으로 보강하는 등의 OntoCloud 유지보수에 활용될 수 있다. 본 논문의 실험에서는 두개의 서로 다른 온톨로지의 정의문에 사용된 어휘의 겹침 정도로 두개의 개념의 유사성을 판별하는 방법을 보인다. 본 논문에서 제시한 방법으로 약 73%의 개념 매핑에 성공하였으나, 추후 매핑 프로세스의 전처리 과정(약자 처리 및 복합명사 대응 모듈)을 추가하고 온톨로지의 구조적 특성을 활용하여 유사 개념 자동 매핑 기술을 향상시키고자 한다.

  • PDF

Construction of Korean WordNet (한국어 워드넷의 구축)

  • Lim, Sung-Shin;Lee, Eun-Ryoung;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.106-111
    • /
    • 2004
  • 사람의 언어를 이해하는 자연언어처리 시스템을 개발하기 위해서는 의미처리를 위한 지식 베이스(knowledge base)가 필요하다. 지금까지 사람이 가진 지식 베이스를 컴퓨터에 도입하려는 많은 노력을 기울이고 있고 그 결과물로 온톨로지(ontology)와 시소러스(thesaurus)가 만들어지고 있다. 외국에서는 지식 베이스의 중요성을 알고 많은 연구를 수행하고 있으며 그 대표적인 사례들에는 Roget's Thesaurus, WordNet, EDR 개념사전, CYC, Euro WordNet 등이 있다. 이 중에서 가장 대표적이며 많은 활용을 보이는 것이 Princeton 대학의 WordNet이다. WordNet은 인간의 어휘지식에 대한 심리 언어학적인 연구의 결과물로써 심리학자와 언어학자들에 의해 10여 년 동안 구축되고 있는 영어에 대한 어휘데이터베이스이다. 본 논문에서는 WordNet을 기반으로 명사에 대해서 영한사전과 국어사전을 이용하여 구축한 한국어 워드넷을 소개하구 구축시 고려한 기본지침을 소개하도록 하겠다.

  • PDF

A Question Example Generation System for Multiple Choice Tests by utilizing Concept Similarity in Korean WordNet (한국어 워드넷에서의 개념 유사도를 활용한 선택형 문항 생성 시스템)

  • Kim, Young-Bum;Kim, Yu-Seop
    • The KIPS Transactions:PartA
    • /
    • v.15A no.2
    • /
    • pp.125-134
    • /
    • 2008
  • We implemented a system being able to suggest example sentences for multiple choice tests, considering the level of students. To build the system, we designed an automatic method for sentence generation, which made it possible to control the difficulty degree of questions. For the proper evaluation in the multiple choice tests, proper size of question pools is required. To satisfy this requirement, a system which can generate various and numerous questions and their example sentences in a fast way should be used. In this paper, we designed an automatic generation method using a linguistic resource called WordNet. For the automatic generation, firstly, we extracted keywords from the existing sentences with the morphological analysis and candidate terms with similar meaning to the keywords in Korean WordNet space are suggested. When suggesting candidate terms, we transformed the existing Korean WordNet scheme into a new scheme to construct the concept similarity matrix. The similarity degree between concepts can be ranged from 0, representing synonyms relationships, to 9, representing non-connected relationships. By using the degree, we can control the difficulty degree of newly generated questions. We used two methods for evaluating semantic similarity between two concepts. The first one is considering only the distance between two concepts and the second one additionally considers positions of two concepts in the Korean Wordnet space. With these methods, we can build a system which can help the instructors generate new questions and their example sentences with various contents and difficulty degree from existing sentences more easily.

Refinement of KorLex based on WordNet (워드넷 기반 한국어 명사 어휘의미망의 정제)

  • Hwang, Soon-Hee;Yoon, Ae-Sun
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2005.05a
    • /
    • pp.267-272
    • /
    • 2005
  • 최근 들어 온톨로지(ontology), 시소러스(thesaurus) 등과 함께 주목받고 있는 Princeton 대학의 워드넷(WordNet, 이하 PWN) 은 자연어 처리(NLP)와 관련하여 대안을 제시할 수 있는 어휘의미망(lexico-semantic network)이다. 또한 PWN을 기반으로 상이한 개별어 어휘의미망 구축이 여러 차례 시도되었고, 현재도 진행 중이다. 본 연구는 간접 구축 방식에 의한 어휘의미망 구축 시 요구되는 정제(refinement) 방식들을 검토하고, 이를 한국어 명사 어휘의미망(KL)에 적용하여 정확도 검증 방법의 한 대안으로 제시하였다. 또한 보다 정교한 정제 방법의 모색과 고찰은 향후 과제로 삼고자 한다.

  • PDF

Query Translation and Query Expansion Method in Korean-to-English Cross-Language Information Retreival (한영 교차언어 정보검색에서 질의 변환 및 질의 확장 방법)

  • Kim, Baeg-Il;Seo, Hee-Cheol;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.235-242
    • /
    • 2002
  • 본 논문은 한영 교차언어 정보검색을 위한 질의 변환 방법과 질의 확장에 대해서 기술하고 있다. 한영 교차언어 정보 검색은 한국어 질의와 관련된 영어 문서를 검색하는 것을 말하며, 한국어 질의를 영어 질의로 변환하는 방법을 사용했다. 이를 위해 한국어 단어들에 대한 영어 대역어들의 공기 정보를 이용하며, 공기 정보로는 상호 정보를 사용했다. 또한 한국어와 영어의 연어 사전을 사용하여 성능을 향상시켰다. 추가적인 검색 성능 향상을 위한 방법으로, 기존 연구에서 많이 사용된 적합성 피드백에 의한 지역적 질의 확장 대신, 영어 워드넷을 확장하여 구축한 한영 이중언어 시소러스를 사용하여 질의 확장을 하는 전역적 질의 확장을 시도하였다. 실험결과, 정확률의 향상보다는 재현율의 향상 정도가 더 컸으며, 긴 질의보다 짧은 질의를 확장한 경우가 성능이 높았다.

  • PDF