• 제목/요약/키워드: Korean WordNet

검색결과 166건 처리시간 0.019초

한독 워드넷 구축을 위한 기본 방법론 고찰 (Eine methodische Betrachtung fur die Erstellung des koreanisch-deutschen WordNets)

  • 남유선
    • 한국독어학회지:독어학
    • /
    • 제9집
    • /
    • pp.217-236
    • /
    • 2004
  • Das Ziel dieser Arbeit ist es, als eine methodische Grundlage zur Erstellung des koreanisch-deutschen WordNets das Grundwissen $\"{u}ber$ das WordNet und einige bisherige Untersuchungen des WordNets darzulegen. Ais erster Schritt wurde einige grundlegende Punkte $f\"{u}r$ das WordNet im Rahmen des WordNets fur Englisch in Betracht gebracht. Dabei ging es um lexikalische Hierarchie, und um semantische Relationen zwischen den Synsets(Zusammensetzen der synonymen $W\"{o}rter$) wie Synonymy, Antonymy, Hyponymy, Mronymy, Troponomy und Entailment. $Anschlie{\ss}end$ wurden EuroNet und GermaNet in kurzer Form vorgestellt, die auf dem Princeton WordNet basierten. EuroNet ist eine multilinguale Datenbasis mit WordNets $f\"{u}r$ einige europaische Sprachen (hollandisch, italienisch, spanisch, deutsch, franzasisch, tschechisch und estnisch). Dieses auf das Deutsch bezogenen WordNet kann wichtige Hinweise $f\"{u}r$ die Erstellung des koreanisch-deutschen WordNets geben. In Korea wurden auch verschiedene Untersuchungen uber das WordNet $f\"{u}r$ Koreanisch unternommen. Darunter kann insbesondere KORTERM WordNet $f\"f{u}r$ Koreanisch als ein umfassendes System $erw\"{a}hnt$ werden, in dem Nomen, Verben, Adjektive und Adverbien miteinander interagieren. KORTERM WordNet fur Koreanisch ist eine multilinguale Datenbasis mit WordNets $f\"{u}r$ einige asiatische Sprachen (koreanisch, japanisch und chinesisch) und versucht noch die weiteren Sprachen in diese multilinguale Datenbasis hineinzubringen. Nach diesem WordNet wird das koreanisch-deutsche WordNet erstellt.

  • PDF

유로워드넷 방식에 기반한 한국어와 영어의 명사 상하위어 정렬 (Alignment of Hypernym-Hyponym Noun Pairs between Korean and English, Based on the EuroWordNet Approach)

  • 김동성
    • 한국언어정보학회지:언어와정보
    • /
    • 제12권1호
    • /
    • pp.27-65
    • /
    • 2008
  • This paper presents a set of methodologies for aligning hypernym-hyponym noun pairs between Korean and English, based on the EuroWordNet approach. Following the methods conducted in EuroWordNet, our approach makes extensive use of WordNet in four steps of the building process: 1) Monolingual dictionaries have been used to extract proper hypernym-hyponym noun pairs, 2) bilingual dictionary has converted the extracted pairs, 3) Word Net has been used as a backbone of alignment criteria, and 4) WordNet has been used to select the most similar pair among the candidates. The importance of this study lies not only on enriching semantic links between two languages, but also on integrating lexical resources based on a language specific and dependent structure. Our approaches are aimed at building an accurate and detailed lexical resource with proper measures rather than at fast development of generic one using NLP technique.

  • PDF

국어사전을 이용한 한국어 명사에 대한 상위어 자동 추출 및 WordNet의 프로토타입 개발 (The Automatic Extraction of Hypernyms and the Development of WordNet Prototype for Korean Nouns using Korean MRD (Machine Readable Dictionary))

  • 김민수;김태연;노봉남
    • 한국정보처리학회논문지
    • /
    • 제2권6호
    • /
    • pp.847-856
    • /
    • 1995
  • 인간은 문장 안에 있는 명사를 인식할 때 그 명사의 상위 개념을 머리에 떠올린다. 컴퓨터에게 인간의 단어 인식작용을 시뮬레이션하기 위해서는 단어의 상위 개념(상위어) 을 지식 베이스(WordNet)로 구축해야만 한다. 현재 한국에서는 많은 인력과 시간이 소요되기 때문에 WordNet의 작업을 시작하지 못하였으나 컴퓨터의 성능이 급격히 향상 되고 상용화된 MRD(Machine Readable Dictionary)가 이용하능하게 됨에 따라 자동으로 WordNet 구축의 가능성을 보이고 있다. 본 논문에서는 한국어 MRD(Machine Readable Dictionary)의 명사의 정의 (description)를 이용하여 자동으로 한국어 명사 WordNet 을 구축하는 방법을 제안한다. 한국어 문장의 구조적인 특징을 분석하여 상위 개념 (상위어)를 추출하는 규칙을 제안한다. 그것은 중심적인 말이 보통 뒤에 나타난다는 것과 명사의 정의는 특수한 구조를 갖는다는 것을 반영하였다. 또한, 이러한 규칙에 의해 만들어진 상위어들을 결합한 한국어 명사의 WordNet프로토타입을 개발 하였다. 약 250개 표본 단어의 상위어를 추출한 결과 약 92여 퍼센트가 상위어가 옳게 추출 되었다.

  • PDF

유로워드넷 기반의 어휘 데이터베이스 활용을 위한 한국어-독일어 ILI 대응 방법론 연구 (Eine methodologische Untersuchung der koreanisch-deutschen ILI-Verbindung zur Anwendung der auf dem EuroNet basierten lexikalisch-semantischen Datenbasis)

  • 오장근
    • 한국독어학회지:독어학
    • /
    • 제6집
    • /
    • pp.323-344
    • /
    • 2002
  • EuroNet ist eine multilinguale Datenbasis mit WordNets $f\"{u}r\;einige\;europ\"{a}ische$ Sprachen ($holl\"{a}ndisch$, italienisch, spanisch, deutsch, $franz\"{o}sisch$, tschechisch und estnisch). Die WordNets werden genauso wie das amerikanische WordNet $f\"{u}r$ Englisch (Princeton WordNet, Miller et al. 1990) in Synsets (Zusammensetzen der synonymen $W\"{o}rter$) mit grundlegenden lexikalisch-semantischen Relationen zwischen ihnen $ausgedr\"{u}ckt$ strukturiert. Jedes WordNet stellt also ein einzigartiges innersprachliches System $f\"{u}r$ die lexikalischen und konzeptuellen Relationen dar. $Zus\"{a}tzlich$ werden diese auf dem Princeton WordNet basierten WordNets (z.B. GermaNet) mit einem Inter-Linguale-Index (kurz, ILI) verbunden. $\"{U}ber$ diesem Index werden die Sprachen zusammengeschaltet, damit zu gehen ist $m\"{o}glich$, von den $W\"{o}rtern$ in einer Sprache zu den $\"{a}hnlichen\;W\"{o}rtern$ in jeder $m\"{o}glicher$ anderen Sprache. Der Index gibt auch Zugang zu einer geteilten Top-Ontologie von 63 semantischen Unterscheidungen. Diese Top-Ontologie stellt einen allgemeinen semantischen Rahmen $f\"{u}r$ aile Sprachen zur $Verf\"{u}gung,\;w\"{a}hrend$ sprachspezifische Eigenschaften in den einzelnen WordNets beibehalten werden. Die Datenbasis kann, unter anderen, $f\"{u}r$ einsprachige und multilinguale Informationsretrieval benutzt werden. In der vorliegenden Arbeit handelt sich also um eine methodologische Untersuchung der koreanisch-deutschen ILI-Verbindung zur Anwendung der auf dem EuroNet basierten lexikalischen, semantischen Datenbasis. Dabei werden einzelnen Lexeme in koreanischen, deutschen WordNets $zun\"{a}chst$ mit Hilfe der Sense-Analyse semantisch differenziert, und dann durch lexikalische und konzeptuelle Relationen(ILI) miteinander verbunden. Die Equivalezverbindungen dienen, sprachspezifische Konzepte zum ILI abzubilden. Sie werden von einem anderen Synset der moglichen Relationen aus der Euronet-Spezifikation genommen. Wenn es keinen ILI-Rekord gibt, der ein direktes Equivalenz zu einem gegebenen Konzept darstellt, kann das Konzept in der Frage $\"{u}ber$ EQ-Near-Synonymie, EQ-Hyperonymie oder EQ-Hyponymie Relationen verbunden werden.

  • PDF

한국어 워드넷의 구축 (Construction of Korean WordNet)

  • 임성신;이은령;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.106-111
    • /
    • 2004
  • 사람의 언어를 이해하는 자연언어처리 시스템을 개발하기 위해서는 의미처리를 위한 지식 베이스(knowledge base)가 필요하다. 지금까지 사람이 가진 지식 베이스를 컴퓨터에 도입하려는 많은 노력을 기울이고 있고 그 결과물로 온톨로지(ontology)와 시소러스(thesaurus)가 만들어지고 있다. 외국에서는 지식 베이스의 중요성을 알고 많은 연구를 수행하고 있으며 그 대표적인 사례들에는 Roget's Thesaurus, WordNet, EDR 개념사전, CYC, Euro WordNet 등이 있다. 이 중에서 가장 대표적이며 많은 활용을 보이는 것이 Princeton 대학의 WordNet이다. WordNet은 인간의 어휘지식에 대한 심리 언어학적인 연구의 결과물로써 심리학자와 언어학자들에 의해 10여 년 동안 구축되고 있는 영어에 대한 어휘데이터베이스이다. 본 논문에서는 WordNet을 기반으로 명사에 대해서 영한사전과 국어사전을 이용하여 구축한 한국어 워드넷을 소개하구 구축시 고려한 기본지침을 소개하도록 하겠다.

  • PDF

WordNet을 이용한 한국어 시소러스 자동 구축 (Using WordNet for the Automatic Construction of Korean Thesaurus)

  • 이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.156-163
    • /
    • 1999
  • 최근의 자연어 처리 분야의 연구들에서 광범위하고 완전한 어휘 지식 베이스의 필요성이 입증되었다. 영어권의 경우, 이에 대한 연구가 오래 전부터 있어 왔고, 그 결과로 현재 주로 사용되고 있는 개념체계에는 Roget's Thesaurus와 WordNet 등이 있다. 이러한 개념체계들은 자연어 처리의 여러 응용 분야에서 중요한 역할을 담담하고 있지만, 다른 언어의 경우 널리 사용되고 있는 개념체계가 없는 실정이다. 본 논문에서는 Princeton 대학의 WordNet을 기반으로 한영 사전과 국어 사전을 이용하여 한국어 명사의 개념체계를 자동으로 구축함으로써, 이미 구축되어진 다른 언어의 개념체계를 이용하여 새로운 언어의 개념체계를 자동으로 구축할 수 있음을 보인다. 먼저 한영 사전과 국어 사전으로부터 뽑아낸 한국어 단어 일부의 의미를 다양한 WSD(Word Sense Disambiguation) 방법을 적용시켜 WordNet의 synset에 자동으로 연결시킬 수 있음을 보인다. 그리고 각각의 자동변환으로 나온 결과들에 대해서 적용율과 정확도를 비교하도록 한다.

  • PDF

한국어 오픈 워드넷 (KWN) : 사전 기반의 반자동 구축 (Open Korean WordNet (KWN): Dictionary-based Semi-Automatic Development)

  • 이인근;황도삼;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.193-196
    • /
    • 2014
  • 본 논문에서는 사전자원에 기반한 한국어 워드넷(Open Korean WordNet: KWN)의 반자동 구축 방법을 제안한다. 제안한 방법에서는 각 전문분야별로 분류된 영어-한국어 대역사전, 일본어-한국어 대역사전을 이용하여 영어 워드넷(Princeton WordNet 3.0)과 일본어 워드넷(Japanese WordNet 1.1)의 어휘를 번역하였다. 그리고 번역 결과의 애매성을 해소하기 위하여, (1)영어와 일본어에 대한 한국어 대역어의 중복 여부, (2)사전의 분야 정보와 워드넷의 계층구조를 고려하였다. 제안한 방법으로 117,659 개의 워드넷 synset 중 63,221 개(약 54 %)의 synset에 대한 자동번역을 수행하여 한국어 워드넷을 구축하였다. 그리고 워드넷 synset의 정의문은 한국어 사전의 정의문을 참조하여 한글화 할 수 있도록 하고, 이 과정을 지원하기 위한 정의문 추천 알고리즘을 제안한다. 제안한 방법에 기반하여 전문가들이 상호 협력하여 한국어 워드넷을 구축할 수 있는 시스템을 개발한다.

  • PDF

한국어 어휘 의미망(alias. KorLex)의 지식 그래프 임베딩을 이용한 문맥의존 철자오류 교정 기법의 성능 향상 (Performance Improvement of Context-Sensitive Spelling Error Correction Techniques using Knowledge Graph Embedding of Korean WordNet (alias. KorLex))

  • 이정훈;조상현;권혁철
    • 한국멀티미디어학회논문지
    • /
    • 제25권3호
    • /
    • pp.493-501
    • /
    • 2022
  • This paper is a study on context-sensitive spelling error correction and uses the Korean WordNet (KorLex)[1] that defines the relationship between words as a graph to improve the performance of the correction[2] based on the vector information of the word embedded in the correction technique. The Korean WordNet replaced WordNet[3] developed at Princeton University in the United States and was additionally constructed for Korean. In order to learn a semantic network in graph form or to use it for learned vector information, it is necessary to transform it into a vector form by embedding learning. For transformation, we list the nodes (limited number) in a line format like a sentence in a graph in the form of a network before the training input. One of the learning techniques that use this strategy is Deepwalk[4]. DeepWalk is used to learn graphs between words in the Korean WordNet. The graph embedding information is used in concatenation with the word vector information of the learned language model for correction, and the final correction word is determined by the cosine distance value between the vectors. In this paper, In order to test whether the information of graph embedding affects the improvement of the performance of context- sensitive spelling error correction, a confused word pair was constructed and tested from the perspective of Word Sense Disambiguation(WSD). In the experimental results, the average correction performance of all confused word pairs was improved by 2.24% compared to the baseline correction performance.

Word2Vec과 WordNet 기반 불확실성 단어 간의 네트워크 분석에 관한 연구 (Network Analysis between Uncertainty Words based on Word2Vec and WordNet)

  • 허고은
    • 한국문헌정보학회지
    • /
    • 제53권3호
    • /
    • pp.247-271
    • /
    • 2019
  • 과학에서 지식의 불확실성은 명제가 현재 상태로는 참도 거짓도 아닌 불확실한 상태를 의미한다. 기존의 연구들은 학술 문헌에 표현된 명제를 분석하여 불확실성을 의미하는 단어를 수동적으로 구축하고 구축한 코퍼스를 대상으로 규칙 기반, 기계 학습 기반의 성능평가를 수행해왔다. 불확실성 단어 구축의 중요성은 인지하고 있지만 단어의 의미를 분석하여 자동적으로 확장하고자 하는 시도들은 부족했다. 한편, 계량정보학이나 텍스트 마이닝 기법을 이용하여 네트워크의 구조를 파악하는 연구들은 다양한 학문분야에서 지적 구조와 관계성을 파악하기 위한 방법으로 널리 활용되고 있다. 따라서, 본 연구에서는 기존의 불확실성 단어를 대상으로 Word2Vec을 적용하여 의미적 관계성을 분석하였고, 영어 어휘 데이터베이스이자 시소러스인 WordNet을 적용하여 불확실성 단어와 연결된 상위어, 하위어 관계와 동의어 기반 네트워크 분석을 수행하였다. 이를 통해 불확실성 단어의 의미적, 어휘적 관계성을 구조적으로 파악하였으며, 향후 불확실성 단어의 자동 구축의 확장 가능성을 제시하였다.

WordNet을 매개로 한 CoreNet-SUMO의 매핑 (Mapping between CoreNet and SUMO through WordNet)

  • 강신재;강인수;남세진;최기선
    • 한국지능시스템학회논문지
    • /
    • 제21권2호
    • /
    • pp.276-282
    • /
    • 2011
  • CoreNet은 한-중-일 다국어 텍스트의 분석, 언어 간 변환을 포함한 자연어처리에 유용한 자원이다. CoreNet의 보다 광범위한 분야 및 응용에의 활용을 장려하고 다국어 어휘의미망으로서의 국제적 위상을 제고하기 위해 SUMO에 연결하는 작업을 하였다. CoreNet과 SUMO를 매핑하기 위해 간접 매핑과 직접 매핑 방법을 모두 사용하였는데, CoreNet-KorLex-PWN-SUMO에 이르는 간접 매핑 작업을 통하여 한국어 중심의 CoreNet과 영어로 기술된 SUMO의 언어 간 변환의 어려움을 완화하고 CoreNet 개념에 대응하는 SUMO 클래스의 재현율을 극대화하였다.