• Title/Summary/Keyword: 어휘정보

Search Result 1,062, Processing Time 0.057 seconds

Semantic Clustering of Predicate using Word Definition in Dictionary (사전 뜻풀이를 이용한 용언 의미 군집화)

  • Bae, Young-Jun;Ock, Cheol-Young
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.46-51
    • /
    • 2010
  • 한국어의 어휘의미 정보를 명확히 파악하기 위해서는 어휘 의미 체계를 구축해야 한다. 본 논문에서는 어휘 의미 체계 구축의 단계 중 하나인 용언의 의미 군집화를 연구하였다. 주어 및 목적어의 논항 구조와 선택 제약정보, 부사의 결합정보를 이용한 이전의 연구와는 달리 의미태깅이 된 사전 뜻풀이의 용언정보를 이용하여 용언의 의미 군집화와 간단한 계층화를 시도하였다. 그리고 특정 부류의 일반 샘플을 이용했던 특정 용언의 부류가 아닌 사전에 존재하는 대부분의 용언들을 대상으로 연구를 진행하였다.

  • PDF

Construction of Ontology for River GeoSpatial Information (하천공간정보의 온톨로지 구축방안 연구)

  • Shin, Hyung Jin;Shin, Seung Hee;Hwang, Eui Ho;Chae, Hyo Sok
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.627-627
    • /
    • 2015
  • 기존 물관련 시스템들은 독자적인 DB 구조를 가지고 있고 검색 서비스는 자체 시스템의 DB를 직접 접근하여 사용자에게 결과를 제시하는 형식이다. 이러한 서비스의 단점은 사용자가 개별 시스템의 서비스에 대한 지식이 없으면 접근하기 어렵다는 점이다. 개별 시스템의 개별 서비스의 개념을 벗어나기 위하여 물관련 시스템에 있는 하천공간자료 검색 정보를 카탈로그 서버에 등록하고, 카탈로그 서버에 등록된 검색정보를 사용자가 검색하는 방식을 적용하고자 한다. 카탈로그 서버에 자료에 대한 정보를 등록할 때 자료의 정보를 어떻게 기술할 것인가의 문제가 발생한다. 개별 서버마다 등록하게 된다면 용어 및 문화에 의한 차이로 같은 개념을 다른 용어로 등록하게 되는 혼란이 발생할 소지가 있다. 예를 들어 강우자료에 대하여 "강우", "Precipitation", "Railfall", "비" 등으로 등록할 소지가 있다. 이러면 실제 자료가 존재하는 데도 등록 방법에 따라 자료의 검색이 어려워진다. 이러한 상황을 제어하기 위하여 검사어휘(Controlled Vocabulary)를 도입한다. 이는 포털의 운영자가 미리 용어의 개념과 용어의 분류체계를 설정하고 등록 자료의 검색어를 미리 설정하여 자료의 원천 소유자가 자료를 등록 시 검사어휘를 참고하여 등록하거나 또는 등록되지 않는 용어의 자료인 경우 이 용어를 포탈에 신규로 등록한다. 검색용어의 난립을 피하기 위하여 사용자의 신규등록은 포탈의 운영자가 어느 정도 제어할 필요가 있다. 검사어휘의 정립과 하천 관련된 분류체계는 하천공간정보 검색의 포탈을 위한 필수사항이다. 검사어휘의 정립의 주된 목적은 이질성의 극복이다. 이질성의 종류는 문법적 이질성, 데이터 형식과 구조 및 문맥적 이질성이 있다. 이 중에서 문맥적 이질성이 가장 넓고 어려운 문제이다. 단위는 분야마다 호칭이 다르고 채택하는 기준마다 다르다. 유사어는 전문용어라도 분야마다 다르다. 우리나라에서 서비스 인코딩시 국어와 영어를 어떻게 처리할 지에 대한 대책도 필요하다. 수문학의 시계열 자료를 다루는 CUAHSI/HIS의 온톨로지는 대 개념으로 물리학적, 화학적 및 생물학적인 분야로 분류하고 있다. 하천공간정보의 온톨로지 구축을 위해 데이터 분석 및 분류, 온톨로지 요소 설정, 온톨로지 데이터 테이블 작성, 클래스 생성 및 계층화, 클래스 계층화에 따른 속성 설정, 클래스에 적합한 개체 삽입, 논리 관계 확인 및 수정과 같은 과정으로 온톨로지 개발을 진행하고자 한다.

  • PDF

Automatic Question Generation for Korean Word Learning System (한국어 어휘학습시스템을 위한 자동 문제 생성)

  • Choe, Su-Il;Im, Ji-Hui;Choe, Ho-Seop;Ock, Cheol-Young
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2006.06a
    • /
    • pp.9-14
    • /
    • 2006
  • 본고는 한국어 교육방식의 하나라고 할 수 있는 한국어 어휘를 대상으로 한문제 출제 방식에서 문제 은행식 출제 방식이 갖고 있는 여러 가지 문제점을 해소할 수 있는 하나의 방법으로서 한국어 어휘 학습 시스템을 위한 자동문제 생성 기술을 제시한다. 먼저 기존 한국어 어휘 문제의 문항 분석 결과를 바탕으로 8가지 어휘력 평가 유형 및 각 유형별 자동 문제 생성 패턴을 구축하고, 한국어 어휘에 대한 풍부한 정보를 담고 있는 국어사전을 기반으로 한 자동 한국어 어휘 문제 생성 기술을 제시한다.

  • PDF

Construction of Korean Wordnet "KorLex 1.5" (한국어 어휘의미망 "KorLex 1.5"의 구축)

  • Yoon, Ae-Sun;Hwang, Soon-Hee;Lee, Eun-Ryoung;Kwon, Hyuk-Chul
    • Journal of KIISE:Software and Applications
    • /
    • v.36 no.1
    • /
    • pp.92-108
    • /
    • 2009
  • The Princeton WordNet (PWN), which was developed during last 20 years since the mid 80, aimed at representing a mental lexicon inside the human mind. Its potentiality, applicability and portability were more appreciated in the fields of NLP and KE than in cognitive psychology. The semantic and knowledge processing is indispensable in order to obtain useful information using human languages, in the CMC and HCI environment. The PWN is able to provide such NLP-based systems with 'concrete' semantic units and their network. Referenced to the PWN, about 50 wordnets of different languages were developed during last 10 years and they enable a variety of multilingual processing applications. This paper aims at describing PWN-referenced Korean Wordnet, KorLex 1.5, which was developed from 2004 to 2007, and which contains currently about 130,000 synsets and 150,000 word senses for nouns, verbs, adjectives, adverbs, and classifiers.

Improvement of Korean Homograph Disambiguation using Korean Lexical Semantic Network (UWordMap) (한국어 어휘의미망(UWordMap)을 이용한 동형이의어 분별 개선)

  • Shin, Joon-Choul;Ock, Cheol-Young
    • Journal of KIISE
    • /
    • v.43 no.1
    • /
    • pp.71-79
    • /
    • 2016
  • Disambiguation of homographs is an important job in Korean semantic processing and has been researched for long time. Recently, machine learning approaches have demonstrated good results in accuracy and speed. Other knowledge-based approaches are being researched for untrained words. This paper proposes a hybrid method based on the machine learning approach that uses a lexical semantic network. The use of a hybrid approach creates an additional corpus from subcategorization information and trains this additional corpus. A homograph tagging phase uses the hypernym of the homograph and an additional corpus. Experimentation with the Sejong Corpus and UWordMap demonstrates the hybrid method is to be effective with an increase in accuracy from 96.51% to 96.52%.

Korean Machine Comprehension using Dual Bi-Directional Attention Flow (Dual Bi-Directional Attention Flow를 이용한 한국어 기계이해 시스템)

  • Lee, Hyeon-gu;Kim, Harksoo;Choi, Jungkyu;Kim, Yi-reun
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.41-44
    • /
    • 2017
  • 기계이해 시스템은 주어진 문서를 이해하고 질의에 해당하는 정답을 출력하는 방법으로 심층 신경망을 활용한 주의집중 방법이 발달하면서 활발히 연구되기 시작했다. 본 논문에서는 어휘 정보를 통해 문서와 질의를 이해하는 어휘 이해 모델과 품사 등장 정보, 의존 구문 정보를 통해 문법적 이해를 하는 구문 이해 모델을 함께 사용하여 기계이해 질의응답을 하는 Dual Bi-Directional Attention Flow모델을 제안한다. 한국어로 구성된 18,863개 데이터에서 제안 모델은 어휘 이해 모델만 사용하는 Bi-Directional Attention Flow모델보다 높은 성능(Exact Match: 0.3529, F1-score: 0.6718)을 보였다.

  • PDF

A Logical Framework for Image Object Representation (이미지 개체 표현을 위한 논리적 프레임워크)

  • Choi, Jun-Ho;Kim, Sung-Suk;Choi, Chang;Kim, Pan-Koo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2005.05a
    • /
    • pp.197-200
    • /
    • 2005
  • 의미 기반 영상 검색은 Color, Texture, Region 정보, Spatial Color Distribution 등의 저차원 특징 정보와 이미지 데이터에 의미를 부여하기 위해 주석 처리하는 것이 일반적이다. 그리고 부여된 키워드나 시소러스와 같은 어휘 사전을 이용하여 의미기반 정보검색을 수행하고 있지만, 기존의 키워드기반 텍스트 정보검색의 한계를 벗어나지 못하는 문제를 야기 시킨다. 따라서 본 논문에서는 WordNet 어휘 사전을 확장한 개념적 어휘 체계를 갖는 대형 Ontology를 기반으로 하여 이미지 데이터 내의 객체 인식과 추출된 객체간의 관계를 정의하여 이를 논리적으로 표현할 수 있는 방법을 제시하고자 한다.

  • PDF

Chinese and Korean Cross Lingual News Detection in Twitter (트위터에서 이슈가 되고 있는 중국어-한국어 교차언어 뉴스 탐지)

  • Zhao, Shengnan;Tsolmon, Bayar;Lee, Kyung-Soon;Lee, Yong-Seok
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.658-661
    • /
    • 2012
  • 국제적으로 이슈가 되고있는 사건들의 뉴스는 보도당국의 입장차이에 따라 동일 이슈에 대한 관점의 차이를 나타낸다. 교차언어 연구에서는 번역하는 과정이 중요하다. 본 논문에서는 중-한 어휘번역에서 발생하는 오류 및 모호성을 해결하기 위해 키워드를 중심으로 문맥 어휘를 이용해서 번역한 후 번역결과에서 빈도가 높은 한국어 어휘를 선택하는 방법을 제안한다. 제안 방법의 유효성을 검증하기 위해 소셜 이슈 3 개에 대한 트윗 데이터에서 실험하여 추출된 중-한 이슈 뉴스 결과에서의 정확도 85.8%의 성능을 보였다. 실험을 통해 제안 방법이 중-한 교차언어 트위터 데이터에서 동일한 이슈와 관련된 뉴스를 찾는데 효과적인 방법임을 알 수 있다.

A Study on the Changes in Standards Related to Controlled Vocabulary and Their Implications (통제어휘 표준의 변화 및 시사점에 대한 연구)

  • Kim, Sung-Won;Kim, Jeong-Woo
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.45 no.1
    • /
    • pp.211-232
    • /
    • 2011
  • Thesaurus, a well-known form of controlled vocabulary, has been widely used for indexing and searching of information during the last 50 years. There also have been developments of international and national standards to provide guidelines for developing thesaurus in diverse subject areas. In recent years, the revisions of thesaurus-related standards have been made. Among them are ISO 25964 and BS 8723. This article examines the current status of revision of these standards, and discusses its implications. Based on this examination, it suggests functional requirements of thesaurus in the present information environment, and also proposes elements needed for the development of these functions.

Vocabulary Recognition Post-Processing System using Phoneme Similarity Error Correction (음소 유사율 오류 보정을 이용한 어휘 인식 후처리 시스템)

  • Ahn, Chan-Shik;Oh, Sang-Yeob
    • Journal of the Korea Society of Computer and Information
    • /
    • v.15 no.7
    • /
    • pp.83-90
    • /
    • 2010
  • In vocabulary recognition system has reduce recognition rate unrecognized error cause of similar phoneme recognition and due to provided inaccurate vocabulary. Input of inaccurate vocabulary by feature extraction case of recognition by appear result of unrecognized or similar phoneme recognized. Also can't feature extraction properly when phoneme recognition is similar phoneme recognition. In this paper propose vocabulary recognition post-process error correction system using phoneme likelihood based on phoneme feature. Phoneme likelihood is monophone training phoneme data by find out using MFCC and LPC feature extraction method. Similar phoneme is induced able to recognition of accurate phoneme due to inaccurate vocabulary provided unrecognized reduced error rate. Find out error correction using phoneme likelihood and confidence when vocabulary recognition perform error correction for error proved vocabulary. System performance comparison as a result of recognition improve represent MFCC 7.5%, LPC 5.3% by system using error pattern and system using semantic.