• Title/Summary/Keyword: 어휘정보

Search Result 1,062, Processing Time 0.027 seconds

Parse Tree Selection using Adverb Information (부사 정보를 이용한 구문 구조 선택)

  • Shin, Seung-Eun;Jung, Cheon-Young;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.381-387
    • /
    • 2001
  • 자연 언어 처리의 구문 구조 분석에서는 수식 관계의 중의성에 의한 많은 구문 구조가 생성된다. 이러한 중의성을 해소하는데 어휘 정보가 유용하다는 것은 잘 알려져 있다. 본 논문은 한국어의 구문 구조 분석 시 중의성을 해소하기 위해 어휘 정보로 부사 수식 정보와 부사 확률 정보를 사용한다. 부사들의 사용과 수식 패턴들을 대량의 말뭉치로부터 조사하고, 수식 패턴들 중 비교적 규칙적인 것들을 부사 수식 정보로, 피수식어의 상대적 위치와 피수식어의 품사에 대한 확률을 부사 확률 정보로 구성하였다. 구문 구조들 중 가장 옳은 구문 구조를 선택하기 위해 부사 수식 정보와 부사 확률 정보를 이용하였고, 구문 분석에서 부사에 의한 중의성을 해소하였다.

  • PDF

Searching River Information using Ontology (온톨로지를 이용한 하천 데이터의 검색)

  • Yoon, Hong-Kyu;Yoo, Sang-Bong
    • Journal of Korea Spatial Information System Society
    • /
    • v.2 no.2 s.4
    • /
    • pp.117-126
    • /
    • 2000
  • As the geographical information changes continuously, it has been difficult to manage it in consistent manner. Especially different terminologies are often used for describing the same object. These characteristics of geographical information make the information search be very unproductive. Recently, it is widely recognized that capturing more knowledge is the next step to overcome the current difficulties on sharing geographical information. In this paper, we utilize the ontology concept in order to facilitate information search for geographical data in the internet environment. A prototype of search system implemented using the ontology for river-related data is presented.

  • PDF

Word Vectorization Method Based on Bag of Characters (Bag of Characters를 응용한 단어의 벡터 표현 생성 방법)

  • Lee, Chanhee;Lee, Seolhwa;Lim, Heuiseok
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.47-49
    • /
    • 2017
  • 인공 신경망 기반 자연어 처리 시스템들에서 단어를 벡터로 변환할 때, 크게 색인 및 순람표를 이용하는 방법과 합성곱 신경망이나 회귀 신경망을 이용하는 방법이 있다. 이 때, 전자의 방법을 사용하려면 시스템이 수용 가능한 어휘집이 정의되어 있어야 하며 새로운 단어를 어휘집에 추가하기 어렵다. 반면 후자의 방법을 사용하면 단어를 구성하는 문자들을 바탕으로 벡터 표현을 생성하기 때문에 어휘집이 필요하지 않지만, 추가적인 인공 신경망 구조가 필요하기 때문에 모델의 복잡도와 파라미터의 수가 증가한다는 단점이 있다. 본 연구에서는 위 두 방법의 한계를 극복하고자 Bag of Characters를 응용하여 단어를 구성하는 문자들의 집합을 바탕으로 벡터 표현을 생성하는 방법을 제안한다. 제안된 방법은 문자를 기반으로 동작하기 때문에 어휘집을 정의할 필요가 없으며, 인공 신경망 구조가 사용되지 않기 때문에 시스템의 복잡도도 증가시키지 않는다. 또한, 단어의 벡터 표현에 단어를 구성하는 문자들의 정보가 반영되기 때문에 Out-Of-Vocabulary 단어에 대한 성능도 어휘집을 사용하는 방법보다 우수할 것으로 기대된다.

  • PDF

Incremental Ontology Building Using Open Information Extraction (무제한 정보 추출을 이용한 지식베이스 확장)

  • Kim, Byungsoo;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.228-232
    • /
    • 2014
  • 지식 베이스(Knowledge Base)는 주어진 질의 문에 대한 잠재적인 답과 답에 대한 단서가 될 수 있는 구조화된 형태의 정보를 포함하고 있기 때문에 질의응답 시스템에서 매우 중요하다. 하지만 비록 DBpedia, Freebase, YAGO 등과 같이 이용 가능한 여러 개의 지식 베이스가 존재함에도 불구하고 이러한 지식 베이스에 포함되어 있는 정보는 웹(Web)상에 존재하는 정보에 비하면 매우 제한적이다. 본 논문에서는 무제한 정보 추출 기술을 이용하여 정형화되지 않은 텍스트로부터 트리플(Triple)을 추출하고, 추출된 트리플의 각 개체 및 관계 어휘를 대상 온톨로지(Ontology) 상의 어휘에 사상시킴으로써 지식 베이스를 확장 시키는 방법을 제안한다. 이를 통하여 무제한 정보 추출 방법과 명확화(Disambiguation) 기술이 지식 베이스를 확장시키는데 어떻게 사용될 수 있고, 어떠한 요소가 전체 시스템의 주된 성능 저하를 일으키며 개선되어야 하는지 알아보도록 한다.

  • PDF

Automatic Pronunciation Generation System Using Minimum Morpheme Information (최소 형태소 정보를 이용한 자동 발음열 생성 시스템)

  • 김선희;안주은;김순협
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2003.11a
    • /
    • pp.216-219
    • /
    • 2003
  • 본 논문은 최소한의 형태소 정보를 이용한 자동 발음열 생성 시스템을 제안한다 일반적으로 발음열 생성 시스템은 입력된 문장에 대하여 형태소 단위로 분석한 다음, 각 형태소와 형태소의 결함 관계를 고려한 음운 규칙을 적용함으로써 상응하는 발음열을 생성한다. 지금까지의 연구는 이러한 발음열 생성시의 형태소 분석에 관하여 그 범위에 관한 연구 없이, 가능한 최대한의 분석을 상정하고 있다. 본 논문은 한국어 음운현상을 체계적인 텍스트 분석을 통하여 모든 형태론적 음운론적인 환경에서 가능한 모든 음운현상을 분류하여 발음열 생성시에 실제로 필요한 형태소 분석의 범위를 규명하는 것을 그 목적으로 한다. 음운 현상을 분석하기 위해 사용한 텍스트 자료로는 어휘가 중복되지 않으면서도 많은 종류의 어휘가 수록된 5만 여 어휘의 연세한국어사전과 2200 여 개의 어미와 조사를 수록한 어미조사사전을 이용하였다. 이와 같이 텍스트를 분석한 결과, 음운현상은 규칙적인 음운 현상과 불규칙적인 음운현상으로 나뉘는데, 이 가운데 형태소 정보가 필요한 형태음운규칙으로는 두 가지가 있으며, 이러한 형태음운규칙을 위한 형태소 분석의 범위로는 세세한 분류를 필요로 하지 않는 최소한의 정보로 가능함을 보인다. 이러한 체계적인 분석을 기반으로 제안하는 자동 발음열 생성 시스템은 형태음운규칙과 예외규칙, 그리고 일반음운 규칙으로 구성된다. 본 시스템에 대한 성능 실험은 PBS 1637 어절과 ETRI 텍스트 DB 19만 여 어절을 이용하여 99.9%의 성능결과를 얻었다.

  • PDF

Multi-level Mapping of Ontologies Based on Lexical and Structural Information (어휘와 구조 정보에 기반한 온톨로지의 다단계 매핑)

  • Hwang, Se-Chan;Kang, Sin-Jae
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.22 no.1
    • /
    • pp.42-48
    • /
    • 2012
  • Since the Semantic Web emerged, ontology has been widely used in web environment. Even ontologies belong to the same domain, they may contain same meaning different words, or different meaning same words according to their development background and the type of utilization. In order to share and reuse the ontologies, ontology mapping is required. This paper presents a ontology mapping method that consists of the initial process of multi-level mapping based on lexical information, and the second mapping process using the lexical results and structural similarity. Mapping performance was improved by additionally expanding structural information of blank nodes, which have no lexical information. Through experiments, our method achieved 86.38% in F1-measure.

Phonological Activation in Multi-syllabic Word Recognition (다음절 단어재인에 있어서 음운적 활성화)

  • Lee, Chang-H.;Nam, Ki-Chun
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.225-228
    • /
    • 2004
  • English has words that have a silent letter in their letter strings (e.g., knowledge). Such words provide an opportunity of investigating the role of phonological information in multi-syllabic words by comparing them to words that do not have the silent letter in the corresponding position (e.g., available). Stimuli that excluded a silent letter (e.g., _nowledge) were processed faster than those that excluded a sounding letter (e.g., _vailable) in the lexical decision task. The evidence from this experiment provides seminal evidence of phonological recoding in multi-syllabic word recognition

  • PDF

Performance Improvement of Bilingual Lexicon Extraction via Pivot Language and Word Alignment Tool (중간언어와 단어정렬을 통한 이중언어 사전의 자동 추출에 대한 성능 개선)

  • Kwon, Hong-Seok;Seo, Hyeung-Won;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2013.10a
    • /
    • pp.27-32
    • /
    • 2013
  • 본 논문은 잘 알려지지 않은 언어 쌍에 대해서 병렬말뭉치(parallel corpus)로부터 자동으로 이중언어 사전을 추출하는 방법을 제안하였다. 이 방법은 중간언어(pivot language)를 매개로 하고 문맥 벡터를 생성하기 위해 공개된 단어 정렬 도구인 Anymalign을 사용하였다. 그 결과로 초기사전(seed dictionary)을 사용한 문맥벡터의 번역 과정이 필요 없으며 통계적 방법의 약점인 낮은 빈도수를 가지는 어휘에 대한 번역 정확도를 높였다. 또한 문맥벡터의 요소 값으로 특정 임계값 이상을 가지는 양방향 번역 확률 정보를 사용하여 상위 5위 이내의 번역 정확도를 크게 높였다. 본 논문은 두 개의 서로 다른 언어 쌍 한국어-스페인어 그리고 한국어-프랑스어 양방향에 대해서 각각 이중언어 사전을 추출하는 실험을 하였다. 높은 빈도수를 가지는 어휘에 대한 번역 정확도는 이전 연구에서 보인 실험 결과에 비해 최소 3.41% 최대 67.91%의 성능 향상을 보였고 낮은 빈도수를 가지는 어휘에 대한 번역 정확도는 최소 5.06%, 최대 990%의 성능 향상을 보였다.

  • PDF

Using Lexical Co-occurrence Information in Syntactic Analysis (구문 분석에서의 어휘간 공기 정보의 활용)

  • Yoon, Jun-Tae;Choi, Key-Sun;Kim, Seon-Ho;Song, Man-Suk
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.276-280
    • /
    • 1998
  • 구문 분석에 있어서 어휘 정보는 구문적 중의성을 해결하는 데 매우 중요한 역할을 한다. 본 논문에서는 대량의 말뭉치로부터 추출된 공기 정보가 구문 분석에서 효과적으로 이용될 수 있음을 보인다. 첫째, 공기 정보로부터 보다 의미있는 연어를 추출하고 이를 구문 분석에 이용함으로써 보다 효율적인 파서의 구축이 가능함을 밝힌다. 둘째로는 대량의 말뭉치로부터 추출한 공기 정보가 구문 분석시 보조사나 조사 생략에 의한 격 중의성 혹은 관계 관형절에서 발생하는 명사구 이동에 따른 격 중의성의 해결에 적용될 수 있음을 보인다. 이를 위해 본 연구에서는 연세대학교 한국어 사전 편찬실의 연세 말뭉치 3,000만 어절과 KAIST 말뭉치 중 1,000만 어절로부터 <서술어, 명사, 격관계> 공기 정보를 추출하였다.

  • PDF