• 제목/요약/키워드: Homograph

검색결과 17건 처리시간 0.019초

동형이의어 분별에 의한 한국어 의존관계 분석 (An Analysis of Korean Dependency Relation by Homograph Disambiguation)

  • 김홍순;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권6호
    • /
    • pp.219-230
    • /
    • 2014
  • 의존관계 분석은 문장의 어절 간에 의존소-지배소를 결정하는 작업이다. 용언은 문형 및 하위범주화 정보의 선택제약에 의해 다른 어절과의 의존관계를 형성한다. 본 논문은 형태소 분석 단계에서 동형이의어 분별된 용언의 문형을 이용하여 용언의 의존관계를 분석하는 방법을 제안한다. 특히, 형태소분석 단계에서 품사 및 동형이의어 태깅을 위해 사용하는 단계별 전이모델의 학습사전을 재활용하여 {명사+격조사, 용언} 간의 의존관계를 확정하는 방안을 제안하고 그의 정확률 및 영향을 분석한다. 동형이의어가 부착되고 의존관계로 변경된 21개의 세종구문분석말뭉치를 이용하여 실험한 결과, 동형이의어 분별된 의존관계 분석 정확률이 80.38%로, 동형이의어가 분별되지 않은 의존관계분석에 비해 0.42%의 정확률 향상이 있었으며, 유의수준 1%의 검정통계량 Z는 ${\mid}Z{\mid}=4.63{\geq}z_{0.01}=2.33$으로 동형이의어 분별이 의존관계 분석에 영향이 있음을 보였다. 또한, 단계별 전이모델이 의존관계 분석 정확률에 약 7.14% 영향을 미치는 것을 알 수 있었다.

어휘의미망(U-WIN)을 이용한 동형이의어 접미사의 의미 중의성 해소 (Disambiguation of Homograph Suffixes using Lexical Semantic Network(U-WIN))

  • 배영준;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제1권1호
    • /
    • pp.31-42
    • /
    • 2012
  • 현재까지 대부분의 한국어처리시스템에서는 가급적 많은 접미파생명사를 사전에 등재하여 처리하였다. 그러나 접미사는 생산성이 높기 때문에 모든 접미파생명사를 사전에 등재하는 것은 한계가 있다. 따라서 접미파생명사의 의미 분석을 통해서 미등재 접미파생명사를 분석할 필요가 있다. 본 논문에서는 접미파생명사의 의미 분석의 일환으로 한국어 어휘의미망(U-WIN)을 이용한 동형이의어 접미사의 중의성 해소 방법을 제시한다. 형태 의미 주석 세종 말뭉치에서 동형이의어 접미사를 포함한 33,104개의 접미파생명사를 대상으로 실험하였다. 실험을 위해 먼저 동형이의어 접미사를 의미 태깅하였으며, 접미사 앞의 어근을 추출하여 U-WIN의 노드에 매핑시켰다. 또한 동형이의어 접미사와 결합되는 U-WIN 상의 노드들에 대해 거리 가중치를 부여하여 이를 동형이의어 접미사 중의성 해소에 사용하였다. 동형이의어 접미사 49종 중 세종말뭉치에 나타난 35개의 동형이의어 접미사를 대상으로 실험한 결과 91.01%의 정확률을 보였다.

한국어 어휘의미망(UWordMap)을 이용한 동형이의어 분별 개선 (Improvement of Korean Homograph Disambiguation using Korean Lexical Semantic Network (UWordMap))

  • 신준철;옥철영
    • 정보과학회 논문지
    • /
    • 제43권1호
    • /
    • pp.71-79
    • /
    • 2016
  • 한국어처리 분야에서 동형이의어 분별은 의미처리를 위해서는 매우 중요하고 오랫동안 연구되어온 주제이다. 최근에 말뭉치를 학습하는 기계학습 방법이 정확률과 속도면에서 좋은 결과를 보이고 있으며, 미학습 어절을 처리하기 위해 어휘의미망을 이용한 지식기반 방법도 연구되고 있다. 본 논문은 말뭉치를 학습한 기계학습 방법에 어휘의미망과 함께 사용하는 방법을 제시한다. 이 방법의 기본 전략은 하위범주화 정보를 말뭉치화하여서 기존 말뭉치와 함께 학습시키고, 동형이의어 태깅 시점에서 분석 대상 명사의 상위어를 찾아서 학습정보와 같이 사용하는 것이다. 이 방법의 효과를 확인하기 위해 세종말뭉치와 UWordMap으로 실험을 하였으며, 정확률이 96.51%에서 96.52%로 미미하지만 상승하는 것을 확인하였다.

한-X 신경기계번역시스템에서 동형이의어 분별에 따른 변역질 평가 (An Evaluation of Translation Quality by Homograph Disambiguation in Korean-X Neural Machine Translation Systems)

  • 원광복;신준철;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.504-509
    • /
    • 2018
  • Neural machine translation (NMT) has recently achieved the state-of-the-art performance. However, it is reported failing in the word sense disambiguation (WSD) for several popular language pairs. In this paper, we explore the extent to which NMT systems are able to disambiguate the Korean homographs. Homographs, words with different meanings but the same written form, cause the word choice problems for NMT systems. Consistent with the popular language pairs, we discover that NMT systems fail to translate Korean homographs correctly. We provide a Korean word sense disambiguation tool-UTagger to use for improvement of NMT's translation quality. We conducted translation experiments using Korean-English and Korean-Vietnamese language pairs. The experimental results show that UTagger can significantly improve the translation quality of NMT in terms of the BLEU, TER, and DLRATIO evaluation metrics.

  • PDF

U-WIN 기반의 의미적 정보검색 기술 (Semantic Information Retrieval Based on User-Word Intelligent Network)

  • 임지희;최호섭;옥철영
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2006년도 추계 종합학술대회 논문집
    • /
    • pp.547-550
    • /
    • 2006
  • 사용자가 원하는 정보를 얼마나 정확하게 제시하느냐가 정보검색시스템 성능을 판단하는 기준이 된다. 그러나 동형이의어만을 질의어로 이용한 검색 결과는 동형이의어 각 의미에 관련된 문서가 혼재되어 있거나, 특정 의미에 관련된 문서만 집중적으로 나타나는 현상을 볼 수 있다. 그래서 본 논문에서는 한국어 사용자 어휘지능망(U-WIN)의 관계정보를 이용하여, 질의어의 모호성을 해결하는 의미적 정보검색의 기반이 되는 기술을 제안한다. 실험에서 질의어는 전문분야에 주로 사용되는 동형이의어와 보편적으로 사용하는 동형이의로 구분하고, '질의어+상위어' 형태의 확장 질의어를 설정한다 그래서 포탈사이트의 웹 문서만을 대상으로 한 정확률은 73.5%, 통합검색의 정확률은 68.7%로 나타났다. 이것은 U-WIN 기반의 의미적 정보검색 기술이 정보검색 시스템에서 효율적임을 알 수 있다.

  • PDF

한글 시소러스에서 저자와 저작에 대한 관계 설정과 동형 이의어의 기술 (A Study on the Description of Relationships and Homographs in Terms of Creator and Work in the Korean Thesaurus)

  • 한상길;최석두
    • 한국문헌정보학회지
    • /
    • 제45권4호
    • /
    • pp.139-155
    • /
    • 2011
  • 개인 저자 집합과 저작 집합 간의 관계를 기술할 때 두 집합 내에서 동형 이의어(즉, 동명이인과 동일 저작명)를 구별하지 못하면 두 집합 간에 전단사(全單射) 관계가 형성되지 않으므로 정확한 정보 검색을 위한 정보로는 사용하기가 어렵다. 실제로 저자명과 저작명을 다루는 도서관 시스템, 문헌, 포털사이트 등에서 동형 이의어를 명확하게 구별하고 있지 않아 색인과 검색 시 다의성에 의한 혼란과 불편을 초래하고 있다. 이에 대한 필요성은 일찍이 전거 데이터의 구축 시 대두된 문제였으나 우리나라에서는 일부 기관이 개별적으로 구축하였을 뿐 국가 차원의 전거 데이터가 없어서 이들의 동형 이의어를 구별하기 위한 기준이 없다. 이에 본 연구자는 개체명 인식을 위한 작업의 일환으로 주제어뿐만 아니라 고유 명사류도 포함되는 한글 통합 시소러스 구축 작업에서 얻은 결과를 바탕으로 저자와 저작의 용어 관계 설정 방법과 두 집합 내에서 그리고 두 집합이 기타 용어와의 관계에서 발생하는 동형 이의어의 기술 방법을 대중 문화 예술 분야를 중심으로 제시하였다.

부분어절 조건부확률 기반 동형이의어 태깅 모델 (Korean Homograph Tagging Model based on Sub-Word Conditional Probability)

  • 신준철;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권10호
    • /
    • pp.407-420
    • /
    • 2014
  • 한국어 형태소 분석 및 태깅은 크게 2가지 단계로 나뉜다. 첫 번째 단계는 어절을 분석하여 후보들을 생성하는 것으로, 여러 의미를 가진 어절은 이 단계에서 다양한 후보들이 생성된다. 두 번째는 문맥 정보를 이용하여 후보 중에 가장 적절한 하나를 선택하는 단계로, 흔히 태깅이라 한다. 일반적으로 두 번째 단계에서는 은닉 마르코프 모델(Hidden Markov Model, 이하 HMM)을 자주 사용하지만, 본 논문에서는 처리속도를 향상시킨 부분어절 조건부확률 모델을 제안한다. 이 모델은 우선적으로 인접 어절 정보를 이용하여 현재 처리 중인 어절의 의미를 결정하고, 예외적으로 용언이 인접한 경우에만 후보 정보의 극히 일부분을 이용한다. 실험 결과 정확률은 HMM의 96.49%보다 0.07% 낮았지만, 처리 소요 시간을 약 53% 감소시켰다.

어휘적 중의성 문장 발화 시 신경언어장애인의 운율 특성 (The Prosodic Characteristics of Utterance of Sentences with Ambiguous Word in Patients with Neurogenic Communication Disorders)

  • 이명순;권도하
    • 말소리와 음성과학
    • /
    • 제1권1호
    • /
    • pp.87-91
    • /
    • 2009
  • The purpose of this study was to examine the characteristics of prosody of utterance of ambiguous sentences in patients with neurogenic communication disorders. Ambiguous words on which prosody may have an impact were used to investigate this matter. The characteristics of tone duration, pitch and intensity were analyzed to examine the characteristics of prosody in patients with lesions in the left or right hemisphere and normal controls. The whole process was recorded using a Praat 4.3.14 and for statistical analyses, two-way Anova and multiple comparative analyses were carried out using SPSS10.0 for Windows. The conclusions of this study are as follows: The length of vowel in homograph in Korean was different depending on the meaning and the duration of vowel was the longest in patients with lesions in the left hemisphere. There was agreed that they had problem of timing of prosody(Danly & Shapiro, 1982). On the other hand, there found that patients with lesions in the right hemisphere had deficiency of changeability in pitch. Among various acoustic parameters, this study focused on the duration which are closely related to suprasegmental characteristics of prosody. More acoustic parameters should be taken into account in future studies.

  • PDF

Study on 3 DoF Image and Video Stitching Using Sensed Data

  • Kim, Minwoo;Chun, Jonghoon;Kim, Sang-Kyun
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권9호
    • /
    • pp.4527-4548
    • /
    • 2017
  • This paper proposes a method to generate panoramic images by combining conventional feature extraction algorithms (e.g., SIFT, SURF, MPEG-7 CDVS) with sensed data from inertia sensors to enhance the stitching results. The challenge of image stitching increases when the images are taken from two different mobile phones with no posture calibration. Using inertia sensor data obtained by the mobile phone, images with different yaw, pitch, and roll angles are preprocessed and adjusted before performing stitching process. Performance of stitching (e.g., feature extraction time, inlier point numbers, stitching accuracy) between conventional feature extraction algorithms is reported along with the stitching performance with/without using the inertia sensor data. In addition, the stitching accuracy of video data was improved using the same sensed data, with discrete calculation of homograph matrix. The experimental results for stitching accuracies and speed using sensed data are presented in this paper.

가변 크기 문맥과 거리가중치를 이용한 동형이의어 중의성 해소 (Word sense disambiguation using dynamic sized context and distance weighting)

  • 이현아
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제38권4호
    • /
    • pp.444-450
    • /
    • 2014
  • 의미 중의성 해소를 위한 대부분의 기존 연구에서는 문장의 특성에 상관없이 고정적인 크기의 문맥을 사용해 왔다. 본 논문에서는 중의성 해소에서 문장에 따라 가변적인 크기의 문맥을 사용하는 가변길이 윈도우와 단어간 거리를 사용한 의미분석 방법을 제안한다. 세종코퍼스의 형태의미분석 말뭉치로 학습하여 12단어 32,735문장에 대해 실험한 결과에서 제안된 방법이 용언에 대하여 92.2%의 평균 정확도를 보여 고정 크기의 문맥을 사용한 경우에 비해 향상된 결과를 보였다.