• 제목/요약/키워드: Eojeol

검색결과 62건 처리시간 0.024초

어절 띄어쓰기를 고려한 형태소 단위 품사 태깅 모델 (Morpheme-Unit POS Tagging Model Considering Eojeol-Spacing)

  • 김진동;이상주;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 1998
  • 한국어 품사 태깅 모델은 어절 단위 모델과 형태소 단위 모델로 나눌 수 있다. 이들 중 형태소 단위 모델은 자료 부족 문제가 별로 심각하지 않고 비교적 풍부한 태깅 결과를 내어 준다는 점에서 선호되나 어절 단위로 띄어쓰기를 하는 한국어의 특성을 제대로 반영하지 못한다는 단점이 있다. 이에 본 논문에서는 한국어의 어절 띄어쓰기 정보를 활용하는 형태소 단위 품사 태깅 모델을 제안한다. 어절 띄어쓰기 정보는 복잡도가 매우 작기 때문에 모델 구축에 드는 추가 비용이 그리 크지 않다. 그림에도 불구하고 실험 결과는 어절 띄어쓰기 정보가 한국어 품사 태깅에 유용한 정보임을 보여준다.

  • PDF

한국어 명사 어절 처리에서의 어휘 근접 과정 (Lexical Access in Processing Korean Noun Eojeols)

  • 민승기;이광오
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.57-62
    • /
    • 2005
  • 한국어 명사 어절의 시간 경과에 따른 처리 양상을 확인해 보기 위하여 점화어절판단과제(primed eojeol decision task)를 이용한 실험을 실시하였다. 점화어 제시 방식은 차폐점화, SOA 100ms, SOA 300ms 조건으로 하였으며, 점화어-표적어의 관계는 어절일치, 어간일치, 통제조건으로 조작하였다. 그 결과 어절일치조건과 어간일치조건에서 촉진효과가 있었으며, SOA가 증가함에 따라 어절일치조건과 어간일치조건에서의 촉진효과도 함께 증가하는 양상을 확인하였다. 점화어의 제시 방식과 점화어-표적어의 관계간의 상호작용도 유의미하였다. 이러한 결과를 바탕으로 심성어휘집에서의 어절 표상의 실재성과 어절 속성과 어간 속성이 어절 처리 과정에 관여하는 방식에 관하여 논의하였다.

  • PDF

비교사 분할 및 병합으로 구한 의사형태소 음성인식 단위의 성능 (Performance of Pseudomorpheme-Based Speech Recognition Units Obtained by Unsupervised Segmentation and Merging)

  • 방정욱;권오욱
    • 말소리와 음성과학
    • /
    • 제6권3호
    • /
    • pp.155-164
    • /
    • 2014
  • This paper proposes a new method to determine the recognition units for large vocabulary continuous speech recognition (LVCSR) in Korean by applying unsupervised segmentation and merging. In the proposed method, a text sentence is segmented into morphemes and position information is added to morphemes. Then submorpheme units are obtained by splitting the morpheme units through the maximization of posterior probability terms. The posterior probability terms are computed from the morpheme frequency distribution, the morpheme length distribution, and the morpheme frequency-of-frequency distribution. Finally, the recognition units are obtained by sequentially merging the submorpheme pair with the highest frequency. Computer experiments are conducted using a Korean LVCSR with a 100k word vocabulary and a trigram language model obtained by a 300 million eojeol (word phrase) corpus. The proposed method is shown to reduce the out-of-vocabulary rate to 1.8% and reduce the syllable error rate relatively by 14.0%.

어절패턴 사전을 이용한 새로운 한국어 형태소 분석기 (A New Korean Morphological Analyzer using Eojeol Pattern Dictionary)

  • 홍진표;차정원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.279-284
    • /
    • 2008
  • 본 연구에서는 어절패턴을 이용하는 새로운 방식의 한국어 형태소 분석기 KGuru-MA에 대해서 설명한다. KGuru-MA는 품사 부착 말뭉치에서 개방어를 생략하여 어절 패턴을 반자동으로 학습하여 어절 패턴 사전과 형태소 확률 정보 사전을 구성한 후, 이 사전을 이용하여 형태소를 분석한다. 본 형태소 분석기는 어절패턴을 사용하여 형태소 분석하기 때문에 기존 형태소 분석기에 존재하는 접속검사 과정이 생략된다. 또한, 형태소 분석 과정이 기존의 형태소 분석기에 비해 단순하여 기초 자연언어 처리 시스템이 가지는 강건성을 보장한다. 본 연구는 "21세기 세종기획 3차년도 말뭉치"를 이용한 실험 결과, 기존 형태소 분석기 못지 않은 성능을 보였다.

  • PDF

형태소 분석 결과의 인코딩 기법과 어절 사전 구축 (Encoding of Morphological Analysis Result and Eojeol Dictionary Construction)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.112-117
    • /
    • 2004
  • 형태소 분석에서 사용되는 사전은 형태소와 품사 정보를 수록하고 있다. 단어가 한 개의 형태소로 구성되는 굴절어는 대부분의 단어가 어휘형태소의 기본형과 일치되기 때문에 형태소 분석 알고리즘은 사전 탐색과 형태론적 변형을 통해 입력 단어와 어휘형태소를 일치시키는 과정으로 기술된다. 이에 비해, 교착어는 입력 어절이 형태소 사전의 어휘형태소와 일치하지 않기 때문에 어절 자체가 형태소 사전에 포함되지 않아서 굴절어에 비해 상대적으로 형태소 분석 알고리즘의 복잡도가 높고 분석 시간이 오래 걸리는 단점이 있다. 본 논문에서는 고빈도 어절에 대한 기분석 어절 사전을 구축하여 형태소 분석 속도를 개선하고, 사용자가 어절 사전에 새로운 어절을 추가하거나 어절 사전에 수록된 분석 결과를 수정할 수 있는 어절 사전에 의한 형태소 분석 방법을 제안한다. 구체적인 방법론으로써 형태소 분석 결과를 저장하는 기분석 어절 사전의 크기를 최소화하기 위해 분석 결과를 생성하는데 필요한 최소한의 정보만을 인코딩하는 방법을 사용한다.

  • PDF

통사적 중의성이 어절 처리에 미치는 영향 (The effect of syntactic category ambiguity on eojeol processing)

  • 이호영;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.255-257
    • /
    • 2009
  • 본 논문은 한국어의 통사적 중의성이 언어정보처리에 어떠한 영향을 미치는지 알아보기 위하여 어휘판단과제(lexical decision task)를 실시하였다. 명사의 의미와 동사의 의미로 중의적인 어절을 사용하여 각각의 빈도가 영향을 미치는지를 살펴보고자 하였다. 개별 품사 정보가 모두 영향을 미친다면 각각의 빈도가 영향을 미치게 되고 누적빈도 효과가 발생하여 개별 품사의 빈도와 동일한 비교조건에서의 반응시간보다 빠를 것이다. 실험 결과, 중의어절에서의 반응시간이 가장 빠르게 발생하였고 이를 통해 하나의 중의어절이 의미하는 개별적인 품사 의미가 모두 언어정보처리에 영향을 미친다는 것을 의미한다.

  • PDF

띄어쓰기가 관형어절 이해에 미치는 영향 (Effects of Spacing Words on Reading Adnominal Eojeol)

  • 김지혜;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-254
    • /
    • 2009
  • 띄어쓰기는 한글 맞춤법에 명시되어 있는 규정에 따르면 되지만, 근본적으로 명확한 정의가 내려있지 않으며 복잡하고 애매모호한 기준들이 얽혀 사용자들이 혼란을 겪는 등 많은 오류를 일으키고 있다. 이에 맞춤법 오류에 대한 원인을 찾아 체계적인 교육이 이루어지거나, 맞춤법을 수정 및 보완할 필요성이 있다 하겠다. 본 연구는 사용자들의 편의성을 우선시하여 맞춤법에 있어 논리적 근거를 마련하고 한국어 정보처리의 양상을 살펴보는 것에 의의가 있다. 이에 비교적 띄어쓰기 기준이 명확한 관형어절에 초점을 두어 띄어쓰기가 읽기에 어떤 영향을 미치는지 알아보고자 실시하였다. '관형사 + 명사' 구조와 '~적 + 명사' 구조의 관형어절이 포함된 104개의 문장을 가지고 2개의 목록을 만들었다. 목록 간에는 띄어쓰기 여부가 반대이며 피험자는 목록 중 하나를 경험하였다. 하나의 문장을 끊어서 제시하여 피험자는 읽는 데로 space bar key를 누르는 자기 읽기 조절 과제를 시행하였고, 이어서 문장에 대한 질문을 통해 이해도 검사를 실시하였다. 관형어절을 읽는 평균 속도를 분석한 결과 미세한 차이가 있었으나, 유의미하지는 않았다. 이는 관형어절에 있어서 띄어쓰기의 영향이 크지 않음을 의미한다고 볼 수 있겠다.

  • PDF

한국어 명사어절의 어원에 따른 심성어휘집 표상 양식의 차이 (The difference in the representation of Korean Noun Eojeol in the mental lexicon based on its etymology)

  • 윤지민;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.258-261
    • /
    • 2009
  • 한국어에서 어절은 띄어쓰기 단위이며 한국어의 두드러진 특징 가운데 하나이다. 본 연구에서는 명사에 조사가 결합된 명사어절의 처리 과정에 대해서 밝히고자 이 과정에 관여하는 빈도효과를 측정하였다. 즉, 명사의 빈도와 어절의 빈도를 조작하여 어절의 의미를 판단하는데 걸리는 반응시간을 측정하였다. 실험 결과, 자극을 제시한 방법에 차별을 둔 실험 1과 실험 2의 결과에서 모두 어절빈도의 주효과가 유의미한 것으로 관찰되었다. 그러나 명사빈도의 주효과는 실험 2에서만 관찰되었고, 상호작용효과는 실험1과 실험2 모두 관찰되지 않았다. 또한, 한국어의 어원에 따른 즉 다시 말해, 한국어 명사를 한자어, 고유어, 외래어로 분류하여 어원에 따른 심성어휘집 표상 양식의 차이를 구별하여 보고 이를 토대로 더욱 세부적인 한국어 명사어절의 처리 과정을 규명하여 보고자 한다.

  • PDF

한국어 어절 재인의 시뮬레이션 모델 (A Simulation Model for Korean Eojeol Retrieval)

  • 임희석;남기춘
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 2002년도 하계학술발표대회 논문집 제21권 1호
    • /
    • pp.301-304
    • /
    • 2002
  • 본 논문은 한국인 피험자를 대상으로 이루어진 어절 재인 실험 시 관찰된 언어 현상인 길이 효과, 빈도 효과, 그리고 이웃 효과를 설명할 수 있는 한국어 어절 재인 시뮬레이션 모델을 제안한다. 제안한 모델은 코퍼스에서 나타난 어절의 빈도를 이용하여 정렬한 트라이(trie) 구조를 기반으로 하고 있다. 본 모델은 피험자들의 어절 재인 현상을 모두 설명할 수 있으며 피험자들을 대상으로 한 실험에서 사용한 동일 자료를 이용하여 시뮬레이션한 결과 유의미한 상관 관계를 보였다. 현재 시뮬레이션 중 발견된 언어 현상이 한국인 피험자에서도 나타나는지를 규명하기 위한 실험과 영어 단어 재인시의 언어 현상에 대해서도 적용할 수 있는 확장 방안에 대하여 연구를 수행하고 있다.

  • PDF

어절 생성 사전을 이용한 한국어 철자 교정 (Spelling Correction in Korean Using the `Eojeol` generation Dictionary)

  • 이영신;박영자;송만석
    • 정보처리학회논문지B
    • /
    • 제8B권1호
    • /
    • pp.98-104
    • /
    • 2001
  • 본 논문에서는 어절 생성 사전을 이용한 한국어 철자 교정을 제안한다. 어절 생성 사전은 두 문자열 간 음절 특성이 고려된 편집 거리 계산을 기반으로 탐색되어 언어와 오류 유형에 의존적인 정보를 이용하지 않고 오류 어절에 대한 후보 어절을 생성한다. 또한 교정된 어절들의 가능한 형태소 분석들을 산출하여 후보들 간의 순위 계산 시에 재차 형태소 분석을 수행하지 않고 언어 정보를 적용할 수 있다. 본 논문에서 제안하는 철자 교정은 두 단계로 구성된다. 첫째, 오류 어절로부터 가능한 오류 정정 어간들을 계산한다. 둘째, 계산된 어간들로부터 어절 생성 사전을 탐색하여 원형 후보 어절들을 생성한다. 또한 품사 태깅과 공기 정보를 사용하여 오류 수정된 결과의 순위를 매긴다. 본 시스템의 자동 철자 교정 성능을 평가한 결과 3,000개의 어절에서 시험한 결과 단어 수준으로 93%가 옳게 교정되었다.

  • PDF