• 제목/요약/키워드: Korean Eojeol

검색결과 55건 처리시간 0.029초

단순화된 어절을 단위로 하는 한국어 품사 태거 (A Korean Part-of-Speech Tagger using Simplified Eojeol-based unit)

  • 이의현;김영길;신재훈;권홍석;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.268-272
    • /
    • 2016
  • 영어권 언어가 어절 단위로 품사를 부여하는 반면, 한국어는 굴절이 많이 일어나는 교착어로서 데이터부족 문제를 피하기 위해 형태소 단위로 품사를 부여한다. 이러한 구조적 차이 안에서 한국어에 적합한 품사 태깅 단위는 지속적으로 논의되어 왔으며 지금까지 음절, 형태소, 어절, 구가 제안되었다. 본 연구는 어절 단위로 태깅함으로써 야기되는 복잡한 품사 태그와 데이터부족 문제를 해소하기 위해 어절에서 주요 실질 형태소와 주요 형식 형태소만을 뽑아 새로운 어절을 생성하고, 생성된 단순한 어절에 대해 CRF 태깅을 수행하였다. 실험결과 평가 말뭉치에서 미등록 어절 등장 비율은 9.22%에서 5.63%로 38.95% 감소시키고, 어절단위 정확도를 85.04%에서 90.81%로 6.79% 향상시켰다.

  • PDF

말소리장애 아동의 단어와 자발화 문맥의 음운오류패턴 비교 (A comparison of phonological error patterns in the single word and spontaneous speech of children with speech sound disorders)

  • 박가연;김수진
    • 말소리와 음성과학
    • /
    • 제7권3호
    • /
    • pp.165-173
    • /
    • 2015
  • This study was aim to compare the phonological error patterns and PCC(Percentage of Correct Consonants) derived from the single word and spontaneous speech contexts of the speech sound disorders with unknown origin(SSD). The present study suggest that the development phonological error patterns and non-developmental error patterns of the target children, in according to speech context. The subjects were 15 children with SSD up to the age of 5 from 3 years of age. This research use 37 words of APAC(Assessment of Phonology & Articulation for Children) in the single word context and 100 eojeol in the spontaneous speech context. There was no difference of PCC between the single word and the spontaneous speech contexts. Significantly different developmental phonological error patterns between the single word and the spontaneous speech contexts were syllable deletion, word-medial onset deletion, liquid deletion, gliding, affrication, fricative other error, tensing, regressive assimilation. Significantly different non-developmental phonological error patterns were backing, addtion of phoneme, aspirating. The study showed that there was no difference of PCC between elicited single word and spontaneous conversational context. And there were some different phonological error patterns derived from the two contexts of the speech sound disorders. The more important interventions target is the error patterns of the spontaneous speech contexts for the immediate generalization and rising overall intelligibility.

한국어 화행 분류를 위한 최적의 자질 인식 및 조합의 비교 연구 (A Comparative Study on Optimal Feature Identification and Combination for Korean Dialogue Act Classification)

  • 김민정;박재현;김상범;임해창;이도길
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권11호
    • /
    • pp.681-691
    • /
    • 2008
  • 본 논문은 통계 기반 한국어 화행분류를 위하여 필요한 각 자질이 분류 성능에 미치는 영향과 성능 향상에 기여하는 자질 조합을 비교 평가한다. 지지벡터기계 학습 방법을 이용하여 구현한 화행 분류시스템을 통해 실험한 결과, n-gram 자질 중 품사 바이그램은 유용하지 않으며 형태소-품사 쌍과 다른 자질들을 결합했을 때 성능이 향상됨을 알 수 있었다. 또한, 자질 선택 기법을 사용한 자질 비율에 따른 실험을 통해서 매우 적은 자질만으로도 화행 분류에 있어 어느 정도 안정된 성능을 낼 수 있었다. 아울러, 실험 결과의 분석을 통해 한국어에서 마지막 어절이 문장 전체의 화행분류에 중요한 역할을 하며, 한국어의 특징인 자유 어순이나 주어의 빈번한 생략 등이 화행 분류 실험의 성능에 영향을 미친다는 사실도 알 수 있었다.

어휘 자질 기반 기계 학습을 사용한 한국어 암묵 인용문 인식 (Recognition of Korean Implicit Citation Sentences Using Machine Learning with Lexical Features)

  • 강인수
    • 한국산학기술학회논문지
    • /
    • 제16권8호
    • /
    • pp.5565-5570
    • /
    • 2015
  • 암묵인용문 인식은 학술문헌의 본문 텍스트 내에서 명시적 인용표지가 누락된 인용문장을 자동 인식하는 것으로 인용 기반 논문 검색 및 요약의 핵심 기술이다. 기존 암묵인용문 인식의 최신 연구들은 단어 ngram, 단서어구, 명시인용문과의 거리, 기존 연구자의 성, 기존 방법의 명칭 등 다양한 자질을 활용하여 50% 이상 인식 수준을 보고하고 있다. 그러나 대부분의 기존 연구들은 영어에 대해 수행되었으며 한국어의 경우 최근 긍정/부정 단서어구 패턴을 활용한 규칙 기반 시도에서 42% 성능 수준이 보고되어 있어 추가 성능 향상이 요구되는 상황이다. 이 연구에서는 한국어 어휘 자질을 사용하여 한국어 암묵인용문의 기계학습 기반 인식을 시도하였다. 이를 위해 어절, 형태소, 음절 단위에 기반한 다양한 크기의 어휘 ngram 자질들의 인식 성능을 비교 평가하고 한국어 암묵인용문 인식에 적합한 어휘 자질로 형태소 1gram 및 음절 2gram 단위를 결정하였다. 또한 이들 어휘 자질들을 전후 명시인용문들과의 인접성을 표현한 위치 자질들과 결합하여 한국어 암묵인용문 인식 성능을 50% 이상 수준으로 대폭 향상시켰다.

사례기반 학습을 이용한 음절기반 한국어 단어 분리 및 범주 결정 (Segmenting and Classifying Korean Words based on Syllables Using Instance-Based Learning)

  • 김재훈;이공주
    • 정보처리학회논문지B
    • /
    • 제10B권1호
    • /
    • pp.47-56
    • /
    • 2003
  • 한국어는 영어와 같이 공백을 단어의 경계로 사용하지만, 그 단어의 구조는 영어와 다소 차이가 있다. 영어는 일반적으로 공백 사이에 하나의 단어가 포함되나, 한국어는 여러 개의 단어 혹은 형태소가 포함된다. 이런 차이 때문에 일반적으로 한국어에서는 공백을 경계로 이루어진 단어를 어절이라고 한다. 본 논문에서는 하나의 어절 내에 포함된 단어들을 분리하고, 분리된 각 단어의 적절한 범주를 결정하는 방법을 제안한다. 본 논문에서는 사례기반 기계학습 방법을 이용하고 음절 단위로 단어를 분리한다. 사례기반 학습을 위해 사용된 자질집합은 이전 음절 자신의 음절, 이후의 두 음절, 자신의 음절에 대한 받침 정보, 이전 두 범주 정보이다. 제안된 시스템을 평가하기 위해서 ETRI 말뭉치와 KAIST 말뭉치를 사용하였으며, 두 말뭉치 모두에서 단어 분리의 F 측도가 97% 이상으로 비교적 좋은 성능을 보였다.

우리 문장 읽기에서 안구 운동의 특성: 어절 길이, 단어 빈도 및 착지점 관련 효과 (The characteristics of eye-movement in Korean sentence reading: cluster length, word frequency, and landing position effects)

  • 고성룡;윤낙영
    • 인지과학
    • /
    • 제18권4호
    • /
    • pp.325-350
    • /
    • 2007
  • 본 연구에서는 대학생 독자들이 48개의 평이한 문장을 읽을 때, 전반적인 안구 운동의 특성과 어절/단어 수준에서의 특성을 알아보았다 대학생 독자들은 어절을 대략 225ms 보다가 3.6자 정도 뛰어 다음 어절로 눈을 움직였다. 어절이 짧고 단어가 고빈도일 때는 어절을 건너뛰기도 하고, 앞으로만 읽어가는 것이 아니라 19% 정도 다시 되돌아가서 읽기도 했다. 물론 고정과 도약의 양상은 독자에 따라 개인차가 있었다. 이런 전반적인 양상과 더불어, 어절 수준에서 어절 길이, 단어 빈도 및 착지점 관련 효과를 살펴보았는데, 눈은 대체로 어절의 중앙에 자주 착지했으며, 가장자리에 착지했을 때가 중앙에 착지할 때보다 그 어절을 다시 더 고정했다. 또한 독자들은 단어가 고빈도인 어절을 저빈도인 어절보다 훨씬 빨리 읽었다.

  • PDF

웹문서를 이용한 단계별 한국어 미등록어 인식 모델 (Phase-based Model Using Web Documents for Korean Unknown Word Recognition)

  • 박소영
    • 한국정보통신학회논문지
    • /
    • 제13권9호
    • /
    • pp.1898-1904
    • /
    • 2009
  • 신문이나 블로그와 같은 실제 문서에서는 위키백과(Wikipedia)와 같은 기존에 없던 새로운 단어를 포함하고 있다. 그러나, 대부분의 정보 처리 기술은 시스템 개발 당시 확보한 자료를 바탕으로 사전을 구축하므로, 이러한 새로운 단어에 대해 신속하게 대처할 수 없다는 한계가 있다. 따라서 본 논문에서는 사전에 등록되어 있지 않은 한국어 미등록어를 자동으로 인식하는 모델을 제안한다. 제안하는 모델은 전문분석 기반 미등록명사 인식 단계, 웹 출현빈도 기반 미등록용언 인식 단계, 웹 출현빈도 기반 미등록명사 인식 단계로 구성된다. 제안하는 모델은 문서에서 여러 번 나타난 미등록어에 대해 전문분석을 통해 정확하게 인식할 수 있다. 그리고, 제안하는 모델은 문서에 한번 나타난 미등록어에 대해서도 웹문서를 바탕으로 광범위하게 인식할 수 있다. 또한, 제안하는 모델은 기본형이 어절에 그대로 나타나는 미등록명사뿐만 아니라 기본형이 변형하여 나타날 수 있는 미등록용언도 인식할 수 있다. 실험 결과 기존 미등록어 인식방법에 비해 제안하는 접근방법은 정확률 1.01%와 재현을 8.50%를 개선하였다.

교정률 최적화를 위한 한국어 철자교정기의 모듈 배열 (A Research on Module Arrangement of Korean Spelling Corrector to Optimize Correction Rate)

  • 윤근수;권혁철
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.366-377
    • /
    • 2005
  • 본 논문은 한국어 철자교정기의 최적교정률을 보이는 모듈들의 나열순서를 찾는 연구이다. 철자교정기의 모듈 개수가 n개이면 모듈나열 경우의 수는 n!가지가 가능하므로 철자교정기의 최적 교정률을 계산하기가 힘들어 진다. 실험에 사용한 한국어 철자교정기는 현재 19개 모듈들로 구성되어 있다. 입력데이타에 대해서 19!개 모듈을 적용하여 최적교정률을 찾는 것은 현실적으로 불가능하다. 따라서 주어진 입력데이타에 대해 이론적인 최대교정률과 최소교정률을 구하여 교정률 범위를 구하고, 최대교정률에 근접한 최적교정률에 대한 모듈나열순서를 구하는 것이 논문의 목적이다. 최적교정률을 구하기 위해 경험적 지식을 사용하였다. 실험에 사용한 입력데이타는 신문사에서 몇 년간 발생한 오류어절 753,191개의 집합이다. 이 오류집합에 대해 철자교정기의 이론적인 최대교정률은 $97.28\%$ (732,764개/753,191개)이나 경험적으로 우리가 찾은 최적교정률은 $96.62\%$ (727,750개 /733,191개)이다. 철자교정기의 성능은 $99.31\%$ (727,750개 /732,764개)이다.

한국어 연결단어의 이음소 인식과 어절 형성에 관한 연구 (A Study on the Diphone Recognition of Korean Connected Words and Eojeol Reconstruction)

  • 김경선;정홍
    • 한국음향학회지
    • /
    • 제14권4호
    • /
    • pp.46-63
    • /
    • 1995
  • 본 논문에서는 시간지연신경망을 이용한 한국어 무제한 어휘 연결단어 인식 시스템에 대해 기술하였다. 인식단위로는 인접한 두음소의 천이과정을 포한하는 이음소 (diphone)를 사용하였으며 그 개수는 329개이다. 한국어 연결단어 인식과정은 음성신호의 특징 추출 과정, 이음소 인식과정과 후처리 과정의 세 단계로 구분된다. 특징 추출 단계에서는 입력 음성의 이음소 구간을 분리하여 16차의 필터밸크 (filter-bank) 계수를 구한다. 이음소 인식은 3단계의 계층적 구조로 이루어졌으며 총 30개의 시간지연신경망을 이용해 이음소를 인식한다. 특히, 사용된 시간지연신경망은 인식률을 높이기 위하여 기존의 시간 지연신경망 구조를 변경하였다. 후처리 단계는 음소 천이확률과 음소 혼동확률을 이용한 이음소 오인식 수정과정과 인식된 이음소를 결합하여 어절을 형성하는 과정으로 이루어진다.

  • PDF

명사후문자열을 이용한 미등록어 인식 (Korean Unknown-noun Recognition using Strings Following Nouns in Words)

  • 박기탁;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제17권4호
    • /
    • pp.576-584
    • /
    • 2017
  • 사전에 등록되지 않은 미등록어는 형태소분석에서 뿐만 아니라 자연언어처리의 모든 분야에서 문제를 발생시킨다. 본 논문에서는 명사후문자열을 이용하여 미등록어를 인식하는 방법을 제안한다. 명사후문자열이란 명사를 포함하고 있는 어절에서 명사 뒤에 나오는 문자열을 의미하며, 조사, 접미사+조사, 동사화접미사+어미 등이 이에 속한다. 문서에 출현한 미등록어 포함 어절들을 모아 정렬한 다음, 동일한 앞부분을 가지는 어절이 두 개 이상일 경우에 한하여 미등록어 인식을 시도한다. 이 어절들에서 동일한 앞부분을 미등록 명사로, 그 다음 음절부터 끝 음절까지를 명사후문자열로 추정한다. 그리고 세종말뭉치에서 추출한 명사후문자열 정보를 이용하여 미등록 명사를 결정한다. 포털사이트 기사를 이용하여 실험한 결과, 2가지 형태 이상으로 출현한 미등록어에 대해 정확률 99.64%, 재현율 99.46%의 높은 인식 성능을 보였다.