• 제목/요약/키워드: 음절

검색결과 570건 처리시간 0.024초

품사 분포와 Bidirectional LSTM CRFs를 이용한 음절 단위 형태소 분석기 (Syllable-based Korean POS Tagging using POS Distribution and Bidirectional LSTM CRFs)

  • 김혜민;윤정민;안재현;배경만;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2016
  • 형태소 분석기는 많은 자연어 처리 영역에서 필수적인 언어 도구로 활용되기 때문에 형태소에 대한 품사를 결정하는 것은 매우 중요하다. 최근 음절 기반으로 형태소의 품사를 태깅하는 방법에 대한 연구들이 많이 진행되고 있다. 음절 단위 형태소 분석은 음절 단위로 분리된 형태소에 대해서 기계학습을 이용하여 분리된 음절 단위로 품사를 태깅하는 단계를 가진다. 본 논문에서는 기존의 CRF를 이용한 음절 단위 품사 태깅 방법을 개선하기 위해 bi-LSTM-CRFs를 이용한 방법을 제안한다. 또한, bi-LSTM-CRFs의 입력을 음절의 품사 분포 벡터를 이용해 확장함으로써 음절 단위 품사 태깅의 성능을 향상 시켰다.

  • PDF

한국어의 음성 분절 과정에서 음절의 효과 (The syllable's role in the segmentation of Korean)

  • 이광오;이현진;박현수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.64-69
    • /
    • 1994
  • 한국어 음성지각의 분절단위로서 음절의 역할을 알아보기 위하여, 음절탐지 과제를 사용하는 실험을 실시하였다. 실험1에서는 ${\ulcorner}$산악${\lrcorner}$ - ${\ulcorner}$산간${\lrcorner}$과 같은 단어쌍을 대비시켰다. 전자의 음절구조는 CV-CVC이며, 후자의 음절구조는 CVC-CVC이다. CV표적음절 /사/를 찾아내는데 걸리는 시간은 ${\ulcorner}$산악${\lrcorner}$ 에서보다 ${\ulcorner}$산간${\lrcorner}$에서 길었다. 그러나 CVC표적음절 /산/을 찾아내는데 걸리는 시간에서는 차이가 없었다. 실험2에서는 비단어쌍으로 ${\ulcorner}$산욱${\lrcorner}$ - ${\ulcorner}$산각${\lrcorner}$ 과 같은 것을 대비시켰다. 표적음절이 /사/인 경우는 ${\ulcorner}$산욱${\lrcorner}$에서 반응시간이 짧았고, 표적음절이 /산/인 경우에는 ${\ulcorner}$산각${\lrcorner}$ 에서 반응시간이 짧았다. 본 실험에서 얻어진 결과는 다른 언어에서 얻어진 결과와 몇 가지 차이가 있었다. 이것을 설명하기 위해, 한국어의 음절의 특징과 음성지각에서의 음절의 역할에 대해 논의하였다.

  • PDF

연속 은닉 마코프 모델을 이용한 한국어 음성 인식을 위한 효율적 음절 모델링 (Effective Syllable Modeling for Korean Speech Recognition Using Continuous HMM)

  • 김봉완;이용주
    • 한국음향학회지
    • /
    • 제22권1호
    • /
    • pp.23-27
    • /
    • 2003
  • 최근 연속 음성 인식에서의 성능 향상을 위해 음절을 인식 단위로 사용하고자 하는 노력들이 보고되고 있다. 그러나 음절의 경우 음소에 비해 학습성이 음소에 비해 좋지 않고, 모델의 수가 음소에 비해 매우 많으므로 음절 경계에서의 문맥 종속 모델링이 어렵다는 단점을 갖고 있다. 본 논문에서는 한국어에서의 음절의 학습성을 향상시키기 위한 방법과 음절경계에서의 음소 문맥 종속 음절 모델링을 제안한다. 제안된 방법을 단어 인식 실험에 적용한 결과, 기존의 음절 모델과 비교하여 평균 46.23%의 에러 감소율을 보였다 우측 음소 종속 음절 모델 (right phone dependent syllable model)의 경우 트라이폰(triphone) 모델에 비해 16.7%의 에러 감소율을 볼 수 있었다.

음절 유형별 규칙합성음 음질평가 (The Evaluation of Speech Quality Synthesized by Rule According to Korean Syllable Types)

  • 강찬희
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.93-97
    • /
    • 1993
  • 본 논문은 한국어 문어변환(TTS:Text-to-Speech) 시스템내에서의 음성합성시 음질 및 자연성 개선을 위한 연구 결과이다. 합성음 평가방법으로는 한국어 발음대사전에 수록된 빈도수 순위대로 추출한 음절(V형: 19개, CV형:80개, VC형:30개, CVC형: 100개, 총 229개)을 대상으로 규칙합성시킨 1음절어(합성음절수:229개)중 음절유형별로 15개씩 총 60개 음절을 20초간 3회 반복음의 녹음 테이프를 작성한 합성음에 대하여 사전지식이 없는 임의의 그룹을 선정하여 이해도, 명료도, 잡음감, 자연성 등 4 가지 항목에 대하여 오피니온 평가를 수행한 결과를 제시하였다.

  • PDF

음절 bigram 특성을 이용한 띄어쓰기 오류의 인식 (A Recognition of Word Spacing Errors Using By Syllable)

  • 강승식
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.85-88
    • /
    • 2000
  • 대용량 말뭉치에서 이웃 음절간 공기빈도 정보를 추출하여 한글의 bigram 음절 특성을 조사하였다. Bigram 음절 특성은 띄어쓰기가 무시된 문서에 대한 자동 띄어쓰기, 어떤 어절이 띄어쓰기 오류어인지 판단, 맞춤법 검사기에서 절차 오류어의 교정 등 다양한 응용분야에서 유용하게 사용될 것으로 예상되고 있다. 본 논문에서는 한글의 bigram 음절 특성을 자동 띄어쓰기 및 입력어절이 띄어쓰기 오류어인지를 판단하는데 적용하는 실험을 하였다. 실험 결과에 의하면 bigram 음절 특성이 매우 유용하게 사용될 수 있음을 확인하였다.

  • PDF

연속 숫자음의 음절구간 검출 (A Study on Determining Syllable Length of Connected Spoken Digits)

  • 김득수
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제5권
    • /
    • pp.76-79
    • /
    • 1998
  • 본 논문은 한국어 숫자를 연속적으로 또박또박 발음한 음성의 음절 구간 검출에 관한 내용이며 음절의 최소구간 및 스펙트럼 에너지를 이용하여 연속 음성에서 구간 검출 알고리즘을 제안한다. 숫자음 11개를 연속으로 발성하여 음절 구간을 검출하며 결정된 구간과 수작업으로 한 음절구간을 비교한다. 음절시작점인 경우에는 수작업시단과 동일하거나 항상 전방향이며 종단인 경우에는 92% 데이터가 $\pm$1 프레임내에 존재하며 제안된 알고리즘이 실용성이 있음을 보인다.

  • PDF

한국어 Lexicon에 의존한 문자 인식의 후처리 (A Postprocessing of Character Recognition Based on Korean Lexicon)

  • 임한규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.371-377
    • /
    • 1993
  • 본 논문에서는 문자 인식이 끝난 한국어 원문에 대해 한국어 Lexicon에 기반을 둔 후처리의 구현을 보여주는 것을 목적으로 한다. 빈번하게 오인식되는 음절에 대해 이의 옳은 음절을 대응시킨 테이블을 만들어 놓고, 오인식이라고 정의된 음절이 출현했을 때는 이를 원래의 옳은 음절로 대체시킨 어절과 오인식된 음절이 포함된 어절에 대해 한국어 형태소 분석을 행함으로써, 올바른 형태소가 분석될 경우, 이를 옳은 음절로 간주한다. 실험결과 약 90%에서 95%에 달하는 인식율이 이 후처리 방법에 의해서 95%에서 99%로 높아졌다.

  • PDF

음절 bigram 특성을 이용한 띄어쓰기 오류의 인식 (A Recognition of Word Spacing Errors Using By Syllable Bigram)

  • 강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-88
    • /
    • 2000
  • 대용량 말뭉치에서 이웃 음절간 공기빈도 정보를 추출하여 한글의 bigram 음절 특성을 조사하였다. Bigram 음절 특성은 띄어쓰기가 무시된 문서에 대한 자동 띄어쓰기, 어떤 어절이 띄어쓰기 오류어인지 판단, 맞춤법 검사기에서 철자 오류어의 교정 등 다양한 응용분야에서 유용하게 사용될 것으로 예상되고 있다. 본 논문에서는 한글의 bigram 음절 특성을 자동 띄어쓰기 및 입력어절이 띄어쓰기 오류어인지를 판단하는데 적용하는 실험을 하였다. 실험 결과에 의하면 bigram 음절 특성이 매우 유용하게 사용될 수 있음을 확인하였다.

  • PDF

음절에 기반한 한국어 형태소 분석기 (Syllable-Based Korean Morphological Analyzer)

  • 장동수;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.331-339
    • /
    • 1993
  • 본 논문에서는 한국어의 음절 특성을 이용한 한국어 형태소 분석기를 제시하였다. 이 형태소 분석기는 품사별 음절 정보, 불규칙 음절 정보, 활용어절 음절 정보, 선어말 어미 음절 정보 등을 이용하여 음절 단위로 형태소 분석을 한다. 음절 단위의 형태소 분석 방법은 음소 단위의 방법보다 형태소 분석시에 생성될 수 있는 잘못된 중간 분석 결과를 크게 감소시켜, 사전 탐색 부담을 최소화한다. 시스템의 사전은 품사별 결합 특성과 사전 표제어의 길이별 분포 특성을 이용하여 구성하였으며, 그 규모는 약 16만 어휘이다. 이러한 사전 구성은 효율적인 사전검색을 제공하며, 특히 철자 검색기와 자동 인덱싱 등의 다양한 응용 시스템 요구를 곧바로 수용할 수 있는 유연성과 효율성을 갖고 있다.

  • PDF

7학년 국어교과서의 어휘 통계조사 -노미숙, 김태철 교과서를 중심으로- (Statistical Survey of Vocabulary in Korean Textbook for 7th-Grade -Focus on the No's and the Kim's Textbooks-)

  • 김철수
    • 한국콘텐츠학회논문지
    • /
    • 제14권4호
    • /
    • pp.491-499
    • /
    • 2014
  • 본 연구는 중학교 7학년 국어교과서 4종에 나타나는 어휘들에 대한 통계(음절 개수, 음절 종류, 음절 출현 빈도, 어절 개수, 어절 종류, 어절 평균 길이, 어절 출현 빈도 등)를 조사하였다. 전체 한글 음절 개수는 286,801개, 한글 음절 종류는 1,350개, 음절 평균 출현빈도는 212.4회이다. 어절 개수는 109,393개, 어절 종류는 29,356개, 어절 평균 출현빈도는 3.7회이다. 평균 음절 길이는 2.7음절이며, 한글 어절 중 가장 긴 어절길이는 8이다.