• Title/Summary/Keyword: 음절 기반

Search Result 154, Processing Time 0.023 seconds

Syllable-Based Korean Morphological Analyzer (음절에 기반한 한국어 형태소 분석기)

  • Jang, Dong-Su;Seo, Young-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 1993.10a
    • /
    • pp.331-339
    • /
    • 1993
  • 본 논문에서는 한국어의 음절 특성을 이용한 한국어 형태소 분석기를 제시하였다. 이 형태소 분석기는 품사별 음절 정보, 불규칙 음절 정보, 활용어절 음절 정보, 선어말 어미 음절 정보 등을 이용하여 음절 단위로 형태소 분석을 한다. 음절 단위의 형태소 분석 방법은 음소 단위의 방법보다 형태소 분석시에 생성될 수 있는 잘못된 중간 분석 결과를 크게 감소시켜, 사전 탐색 부담을 최소화한다. 시스템의 사전은 품사별 결합 특성과 사전 표제어의 길이별 분포 특성을 이용하여 구성하였으며, 그 규모는 약 16만 어휘이다. 이러한 사전 구성은 효율적인 사전검색을 제공하며, 특히 철자 검색기와 자동 인덱싱 등의 다양한 응용 시스템 요구를 곧바로 수용할 수 있는 유연성과 효율성을 갖고 있다.

  • PDF

A Study on Korean Digit Recognition Using Syllable Based Neural Network (음절 기반 신경망을 이용한 한국어 숫자음 인식에 관한 연구)

  • Kum Ji Soo;Lee Hyon Soo
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.78-81
    • /
    • 1999
  • 본 논문에서는 인간의 정보처리 기술을 모방한 신경망과 한국어 음절 구성의 특성을 이용하여 음절을 기반으로 하는 신경망 음성인식 방법을 제안한다. 제안한 방법에서는 임계비율을 정의하여 한국어 음절을 구성하는 초성$\cdot$중성$\cdot$종성을 구분하였고, 구분된 음절의 일부 구간 특징을 학습 및 인식의 특징 패턴으로 사용하여 음성인식 시스템의 전체적인 처리 단계를 줄였다. 한국어 숫자음 인식에 대한 성능 평가에서 20대 남성과 여성을 대상으로 화자 종속에서 $96.5\%$의 인식률을 화자 독립에서 $93\%$의 인식률을 얻었다.

  • PDF

Segmenting and Classifying Korean Words based on Syllables Using Instance-Based Learning (사례기반 학습을 이용한 음절기반 한국어 단어 분리 및 범주 결정)

  • Kim, Jae-Hoon;Lee, Kong-Joo
    • The KIPS Transactions:PartB
    • /
    • v.10B no.1
    • /
    • pp.47-56
    • /
    • 2003
  • Korean delimits words by white-space like English, but words In Korean Is a little different in structure from those in English. Words in English generally consist of one word, but those in Korean are composed of one word and/or morpheme or more. Because of this difference, a word between white-spaces is called an Eojeol in Korean. We propose a method for segmenting and classifying Korean words and/or morphemes based on syllables using an instance-based learning. In this paper, elements of feature sets for the instance-based learning are one previous syllable, one current syllable, two next syllables, a final consonant of the current syllable, and two previous categories. Our method shows more than 97% of the F-measure of word segmentation using ETRI corpus and KAIST corpus.

Assembling Disjoint Korean Syllables Using Two-Step Rules (2단계 규칙을 이용한 해체된 한글 음절의 결합)

  • Lee, Joo-Ho;Kim, Hark-Soo
    • Korean Journal of Cognitive Science
    • /
    • v.19 no.3
    • /
    • pp.283-295
    • /
    • 2008
  • With increasing usages of a messenger and a SMS, many young people are habitually using a new-style of sentences with intentionally disjoint Korean syllables. To develop a natural language interface system in these environments, we should first develop a technique that converts a sequence of disjoint Korean syllables to a correct sentence. Therefore, we propose a method to assemble a sequence of disjoint Korean syllables into a correct sentence by using two-step rules. In the first step, the proposed method assembles CVC (consonant-vowel-consonant) forms of simple-disjoint Korean syllables by using manual heuristic rules. In the second step, the proposed method assembles CCVCC forms of double-disjoint Korean syllables by using a mapping table and a transformation-based learning technique. In the experiment, the proposed method showed the perfect precision of 100% in assembling simple-disjoint Korean syllables and the high precision of 99.98% in assembling double-disjoint Korean syllables.

  • PDF

Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences (음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기)

  • Lee, Hyun-Young;Kang, Seung-Shik
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.605-607
    • /
    • 2018
  • 본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

  • PDF

Syllables-based Named Entity Extraction and Automatic Corpus Construction using Bidirectional Dynamic LSTM (Bidirectional Dynamic LSTM을 이용한 음절 단위 개체명 추출 및 자동화된 말뭉치 구축)

  • Oh, Sungsik;Lim, Changdae;Ahn, Keeho;Park, Weijin
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.317-320
    • /
    • 2017
  • 개체명 인식은 자연어 문장에서 장소, 제작물, 사람 등 분류를 통한 의미 부여가 가능한 단어를 파악하는 기술로서 의미 분석을 위한 핵심 기술이다. 현재 많은 개체명 분석 관련 연구들은 형태소 분석 결과에 의존적인 형태를 갖고 있어서, 형태소 분석 결과의 정확성이 개체명 분석 결과의 성능에 영향을 미치고 있다. 본 연구에서는 형태소 분석 과정을 거치지 않는 음절 기반의 개체명 분석 기술을 제안하여 형태소 분석의 정확도가 낮은 통신어, 신조어 분석 성능을 향상하였다. 또한, 자동화된 방법으로 음절 단위 개체명 말뭉치 및 개체명 사전을 구축하는 프로세스를 정의하여 개체명 분석의 정확도 향상 및 인지 범주의 확대를 도모하였다. 본 연구에서 제안한 개체명 인식 기술은 한국어 개체명 표준에 기반한 129가지의 개체명 분류가 가능하며, 이는 자연어 처리 기술이 필요한 산업계에서 상용화하는데 큰 기여를 할 것으로 판단된다.

  • PDF

A Study On Generation and Reduction of the Notation Candidate for the Notation Restoration of Korean Phonetic Value (한국어 음가의 표기 복원을 위한 표기 후보 생성 및 감소에 관한 연구)

  • Rhee, Sang-Burm;Park, Sung-Hyun
    • The KIPS Transactions:PartB
    • /
    • v.11B no.1
    • /
    • pp.99-106
    • /
    • 2004
  • The syllable restoration is a process restoring a phonetic value recognized in a speech recognition device with the notation form that a vocalization is former. In this paper a syllable restoration rule was composed of a based on standard pronunciation for a syllable restoration process. A syllable restoring regulation was used, and a generation method of a notation candidate set was researched. Also, A study is held to reduce the number of created notation candidate. Three phases of reduction processes were suggested. Reduction of a notation candidate has the non-notation syllable, non-vocabulary syllable and non-stem syllable. As a result of experiment, an average of 74% notation candidate decrease rates were shown.

Improving Stack LSTMs by Combining Syllables and Morphemes for Korean Dependency Parsing (Stack LSTM 기반 한국어 의존 파싱을 위한 음절과 형태소의 결합 단어 표상 방법)

  • Na, Seung-Hoon;Shin, Jong-Hoon;Kim, Kangil
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.9-13
    • /
    • 2016
  • Stack LSTM기반 의존 파싱은 전이 기반 파싱에서 스택과 버퍼의 내용을 Stack LSTM으로 인코딩하여 이들을 조합하여 파서 상태 벡터(parser state representation)를 유도해 낸후 다음 전이 액션을 결정하는 방식이다. Stack LSTM기반 의존 파싱에서는 버퍼 초기화를 위해 단어 표상 (word representation) 방식이 중요한데, 한국어와 같이 형태적으로 복잡한 언어 (morphologically rich language)의 경우에는 무수히 많은 단어가 파생될 수 있어 이들 언어에 대해 단어 임베딩 벡터를 직접적으로 얻는 방식에는 한계가 있다. 본 논문에서는 Stack LSTM 을 한국어 의존 파싱에 적용하기 위해 음절-태그과 형태소의 표상들을 결합 (hybrid)하여 단어 표상을 얻어내는 합성 방법을 제안한다. Sejong 테스트셋에서 실험 결과, 제안 단어표상 방법은 음절-태그 및 형태소를 이용한 방법을 더욱 개선시켜 UAS 93.65% (Rigid평가셋에서는 90.44%)의 우수한 성능을 보여주었다.

  • PDF

Improving Stack LSTMs by Combining Syllables and Morphemes for Korean Dependency Parsing (Stack LSTM 기반 한국어 의존 파싱을 위한 음절과 형태소의 결합 단어 표상 방법)

  • Na, Seung-Hoon;Shin, Jong-Hoon;Kim, Kangil
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.9-13
    • /
    • 2016
  • Stack LSTM기반 의존 파싱은 전이 기반 파싱에서 스택과 버퍼의 내용을 Stack LSTM으로 인코딩하여 이들을 조합하여 파서 상태 벡터(parser state representation)를 유도해 낸후 다음 전이 액션을 결정하는 방식이다. Stack LSTM기반 의존 파싱에서는 버퍼 초기화를 위해 단어 표상 (word representation) 방식이 중요한데, 한국어와 같이 형태적으로 복잡한 언어 (morphologically rich language)의 경우에는 무수히 많은 단어가 파생될 수 있어 이들 언어에 대해 단어 임베딩 벡터를 직접적으로 얻는 방식에는 한계가 있다. 본 논문에서는 Stack LSTM 을 한국어 의존 파싱에 적용하기 위해 음절-태그과 형태소의 표상들을 결합 (hybrid)하여 단어 표상을 얻어내는 합성 방법을 제안한다. Sejong 테스트셋에서 실험 결과, 제안 단어 표상 방법은 음절-태그 및 형태소를 이용한 방법을 더욱 개선시켜 UAS 93.65% (Rigid평가셋에서는 90.44%)의 우수한 성능을 보여주었다.

  • PDF

BERT with subword units for Korean Morphological Analysis (BERT에 기반한 Subword 단위 한국어 형태소 분석)

  • Min, Jin-Woo;Na, Seung-Hoon;Sin, Jong-Hun;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.37-40
    • /
    • 2019
  • 한국어 형태소 분석은 입력된 문장 내의 어절들을 지니는 최소의 단위인 형태소로 분리하고 품사 부착하는 작업을 의미한다. 기존 한국어 형태소 분석 방법은 음절 기반 연구가 주를 이루고 이를 순차 태깅 문제로 보고 SVM, CRF혹은 Bi-LSTM-CRF 등을 이용하거나 특정 음절에서 형태소의 경계를 결정하는 전이 기반 모델을 통해 분석하는 모델 등이 연구되었다. 최근 자연어 처리 연구에서 대용량 코퍼스로부터 문맥을 고려한 BERT 등의 언어 모델을 활용한 연구가 각광받고 있다. 본 논문에서는 음절 단위가 아닌 BERT를 이용한 Sub-word 기반 형태소 분석 방법을 제안하고 기분석 사전을 통해 분석하는 과정을 거쳐 세종 한국어 형태소 분석 데이터 셋에서 형태소 단위 F1 : 95.22%, 어절 정확도 : 93.90%의 성능을 얻었다.

  • PDF