• Title/Summary/Keyword: 단위화

Search Result 2,941, Processing Time 0.043 seconds

Expanded Korean Chunking by $k$-NN ($k$-NN으로 확장된 한국어 단위화)

  • 박성배;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.10b
    • /
    • pp.182-184
    • /
    • 2000
  • 대부분의 자연언어처리에서 단위화는 구문 분석 이전의 매우 기본적인 처리 단계로, 텍스트 문장을 문법적으로 서로 관련된 단위로 분할하는 것이다. 따라서, 단위화를 이용하면 구문 분석이나 의미 분석 등에서 메모리와 시간을 효율적으로 줄일 수 있다. 일반적으로 통찰에 의한 규칙을 사용해서도 비교적 높은 단위화 성능을 얻을 수 있지만, 본 논문에서는 기계 학습 기법인 k-NN을 사용하여 보다 정확한 단위화를 구현한다. 인터넷 홈페이지에서 얻은 1,273 문장을 대상으로 학습한 결과, k-NN으로 단위화를 확장했을 때에 확장하지 않았을 때보다 2.3%의 정확도 증가를 보였다.

  • PDF

Korean and English Text Chunking Using IG Back-off Smoothing and Probabilistic Model (IG back-off 평탄화와 확률 기반 모델을 이용한 한국어 및 영어 단위화)

  • Yi, Eun-Ji;Lee, Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2002.10e
    • /
    • pp.118-123
    • /
    • 2002
  • 많은 자연언어처리 분야에서 문장의 단위화는 기본적인 처리 단계로서 중요한 위치를 차지하고 있다. 한국어 단위화에 대한 기존 연구들은 규칙 기반 방법이나 기계 학습 기법을 이용한 것이 대부분이었다. 본 논문에서는 통계 기반 방식의 일환으로 순수 확률기반 모델을 이용한 단위화 방법을 제시한다. 확률 기반 모델은 처리하고자 하는 해당 언어에 대한 깊은 지식 없이도 적용 가능하다는 장점을 가지므로 다양한 언어의 단위화에 대한 기본 모델로서 이용될 수 있다. 또한 자료 부족 문제를 해결하기 위해 메모리 기반 학습 시에 사용하는 IG back-off 평탄화 방식을 시스템에 적용하였다. 본 논문의 모텔을 적용한 단위화 시스템을 이용하여 한국어와 영어에 대해 실험한 결과 비교적 작은 규모의 말뭉치를 학습하였음에도 불구하고 각각 90.0%, 90.0%의 정확도를 보였다.

  • PDF

A Development of Downscaling Model for Sub-daily Rainfall Based on Bayesian Copula model (Bayesian Copula 모형을 활용한 시간단위 강우량 상세화 기법 모형 개발)

  • Kim, Jin-Young;So, Byung-Jin;Kwon, Duk-Soon;Kwon, Hyun-Han
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2016.05a
    • /
    • pp.229-229
    • /
    • 2016
  • 현재 국내외에서 제공되고 있는 기후변화 시나리오 자료의 경우 일단위로 제공되고 있다. 그러나 수자원 설계 및 계획 시 중요한 입력자료 중 하나는 시간단위 강우 자료이다. 이러한 시간단위 자료는 강우-유추 분석, 댐 설계 및 위험도 분석에 있어 중요한 입력 변수중 하나이므로 기후변화 시나리오에 따른 영향을 평가하기 위해선 신뢰성 있는 상세화 기법이 필요하다. 국내외에서는 일단위에서 일단위로 상세화 하는 기법, 또는 공간상세화 기법 연구는 상당히 진행된바 있는 반면, 시간단위 상세화 기법 연구는 일단위 연구에 비해 상대적으로 미진한 실정이다. 즉 일단위 상세화 기법의 경우 Weather generator, Weather typing 등 다양한 기법이 존재하고 이를 활용한 연구사례가 많지만, 시간단위 상세화 기법의 Poisson 기법을 활용한 사례가 다수 존재하였다. 이러한 이유로 본 연구에서는 기후변화 시나리오에 따른 영향을 평가하기 위해 Bayesian 기법을 도입하여 신뢰성 있는 시간단위 강우량을 생성할 수 있는 모형을 개발하였으며, 연대별로 산정된 결과는 빈도해석을 통해 미래 확률강우량을 제시하였다. 본 연구에서 제안하고자 하는 Bayesian Copula 모형은 기존 주변확률분포(marginal distribution) 매개변수와 Copula 매개변수 추정시 각각 다른 기법을 활용하여 추정하며, 각각 모형에서 발생하는 불확실성은 추정하지 못하는 반면, Bayesian Copula 모형의 경우 매개변수의 사후분포를 정량적으로 제시할 수 있으며, 추정되는 확률강우량 역시 불확실성을 정량적으로 산정할 수 있는 장점을 확인할 수 있었다.

  • PDF

A Hybrid of Rule based Method and Memory based Loaming for Korean Text Chunking (한국어 구 단위화를 위한 규칙 기반 방법과 기억 기반 학습의 결합)

  • 박성배;장병탁
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.3
    • /
    • pp.369-378
    • /
    • 2004
  • In partially free word order languages like Korean and Japanese, the rule-based method is effective for text chunking, and shows the performance as high as machine learning methods even with a few rules due to the well-developed overt Postpositions and endings. However, it has no ability to handle the exceptions of the rules. Exception handling is an important work in natural language processing, and the exceptions can be efficiently processed in memory-based teaming. In this paper, we propose a hybrid of rule-based method and memory-based learning for Korean text chunking. The proposed method is primarily based on the rules, and then the chunks estimated by the rules are verified by memory-based classifier. An evaluation of the proposed method on Korean STEP 2000 corpus yields the improvement in F-score over the rules or various machine teaming methods alone. The final F-score is 94.19, while those of the rules and SVMs, the best machine learning method for this task, are just 91.87 and 92.54 respectively.

Learning Text Chunking Using Maximum Entropy Models (최대 엔트로피 모델을 이용한 텍스트 단위화 학습)

  • Park, Seong-Bae;Zhang, Byoung-Tak
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.130-137
    • /
    • 2001
  • 최대 엔트로피 모델(maximum entropy model)은 여러 가지 자연언어 문제를 학습하는데 성공적으로 적용되어 왔지만, 두 가지의 주요한 문제점을 가지고 있다. 그 첫번째 문제는 해당 언어에 대한 많은 사전 지식(prior knowledge)이 필요하다는 것이고, 두번째 문제는 계산량이 너무 많다는 것이다. 본 논문에서는 텍스트 단위화(text chunking)에 최대 엔트로피 모델을 적용하는 데 나타나는 이 문제점들을 해소하기 위해 새로운 방법을 제시한다. 사전 지식으로, 간단한 언어 모델로부터 쉽게 생성된 결정트리(decision tree)에서 자동적으로 만들어진 규칙을 사용한다. 따라서, 제시된 방법에서의 최대 엔트로피 모델은 결정트리를 보강하는 방법으로 간주될 수 있다. 계산론적 복잡도를 줄이기 위해서, 최대 엔트로피 모델을 학습할 때 일종의 능동 학습(active learning) 방법을 사용한다. 전체 학습 데이터가 아닌 일부분만을 사용함으로써 계산 비용은 크게 줄어 들 수 있다. 실험 결과, 제시된 방법으로 결정트리의 오류의 수가 반으로 줄었다. 대부분의 자연언어 데이터가 매우 불균형을 이루므로, 학습된 모델을 부스팅(boosting)으로 강화할 수 있다. 부스팅을 한 후 제시된 방법은 전문가에 의해 선택된 자질로 학습된 최대 엔트로피 모델보다 졸은 성능을 보이며 지금까지 보고된 기계 학습 알고리즘 중 가장 성능이 좋은 방법과 비슷한 성능을 보인다 텍스트 단위화가 일반적으로 전체 구문분석의 전 단계이고 이 단계에서의 오류가 다음 단계에서 복구될 수 없으므로 이 성능은 텍스트 단위화에서 매우 의미가 길다.

  • PDF

Speech Synthesis using Diphone Clustering and Improved Spectral Smoothing (다이폰 군집화와 개선된 스펙트럼 완만화에 의한 음성합성)

  • Jang, Hyo-Jong;Kim, Kwan-Jung;Kim, Gye-Young;Choi, Hyung-Il
    • The KIPS Transactions:PartB
    • /
    • v.10B no.6
    • /
    • pp.665-672
    • /
    • 2003
  • This paper describes a speech synthesis technique by concatenating unit phoneme. At that time, a major problem is that discontinuity is happened from connection part between unit phonemes, especially from connection part between unit phonemes recorded by different persons. To solve the problem, this paper uses clustered diphone, and proposes a spectral smoothing technique, not only using formant trajectory and distribution characteristic of spectrum but also reflecting human's acoustic characteristic. That is, the proposed technique performs unit phoneme clustering using distribution characteristic of spectrum at connection part between unit phonemes and decides a quantity and a scope for the smoothing by considering human's acoustic characteristic at the connection part of unit phonemes, and then performs the spectral smoothing using weights calculated along a time axes at the border of two diphones. The proposed technique removes the discontinuity and minimizes the distortion which can be occurred by spectrum smoothing. For the purpose of the performance evaluation, we test on five hundred diphones which are extracted from twenty sentences recorded by five persons, and show the experimental results.

Exploration on Tokenization Method of Language Model for Korean Machine Reading Comprehension (한국어 기계 독해를 위한 언어 모델의 효과적 토큰화 방법 탐구)

  • Lee, Kangwook;Lee, Haejun;Kim, Jaewon;Yun, Huiwon;Ryu, Wonho
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.197-202
    • /
    • 2019
  • 토큰화는 입력 텍스트를 더 작은 단위의 텍스트로 분절하는 과정으로 주로 기계 학습 과정의 효율화를 위해 수행되는 전처리 작업이다. 현재까지 자연어 처리 분야 과업에 적용하기 위해 다양한 토큰화 방법이 제안되어 왔으나, 주로 텍스트를 효율적으로 분절하는데 초점을 맞춘 연구만이 이루어져 왔을 뿐, 한국어 데이터를 대상으로 최신 기계 학습 기법을 적용하고자 할 때 적합한 토큰화 방법이 무엇일지 탐구 해보기 위한 연구는 거의 이루어지지 않았다. 본 논문에서는 한국어 데이터를 대상으로 최신 기계 학습 기법인 전이 학습 기반의 자연어 처리 방법론을 적용하는데 있어 가장 적합한 토큰화 방법이 무엇인지 알아보기 위한 탐구 연구를 진행했다. 실험을 위해서는 대표적인 전이 학습 모형이면서 가장 좋은 성능을 보이고 있는 모형인 BERT를 이용했으며, 최종 성능 비교를 위해 토큰화 방법에 따라 성능이 크게 좌우되는 과업 중 하나인 기계 독해 과업을 채택했다. 비교 실험을 위한 토큰화 방법으로는 통상적으로 사용되는 음절, 어절, 형태소 단위뿐만 아니라 최근 각광을 받고 있는 토큰화 방식인 Byte Pair Encoding (BPE)를 채택했으며, 이와 더불어 새로운 토큰화 방법인 형태소 분절 단위 위에 BPE를 적용하는 혼합 토큰화 방법을 제안 한 뒤 성능 비교를 실시했다. 실험 결과, 어휘집 축소 효과 및 언어 모델의 퍼플렉시티 관점에서는 음절 단위 토큰화가 우수한 성능을 보였으나, 토큰 자체의 의미 내포 능력이 중요한 기계 독해 과업의 경우 형태소 단위의 토큰화가 우수한 성능을 보임을 확인할 수 있었다. 또한, BPE 토큰화가 종합적으로 우수한 성능을 보이는 가운데, 본 연구에서 새로이 제안한 형태소 분절과 BPE를 동시에 이용하는 혼합 토큰화 방법이 가장 우수한 성능을 보임을 확인할 수 있었다.

  • PDF

Development of Hourly Rainfall Simulation Technique Using RCP Scenario (RCP 시나리오를 활용한 시간강우량 자료 생성기법 개발)

  • Kim, Jin Young;Kim, Jang-Gyeong;Kwon, Hyun-Han
    • Proceedings of the Korea Water Resources Association Conference
    • /
    • 2015.05a
    • /
    • pp.6-6
    • /
    • 2015
  • 본 연구에서는 일단위로 제공되는 RCP 시나리오를 Poisson Cluster 기법을 활용하여 시간강우량으로 생성할 수 있는 모형을 개발하는데 목적이 있다. 일반적으로 시간단위 강우량의 경우 수자원 설계 또는 강우-유출 분석시 가장 기본이 되는 입력 자료로서 이에 대한 모의기법 확립이 기후변화에 따른 수문학적 영향 검토의 신뢰성을 결정짓는 핵심 요소이다. 그러나 국내 다수 연구를 살펴보면 기후변화 시나리오의 시 공간적 상세화 기법을 활용한 일단위 상세화 연구는 다수 존재하였지만, 일단이 이하의 시간적 규모에 대한 연구는 미진한 실정이다. 이러한 이유로 본 연구에서는 시단위 상세화 기법시 일반적으로 사용되고 있는 Poisson Cluster 기법을 활용하여 국내 실정에 맞는 시단위 상세화 기법을 개발고자 한다. 본 연구에서는 RCP 시나리오를 시단위강우량 자료로 생성하기 위해 다음과 같은 연구를 진행하였다. 첫째, 본 연구에서는 기상청에서 제공하는 RCP($27km{\times}27km$) 시나리오를 활용하였으며, 1km 격자 단위로 시공간적 상세화 기법을 수행하였다. 둘째, 시공간적으로 상세화 된 자료를 Poisson Cluster 기법을 기반으로 시간단위 자료를 생성하였으며, 기본적인 통계치(평균, 분산, 왜곡도 등)를 활용하여 관측값과 비교 분석 하였다. 마지막으로, 미래 기후변화 시나리오를 동일한 방법으로 시간단위 자료를 생성하고 연 최대값을 추출하여 빈도해석을 통해 미래 극치 확률강우량을 평가하였다. 본 연구 결과 시간단위 자료를 제공함으로써 미래 수자원 설계 및 영향평가를 효과적으로 수행할 것으로 기대되며, 수문기상변화 예측을 위한 신뢰성 있는 자료로 활용될 수 있을 것으로 판단된다.

  • PDF

A Reranking Model for Korean Morphological Analysis Based on Sequence-to-Sequence Model (Sequence-to-Sequence 모델 기반으로 한 한국어 형태소 분석의 재순위화 모델)

  • Choi, Yong-Seok;Lee, Kong Joo
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.7 no.4
    • /
    • pp.121-128
    • /
    • 2018
  • A Korean morphological analyzer adopts sequence-to-sequence (seq2seq) model, which can generate an output sequence of different length from an input. In general, a seq2seq based Korean morphological analyzer takes a syllable-unit based sequence as an input, and output a syllable-unit based sequence. Syllable-based morphological analysis has the advantage that unknown words can be easily handled, but has the disadvantages that morpheme-based information is ignored. In this paper, we propose a reranking model as a post-processor of seq2seq model that can improve the accuracy of morphological analysis. The seq2seq based morphological analyzer can generate K results by using a beam-search method. The reranking model exploits morpheme-unit embedding information as well as n-gram of morphemes in order to reorder K results. The experimental results show that the reranking model can improve 1.17% F1 score comparing with the original seq2seq model.

A Study on Methods of Speacker Adaptation for Speech Recognition (음성인식을 위한 화자적응화 기법에 관한 연구)

  • 이종연
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.309.2-314
    • /
    • 1998
  • 본 연구에서는 음성인식을 위한 화자적응화 기법에 대해 연구하였다. 첫째로 적응화에 포함되지 않은 카테고리 음절에 대해 적응화 효과를 줄 수 있는 보간적응화 방법에 대해 연구하였다. 표준모델과 소량의 음성 데이터만으로 적응화가 가능한 MAPE(최대사후확률추정)으로 적응화한 모델의 평균벡터 변화정도를 적응화 발화에 포함되지 않은 모델에 보간적응하는 방법이다. 둘째로 음절단위 모델을 구축한 후 적응화 하고자 하는 화자의 데이터를 연결학습법과 Viterbi 알고리즘으로 음절단위의 추출을 자동화 한 후 MAPE으로 적응화하는 방법에 대해 각각 실험을 하였다.

  • PDF