• Title/Summary/Keyword: 최대엔트로피

Search Result 167, Processing Time 0.036 seconds

Resolving Prepositional Phrase Attachment Using a Maximum Entropy Boosting Model (최대 엔트로피 부스팅 모델을 이용한 전치사 접속 모호성 해소)

  • 박성배;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.670-672
    • /
    • 2002
  • Park과 Zhang은 최대 엔트로피 모델(maximum entropy model)을 실제 자연언어 처리에 적용함에 있어서 나타날 수 있는 여러가지 문제를 해결하기 위한 최대 엔트로피 모델(maximum entropy boosting model)을 제시하여 문서 단위화(text chunking)에 성공적으로 적용하였다. 최대 엔트로피 부스팅 모델은 쉬운 모델링과 높은 성능을 보이는 장점을 가지고 있다. 본 논문에서는 최대 엔트로피 부스팅 모델을 영어 전치사 접속 모호성 해소에 적용한다. Wall Street Journal 말뭉치에 대한 실험 결과, 아주 작은 노력을 들였음에도 84.3%의 성능을 보여 지금까지 알려진 최고의 성능과 비슷한 결과를 보였다.

  • PDF

Text Categorization Based on the Maximum Entropy Principle (최대 엔트로피 기반 문서 분류기의 학습)

  • 장정호;장병탁;김영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.57-59
    • /
    • 1999
  • 본 논문에서는 최대 엔트로피 원리에 기반한 문서 분류기의 학습을 제안한다. 최대 엔트로피 기법은 자연언어 처리에서 언어 모델링(Language Modeling), 품사 태깅 (Part-of-Speech Tagging) 등에 널리 사용되는 방법중의 하나이다. 최대 엔트로피 모델의 효율성을 위해서는 자질 선정이 중요한데, 본 논문에서는 자질 집합의 선택을 위한 기준으로 chi-square test, log-likelihood ratio, information gain, mutual information 등의 방법을 이용하여 실험하고, 전체 후보 자질에 대한 실험 결과와 비교해 보았다. 데이터 집합으로는 Reuters-21578을 사용하였으며, 각 클래스에 대한 이진 분류 실험을 수행하였다.

  • PDF

Classification Learning Data using Maximum Entropy Theory (최대 엔트로피 이론을 이용한 학습 데이터 분류)

  • Kim, Min-Woo;Kim, Dong-Hyun;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.213-214
    • /
    • 2018
  • 빅 데이터 활용의 증가로 인해 효율적으로 데이터를 분류하는 것은 머신러닝의 주요 과제이다. 제한적인 자원을 가지고 이에 맞는 처리능력을 갖기 위해서는 단일 기기의 자원 관리능력을 향상시키는 방향의 연구가 필요하다. 본 논문에서는 머신러닝을 위한 학습 데이터를 최대 엔트로피 이론을 적용시켜 효과적으로 분류하는 방법을 제안한다. 최대 엔트로피에 대한 간단한 설명과 최대 엔트로피 이론을 적용시키기 위한 간단한 사전 작업들의 방향 등에 대한 설명을 토대로 기술하였다. 또한 본 연구를 통해 얻게 된 문제점들과 향후 연구에 필요한 피드백을 갖는다.

  • PDF

Network Flow Classification Based on Maximum Entropy Theory (최대 엔트로피 이론 기반 네트워크 흐름 분류)

  • Kim, Min-Woo;Lee, Tae-Ho;Lee, Byung-Jun;Kim, Kyung-Tae;Youn, Hee-Yong
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2019.01a
    • /
    • pp.143-144
    • /
    • 2019
  • 최대 엔트로피(Maximum Entropy)는 실증적 데이터에서 관찰된 잠재적인 여러 유용한 특징들을 기반으로 최대 엔트로피를 갖는 추정된 분포를 구축하기 위한 접근법이다. 본 논문에서는 네트워크상의 데이터 전송 시 혼잡한 흐름을 효율적으로 분류하기 위해 최대 엔트로피 알고리즘을 기반으로 한 새로운 네트워크 흐름 분류 모델을 제안한다. 제안한 알고리즘이 기존의 방법들 보다 높은 분류 정확도를 나타내는 것을 목표로 네트워크 서비스 시 효율성을 높이고자 한다.

  • PDF

Learning Text Chunking Using Maximum Entropy Models (최대 엔트로피 모델을 이용한 텍스트 단위화 학습)

  • Park, Seong-Bae;Zhang, Byoung-Tak
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.130-137
    • /
    • 2001
  • 최대 엔트로피 모델(maximum entropy model)은 여러 가지 자연언어 문제를 학습하는데 성공적으로 적용되어 왔지만, 두 가지의 주요한 문제점을 가지고 있다. 그 첫번째 문제는 해당 언어에 대한 많은 사전 지식(prior knowledge)이 필요하다는 것이고, 두번째 문제는 계산량이 너무 많다는 것이다. 본 논문에서는 텍스트 단위화(text chunking)에 최대 엔트로피 모델을 적용하는 데 나타나는 이 문제점들을 해소하기 위해 새로운 방법을 제시한다. 사전 지식으로, 간단한 언어 모델로부터 쉽게 생성된 결정트리(decision tree)에서 자동적으로 만들어진 규칙을 사용한다. 따라서, 제시된 방법에서의 최대 엔트로피 모델은 결정트리를 보강하는 방법으로 간주될 수 있다. 계산론적 복잡도를 줄이기 위해서, 최대 엔트로피 모델을 학습할 때 일종의 능동 학습(active learning) 방법을 사용한다. 전체 학습 데이터가 아닌 일부분만을 사용함으로써 계산 비용은 크게 줄어 들 수 있다. 실험 결과, 제시된 방법으로 결정트리의 오류의 수가 반으로 줄었다. 대부분의 자연언어 데이터가 매우 불균형을 이루므로, 학습된 모델을 부스팅(boosting)으로 강화할 수 있다. 부스팅을 한 후 제시된 방법은 전문가에 의해 선택된 자질로 학습된 최대 엔트로피 모델보다 졸은 성능을 보이며 지금까지 보고된 기계 학습 알고리즘 중 가장 성능이 좋은 방법과 비슷한 성능을 보인다 텍스트 단위화가 일반적으로 전체 구문분석의 전 단계이고 이 단계에서의 오류가 다음 단계에서 복구될 수 없으므로 이 성능은 텍스트 단위화에서 매우 의미가 길다.

  • PDF

(Resolving Prepositional Phrase Attachment and POS Tagging Ambiguities using a Maximum Entropy Boosting Model) (최대 엔트로피 부스팅 모델을 이용한 영어 전치사구 접속과 품사 결정 모호성 해소)

  • 박성배
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.5_6
    • /
    • pp.570-578
    • /
    • 2003
  • Maximum entropy models are promising candidates for natural language modeling. However, there are two major hurdles in applying maximum entropy models to real-life language problems, such as prepositional phrase attachment: feature selection and high computational complexity. In this paper, we propose a maximum entropy boosting model to overcome these limitations and the problem of imbalanced data in natural language resources, and apply it to prepositional phrase (PP) attachment and part-of-speech (POS) tagging. According to the experimental results on Wall Street Journal corpus, the model shows 84.3% of accuracy for PP attachment and 96.78% of accuracy for POS tagging that are close to the state-of-the-art performance of these tasks only with small efforts of modeling.

Resolving Part-of-Speech Tagging Ambiguities by a Maximum Entropy Boosting Model (최대 엔트로피 부스팅 모델을 이용한 품사 모호성 해소)

  • 박성배;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.522-524
    • /
    • 2003
  • 품사 결정 문제는 자연언어처리의 가장 기본적인 문제들 중 하나이며, 기계학습의 관점에서 보면 분류 문제(classification problem)로 쉽게 표현된다. 본 논문에서는 품사 결정의 모호성을 해소하기 위해서 최대 엔트로피 부스팅 모델(maximum entropy boosting model)을 이 문제에 적응하였다. 그리고, 품사 결정에서 중요한 요소 중의 하나인 미지어 처리를 위해서 특별히 설계된 일차 자질을 고려하였다. 최대 엔트로피 부스팅 모델의 장점은 쉬운 모델링인데, 실제로 품사 결정을 위한 일차 자질만 작성하는 노려만 들이고도 96.78%의 정확도를 보여 지금까지 알려진 최고의 성능과 거의 비슷한 결과를 보였다.

  • PDF

A Study of Generalized Maximum Entropy Estimator for the Panel Regression Model (패널회귀모형에서 최대엔트로피 추정량에 관한 연구)

  • Song, Seuck-Heun;Cheon, Soo-Young
    • The Korean Journal of Applied Statistics
    • /
    • v.19 no.3
    • /
    • pp.521-534
    • /
    • 2006
  • This paper considers a panel regression model with ill-posed data and proposes the generalized maximum entropy(GME) estimator of the unknown parameters. These are natural extensions from the biometries, statistics and econometrics literature. The performance of this estimator is investigated by using of Monte Carlo experiments. The results indicate that the GME method performs the best in estimating the unknown parameters.

Part-Of-Speech Tagging using multiple sources of statistical data (이종의 통계정보를 이용한 품사 부착 기법)

  • Cho, Seh-Yeong
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.18 no.4
    • /
    • pp.501-506
    • /
    • 2008
  • Statistical POS tagging is prone to error, because of the inherent limitations of statistical data, especially single source of data. Therefore it is widely agreed that the possibility of further enhancement lies in exploiting various knowledge sources. However these data sources are bound to be inconsistent to each other. This paper shows the possibility of using maximum entropy model to Korean language POS tagging. We use as the knowledge sources n-gram data and trigger pair data. We show how perplexity measure varies when two knowledge sources are combined using maximum entropy method. The experiment used a trigram model which produced 94.9% accuracy using Hidden Markov Model, and showed increase to 95.6% when combined with trigger pair data using Maximum Entropy method. This clearly shows possibility of further enhancement when various knowledge sources are developed and combined using ME method.

A Note on Spectral Estimation by the Method of Maximum Entropy (최대 엔트로피방법에 의한 스펙트럼 추정에 관한 소고)

  • 박은진;오세범;한상대;편종근
    • Proceedings of the Korean Society of Coastal and Ocean Engineers Conference
    • /
    • 1993.07a
    • /
    • pp.125-129
    • /
    • 1993
  • 학문의 어느 분야든, 어느 분야의 어느 한 가지든 그 출발점으로 거슬러 올라 가기란 결코 쉬운 일이 아니다. 불규칙 자료의 스펙트럼분석이야 고전적인 방법이지만 그 분석방법중 Burg(1967)에 의해 제안된 엔트로피(entropy) 개념을 이용한 방법은 그 출발점을 명확하게 이해하기가 손쉽지 않다. 차제에 최대엔트로피방법(Maximum Entropy Method: MIM)을 복습하고, 그것이 어떻게 스펙트럼 추정에 응용되는가를 정리함은 나름대로 의의가 있을 것이다. (중략)

  • PDF