• 제목/요약/키워드: Maximum Entropy 모델

검색결과 56건 처리시간 0.026초

최대 엔트로피 부스팅 모델을 이용한 영어 전치사구 접속과 품사 결정 모호성 해소 ((Resolving Prepositional Phrase Attachment and POS Tagging Ambiguities using a Maximum Entropy Boosting Model))

  • 박성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권5_6호
    • /
    • pp.570-578
    • /
    • 2003
  • 최대 엔트로피 모델은 자연언어를 모델링하기 위한 좋은 방법이다. 하지만, 최대 엔트로피 모델을 전치사구 접속과 같은 실제 언어 문제에 적용할 때, 자질 선택과 계산 복잡도의 두 가지 문제가 발생한다. 본 논문에서는, 이런 문제와 자연언어 자원에 존재하는 불균형 데이터 문제를 해결하기 위한 최대 엔트로피 부스팅 모델(maximum entropy boosting model)을 제시하고, 이를 영어의 전치사구 접속과 품사 결정 모호성 해소에 적용한다. Wall Street Journal 말뭉치에 대한 실험 결과, 문제의 모델링에 아주 작은 노력을 들였음에도 불구하고, 전치사구 접속 문제에 대해 84.3%의 정확도와 품사 결정 문제에 대해 96.78%의 정확도를 보여 지금까지 알려진 최고의 성능과 비슷한 결과를 보였다.

최대 엔트로피 부스팅 모델을 이용한 전치사 접속 모호성 해소 (Resolving Prepositional Phrase Attachment Using a Maximum Entropy Boosting Model)

  • 박성배;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.670-672
    • /
    • 2002
  • Park과 Zhang은 최대 엔트로피 모델(maximum entropy model)을 실제 자연언어 처리에 적용함에 있어서 나타날 수 있는 여러가지 문제를 해결하기 위한 최대 엔트로피 모델(maximum entropy boosting model)을 제시하여 문서 단위화(text chunking)에 성공적으로 적용하였다. 최대 엔트로피 부스팅 모델은 쉬운 모델링과 높은 성능을 보이는 장점을 가지고 있다. 본 논문에서는 최대 엔트로피 부스팅 모델을 영어 전치사 접속 모호성 해소에 적용한다. Wall Street Journal 말뭉치에 대한 실험 결과, 아주 작은 노력을 들였음에도 84.3%의 성능을 보여 지금까지 알려진 최고의 성능과 비슷한 결과를 보였다.

  • PDF

Maximum Entropy 모델을 이용한 나열 및 병렬형 인식 (Syntax Analysis of Enumeration type and Parallel Type Using Maximum Entropy Model)

  • 임수종;이창기;허정;장명길
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.1240-1245
    • /
    • 2006
  • 한국어 문장을 구조 분석할 때에 모호성을 발생시키는 유형 중의 하나가 나열 및 병렬형이다. 문장 구조 복잡도를 증가시키는 나열 및 병렬형을 구조 분석 전에 미리 하나의 단위로 묶어서 처리하는 것이 문장 구조 분석의 정확도를 높이는데 중요하다. 본 연구에서는 형태소 태그를 이용한 기본 규칙으로 문장을 청크 단위로 분할하고 분할된 청크 중에서 나열형을 인식하여 해당되는 청크들을 하나의 나열 청크로 통합하여 청크의 개수를 줄인다. 병렬형에 대해서는 반복되는 병렬 청크의 범위와 생략된 용언을 복원한다. 이러한 인식은 첫 단계로 기호(symbol)를 중심으로 구축된 간단한 규칙으로 인식을 하고 이러한 규칙에 해당되지 않는 형태의 나열 및 병렬형은 Maximum Entropy 모델을 이용하여 적용한다. ME모델은 어휘자질, 형태소 품사 자질, 거리 자질, 의미자질, 구 단위 태그 자질(NP:명사구, VP:동사구, AP:형용사구), BIO 태그(Begin, Inside, Outside) 자질에 대한 ME(Maximum Entropy) 모델을 이용하여 구축되었다.

  • PDF

백과사전 질의응답을 위한 생략된 표제어 복원에 관한 연구 (Restoring an Elided title for Encyclopedia QA System)

  • 임수종;이창기;장명길
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.541-543
    • /
    • 2005
  • 백과사전에서 정답을 찾기 위해 문장의 구조를 분석하는데 한국어 백과사전은 표제어에 대한 정보를 문장에서 생략한다. 그러나 표제어는 문장에서 주어나 목적어 역할을 하기 때문에 생략된 정보를 복원하지 못 하면 질의에 대한 정답을 제시할 수 없다. 생략된 표제어에 대한 정보를 복원하기 위해서 본 연구에서는 표제어의 의미범주 정보, 격틀, Maximum Entropy 모델을 이용하여 표제어 주어, 표제어 목적어 복원, 미복원 3가지로 인식한다. 표제어 의미범주는 의미 범주에 대해 일정 수준의 복원 성향을 보일 경우 Maximum Entropy 정보를 창조하였고 격틀을 이용하여 복원 여부를 결정한다. 만약 표제어의 의미범주 정보, 격틀을 이용하여도 복원 여부를 결정하지 못할 경우에는 Maximum Entropy 모델에 기반한 통계 기법을 적용하여 복원 여부를 결정한다. 그리고 각각 방법의 단점을 보완하기 위해서 규칙에 해당하는 표제어 의미범주 정보와 격틀 정보에는 통계 모델인 ME 모델을 보완하여 사용한다.

  • PDF

최대 엔트로피 부스팅 모델을 이용한 품사 모호성 해소 (Resolving Part-of-Speech Tagging Ambiguities by a Maximum Entropy Boosting Model)

  • 박성배;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.522-524
    • /
    • 2003
  • 품사 결정 문제는 자연언어처리의 가장 기본적인 문제들 중 하나이며, 기계학습의 관점에서 보면 분류 문제(classification problem)로 쉽게 표현된다. 본 논문에서는 품사 결정의 모호성을 해소하기 위해서 최대 엔트로피 부스팅 모델(maximum entropy boosting model)을 이 문제에 적응하였다. 그리고, 품사 결정에서 중요한 요소 중의 하나인 미지어 처리를 위해서 특별히 설계된 일차 자질을 고려하였다. 최대 엔트로피 부스팅 모델의 장점은 쉬운 모델링인데, 실제로 품사 결정을 위한 일차 자질만 작성하는 노려만 들이고도 96.78%의 정확도를 보여 지금까지 알려진 최고의 성능과 거의 비슷한 결과를 보였다.

  • PDF

개인별 평균차를 이용한 최대 엔트로피 기반 감성 인식 모델 (Maximum Entropy-based Emotion Recognition Model using Individual Average Difference)

  • 박소영;김동근;황민철
    • 한국정보통신학회논문지
    • /
    • 제14권7호
    • /
    • pp.1557-1564
    • /
    • 2010
  • 감성신호는 개인에 따라 그 패턴이 매우 다르게 나타나므로, 본 논문에서는 감성신호의 개인별 특징을 고려한 최대 엔트로피 기반 감성 인식 모델을 제안한다. 제안하는 모델은 보다 정확하게 사용자의 감성을 인식하기 위해서, 단순히 주어진 입력 감성 신호 값만을 사용하지 않고, 긍정 감성 신호 값의 평균과 부정 감성 신호 값의 평균을 입력 감성 신호의 값과 비교하여 활용한다. 또한, 감성 인식에 대한 전문적인 지식이 없이도 감성 인식 모델의 구축이 용이하도록, 제안하는 모델은 성능이 높다고 잘 알려진 기계학습기법의 하나인 최대 엔트로피 모델을 이용한다. 감성 신호의 수치 값을 그대로 사용하면 기계 학습에 필요한 학습 패턴 자료를 충분히 확보하기 어렵다는 점을 고려하여, 제안하는 모델은 평균차를 수치 값 대신 +(양수)와 -(음수)로 단순하게 표현하며, 감성 반응 전체 시간인 10초 대신 초단위로 분할하여 학습 패턴 자료의 양을 늘렸다.

ME 기반 감성 인식 모델 (ME-based Emotion Recognition Model)

  • 박소영;김동근;황민철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2010년도 춘계학술대회
    • /
    • pp.985-987
    • /
    • 2010
  • 본 논문에서는 개인별 평균차를 이용한 최대 엔트로피 기반 감성 인식 모델을 제안한다. 정확하게 사용자의 감성을 인식할 수 있도록, 제안하는 모델은 단순하게 주어진 입력 감성 신호 정보만 분석하여 사용하지 않고, 입력 정보를 각 감성 상태의 평균값과 비교한 결과를 활용한다. 그리고, 자료 부족 문제를 완화하기 위해서, 제안하는 모델은 평균차를 +(양수)와 -(음수)로 단순하게 표현하고, 감성 반응 전체 시간 대신 초단위로 분할하여 감성신호의 평균을 계산한다. 또한, 전문적인 지식이 없이도 구축이 용이하도록, 제안하는 모델은 간단한 평균차 계산 기법과 잘 알려진 기계학습기법의 하나인 최대 엔트로피 모델을 이용한다.

  • PDF

이종의 통계정보를 이용한 품사 부착 기법 (Part-Of-Speech Tagging using multiple sources of statistical data)

  • 조세형
    • 한국지능시스템학회논문지
    • /
    • 제18권4호
    • /
    • pp.501-506
    • /
    • 2008
  • 통계적 방식의 품사부착 문제는 보통 N-그램과 같을 단일 통계정보를 활용하지만 단순한 통계 정보라는 원천적인 한계가 있어 많은 오류가 발생한다. 따라서 다양한 정보를 활용하는 것이 정확도를 높일 가능성이 있다는 데는 이론의 여지가 없다. 그러나 다른 종류의 통계 자료는 배타적 자료가 아닌 한 상충되는 정보를 가질 수밖에 없으므로 이러한 정보들로부터 어떻게 종합적인 결론을 내는가가 문제이다. 본 논문에서는 이러한 상이한 통계정보를 통합하는 방법으로 언어 모델의 구성에서 활용된 바 있는 최대엔트로피 모델의 한국어 품사 부착에의 사용 가능성을 제시한다. 여기서는 이종의 통계정보로서 N그램과, 트리거 쌍을 사용하게 된다. 이러한 트리거 쌍 통계정보를 N그램과 함께 최대엔트로피 모델링을 했을 경우 퍼플렉시티가 어떻게 변화하는지에 대한 실험결과를 관찰하게 될 것이다. 트리거 쌍은 또한 다양하게 문맥사이즈를 변화할 수 있으며, N그램의 확률 모델도 다양하기 때문에 여러 종류의 실험을 통한 많은 향상을 예상 할 수 있다. 본 실험에서는 단일 모델 사용시 94.9 %의 정확도를 가진 3-그램 모델에 트리거 쌍을 최대 엔트로피 방식으로 추가한 견우 95.6% 의 정확도를 보여 0.7% 포인트의 정확도 향상을 기록하였다. 따라서 향후 다양한 정보원을 개발하여 최대엔트로피 방식으로 통합할 경우 지속적인 정확도 향상을 가져 올 수 있는 가능성을 보여준다고 할 수 있다.

우리나라 멸치자원량추정을 위한 잉여생산모델과 최대엔트로피모델의 비교분석 (A Comparative Analysis of Surplus Production Models and a Maximum Entropy Model for Estimating the Anchovy's Stock in Korea)

  • 표희동
    • 수산해양교육연구
    • /
    • 제18권1호
    • /
    • pp.19-30
    • /
    • 2006
  • For fishery stock assessment and optimum sustainable yield of anchovy in Korea, surplus production(SP) models and a maximum entropy(ME) model are employed in this paper. For determining appropriate models, five traditional SP models-Schaefer model, Schnute model, Walters and Hilborn model, Fox model, and Clarke, Yoshimoto and Pooley (CYP) model- are tested for effort and catch data of anchovy that occupies 7% in the total fisheries landings of Korea. Only CYP model of five SP models fits statistically significant at the 10% level. Estimated intrinsic growth rates are similar in both CYP and ME models, while environmental carrying capacity of the ME model is quite greater than that of the CYP model. In addition, the estimated maximum sustainable yield(MSY), 213,287 tons in the ME model is slightly higher than that of CYP model (198,364 tons). Biomass for MSY in the ME model, however, is calculated 651,000 tons which is considerably greater than that of the CYP model (322,881 tons). It is meaningful in that two models are compared for noting some implications about any significant difference of stock assessment and their potential strength and weakness.

강화학습에 기초한 지능형 웹 검색의 과잉적합 감소방안 (Overfitting Reduction of Intelligence Web Search based on Enforcement Learning)

  • 한송이;정용규
    • 한국인터넷방송통신학회논문지
    • /
    • 제9권3호
    • /
    • pp.25-30
    • /
    • 2009
  • 강화학습을 통한 지능형시스템은 게임, 웹 검색 등 많은 분야에서 연구되고 있다. 좋은 훈련 모델은 훈련데이터에도 적합해야 하며 이전에 접해 보지 못한 레코드들도 정확하게 분류되어야 한다. 훈련 데이터에 잘 맞는 모델은 과인적합 되어서 좋지 못한 일반화의 오류를 가질 수 있다. 어떤 분야에서도 이런 과잉적합은 피할 수 없는 문제이며 과잉적합을 방지하는 연구는 필요하다. 본 논문에서는 과잉적합을 감소시키기 위한 방법으로 자연계의 모델인 엔트로피와 돌연변이를 웹 검색에 적용하여 제시한다. 학습과정은 엔트로피의 변화량으로 설명될 수 있고, 자연계의 적자로 생존할 수 있는 돌연변이 현상은 데이터마이닝에서 엔트로피의 인위적 발생으로 설명될 수 있다. 즉, 최대 엔트로피를 주기적으로 발생시키는 방안을 본 논문에서 제시한다. 훈련데이터의 최대 엔트로피 모델은 지능형 웹 검색의 주기적 일반화 강화과정이라고 볼 수 있다.

  • PDF