• 제목/요약/키워드: Maximum Entropy Model

검색결과 135건 처리시간 0.036초

이종의 통계정보를 이용한 품사 부착 기법 (Part-Of-Speech Tagging using multiple sources of statistical data)

  • 조세형
    • 한국지능시스템학회논문지
    • /
    • 제18권4호
    • /
    • pp.501-506
    • /
    • 2008
  • 통계적 방식의 품사부착 문제는 보통 N-그램과 같을 단일 통계정보를 활용하지만 단순한 통계 정보라는 원천적인 한계가 있어 많은 오류가 발생한다. 따라서 다양한 정보를 활용하는 것이 정확도를 높일 가능성이 있다는 데는 이론의 여지가 없다. 그러나 다른 종류의 통계 자료는 배타적 자료가 아닌 한 상충되는 정보를 가질 수밖에 없으므로 이러한 정보들로부터 어떻게 종합적인 결론을 내는가가 문제이다. 본 논문에서는 이러한 상이한 통계정보를 통합하는 방법으로 언어 모델의 구성에서 활용된 바 있는 최대엔트로피 모델의 한국어 품사 부착에의 사용 가능성을 제시한다. 여기서는 이종의 통계정보로서 N그램과, 트리거 쌍을 사용하게 된다. 이러한 트리거 쌍 통계정보를 N그램과 함께 최대엔트로피 모델링을 했을 경우 퍼플렉시티가 어떻게 변화하는지에 대한 실험결과를 관찰하게 될 것이다. 트리거 쌍은 또한 다양하게 문맥사이즈를 변화할 수 있으며, N그램의 확률 모델도 다양하기 때문에 여러 종류의 실험을 통한 많은 향상을 예상 할 수 있다. 본 실험에서는 단일 모델 사용시 94.9 %의 정확도를 가진 3-그램 모델에 트리거 쌍을 최대 엔트로피 방식으로 추가한 견우 95.6% 의 정확도를 보여 0.7% 포인트의 정확도 향상을 기록하였다. 따라서 향후 다양한 정보원을 개발하여 최대엔트로피 방식으로 통합할 경우 지속적인 정확도 향상을 가져 올 수 있는 가능성을 보여준다고 할 수 있다.

강화학습에 기초한 지능형 웹 검색의 과잉적합 감소방안 (Overfitting Reduction of Intelligence Web Search based on Enforcement Learning)

  • 한송이;정용규
    • 한국인터넷방송통신학회논문지
    • /
    • 제9권3호
    • /
    • pp.25-30
    • /
    • 2009
  • 강화학습을 통한 지능형시스템은 게임, 웹 검색 등 많은 분야에서 연구되고 있다. 좋은 훈련 모델은 훈련데이터에도 적합해야 하며 이전에 접해 보지 못한 레코드들도 정확하게 분류되어야 한다. 훈련 데이터에 잘 맞는 모델은 과인적합 되어서 좋지 못한 일반화의 오류를 가질 수 있다. 어떤 분야에서도 이런 과잉적합은 피할 수 없는 문제이며 과잉적합을 방지하는 연구는 필요하다. 본 논문에서는 과잉적합을 감소시키기 위한 방법으로 자연계의 모델인 엔트로피와 돌연변이를 웹 검색에 적용하여 제시한다. 학습과정은 엔트로피의 변화량으로 설명될 수 있고, 자연계의 적자로 생존할 수 있는 돌연변이 현상은 데이터마이닝에서 엔트로피의 인위적 발생으로 설명될 수 있다. 즉, 최대 엔트로피를 주기적으로 발생시키는 방안을 본 논문에서 제시한다. 훈련데이터의 최대 엔트로피 모델은 지능형 웹 검색의 주기적 일반화 강화과정이라고 볼 수 있다.

  • PDF

Application of Generalized Maximum Entropy Estimator to the Two-way Nested Error Component Model with III-Posed Data

  • Cheon, Soo-Young
    • Communications for Statistical Applications and Methods
    • /
    • 제16권4호
    • /
    • pp.659-667
    • /
    • 2009
  • Recently Song and Cheon (2006) and Cheon and Lim (2009) developed the generalized maximum entropy(GME) estimator to solve ill-posed problems for the regression coefficients in the simple panel model. The models discussed consider the individual and a spatial autoregressive disturbance effects. However, in many application in economics the data may contain nested groupings. This paper considers a two-way error component model with nested groupings for the ill-posed data and proposes the GME estimator of the unknown parameters. The performance of this estimator is compared with the existing methods on the simulated dataset. The results indicate that the GME method performs the best in estimating the unknown parameters in terms of its quality when the data are ill-posed.

효율적인 영어 구문 분석을 위한 최대 엔트로피 모델에 의한 문장 분할 (Intra-Sentence Segmentation using Maximum Entropy Model for Efficient Parsing of English Sentences)

  • 김성동
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.385-395
    • /
    • 2005
  • 긴 문장 분석은 높은 분석 복잡도로 인해 기계 번역에서 매우 어려운 문제이다. 구문 분석의 복잡도를 줄이기 위하여 문장 분할 방법이 제안되었으며 본 논문에서는 문장 분할의 적용률과 정확도를 높이기 위한 최대 엔트로피 확률 모델 기반의 문장 분할 방법을 제시한다. 분할 위치의 어휘 문맥적 특징을 추출하여 후보 분할 위치를 선정하는 규칙을 학습을 통해 자동적으로 획득하고 각 후보 분할 위치에 분할 확률 값을 제공하는 확률 모델을 생성한다. 어휘 문맥은 문장 분할 위치가 표시된 말뭉치로부터 추출되며 최대 엔트로피 원리에 기반하여 확률 모델에 결합된다. Wall Street Journal의 문장을 추출하여 학습 데이타를 생성하는 말뭉치를 구축하고 네 개의 서로 다른 영역으로부터 문장을 추출하여 문장 분할 실험을 하였다. 실험을 통해 약 $88\%$의 문장 분할의 정확도와 약 $98\%$의 적용률을 보였다. 또한 문장 분할이 효율적인 파싱에 기여하는 정도를 측정하여 분석 시간 면에서 약 4.8배, 공간 면에서 약 3.6배의 분석 효율이 향상되었음을 확인하였다.

잉여생산량을 추정하는 모델과 파라미터 추정방법의 비교 (Comparison of models for estimating surplus productions and methods for estimating their parameters)

  • 권유정;장창익;표희동;서영일
    • 수산해양기술연구
    • /
    • 제49권1호
    • /
    • pp.18-28
    • /
    • 2013
  • It was compared the estimated parameters by the surplus production from three different models, i.e., three types (Schaefer, Gulland, and Schnute) of the traditional surplus production models, a stock production model incorporating covariates (ASPIC) model and a maximum entropy (ME) model. We also evaluated the performance of models in the estimation of their parameters. The maximum sustainable yield (MSY) of small yellow croaker (Pseudosciaena polyactis) in Korean waters ranged from 35,061 metric tons (mt) by Gulland model to 44,844mt by ME model, and fishing effort at MSY ($f_{MSY}$) ranged from 262,188hauls by Schnute model to 355,200hauls by ME model. The lowest root mean square error (RMSE) for small yellow croaker was obtained from the Gulland surplus production model, while the highest RMSE was from Schnute model. However, the highest coefficient of determination ($R^2$) was from the ME model, but the ASPIC model yielded the lowest coefficient. On the other hand, the MSY of Kapenta (Limnothrissa miodon) ranged from 16,880 mt by ASPIC model to 25,373mt by ME model, and $f_{MSY}$, from 94,580hauls by ASPIC model to 225,490hauls by Schnute model. In this case, both the lowest root mean square error (RMSE) and the highest coefficient of determination ($R^2$) were obtained from the ME model, which showed relatively better fits of data to the model, indicating that the ME model is statistically more stable and robust than other models. Moreover, the ME model could provide additional ecologically useful parameters such as, biomass at MSY ($B_{MSY}$), carrying capacity of the population (K), catchability coefficient (q) and the intrinsic rate of population growth (r).

카리브호수 카펜타 자원량 추정을 위한 최대엔트피모델과 분석적 모델의 비교분석 (A Comparative Analysis of Maximum Entropy and Analytical Models for Assessing Kapenta (Limnothrissa miodon) Stock in Lake Kariba)

  • 이타이 텐다우펜유;표희동
    • 자원ㆍ환경경제연구
    • /
    • 제26권4호
    • /
    • pp.613-639
    • /
    • 2017
  • 카리브호수의 카펜타 자원량을 추정하기 위해 최대엔트로피(ME)모델과 분석적 모델이 적용된다. ME모델을 이용하여 25,372톤의 최대지속가능 어획량(MSY)과 MSY의 어획노력량인 109,731의 어획일수(fishing nights)를 추정하였는데, 이는 현재 어획노력량 수준이 과잉투자됨으로써 1988년 이후 2009년 현재까지 자원량을 감소시키는 요인인 것을 나타낸다. 분석적 모델은 매년의 생물학적 허용 어획량(ABC)과 연간 1.21의 어획사망계수(일반적 어획사망계수인 0.927 보다 큰)를 추정한다. 이 두 모델은 1982년 기준년도의 자원량 추정에 적용할 수 있는 유사한 자원량을 추정한다. ME모델에 의하면 1988년의 최대 자원량(156,047톤)에 대해 1/3수준이하 까지 점점 하락하는 결과를 추정하였는데, 이는 최근의 어획량이 MSY 수준 이하이지만 ABC수준보다 높게 나타나 남획된 것을 암시한다. 다시 말해서, 분석적 모델은 ME모델에서의 MSY보다 더 보수적인 ABC를 제공함으로써, 보수적인 어업관리정책(총허용어획량제도, 어획노력감소정책 등)을 적극적으로 고려해야함을 내포하고 있다.

SAMPLE ENTROPY IN ESTIMATING THE BOX-COX TRANSFORMATION

  • Rahman, Mezbahur;Pearson, Larry M.
    • Journal of the Korean Data and Information Science Society
    • /
    • 제12권1호
    • /
    • pp.103-125
    • /
    • 2001
  • The Box-Cox transformation is a well known family of power transformation that brings a set of data into agreement with the normality assumption of the residuals and hence the response variable of a postulated model in regression analysis. This paper proposes a new method for estimating the Box-Cox transformation using maximization of the Sample Entropy statistic which forces the data to get closer to normal as much as possible. A comparative study of the proposed procedure with the maximum likelihood procedure, the procedure via artificial regression estimation, and the recently introduced maximization of the Shapiro-Francia W' statistic procedure is given. In addition, we generate a table for the optimal spacings parameter in computing the Sample Entropy statistic.

  • PDF

Modeling potential habitats for Pergularia tomentosa using maximum entropy model and effect of environmental variables on its quantitative characteristics in arid rangelands, southeastern Iran

  • Hosseini, Seyed Hamzeh;Azarnivand, Hossein;Ayyari, Mahdi;Chahooki, Mohammad Ali Zare;Erfanzadeh, Reza;Piacente, Sonia;Kheirandish, Reza
    • Journal of Ecology and Environment
    • /
    • 제42권4호
    • /
    • pp.227-239
    • /
    • 2018
  • Background: Predicting the potential habitat of plants in arid regions, especially for medicinal ones, is very important. Although Pergularia tomentosa is a key species for medicinal purposes, it appears in very low density in the arid rangelands of Iran, needing an urgent ecological attention. In this study, we modeled and predicted the potential habitat of P. tomentosa using maximum entropy, and the effects of environmental factors (geology, geomorphology, altitude, and soil properties) on some characteristics of the species were determined. Results: The results showed that P. tomentosa was absent in igneous formation while it appeared in conglomerate formation. In addition, among geomorphological units, the best quantitative characteristics of P. tomentosa was belonged to the conglomerate formation-small hill area (plant aerial parts = 57.63 and root length = 30.68 cm) with the highest electrical conductivity, silt, and $CaCO_3$ content. Conversely, the species was not found in the mountainous area with igneous formation. Moreover, plant density, length of roots, and aerial parts of the species were negatively correlated with soil sand, while positive correlation was observed with $CaCO_3$, EC, potassium, and silt content. The maximum entropy was found to be a reliable method (ROC = 0.91) for predicting suitable habitats for P. tomentosa. Conclusion: These results suggest that in evaluating the plant's habitat suitability in arid regions, contrary to the importance of the topography, some environmental variables such as geomorphology and geology can play the main role in rangeland plants' habitat suitability.

스팸성 자질과 URL 자질의 공동 학습을 이용한 최대 엔트로피 기반 스팸메일 필터 시스템 (A Spam Filter System Based on Maximum Entropy Model Using Co-training with Spamminess Features and URL Features)

  • 공미경;이경순
    • 정보처리학회논문지B
    • /
    • 제15B권1호
    • /
    • pp.61-68
    • /
    • 2008
  • 본 논문에서는 스팸메일에 나타나는 스팸성 자질과 URL 자질의 공동 학습을 이용한 최대엔트로피모델 기반 스팸 필터 시스템을 제안한다. 스팸성 자질은 스패머들이 스팸메일에 인위적으로 넣는 강조 패턴이나 필터 시스템을 통과하기 위해 비정상적으로 변형시킨 단어들을 말한다. 스팸성 자질 외에 반복적으로 나타나는 URL과 비정상적인 URL도 자질로 사용하였다. 메일에 나타난 정상적인 URL과 필터 시스템을 피하기 위해 변형된 비정상적인 URL들이 스팸 메일을 걸러내는데 도움을 줄 수 있기 때문이다. 또한 스팸성 자질과 URL자질을 이용한 공동 학습을 하였다. 공동 학습은 학습 과정에서 두 자질을 독립적으로 이용한 비지도 학습 방법으로 정답을 모르는 문서를 이용할 수 있다는 장점을 갖는다. 실험을 통해 스팸성 자질과 URL을 이용함으로써 스팸 필터 시스템의 성능을 향상시킬 수 있음을 확인하였으며 두 자질 집합을 이용한 공동 학습이 필요한 학습 문서의 수를 감소시키면서, 정확도는 일괄 학습 정확도에 근접한다는 것을 확인하였다.

종분포모형을 이용한 수원청개구리의 번식기 서식지 분석 (Habitat Analysis of Hyla suweonensis in the Breeding Season Using Species Distribution Modeling)

  • 송원경
    • 한국환경복원기술학회지
    • /
    • 제18권1호
    • /
    • pp.71-82
    • /
    • 2015
  • Hyla suweonensis is an endemic species and is designated as the only endangered species I among amphibians in 2012 by the Ministry of Environment, however studies about its habitat are lacking. This study was carried out to analyze habitat of H. suweonensis based on the spatial information using Maxent (Maximum entropy model as a species distribution model. We detected 45 present points until 2013 and 10 environmental variables by literature review for the model. The results showed that $429km^2$ (0.95%) of the study area, which was about 7.75% of the total agricultural area, was high possible habitats of H. suweonensis. The habitat of H. suweonensis was analyzed by over $1km^2$ rice paddy fields that were lower elevations, flat slopes, and not fragmented. The distance from forests and rivers was identified as a factor that affects its habitat possibilities. In order to conserve H. suweonensis, a large area of rice paddy fields should be preserved, and especially the area around forests and rivers would be required more intensive management. In addition, to compensate for degraded habitats of H. suweonensis in urban areas like as Suwon city, considering integrated watershed management strategy could be effective in the perspective of ecological habitat network of H. suweonensis.