DOI QR코드

DOI QR Code

Statistical Consideration on the Resources of the Countries in the World

세계 각국의 자원에 대한 통계적 고찰

  • 허문열 (성균관대학교 통계학과) ;
  • 최병수 (한성대학교 멀티미디어학과) ;
  • 이승천 (한신대학교 정보통계학과)
  • Published : 2009.02.28

Abstract

The paper investigates the resources of the 232 countries based on the 39 resources of these countries. The data used in this work is from various sources like UN, CIA, World bank, OECD reports and the home pages of each country. The purpose of the study is to evaluate what resources are most influential to the wealth of a country, to the well-bring of the country, or the status of the country's development. For this, data visualization method is applied. Data visualization technique, although powerful for exploratory purposes, is dependent upon the users expertize and the interpretation is also dependent on the of the users. For objective methods of investigation, mutual information based on the Shanon's entropy theory is applied here. All the statistical methods employed in this paper are processed with DAVIS (Huh and Song, 2002)

본 논문에서는 세계 232 개국에 대한 인구, 경제 및 기타 자원에 관한 자료를 사용하여 국가의 개발정도, 인간개발지수, 경제력 그리고 OECD 가입 여부에 어떤 자원이 어떻게 영향을 미치는가를 통계적으로 고찰해보고자 한다. 여기서 사용하는 국가별 자원 자료는 연속형 자료와 이산형 자료가 혼재되어있는 혼합형이며 많은 결측값이 포함되어 있어 기존의 방법으로는 분석하는 데 한계가 있다. 이 논문에서는 시각적 방법을 동원하여 복합형 자료를 탐색하는 과정을 제시하고 이러한 방법의 한계점을 보이고자한다. 이러한 한계점을 극복하고 객관적인 판단기준을 적용하여 주어진 문제에 대한 과학적인 결론을 유도하기 위해 Shannon (1948)의 엔트로피 이론에 기본을 둔 상호정보(MI)를 활용하고자 한다. 상호정보를 추정하는 방법은 여러 가지가 있으며 각 방법에 따라 결과가 매우 다르게 나타난다. 본 논문에서는 Fayyad와 Irani (1992)의 이산화 방법을 적용하여 MI를 추정하는 방법을 적용한다. 여기서 이루어지는 모든 과정은 다차원 자료의 시각적 탐색 도구인 DAVIS (Huh와 Song, 2002)를 사용하였다.

Keywords

References

  1. 차운옥, 허문열 (2008). 상호정보 추정을 위한 k-최근접이웃 기반방법, <한국통계학회논문집>, 15, 977-991 https://doi.org/10.5351/CKSS.2008.15.6.977
  2. 허문열, 차운옥 (2007). 정보이론과 시각화 방법에 의한 여론조사 분석의 새로운 접근방법, <응용통계연구>, 20, 61-78 https://doi.org/10.5351/KJAS.2007.20.1.061
  3. Fayyad, U. M. and Irani, K. B. (1992). On the handling of continuous-valued attributes in decision tree generation, Machine Learning, 8, 87-102 https://doi.org/10.1023/A:1022638503176
  4. Huh, M. Y. and Song, K. R. (2002). DAVIS: A Java-based data visualization system, Computational Statistics, 17, 411-423
  5. Lee, S.-c. and Huh, M. Y. (2003). A measure of association for complex data, Computational Statistics & Data Analysis, 44, 211-222 https://doi.org/10.1016/S0167-9473(03)00031-8
  6. Shannon, C. E. A. (1948). Mathematical theory of communication, The Bell Systems Technical Journal, 27, 379-423, 623-656 https://doi.org/10.1002/j.1538-7305.1948.tb01338.x
  7. Witten, I. H. and Frank, E. (2005). Data Mining: Practical Machine Learning Tools and Techniques, 2nd Edition, Morgan Kaufmann, San Francisco