DOI QR코드

DOI QR Code

Analyzing Financial Data from Banks and Savings Banks: Application of Bioinformatical Methods

은행과 저축은행 관련 재정 지표 분석: 생물 정보학 분석 기법의 응용

  • Pak, Ro Jin (Department of Applied Statistics, Dankook University)
  • 박노진 (단국대학교 응용통계학과)
  • Received : 2014.04.17
  • Accepted : 2014.06.18
  • Published : 2014.08.31

Abstract

The collection and storage of a large volumes of data are becoming easier; however, the number of variables is sometimes more than the number of samples(objects). We now face the problem of dependency among variables(such as multicollinearity) due to the increased number of variables. We cannot apply various statistical methods without satisfying independency assumption. In order to overcome such a drawback we consider a categorizing (or discretizing) observations. We have a data set of nancial indices from banks in Korea that contain 78 variables from 16 banks. Genetic sequence data is also a good example of a large data and there have been numerous statistical methods to handle it. We discover lots of useful bank information after we transform bank data into categorical data that resembles genetic sequence data and apply bioinformatic techniques.

자료의 수집과 저장이 수월해 지면서 대용량의 자료들이 존재하고 특히 개체 보다 변수가 더 많은 자료들이 생산되고 있다. 변수들이 증가하면서 다중공선성 같은 문제들이 발생하여 분석의 어려움에 봉착하게 된다. 이러한 문제를 해결하는 방법들이 많이 연구되었지만 다소간의 정보의 손실을 감내하고 연속형 자료를 범주형 자료로 변환하면 나름 유용한 분석이 가능하다고 본다. 대용량 범주형 자료의 대표적인 사례로 유전자 염기 서열 자료가 있고 이를 분석하기 위한 많은 기술들이 발달되어 있다. 본 논문에서는 국내 은행들이 생산해 낸 다양한 지표들을 분석하기 위해 유전자 염기 서열 분석 기법을 적용하여 분석하였고 나름 유용한 정보를 얻을 수 있음을 보였다. 본 논문에서 사용한 자료는 11개의 은행과 5개의 저축은행과 관련된 78개 재정 지표를 갖는 자료로서 심각한 다중 공선성이 존재하여 자료를 범주화하고 분석한 결과 몇 가지 유용한 결과를 도출하였다.

Keywords

References

  1. Baldauf, S. L. (2003). Phylogeny for the Faint of Heart: A tutorial, Trends in Genetics, 19, 345-351. https://doi.org/10.1016/S0168-9525(03)00112-4
  2. Barry, D. and Hartigan, J. A. (1987). Asynchronous distance between homologous DNA sequences, Biometrics, 43, 261-276. https://doi.org/10.2307/2531811
  3. Felsenstein, J. (1981). Evolutionary trees from DNA sequences: A maximum likelihood approach, Journal of Molecular Evolution, 17, 368-376. https://doi.org/10.1007/BF01734359
  4. Fitch, W. M. (1966). Mutation values for the interconversion of amino acid pair, Journal of Molecular Biology, 16, 9-16. https://doi.org/10.1016/S0022-2836(66)80258-9
  5. Hillis, D. M., Huelsenbeck, J. P. and Cunningham, C. W. (1994). Application and accuracy of molecular phylogenies, Science, 264, 671-677. https://doi.org/10.1126/science.8171318
  6. Jin, L. and Nei, M. (1990). Limitations of the evolutionary parsimony method of phylogenetic analysis, Molecular Biology and Evolution, 7, 82-102.
  7. Jukes, T. H. and Cantor, C. R. (1969). Evolution of Protein Molecules. In Mammalian Protein Metabolism, ed. Munro, H. N., Academic Press, New York.
  8. Kimura, M. (1980). A simple method for estimating evolutionary rates of base substitutions through com-parative studies of nucleotide sequences, Journal of Molecular Evolution, 16, 111-120. https://doi.org/10.1007/BF01731581
  9. Kimura, M. (1981). Estimation of evolutionary distances between homologous nucleotide sequences, Proceedings of the National Academy of Sciences USA, 78, 454-458. https://doi.org/10.1073/pnas.78.1.454
  10. Krane, D. E. and Raymer, M. L. (2003). Fundamental Concepts of Bioinformatics, Pearson Education, San Francisco, CA.
  11. Olsen, G. J. (2013). Phylogenetic Analysis, Course Handout, Available from: http://www.life.illinois.edu/mcb/432/Handouts/PhylogeneticAnalysis.pdf.
  12. Pak, R. J. (2013). Key financial indexes classifying banks and savings banks, Journal of the Korean Data Analysis Society, 15, 719-730.
  13. Saitou, N. and Nei, M. (1987). The neighbor-joining method: A new method for reconstructing phylogenetic trees, Molecular Biology and Evolution, 4, 406-425.
  14. Tamura, K. and Nei, M. (1993). Estimation of the number of nucleotide substitutions in the control region of mitochondrial DNA in humans and chimpanzees, Molecular Biology and Evolution, 10, 512-526.