DOI QR코드

DOI QR Code

A Study of Outlier Detection Using the Mixture of Extreme Distributions Based on Deep-Sea Fishery Data

원양어선 조업 데이터의 혼합 극단분포를 이용한 이상점 탐색 연구

  • 이정진 (숭실대학교 정보통계보험수리학과) ;
  • 김재경 (숭실대학교 정보통계보험수리학과)
  • Received : 2014.12.26
  • Accepted : 2015.08.13
  • Published : 2015.10.31

Abstract

Deep-sea fishery in the Antarctic Ocean has been actively progressed by the developed countries including Korea. In order to prevent the environmental destruction of the Antarctic Ocean, related countries have established the Commission for the Conservation of Antarctic Marine Living Resources (CCAMLR) and have monitored any illegal unreported or unregulated fishing. Fishing of tooth fish, an expensive fish, in the Antarctic Ocean has increased recently and high catches per unit effort (CPUE) of fishing boats, which is suspicious for an illegal activity, have been frequently reported. The data of CPUEs in a fishing area of the Antarctic Ocean often show an extreme Distribution or a mixture of two extreme distributions. This paper proposes an algorithm to detect an outlier of CPUEs by using the mixture of two extreme distributions. The parameters of the mixture distribution are estimated by the EM algorithm. Log likelihood value and posterior probabilities are used to detect an outlier. Experiments show that the proposed algorithm to detect outlier of the data can be adopted instead of simple criteria such as a CPUE is greater than 1.

남극해에서는 우리나라를 포함한 연안 강대국들의 원양어업이 활발히 성행하고 있다. 주인 없는 남극해의 생태계를 보호하기 위해 조업 국가들은 남극해양생물자원보존위원회를 만들고 협약을 맺어 일정한 어획량만 조업하고 금지기간과 금지구역을 설정하여 불법조업을 방지하고 있다. 남극해에서 조업하는 어종 중의 하나가 이빨고기(tooth fish)인데 비싼 값 때문에 불법조업이 있는 경우가 많다. 한 배의 조업성과는 CPUE(catch per unit effort)로 나타낼 수 있고, 한 지역에서 조업한 배들의 CPUE는 단일 또는 혼합 극단분포 형태를 가진다. 단일 극단분포일 경우 이상점 탐색은 상위 백분위수를 이용하면 된다. 본 논문은 자료가 혼합 극단분포인 경우 이상점 탐색을 위한 통계적 방법을 연구하고자 한다. 본 연구에서는 자료에 적합한 혼합 극단분포 모형을 EM 알고리즘으로 추정한 후 로그 가능도함수 값을 이용하거나 사후 확률을 이용한 이상점 탐색 알고리즘을 제안한다. 이 방법을 남극해 조업 데이터에 적용하여 시뮬레이션 한 결과 통계적 방법 적용의 가능성을 보여주었다.

Keywords

References

  1. Aitkin, M. and Wilson, G. T. (1980). Mixture models, outliers, and the EM algorithm. Technometrics, 22, 325-331. https://doi.org/10.1080/00401706.1980.10486163
  2. Kang, C. W., Kang, H. C., Park, S. H., Seung, H. W., Yong, H. S., Lee, D. H., Lee, S. K., Lee, Y. S., Jin, S. H., Choi, J. H. and Han, S. T. (2007). Data Mining Concepts and Methods, Cyprus.
  3. Kim, S., Cho, N. W. and Kang, S. H. (2010). Density based outlier detection for massive data analysis. Korean Journal of Management Science, 15, 71-88.
  4. Lee, J. J. (2011). Data Mining Using R, SAS and MS-SQL, Freedom Academy.
  5. Seo, H. S. and Yoon, M. (2011). Outlier detection using support vector machines. Communications for Statistical Applications and Methods, 18, 171-177 https://doi.org/10.5351/CKSS.2011.18.2.171
  6. Yong, H. S., Na, Y. M., Seung, H. W., Lee, M. S., Lee, S. J. and Choi, L. (2007). Data Mining, Infinity Books.

Cited by

  1. Characteristics of Psychrobacter spp. isolated from the Muscle of Toothfish (Dissostichus mawsoni) vol.30, pp.4, 2018, https://doi.org/10.13000/JFMSE.2018.08.30.4.1312