• Title/Summary/Keyword: 통계 분류

Search Result 2,155, Processing Time 0.025 seconds

A study on the reference model for statistical geographic information system based on the GIS standards (표준 기반의 통계지리정보 참조모렐 개발에 관한 연구)

  • Ha, Su-Wook;Nam, Kwang-Woo;Ryu, Keun-Ho
    • Proceedings of the Korean Association of Geographic Inforamtion Studies Conference
    • /
    • 2010.06a
    • /
    • pp.258-260
    • /
    • 2010
  • 통계지리정보는 기존의 텍스트 기반 통계정보를 공간정보와 결합한 정보로서 공공 민간 분야의 다양한 의사결정을 위한 핵심 기반 정보로 그 활용성이 주목받고 있다. 본 논문은 통계지리 정보와 이를 이용한 서비스 구축 및 유지 관리 과정에서 발생하는 상호운용성 문제의 해결을 위한 접근방법으로 기존의 공간정보 표준 참조 모델들을 기반으로 통계지리 정보 및 서비스 참조모델을 제안하고, 각각의 정보 및 서비스 분류에 해당하는 표준화 요구사항을 제시한다.

  • PDF

A Domain Action Classification Model Using Conditional Random Fields (Conditional Random Fields를 이용한 영역 행위 분류 모델)

  • Kim, Hark-Soo
    • Korean Journal of Cognitive Science
    • /
    • v.18 no.1
    • /
    • pp.1-14
    • /
    • 2007
  • In a goal-oriented dialogue, speakers' intentions can be represented by domain actions that consist of pairs of a speech act and a concept sequence. Therefore, if we plan to implement an intelligent dialogue system, it is very important to correctly infer the domain actions from surface utterances. In this paper, we propose a statistical model to determine speech acts and concept sequences using conditional random fields at the same time. To avoid biased learning problems, the proposed model uses low-level linguistic features such as lexicals and parts-of-speech. Then, it filters out uninformative features using the chi-square statistic. In the experiments in a schedule arrangement domain, the proposed system showed good performances (the precision of 93.0% on speech act classification and the precision of 90.2% on concept sequence classification).

  • PDF

한국사회 자살 통계에 대한 장기 추세 분석: 『경찰통계연보』 1953년~2015년 자살통계를 중심으로

  • Jeong, Seung-Hwa
    • Korean Journal of Social Issues
    • /
    • v.18 no.1
    • /
    • pp.83-125
    • /
    • 2017
  • 이 연구는 유신체제 이후 대외비 문서로 분류되어 학자들 사이에서도 잘 알려지지 않았던 『경찰통계연보』의 자살 통계를 통해 1953년부터 2015년까지의 자살자수와 자살률의 시계열적 변화, 자살원인과 자살수단의 장기적인 변화의 추세를 분석하였다. 자살률의 장기시계열적인 변화를 살펴봄으로써 이 논문은 통계청 자살통계로만 파악했을 때 알려지지 않았던 한국사회 1960~70년대 개발독재시기의 자살률 추이를 분석하였고 이 시기 자살률이 매우 높았음을 논의하였다. 그리고 통계청 자살 통계와 경찰청 자살 통계의 비교 검토를 통해 1999년~2007년까지의 통계청 자살 통계가 수정 보완된 점을 지적하였다. 2000년대 초반 통계청 자살 통계의 급증과 관련한 기존 연구의 분석을 검토하면서 통계 작성의 행정적 변화가 자살 통계에 미친 영향에 대해 논의하였다.

韓國統計의 現況과 將來 - 農業統計

  • 장석환
    • Journal of the Korean Statistical Society
    • /
    • v.10
    • /
    • pp.35-53
    • /
    • 1981
  • 어느 국가이든 농업통계는 그 나라의 농업생산량, 생산가능성 및 식량수급은 물론 농업정책수립, 국토 및 경제개발계획수립의 기본이 되고 있다. 최근 모든 산업이 고도로 발달되고 세분화되며 국민의 지식수준이 높아짐에 따라 통계도 필연적으로 다양화되고 있는 것이 사실이다. 소규모의 영농에도 시장정보가 필요하게 되고 이에 부응하여 통계의 필요성은 더욱 고조되고 있다. 특히 1970년대를 접어들면서 급격한 국내산업 발달과 인구의 증가는 우리나라의 식량문제를 더욱 심각하게 만들고 따라서 식량수급계획을 위해서는 정확한 생산 및 소비량통계가 필요하게 되었고 공식 발표된 농업통계는 많은 사람들의 관심의 대상이 되고 때로는 그 정확성 여부에 많은 논란이 있기도 하다. 이는 실제로 조사발표된 통계가 여러가지 악조건하에서 조사되었기 때문에 자료수집과정에서 약간의 미흡한 점이 있을 수도 있겠으나 근본적으로는 통계에 대한 인식부족에서 오는 오해에 연유된 것도 많다고 본다. 농업자체가 타산업에 비하여 구조가 다르며 특히 우리나라에서는 영농의 복잡성 때문에 실제로 조사하는데도 여러가지 문제점과 제약 조건이 많다. 어려운 여건하에서도 그동안 많은 발전을 보았으나 농업통계 개선을 위하여 계속연구 검토해야 할 것이다. 본 연구에서는 주로 농수산부에서 분류한 기준에 따라 기본통계, 농산물생산통계, 농가경제통계, 생산비통계, 농산물유통 및 가격통계를 중심으로 검토코져 한다.

  • PDF

Automatic Generation of Standard Classification Code (표준 통계 분류 코드 자동 생성)

  • Lim, Heui-Seok
    • Proceedings of the KAIS Fall Conference
    • /
    • 2006.05a
    • /
    • pp.388-390
    • /
    • 2006
  • 본 논문은 수동 코드 분류 규칙과 예제기반의 자동 학습을 이용하는 한국어 표준 산업/직업 코드 자동분류 시스템을 제안한다. 제안된 시스템은 산업과 직업에 대하여 설명하는 자연어를 입력받아 해당 산업/직업 분류 코드를 생성하는 시스템으로 수작업으로 구축된 규칙을 적용한 후 규칙이 적용되지 않는 레코드는 예제 기반의 학습을 이용한 자동 분류 시스템에 의해서 해당 코드를 할당한다.

  • PDF

Improving minority prediction performance of support vector machine for imbalanced text data via feature selection and SMOTE (단어선택과 SMOTE 알고리즘을 이용한 불균형 텍스트 데이터의 소수 범주 예측성능 향상 기법)

  • Jongchan Kim;Seong Jun Chang;Won Son
    • The Korean Journal of Applied Statistics
    • /
    • v.37 no.4
    • /
    • pp.395-410
    • /
    • 2024
  • Text data is usually made up of a wide variety of unique words. Even in standard text data, it is common to find tens of thousands of different words. In text data analysis, usually, each unique word is treated as a variable. Thus, text data can be regarded as a dataset with a large number of variables. On the other hand, in text data classification, we often encounter class label imbalance problems. In the cases of substantial imbalances, the performance of conventional classification models can be severely degraded. To improve the classification performance of support vector machines (SVM) for imbalanced data, algorithms such as the Synthetic Minority Over-sampling Technique (SMOTE) can be used. The SMOTE algorithm synthetically generates new observations for the minority class based on the k-Nearest Neighbors (kNN) algorithm. However, in datasets with a large number of variables, such as text data, errors may accumulate. This can potentially impact the performance of the kNN algorithm. In this study, we propose a method for enhancing prediction performance for the minority class of imbalanced text data. Our approach involves employing variable selection to generate new synthetic observations in a reduced space, thereby improving the overall classification performance of SVM.

Categorical Variable Selection in Naïve Bayes Classification (단순 베이즈 분류에서의 범주형 변수의 선택)

  • Kim, Min-Sun;Choi, Hosik;Park, Changyi
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.3
    • /
    • pp.407-415
    • /
    • 2015
  • $Na{\ddot{i}}ve$ Bayes Classification is based on input variables that are a conditionally independent given output variable. The $Na{\ddot{i}}ve$ Bayes assumption is unrealistic but simplifies the problem of high dimensional joint probability estimation into a series of univariate probability estimations. Thus $Na{\ddot{i}}ve$ Bayes classier is often adopted in the analysis of massive data sets such as in spam e-mail filtering and recommendation systems. In this paper, we propose a variable selection method based on ${\chi}^2$ statistic on input and output variables. The proposed method retains the simplicity of $Na{\ddot{i}}ve$ Bayes classier in terms of data processing and computation; however, it can select relevant variables. It is expected that our method can be useful in classification problems for ultra-high dimensional or big data such as the classification of diseases based on single nucleotide polymorphisms(SNPs).

Classification Analysis for Unbalanced Data (불균형 자료에 대한 분류분석)

  • Kim, Dongah;Kang, Suyeon;Song, Jongwoo
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.3
    • /
    • pp.495-509
    • /
    • 2015
  • We study a classification problem of significant differences in the proportion of two groups known as the unbalanced classification problem. It is usually more difficult to classify classes accurately in unbalanced data than balanced data. Most observations are likely to be classified to the bigger group if we apply classification methods to the unbalanced data because it can minimize the misclassification loss. However, this smaller group is misclassified as the larger group problem that can cause a bigger loss in most real applications. We compare several classification methods for the unbalanced data using sampling techniques (up and down sampling). We also check the total loss of different classification methods when the asymmetric loss is applied to simulated and real data. We use the misclassification rate, G-mean, ROC and AUC (area under the curve) for the performance comparison.

Weighted L1-Norm Support Vector Machine for the Classification of Highly Imbalanced Data (불균형 자료의 분류분석을 위한 가중 L1-norm SVM)

  • Kim, Eunkyung;Jhun, Myoungshic;Bang, Sungwan
    • The Korean Journal of Applied Statistics
    • /
    • v.28 no.1
    • /
    • pp.9-21
    • /
    • 2015
  • The support vector machine has been successfully applied to various classification areas due to its flexibility and a high level of classification accuracy. However, when analyzing imbalanced data with uneven class sizes, the classification accuracy of SVM may drop significantly in predicting minority class because the SVM classifiers are undesirably biased toward the majority class. The weighted $L_2$-norm SVM was developed for the analysis of imbalanced data; however, it cannot identify irrelevant input variables due to the characteristics of the ridge penalty. Therefore, we propose the weighted $L_1$-norm SVM, which uses lasso penalty to select important input variables and weights to differentiate the misclassification of data points between classes. We demonstrate the satisfactory performance of the proposed method through simulation studies and a real data analysis.

Prediction of Good Seller in Overseas sales of Domestic Books Using Big Data (빅데이터를 활용한 국내 도서의 해외 판매시 굿셀러 예측)

  • Kim, Nayeon;Kim, Doyoung;Kim, Miryeo;Jung, Jiyeong;Kim, Hyon Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.401-404
    • /
    • 2022
  • 한국 문학이 세계로 뻗어나감에 따라 해외 시장에서 자리를 잡는 것이 중요해진 시점이다. 본 연구에서는 2016 년도부터 2020 년도까지 최근 5 년간 해외 출간된 도서들 중에서 굿셀러로 분류되는 누적 5 천부 이상 판매 여부를 예측하고자 했다. 굿셀러로 분류되는 도서는 전체 번역 도서 중 적은 비율을 차지하여 데이터 불균형이 발생하였으며, 본 연구에서는 SMOTE 기법과 앙상블 알고리즘을 적용하여 데이터 불균형 문제를 해결하였다. 그 결과, 데이터 클래스 비율이 1:1 에 가까울수록 성능 개선 효과가 나타났으며 LightGBM 모델이 99.83%의 AUC 값을 얻어 다른 앙상블 알고리즘에 비해 가장 좋은 예측 성능을 보임을 검증하였다. 또한 누적 5 천부 이상 판매 여부 예측에 있어 큰 영향을 미치는 변수로는 작가가 가장 중요한 요인으로 나타났으며 출간 국가, 그리고 평점 평균, 평점 참여자 수 같은 온라인 요인도 판매 예측에 유의미한 변수로 나타난 것을 확인할 수 있었다.