• Title/Summary/Keyword: 통계데이터

Search Result 3,194, Processing Time 0.044 seconds

Prediction of Good Seller in Overseas sales of Domestic Books Using Big Data (빅데이터를 활용한 국내 도서의 해외 판매시 굿셀러 예측)

  • Kim, Nayeon;Kim, Doyoung;Kim, Miryeo;Jung, Jiyeong;Kim, Hyon Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.401-404
    • /
    • 2022
  • 한국 문학이 세계로 뻗어나감에 따라 해외 시장에서 자리를 잡는 것이 중요해진 시점이다. 본 연구에서는 2016 년도부터 2020 년도까지 최근 5 년간 해외 출간된 도서들 중에서 굿셀러로 분류되는 누적 5 천부 이상 판매 여부를 예측하고자 했다. 굿셀러로 분류되는 도서는 전체 번역 도서 중 적은 비율을 차지하여 데이터 불균형이 발생하였으며, 본 연구에서는 SMOTE 기법과 앙상블 알고리즘을 적용하여 데이터 불균형 문제를 해결하였다. 그 결과, 데이터 클래스 비율이 1:1 에 가까울수록 성능 개선 효과가 나타났으며 LightGBM 모델이 99.83%의 AUC 값을 얻어 다른 앙상블 알고리즘에 비해 가장 좋은 예측 성능을 보임을 검증하였다. 또한 누적 5 천부 이상 판매 여부 예측에 있어 큰 영향을 미치는 변수로는 작가가 가장 중요한 요인으로 나타났으며 출간 국가, 그리고 평점 평균, 평점 참여자 수 같은 온라인 요인도 판매 예측에 유의미한 변수로 나타난 것을 확인할 수 있었다.

Application of Statistical Analysis to Analyze the Spatial Distribution of Earthquake-induced Strain Data (지진유발 변형률 데이터의 분포 특성 분석을 위한 응용통계기법의 적용)

  • Kim, Bo-Ram;Chae, Byung-Gon;Kim, Yongje;Seo, Yong-Seok
    • The Journal of Engineering Geology
    • /
    • v.23 no.4
    • /
    • pp.353-361
    • /
    • 2013
  • To analyze the distribution of earthquake-induced strain data in rock masses, statistical analysis was performed on four-directional strain data obtained from a ground movement monitoring system installed in Korea. Strain data related to the 2011 Tohoku-oki earthquake and two aftershocks of >M7.0 in 2011 were used in x-MR control chart analysis, a type of univariate statistical analysis that can detect an abnormal distribution. The analysis revealed different dispersion times for each measurement orientation. In a more comprehensive analysis, the strain data were re-evaluated using multivariate statistical analysis (MSA) considering correlations among the various data from the different measurement orientations. $T_2$ and Q-statistics, based on principal component analysis, were used to analyze the time-series strain data in real-time. The procedures were performed with 99.9%, 99.0%, and 95.0% control limits. It is possible to use the MSA data to successfully detect an abnormal distribution caused by earthquakes because the dispersion time using the 99.9% control limit is concurrent with or earlier than that from the x-MR analysis. In addition, the dispersion using the 99.0% and 95.0% control limits detected an abnormal distribution in advance. This finding indicates the potential use of MSA for recognizing abnormal distributions of strain data.

South Asia Research on comparative analysis of fire statistics (동남아시아의 화재통계 비교분석에 관한 연구)

  • Kim, Tae-Hwan
    • Proceedings of the Korea Institute of Fire Science and Engineering Conference
    • /
    • 2010.04a
    • /
    • pp.26-30
    • /
    • 2010
  • 최근 동남아시아에서는 경재성장과 더불어 생활환경의 변화로 인해 대형화재의 발생 증가와 화재의 발생 빈도가 증가하고, 발생패턴 또한 변하고 있다. 이에 본 연구에서는 각 나라의 화재통계 비교분석을 통해 앞으로의 화재발생 경향을 예시하고자, 각국의 인구통계와 화재건수, 사망자수 등의 통계로 비교분석하였다. 각국의 비교에서는 중국 등 일부 나라는 도심지 지역을 제외한 일부지역의 정확한 데이터가 부족하고, 통계 시점이 불명확하였다. 또한, 우리나라는 데이터에 대한 분류방식변화로 통계치에 대한 발생건수 증가에 대한 대안이 있어야 하며, 특히 대만의 경우처럼 타 국가에 비해 급격한 감소 현상에 대한 화재대책방안을 참고 하여야 한다. 종합적으로는 각 나라의 사정은 다르겠지만, 동남아의 특징인 가족중심사회, 도시구조와 생활패턴 및 문화적 공통점을 고려 할 때 표준화된 통계분류방법이 필요하다.

  • PDF

Study on analysis of initial Data on 6 Sigma application in real fields (6 Sigma 현장적용 적용 시 초기 데이터 분석에 대한 고찰)

  • Lee, Sang-Bok;Choe, Eun-Hyang
    • Proceedings of the Korean Society for Quality Management Conference
    • /
    • 2009.10a
    • /
    • pp.33-39
    • /
    • 2009
  • 본 연구에서는 현장에서 6 시그마를 활용 시 통계분석의 기초가 되는 초기 데이터 분석에 대한 고찰이다. 통계의 가장 기본이 되는 데이터가 잘못되었으면 나머지 모두 문제가 된다. 이에 데이터 초기에 발생할 수 있는 여러 오류의 가능성을 살펴보고 각각에 대해 해결책을 제시하였다. 여기서 활용하는 방법들은 계측기 선정, Gage R&R, Histogram, Box-plot, PDF, Box-Cox 변화 등이다.

  • PDF

Fake SNS Account Identification Technique Using Statistical and Image Data (통계 및 이미지 데이터를 활용한 가짜 SNS 계정 식별 기술)

  • Yoo, Seungyeon;Shin, Yeongseo;Bang, Chaewoon;Chun, Chanjun
    • Smart Media Journal
    • /
    • v.11 no.1
    • /
    • pp.58-66
    • /
    • 2022
  • As Internet technology develops, SNS users are increasing. As SNS becomes popular, SNS-type crimes using the influence and anonymity of social networks are increasing day by day. In this paper, we propose a fake account classification method that applies machine learning and deep learning to statistical and image data for fake accounts classification. SNS account data used for training was collected by itself, and the collected data is based on statistical data and image data. In the case of statistical data, machine learning and multi-layer perceptron were employed to train. Furthermore in the case of image data, a convolutional neural network (CNN) was utilized. Accordingly, it was confirmed that the overall performance of account classification was significantly meaningful.

A Study on Data Integration and Establishment of Business Prosess in Housing Statistics Information System (주택통계 정보시스템의 데이터 통합 및 업무 프로세스 수립에 관한 연구)

  • Yang, Dong-Suk;Park, Beom-Soo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.383-385
    • /
    • 2018
  • 정확하고 신속한 주택 통계를 도출하기 위해서는 관련 정보를 생성하는 여러 정보시스템들의 연계하여 데이터를 통합할 수 있어야 한다. 또한, 체계화된 업무프로세스를 수립하여 데이터의 중복이나 오류 등의 문제점을 해결할 수 있어야 한다. 본 연구에서는 국가정보시스템인 건축행정정보시스템(세움터), 주택공급통계시스템(HIS), 부동산실거래관리시스템(RTMS)을 중심으로 주택공급관련 프로세스를 분석하고 효율적인 프로세스 방안을 제시함으로써 향후 주택통계 업무프로세스 수립에 활용될 수 있을 것이라 기대한다.

A Study on data integration guideline with the advancement of housing market statistics (주택시장 통계 고도화에 따른 데이터 통합 가이드라인 제시에 관한 연구)

  • Yang, Dong-Suk;Park, Beom-Soo;Lee, Min-A
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.726-728
    • /
    • 2019
  • 주택시장 통계와 관련된 국가 정보시스템들의 현황조사와 업무 프로세스 정립을 기반으로 실제 적용 가능한 시스템들의 매뉴얼 및 데이터 통합 가이드라인을 제시한다면 주택시장 구조 변화에 신속하고 정확한 대응이 가능할 것이다. 본 연구에서는 국가정보시스템인 건축행정시스템(세움터)과 주택공급통계정보시스템(HIS)을 대상으로 주택시장 통계고도화에 따른 데이터 통합 가이드라인 및 관련정보시스템의 업무 개선 매뉴얼을 제시했다. 각 기관들의 체계적인 자료 생성은 주택시장분야의 합리적이고 효율적인 의사결정을 도울 수 있을 것이라 기대한다.

A study on the method of acquiring IO statistical information for each user task of the KISTI-5 supercomputer (슈퍼컴퓨터 5호기 사용자의 작업별 IO 통계정보 획득 방안에 대한 연구)

  • Kwon, Min-Woo;Yoon, JunWeon;Hong, TaeYoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.6-8
    • /
    • 2021
  • 슈퍼컴퓨터 5호기 누리온은 8,437대의 계산노드와 33.88PB 규모의 병렬스토리지가 100Gbps의 Omni-Path(OPA) 인터커넥트로 연결되어 있는 초대형 클러스터 시스템이다. 누리온의 계산자원은 PBS 작업스케줄러를 통해 관리되고 있고 병렬 스토리지는 DDN사의 Exascaler Monitoring System(ESMON)을 통해 influxDB에 read/write IO 통계 데이터를 수집하고 있다. 본 논문에서는 PBS의 과금 데이터와 ESMON influxDB의 IO 통계 데이터를 활용하여 사용자의 작업별 IO 통계 정보를 생성하는 방안에 대하여 소개한다.

An Experimental Study on the Automatic Coding System for Statistical Information Classification in Korea (통계정보 분류의 자동코딩 성능 실험 연구)

  • Nam, Young-Jun;Ahn, Dong-Ein
    • Journal of the Korean Society for information Management
    • /
    • v.17 no.4
    • /
    • pp.27-45
    • /
    • 2000
  • National statistical data such as Korean Census is fundamental data for national administration. In this paper, we present an automatic coding system utilizing morphological analyser and knowledge dictionaries. Knowledge bases are constructed based on an authority dictionaries which were developed by authors utilizing a newly learning theory. Test data indicates 99.5% of productivity and 83.3% of accuracy. The presented methods can be effectively applied to analyze statistical information.

  • PDF

Deep learning-based speech recognition for Korean elderly speech data including dementia patients (치매 환자를 포함한 한국 노인 음성 데이터 딥러닝 기반 음성인식)

  • Jeonghyeon Mun;Joonseo Kang;Kiwoong Kim;Jongbin Bae;Hyeonjun Lee;Changwon Lim
    • The Korean Journal of Applied Statistics
    • /
    • v.36 no.1
    • /
    • pp.33-48
    • /
    • 2023
  • In this paper we consider automatic speech recognition (ASR) for Korean speech data in which elderly persons randomly speak a sequence of words such as animals and vegetables for one minute. Most of the speakers are over 60 years old and some of them are dementia patients. The goal is to compare deep-learning based ASR models for such data and to find models with good performance. ASR is a technology that can recognize spoken words and convert them into written text by computers. Recently, many deep-learning models with good performance have been developed for ASR. Training data for such models are mostly composed of the form of sentences. Furthermore, the speakers in the data should be able to pronounce accurately in most cases. However, in our data, most of the speakers are over the age of 60 and often have incorrect pronunciation. Also, it is Korean speech data in which speakers randomly say series of words, not sentences, for one minute. Therefore, pre-trained models based on typical training data may not be suitable for our data, and hence we train deep-learning based ASR models from scratch using our data. We also apply some data augmentation methods due to small data size.