• 제목/요약/키워드: 통계데이터

검색결과 3,205건 처리시간 0.037초

빅데이터를 활용한 국내 도서의 해외 판매시 굿셀러 예측 (Prediction of Good Seller in Overseas sales of Domestic Books Using Big Data)

  • 김나연;김도영;김미려;정지영;김현희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.401-404
    • /
    • 2022
  • 한국 문학이 세계로 뻗어나감에 따라 해외 시장에서 자리를 잡는 것이 중요해진 시점이다. 본 연구에서는 2016 년도부터 2020 년도까지 최근 5 년간 해외 출간된 도서들 중에서 굿셀러로 분류되는 누적 5 천부 이상 판매 여부를 예측하고자 했다. 굿셀러로 분류되는 도서는 전체 번역 도서 중 적은 비율을 차지하여 데이터 불균형이 발생하였으며, 본 연구에서는 SMOTE 기법과 앙상블 알고리즘을 적용하여 데이터 불균형 문제를 해결하였다. 그 결과, 데이터 클래스 비율이 1:1 에 가까울수록 성능 개선 효과가 나타났으며 LightGBM 모델이 99.83%의 AUC 값을 얻어 다른 앙상블 알고리즘에 비해 가장 좋은 예측 성능을 보임을 검증하였다. 또한 누적 5 천부 이상 판매 여부 예측에 있어 큰 영향을 미치는 변수로는 작가가 가장 중요한 요인으로 나타났으며 출간 국가, 그리고 평점 평균, 평점 참여자 수 같은 온라인 요인도 판매 예측에 유의미한 변수로 나타난 것을 확인할 수 있었다.

지진유발 변형률 데이터의 분포 특성 분석을 위한 응용통계기법의 적용 (Application of Statistical Analysis to Analyze the Spatial Distribution of Earthquake-induced Strain Data)

  • 김보람;채병곤;김용제;서용석
    • 지질공학
    • /
    • 제23권4호
    • /
    • pp.353-361
    • /
    • 2013
  • 본 연구에서는 ${\bigcirc}{\bigcirc}$지역 토목용 계측기에서 측정된 지진유발 변형률 데이터의 분포 특성을 분석하기 위한 기법으로 응용통계기법에 대한 적용성을 평가하였다. 2011년 도호쿠 대지진과 같은 해에 발생한 규모 7.0 이상의 여진을 계측한 4방향의 변형률 데이터를 활용하였다. 데이터의 미세한 변동을 감지하기 위하여 단변량 분석기법인 x-MR 분석을 실시하였으며 분석결과 계측 데이터 간의 분산시점에 차이가 발생하는 것을 확인하였다. 이러한 분산시점의 차이를 해결하기 위하여 변형률 데이터 간의 상관성을 고려한 다변량 통계분석을 실시하였다. 다변량 분석기법 가운데 하나인 주성분 분석결과를 $T_2$과 Q-통계량 분석에 적용하여 신뢰구간 99.9%, 99.0%, 95.0%로 실시간 분석을 수행하였다. 분석결과 $T_2$과 Q-통계량 값이 신뢰구간 99.9%를 초과하는 시점은 x-MR 분석의 분산시점과 일치하거나 이른 시간으로 나타났다. 또한, 신뢰구간 95.0%와 99.0%를 초과하는 시점은 99.9%를 초과하는 시점 이전에 타점되어 지진발생 전에 이상 분포 발생을 예측할 수 있었다. 이러한 결과는 변형률 데이터의 비정상적인 분포 특성을 다변량 통계분석법으로 인지할 수 있다는 것을 의미한다. 따라서 다변량 통계분석은 변형률 데이터의 분포 특성을 분석하여 지진을 예지하는 방법으로 이용가능하다고 판단된다.

동남아시아의 화재통계 비교분석에 관한 연구 (South Asia Research on comparative analysis of fire statistics)

  • 김태환
    • 한국화재소방학회:학술대회논문집
    • /
    • 한국화재소방학회 2010년도 춘계학술논문발표회 논문집
    • /
    • pp.26-30
    • /
    • 2010
  • 최근 동남아시아에서는 경재성장과 더불어 생활환경의 변화로 인해 대형화재의 발생 증가와 화재의 발생 빈도가 증가하고, 발생패턴 또한 변하고 있다. 이에 본 연구에서는 각 나라의 화재통계 비교분석을 통해 앞으로의 화재발생 경향을 예시하고자, 각국의 인구통계와 화재건수, 사망자수 등의 통계로 비교분석하였다. 각국의 비교에서는 중국 등 일부 나라는 도심지 지역을 제외한 일부지역의 정확한 데이터가 부족하고, 통계 시점이 불명확하였다. 또한, 우리나라는 데이터에 대한 분류방식변화로 통계치에 대한 발생건수 증가에 대한 대안이 있어야 하며, 특히 대만의 경우처럼 타 국가에 비해 급격한 감소 현상에 대한 화재대책방안을 참고 하여야 한다. 종합적으로는 각 나라의 사정은 다르겠지만, 동남아의 특징인 가족중심사회, 도시구조와 생활패턴 및 문화적 공통점을 고려 할 때 표준화된 통계분류방법이 필요하다.

  • PDF

6 Sigma 현장적용 적용 시 초기 데이터 분석에 대한 고찰 (Study on analysis of initial Data on 6 Sigma application in real fields)

  • 이상복;최은향
    • 한국품질경영학회:학술대회논문집
    • /
    • 한국품질경영학회 2009년도 추계학술대회
    • /
    • pp.33-39
    • /
    • 2009
  • 본 연구에서는 현장에서 6 시그마를 활용 시 통계분석의 기초가 되는 초기 데이터 분석에 대한 고찰이다. 통계의 가장 기본이 되는 데이터가 잘못되었으면 나머지 모두 문제가 된다. 이에 데이터 초기에 발생할 수 있는 여러 오류의 가능성을 살펴보고 각각에 대해 해결책을 제시하였다. 여기서 활용하는 방법들은 계측기 선정, Gage R&R, Histogram, Box-plot, PDF, Box-Cox 변화 등이다.

  • PDF

통계 및 이미지 데이터를 활용한 가짜 SNS 계정 식별 기술 (Fake SNS Account Identification Technique Using Statistical and Image Data)

  • 유승연;신영서;방채운;전찬준
    • 스마트미디어저널
    • /
    • 제11권1호
    • /
    • pp.58-66
    • /
    • 2022
  • 인터넷 기술이 발전함에 따라 SNS 사용자가 늘어나고 있다. SNS의 대중화가 진행되면서 소셜 네트워크의 영향력과 익명성을 활용한 SNS형 범죄가 나날이 증가하고 있는 추세이다. 본 논문에서는 인스타그램에서 SNS형 범죄에 주로 이용되는 가짜 계정 분류를 위해 통계 데이터와 이미지 데이터를 이용하여 각각 기계학습 및 딥러닝(deep learning) 기법을 활용한 가짜 계정 분류 방법을 제안한다. 모델 학습에 사용된 SNS 계정 데이터는 자체적으로 수집하였으며, 수집된 데이터는 통계 데이터 및 이미지 데이터에 기반한다. 통계 데이터의 경우에는 기계학습 및 다층 퍼셉트론 기반으로 학습을 진행하였고, 이미지 데이터의 경우에는 합성곱 신경망(Convolutional Neural Network, CNN) 기반으로 학습을 진행하였다. 학습을 진행한 결과 계정 분류에 대하여 정확도가 전반적으로 높게 나온 것을 확인하였다.

주택통계 정보시스템의 데이터 통합 및 업무 프로세스 수립에 관한 연구 (A Study on Data Integration and Establishment of Business Prosess in Housing Statistics Information System)

  • 양동석;박범수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 추계학술발표대회
    • /
    • pp.383-385
    • /
    • 2018
  • 정확하고 신속한 주택 통계를 도출하기 위해서는 관련 정보를 생성하는 여러 정보시스템들의 연계하여 데이터를 통합할 수 있어야 한다. 또한, 체계화된 업무프로세스를 수립하여 데이터의 중복이나 오류 등의 문제점을 해결할 수 있어야 한다. 본 연구에서는 국가정보시스템인 건축행정정보시스템(세움터), 주택공급통계시스템(HIS), 부동산실거래관리시스템(RTMS)을 중심으로 주택공급관련 프로세스를 분석하고 효율적인 프로세스 방안을 제시함으로써 향후 주택통계 업무프로세스 수립에 활용될 수 있을 것이라 기대한다.

주택시장 통계 고도화에 따른 데이터 통합 가이드라인 제시에 관한 연구 (A Study on data integration guideline with the advancement of housing market statistics)

  • 양동석;박범수;이민아
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.726-728
    • /
    • 2019
  • 주택시장 통계와 관련된 국가 정보시스템들의 현황조사와 업무 프로세스 정립을 기반으로 실제 적용 가능한 시스템들의 매뉴얼 및 데이터 통합 가이드라인을 제시한다면 주택시장 구조 변화에 신속하고 정확한 대응이 가능할 것이다. 본 연구에서는 국가정보시스템인 건축행정시스템(세움터)과 주택공급통계정보시스템(HIS)을 대상으로 주택시장 통계고도화에 따른 데이터 통합 가이드라인 및 관련정보시스템의 업무 개선 매뉴얼을 제시했다. 각 기관들의 체계적인 자료 생성은 주택시장분야의 합리적이고 효율적인 의사결정을 도울 수 있을 것이라 기대한다.

슈퍼컴퓨터 5호기 사용자의 작업별 IO 통계정보 획득 방안에 대한 연구 (A study on the method of acquiring IO statistical information for each user task of the KISTI-5 supercomputer)

  • 권민우;윤준원;홍태영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.6-8
    • /
    • 2021
  • 슈퍼컴퓨터 5호기 누리온은 8,437대의 계산노드와 33.88PB 규모의 병렬스토리지가 100Gbps의 Omni-Path(OPA) 인터커넥트로 연결되어 있는 초대형 클러스터 시스템이다. 누리온의 계산자원은 PBS 작업스케줄러를 통해 관리되고 있고 병렬 스토리지는 DDN사의 Exascaler Monitoring System(ESMON)을 통해 influxDB에 read/write IO 통계 데이터를 수집하고 있다. 본 논문에서는 PBS의 과금 데이터와 ESMON influxDB의 IO 통계 데이터를 활용하여 사용자의 작업별 IO 통계 정보를 생성하는 방안에 대하여 소개한다.

통계정보 분류의 자동코딩 성능 실험 연구 (An Experimental Study on the Automatic Coding System for Statistical Information Classification in Korea)

  • 남영준;안동언
    • 정보관리학회지
    • /
    • 제17권4호
    • /
    • pp.27-45
    • /
    • 2000
  • 인구센서스와 같은 국가 통계정보는 국가의 미래 투자계획과 정책수립을 위한 중요한 기초데이터이다. 그러나 데이터의 코딩과정이 모두 수작업으로 이루어지기 때문에 결과의 일관성 결여와 시간과 인력이 너무 많이 소요된다는 것 등이 문제점으로 지적되고 있다. 따라서 본 연구에서는 한국 산업표준 분류표에 근거한 자동코딩시스템을 개발하여 코딩과정을 수작업으로 처리할 때 발생하는 문제점을 해결하였다. 시스템의 지식베이스로는 학습이론을 사용하여 저자가 새로이 개발한 복수의 전거어 사전들을 활용하였다. 실험한 결과, 생성률은 99.5%를, 정확률은 83.3%라는 결과를 얻었다. 따라서 이 시스템은 실제 통계데이터의 자동코딩과정에 사용될 수 있으며, 국가 통계정보의 효율적 분석에 매우 유용하게 사용될 수 있을 것이다.

  • PDF

치매 환자를 포함한 한국 노인 음성 데이터 딥러닝 기반 음성인식 (Deep learning-based speech recognition for Korean elderly speech data including dementia patients)

  • 문정현;강준서;김기웅;배종빈;이현준;임창원
    • 응용통계연구
    • /
    • 제36권1호
    • /
    • pp.33-48
    • /
    • 2023
  • 본 연구에서는 발화자가 동물이나 채소와 같은 일련의 단어를 무작위로 일 분 동안 말하는 한국어 음성 데이터에 대한 자동 음성 인식(ASR) 문제를 고려하였다. 발화자의 대부분은 60세 이상의 노인이며 치매 환자를 포함하고 있다. 우리의 목표는 이러한 데이터에 대한 딥러닝 기반 자동 음성 인식 모델을 비교하고 성능이 좋은 모델을 찾는 것이다. 자동 음성 인식은 컴퓨터가 사람이 말하는 말을 자동으로 인식하여 음성을 텍스트로 변환할 수 있는 기술이다. 최근 들어 자동 음성 인식 분야에서 성능이 좋은 딥러닝 모델들이 많이 개발되어 왔다. 이러한 딥러닝 모델을 학습시키기 위한 데이터는 대부분 대화나 문장 형식으로 이루어져 있다. 게다가, 발화자들 대부분은 어휘를 정확하게 발음할 수 있어야 한다. 반면에, 우리 데이터의 발화자 대부분은 60세 이상의 노인으로 발음이 부정확한 경우가 많다. 또한, 우리 데이터는 발화자가 1분 동안 문장이 아닌 일련의 단어를 무작위로 말하는 한국어 음성 데이터이다. 따라서 이러한 일반적인 훈련 데이터를 기반으로 한 사전 훈련 모델은 본 논문에서 고려하는 우리 데이터에 적합하지 않을 수 있으므로, 우리는 우리의 데이터를 사용하여 딥러닝 기반 자동 음성 인식 모델을 처음부터 훈련한다. 또한 데이터 크기가 작기 때문에 일부 데이터 증강 방법도 적용한다.