• 제목/요약/키워드: Large Data Set

검색결과 1,063건 처리시간 0.028초

대용량 자료에 대한 서포트 벡터 회귀에서 모수조절 (Parameter Tuning in Support Vector Regression for Large Scale Problems)

  • 류지열;곽민정;윤민
    • 한국지능시스템학회논문지
    • /
    • 제25권1호
    • /
    • pp.15-21
    • /
    • 2015
  • 커널에 대한 모수의 조절은 서포트 벡터 기계의 일반화 능력에 영향을 준다. 이와 같이 모수들의 적절한 값을 결정하는 것은 종종 어려운 작업이 된다. 서포트 벡터 회귀에서 이와 같은 모수들의 값을 결정하기 위한 부담은 앙상블 학습을 사용함으로써 감소시킬 수 있다. 그러나 대용량의 자료에 대한 문제에 직접적으로 적용하기에는 일반적으로 시간 소모적인 방법이다. 본 논문에서 서포트 벡터 회귀의 모수 조절에 대한 부담을 감소하기 위하여 원래 자료집합을 유한개의 부분집합으로 분해하는 방법을 제안하였다. 제안하는 방법은 대용량의 자료들인 경우와 특히 불균등 자료 집합에서 효율적임을 보일 것이다.

대용량 자료에서 핵심적인 소수의 변수들의 선별과 로지스틱 회귀 모형의 전개 (Screening Vital Few Variables and Development of Logistic Regression Model on a Large Data Set)

  • 임용빈;조재연;엄경아;이선아
    • 품질경영학회지
    • /
    • 제34권2호
    • /
    • pp.129-135
    • /
    • 2006
  • In the advance of computer technology, it is possible to keep all the related informations for monitoring equipments in control and huge amount of real time manufacturing data in a data base. Thus, the statistical analysis of large data sets with hundreds of thousands observations and hundred of independent variables whose some of values are missing at many observations is needed even though it is a formidable computational task. A tree structured approach to classification is capable of screening important independent variables and their interactions. In a Six Sigma project handling large amount of manufacturing data, one of the goals is to screen vital few variables among trivial many variables. In this paper we have reviewed and summarized CART, C4.5 and CHAID algorithms and proposed a simple method of screening vital few variables by selecting common variables screened by all the three algorithms. Also how to develop a logistics regression model on a large data set is discussed and illustrated through a large finance data set collected by a credit bureau for th purpose of predicting the bankruptcy of the company.

애완동물 분류를 위한 딥러닝 (Deep Learning for Pet Image Classification)

  • 신광성;신성윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.151-152
    • /
    • 2019
  • 본 논문에서는 동물 이미지 분류를위한 작은 데이터 세트를 기반으로 개선 된 심층 학습 방법을 제안한다. 첫째, CNN은 소규모 데이터 세트에 대한 교육 모델을 작성하고 데이터 세트를 사용하여 교육 세트의 데이터 세트를 확장하는 데 사용된다. 둘째, VGG16과 같은 대규모 데이터 세트에 사전 훈련 된 네트워크를 사용하여 작은 데이터 세트의 병목을 추출하여 새로운 교육 데이터 세트 및 테스트 데이터 세트로 두 개의 NumPy 파일에 저장하고, 마지막으로 완전히 연결된 네트워크를 새로운 데이터 세트로 학습한다.

  • PDF

Knowledge Discovery in Nursing Minimum Data Set Using Data Mining

  • Park Myong-Hwa;Park Jeong-Sook;Kim Chong-Nam;Park Kyung-Min;Kwon Young-Sook
    • 대한간호학회지
    • /
    • 제36권4호
    • /
    • pp.652-661
    • /
    • 2006
  • Purpose. The purposes of this study were to apply data mining tool to nursing specific knowledge discovery process and to identify the utilization of data mining skill for clinical decision making. Methods. Data mining based on rough set model was conducted on a large clinical data set containing NMDS elements. Randomized 1000 patient data were selected from year 1998 database which had at least one of the five most frequently used nursing diagnoses. Patient characteristics and care service characteristics including nursing diagnoses, interventions and outcomes were analyzed to derive the meaningful decision rules. Results. Number of comorbidity, marital status, nursing diagnosis related to risk for infection and nursing intervention related to infection protection, and discharge status were the predictors that could determine the length of stay. Four variables (age, impaired skin integrity, pain, and discharge status) were identified as valuable predictors for nursing outcome, relived pain. Five variables (age, pain, potential for infection, marital status, and primary disease) were identified as important predictors for mortality. Conclusions. This study demonstrated the utilization of data mining method through a large data set with stan dardized language format to identify the contribution of nursing care to patient's health.

지식 누적을 이용한 실시간 주식시장 예측 (A Real-Time Stock Market Prediction Using Knowledge Accumulation)

  • 김진화;홍광헌;민진영
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.109-130
    • /
    • 2011
  • 연속발생 데이터는 데이터의 원천으로부터 데이터 저장소로 연속적으로 축적이 되는 데이터를 말한다. 이렇게 축적된 데이터의 크기는 시간이 지남에 따라 점점 커진다. 또한 이러한 대용량 데이터에서 정보를 추출하기 위해서는 저장공간, 시간, 그리고 많은 자원이 필요하다. 이러한 연속발생 데이터의 특성은 시간이 지남에 따라 축적된 대용량 데이터의 이용을 어렵고 고비용이 되게 한다. 만약 정보나 패턴을 추출할 때 누적된 전체 발생 데이터 중에서 최근의 일부만 사용 한다면 적은 일부 표본의 사용의 문제로 인하여 전체 데이터 사용에서 발견될 수 있는 유용한 정보의 유실이 있을 수 있다. 이러한 문제점을 해결하기 위해서 본 연구는 연속발생 데이터를 발생 시점에서 계속 모으기 보다 이러한 발생되는 데이터에서 규칙을 추출하여 효율적으로 지식을 관리하고자 한다. 이 방법은 기존의 방법에 비하여 적은 양의 데이터 저장공간을 필요로 한다. 또한 이렇게 축적된 규칙집합은 미래에 예측을 위해서 언제든 실시간 예측을 할 수 있게 준비가 된다. 여러 예측 모델을 결합시키는 방법인 앙상블 이론에 의하면 본 연구가 제시하는 데로 체계적으로 규칙집합을 시간에 따라 융합시킬 경우 더 나은 예측 성과가 가능하다. 본 연구는 주식시장의 변동성을 예측하기 위하여 주식시장 데이터를 사용하였다. 본 연구는 이 데이터를 이용해 본 연구가 제시하는 방법과 기존의 방법의 예측 정확도를 비교 하였다.

연속발생 데이터를 위한 실시간 데이터 마이닝 기법 (A Real-Time Data Mining for Stream Data Sets)

  • 김진화;민진영
    • 한국경영과학회지
    • /
    • 제29권4호
    • /
    • pp.41-60
    • /
    • 2004
  • A stream data is a data set that is accumulated to the data storage from a data source over time continuously. The size of this data set, in many cases. becomes increasingly large over time. To mine information from this massive data. it takes much resource such as storage, memory and time. These unique characteristics of the stream data make it difficult and expensive to use this large size data accumulated over time. Otherwise. if we use only recent or part of a whole data to mine information or pattern. there can be loss of information. which may be useful. To avoid this problem. we suggest a method that efficiently accumulates information. in the form of rule sets. over time. It takes much smaller storage compared to traditional mining methods. These accumulated rule sets are used as prediction models in the future. Based on theories of ensemble approaches. combination of many prediction models. in the form of systematically merged rule sets in this study. is better than one prediction model in performance. This study uses a customer data set that predicts buying power of customers based on their information. This study tests the performance of the suggested method with the data set alone with general prediction methods and compares performances of them.

Sensor placement selection of SHM using tolerance domain and second order eigenvalue sensitivity

  • He, L.;Zhang, C.W.;Ou, J.P.
    • Smart Structures and Systems
    • /
    • 제2권2호
    • /
    • pp.189-208
    • /
    • 2006
  • Monitoring large-scale civil engineering structures such as offshore platforms and high-large buildings requires a large number of sensors of different types. Innovative sensor data information technologies are very extremely important for data transmission, storage and retrieval of large volume sensor data generated from large sensor networks. How to obtain the optimal sensor set and placement is more and more concerned by researchers in vibration-based SHM. In this paper, a method of determining the sensor location which aims to extract the dynamic parameter effectively is presented. The method selects the number and place of sensor being installed on or in structure by through the tolerance domain statistical inference algorithm combined with second order sensitivity technology. The method proposal first finds and determines the sub-set sensors from the theoretic measure point derived from analytical model by the statistical tolerance domain procedure under the principle of modal effective independence. The second step is to judge whether the sorted out measured point set has sensitive to the dynamic change of structure by utilizing second order characteristic value sensitivity analysis. A 76-high-building benchmark mode and an offshore platform structure sensor optimal selection are demonstrated and result shows that the method is available and feasible.

효율적인 MMORPG 데이터 관리를 위한 스프레드시트 기반 툴 모델 (The Spreadsheet-Based Tool Model for Efficient MMORPG Data Management)

  • 강신진;김창헌
    • 한국멀티미디어학회논문지
    • /
    • 제12권10호
    • /
    • pp.1457-1465
    • /
    • 2009
  • Massively Multiplayer Online Role-Playing Game (MMORPG) 제작에서 최종 데이터 입력 수단으로 쓰이는 스프레드시트 기반 개발 환경은 대용량의 데이터의 수식 처리, 분석에 있어 장점이 있으나 데이터 삽입 삭제, 검색, 연계성 관리에 어려움이 있다. 본 논문에서 대용량 데이터 관리를 위한 스프레드시트 환경 기반 툴 모델을 제안함으로써 실무에서 발생할 수 있는 다양한 데이터 관리 문제들을 입력 단계에서 해결하고자 한다. 본 논문에서 제안된 툴 모델은 MMORPG 데이터 입력을 위해 다수의 데이터 입력자들이 있는 환경에서 데이터 관리 위험을 최소화시키며 동시에 데이터 입력과 관리 작업 효율을 높이는데 효용성을 가지고 있다.

  • PDF

Training Data Sets Construction from Large Data Set for PCB Character Recognition

  • NDAYISHIMIYE, Fabrice;Gang, Sumyung;Lee, Joon Jae
    • Journal of Multimedia Information System
    • /
    • 제6권4호
    • /
    • pp.225-234
    • /
    • 2019
  • Deep learning has become increasingly popular in both academic and industrial areas nowadays. Various domains including pattern recognition, Computer vision have witnessed the great power of deep neural networks. However, current studies on deep learning mainly focus on quality data sets with balanced class labels, while training on bad and imbalanced data set have been providing great challenges for classification tasks. We propose in this paper a method of data analysis-based data reduction techniques for selecting good and diversity data samples from a large dataset for a deep learning model. Furthermore, data sampling techniques could be applied to decrease the large size of raw data by retrieving its useful knowledge as representatives. Therefore, instead of dealing with large size of raw data, we can use some data reduction techniques to sample data without losing important information. We group PCB characters in classes and train deep learning on the ResNet56 v2 and SENet model in order to improve the classification performance of optical character recognition (OCR) character classifier.

기계학습 활용을 위한 학습 데이터세트 구축 표준화 방안에 관한 연구 (A study on the standardization strategy for building of learning data set for machine learning applications)

  • 최정열
    • 디지털융복합연구
    • /
    • 제16권10호
    • /
    • pp.205-212
    • /
    • 2018
  • 고성능 CPU/GPU의 개발과 심층신경망 등의 인공지능 알고리즘, 그리고 다량의 데이터 확보를 통해 기계학습이 다양한 응용 분야로 확대 적용되고 있다. 특히, 사물인터넷, 사회관계망서비스, 웹페이지, 공공데이터로부터 수집된 다량의 데이터들이 기계학습의 활용에 가속화를 가하고 있다. 기계학습을 위한 학습 데이터세트는 응용 분야와 데이터 종류에 따라 다양한 형식으로 존재하고 있어 효과적으로 데이터를 처리하고 기계학습에 적용하기에 어려움이 따른다. 이에 본 논문은 표준화된 절차에 따라 기계학습을 위한 학습 데이터세트를 구축하기 위한 방안을 연구하였다. 먼저 학습 데이터세트가 갖추어야할 요구사항을 문제 유형과 데이터 유형별로 분석하였다. 이를 토대로 기계학습 활용을 위한 학습 데이터세트 구축에 관한 참조모델을 제안하였다. 또한 학습 데이터세트 구축 참조모델을 국제 표준으로 개발하기 위해 대상 표준화 기구의 선정 및 표준화 전략을 제시하였다.