• 제목/요약/키워드: Data preprocessing technique

검색결과 170건 처리시간 0.028초

대용량 음악콘텐츠 환경에서의 데이터마이닝 기법을 활용한 추천시스템에 관한 연구 (A Study on Recommendation System Using Data Mining Techniques for Large-sized Music Contents)

  • 김용;문성빈
    • 정보관리학회지
    • /
    • 제24권2호
    • /
    • pp.89-104
    • /
    • 2007
  • 본 연구는 대용량 음악콘텐츠환경에서 개인화 추천 서비스를 위한 기반구조의 제공을 위하여 시도되었다. 추천서비스를 위한 기존의 많은 연구와 상용프로그램에도 불구하고 대규모의 쇼핑몰들은 개인화 추천서비스와 실시간으로 대용량의 데이터를 처리할 수 있는 추천시스템을 필요로 하고 있다. 이를 위하여 본 연구에서는 데이터마이닝 기술과 새로운 패턴매칭 알고리즘을 제안하고 있다. 콘텐츠 주제분야에 대한 이용자의 선호도를 이용한 이용자 분할을 위하여 군집화 기법이 사용되었다. 다음으로는 군집화를 통하여 생성된 분할된 이용자 그룹에서 개별 이용자의 콘텐츠에 대한 접근 패턴의 추출을 위하여 순차패턴 마이닝기법을 적용하였다. 최종적으로 각각의 이용자 군집의 콘텐츠 접근 패턴과 콘텐츠 선호도에 기반한 제안된 추천 알고리즘에 의해 추천이 이루어진다. 이러한 추천을 위하여 기반 구조와 함께, 전처리과정과 원본 데이터의 형식변환이 데이터베이스에서 수행되어진다. 본 연구에서 제안하고 있는 기반구조의 적절성을 보여주기 위하여 제안된 시스템을 구현하였다. 실제 이용자에 의해 이용된 데이터를 실험에 적용하였으며, 해당 실험에서 추천은 실시간으로 이루어졌으며 추천결과에 있어서는 적절한 정확성을 보여주고 있다.

SAR 영상을 이용한 템플릿 매칭 기반 자동식별 알고리즘 구현 및 성능시험 (Template Matching-Based Target Recognition Algorithm Development and Verification using SAR Images)

  • 임호;채대영;유지희;권경일
    • 한국군사과학기술학회지
    • /
    • 제17권3호
    • /
    • pp.364-377
    • /
    • 2014
  • In this paper, we have developed a target recognition algorithm based on a template matching technique using Synthetic Aperture Radar (SAR) images. For efficient computations, Radon transform-based azimuth estimation algorithm was used with the template matching. MSTAR data set was divided into two groups according to the depression angles, which were a train set and a test set. Template data were generated by rotating and cropping chips which were from MSTAR train set using the azimuth estimation algorithm. Then the template matching process between test data and template data was performed under various conditions. Performance variation according to contrast enhancement preprocessing which is scarce in open literature was also presented. The analysis results show that the target recognition algorithm could be useful for the automatic target recognition using SAR images.

Time Series Classification of Cryptocurrency Price Trend Based on a Recurrent LSTM Neural Network

  • Kwon, Do-Hyung;Kim, Ju-Bong;Heo, Ju-Sung;Kim, Chan-Myung;Han, Youn-Hee
    • Journal of Information Processing Systems
    • /
    • 제15권3호
    • /
    • pp.694-706
    • /
    • 2019
  • In this study, we applied the long short-term memory (LSTM) model to classify the cryptocurrency price time series. We collected historic cryptocurrency price time series data and preprocessed them in order to make them clean for use as train and target data. After such preprocessing, the price time series data were systematically encoded into the three-dimensional price tensor representing the past price changes of cryptocurrencies. We also presented our LSTM model structure as well as how to use such price tensor as input data of the LSTM model. In particular, a grid search-based k-fold cross-validation technique was applied to find the most suitable LSTM model parameters. Lastly, through the comparison of the f1-score values, our study showed that the LSTM model outperforms the gradient boosting model, a general machine learning model known to have relatively good prediction performance, for the time series classification of the cryptocurrency price trend. With the LSTM model, we got a performance improvement of about 7% compared to using the GB model.

AMR 데이터에서의 전력 부하 패턴 분류 (Power Load Pattern Classification from AMR Data)

  • ;박진형;이헌규;신진호;류근호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.231-234
    • /
    • 2008
  • Currently an automated methodology based on data mining techniques is presented for the prediction of customer load patterns in load demand data. The main aim of our work is to forecast customers' contract information from capacity of daily power consumption patterns. According to the result, we try to evaluate the contract information's suitability. The proposed our approach consists of three stages: (i) data preprocessing: noise or outlier is detected and removed (ii) cluster analysis: SOMs clustering is used to create load patterns and the representative load profiles and (iii) classification: we applied the K-NNs classifier in order to predict the customers' contract information base on power consumption patterns. According to the our proposed methodology, power load measured from AMR(automatic meter reading) system, as well as customer indexes, were used as inputs. The output was the classification of representative load profiles (or classes). Lastly, in order to evaluate KNN classification technique, the proposed methodology was applied on a set of high voltage customers of the Korea power system and the results of our experiments was presented.

퍼지 클러스터 분석 기반 특징 선택 방법 (A Feature Selection Method Based on Fuzzy Cluster Analysis)

  • 이현숙
    • 정보처리학회논문지B
    • /
    • 제14B권2호
    • /
    • pp.135-140
    • /
    • 2007
  • 특징선택은 문제 영역에서 관찰된 다차원데이터로부터 데이터가 묘사하는 구조를 잘 반영하는 속성을 선택하여 효과적인 실험 데이터를 구성하는 데이터 준비과정이다. 이 과정은 문서분류, 영상인식, 유전자 선택 분야에서의 같은 분류시스템의 성능향상에 중요한 구성요소로서 상관관계 기법, 차원축소 및 상호 정보 처리 등의 통계학이나 정보이론의 접근방법을 중심으로 연구되어왔다. 이와 같은 선택 분야의 연구는 다루는 데이터의 양이 방대해지고 복잡해지면서 더욱 중요시 되고 있다. 본 논문에서는 데이터가 가지는 특성을 반영하면서 새로운 데이터에 대하여 일반화 할 수 있는 특징선택 방법을 제안하고자 한다. 준비된 데이터의 각 속성 데이터에 대하여 퍼지 클러스터 분석에 의하여 최적의 클러스터 정보를 얻고 이를 바탕으로 근접성과 분리성의 경로를 측정하여 그 값에 따라 특징을 선택하는 매카니즘을 제공한다. 제안된 방법을 실세계의 컴퓨터 바이러스 분류에 적용하여 기존의 대비에 의한 휴리스틱 방법에 의해 선택된 데이터를 가지고 분류한 것과 비교하고자 한다. 이를 통하여 주어진 특징에 시연을 부여할 수 있고 효과적으로 특징을 선택하여 시스템의 성능을 향상 시킬 수 있음을 확인한다.

역방향 인덱스 기반의 저장소를 이용한 이상 탐지 분석 (Anomaly Detection Analysis using Repository based on Inverted Index)

  • 박주미;조위덕;김강석
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.294-302
    • /
    • 2018
  • 정보통신 기술의 발전에 따른 새로운 서비스 산업의 출현으로 개인 정보 침해, 산업 기밀 유출 등 사이버 공간의 위험이 다양화 되어, 그에 따른 보안 문제가 중요한 이슈로 떠오르게 되었다. 본 연구에서는 기업 내 개인 정보 오남용 및 내부 정보 유출에 따른, 대용량 사용자 로그 데이터를 기반으로 기존의 시그니처(Signature) 보안 대응 방식에 비해, 실시간 및 대용량 데이터 분석기술에 적합한 행위 기반 이상 탐지방식을 제안하였다. 행위 기반 이상 탐지방식이 대용량 데이터를 처리하는 기술을 필요로 함에 따라, 역방향 인덱스(Inverted Index) 기반의 실시간 검색 엔진인 엘라스틱서치(Elasticsearch)를 사용하였다. 또한 데이터 분석을 위해 통계 기반의 빈도 분석과 전 처리 과정을 수행하였으며, 밀도 기반의 군집화 방법인 DBSCAN 알고리즘을 적용하여 이상 데이터를 분류하는 방법과 시각화를 통해 분석을 간편하게 하기위한 한 사례를 보였다. 이는 기존의 이상 탐지 시스템과 달리 임계값을 별도로 설정하지 않고 이상 탐지 분석을 시도하였다는 것과 통계적인 측면에서 이상 탐지 방식을 제안하였다는 것에 의의가 있다.

보행에서 동작변화 탐지 (Detection of Motion Change in Walking)

  • 이상용;김영백
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2007년도 춘계학술대회 학술발표 논문집 제17권 제1호
    • /
    • pp.315-319
    • /
    • 2007
  • This paper presents a algorithm, what is able to recognize 4 different continuous human motion using a single stationary camera as input. For the first step, we acquire images from a camera. To enhance the image, we perform preprocessing which deals with removing noise using median filter, thresholding. And then morphological operations are performed to remove which small blobs and eliminates small holes. At the forth step, blobs are analysed to extracts for foreground region. Then, motions are predicted from these images by using optical flow technique, and the predicted motion data are refined by comparing our cardboard models so as to judge behavior pattern.

  • PDF

컴퓨터 모니터용 유리 패널의 문자 마크 인식 (Recognition of Patterns and Marks on the Glass Panel of Computer Monitor)

  • 안인모;이기상
    • 전기학회논문지P
    • /
    • 제52권1호
    • /
    • pp.35-41
    • /
    • 2003
  • In this paper, a machine vision system for recognizing and classifying the patterns and marks engraved by die molding or laser marking on the glass panels of computer monitors is suggested and evaluated experimentally. The vision system is equipped with a neural network and an NGC pattern classifier including searching process based on normalized grayscale correlation and adaptive binarization. This system is found to be applicable even to the cases in which the segmentation of the pattern area from the background using ordinary blob coloring technique is quite difficult. The inspection process is accomplished by the use of the NGC hypothesis and ANN verification. The proposed pattern recognition system is composed of three parts: NGC matching process and the preprocessing unit for acquiring the best quality of binary image data, a neural network-based recognition algorithm, and the learning algorithm for the neural network. Another contribution of this paper is the method of generating the training patterns from only a few typical product samples in place of real images of all types of good products.

정맥패턴 융합을 위한 Boundary Stitching Algorithm (Boundary Stitching Algorithm for Fusion of Vein Pattern)

  • 임영규;장경식
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.521-524
    • /
    • 2005
  • This paper proposes a fusion algorithm which merges multiple vein pattern images into a single image, larger than those images. As a preprocessing step of template matching, during the verification of biometric data such as fingerprint image, vein pattern image of hand, etc., the fusion technique is used to make reference image larger than the candidate images in order to enhance the matching performance. In this paper, a new algorithm, called BSA (Boundary Stitching Algorithm) is proposed, in which the boundary rectilinear parts extracted from the candidate images are stitched to the reference image in order to enlarge its matching space. By applying BSA to practical vein pattern verification system, its verification rate was increased by about 10%.

  • PDF

B-spline volume 변형체의 실시간 시뮬레이션 I (Real time simulation on B-spline deformable volume-part I)

  • 김현기;조맹효
    • 한국전산구조공학회:학술대회논문집
    • /
    • 한국전산구조공학회 2002년도 가을 학술발표회 논문집
    • /
    • pp.62-69
    • /
    • 2002
  • With the development of CUP speed and graphic technology, real-time simulation of deformable object is embossed as an essential issue in engineering field. Recently, it has been applied to the surgical training and game animation with haptic force feedback. But real time simulation of deformable objects is not easy because of the conflicting demands of speed and low latency and physical accuracy. In this study, we present the implementation of boundary element method(BEM) which is combined with the nonuniform B-spline surface. It is working together with the real-time simulation technique and the geometry data is altered by handling control points without preprocessing routine.

  • PDF