• 제목/요약/키워드: data pre-processing

검색결과 809건 처리시간 0.033초

머신러닝을 위한 온톨로지 기반의 Raw Data 전처리 기법 (Pre-processing Method of Raw Data Based on Ontology for Machine Learning)

  • 황치곤;윤창표
    • 한국정보통신학회논문지
    • /
    • 제24권5호
    • /
    • pp.600-608
    • /
    • 2020
  • 머신러닝은 학습 데이터로부터 목적함수를 구성하고, 테스트 데이터를 통해 목적함수의 확인함으로써 발생하는 데이터에 대한 예측을 수행한다. 머신러닝에서 입력데이터는 전처리 과정을 통해 정규화 과정을 거친다. 이런 정규화는 입력데이터의 평균과 표준편차를 이용하여 표준화하거나, 수치 데이터가 아닌 nominal value는 one-hot 코드 형태로 변환하는 방식을 이용한다. 그러나 이 전처리 과정만으로 문제를 해결할 수 없다. 이러한 이유로 본 논문에서 입력데이터의 정규화를 위해 온톨로지를 이용하는 방법을 제안한다. 이를 위한 테스트 데이터는 모바일 기기로부터 수집된 와이파이 장치의 RSSI값을 이용하고, 수집된 데이터의 노이즈와 이질적 문제는 온톨로지를 이용하여 정제하는 방법을 제시한다.

WWW에서 대화형 원격 한자학습 시스템 (Interactive chinese Character Distance Learning System on the WWW)

  • 강종규;박상우;김현숙;김계환;진성일
    • 한국정보처리학회논문지
    • /
    • 제4권3호
    • /
    • pp.698-708
    • /
    • 1997
  • WWW 상에서 원격교육 서버를 구축하고 서비스 하기 위해서 기존의 멀티미디어 데 이터의 전송 및 처리가 다운로드 방식이 아닌 실시간 처리 방식이 요구된다. 본 연구 에서는 이러한 요구를 만족하기 위해 원격교육을 위한 동영상(AVI)와 음성(WAV)같은 멀티미디어 데이터를 분산환경에서 실시간으로 처리할 수 있는 실시간처리 모듈을 개발하여 MuX(Mulitimeida I/O Server)에 추가하고 이를WWW와 접목시켜 하이퍼텍스트 및 동영상 데이터를 실시간으로 서비스 할 수 있는 실시간 WWW서버를 개발하였으며, 이에 기반한 실시간 대화형 한자학습을 위한 원격교육 시스템을 연구 개발하였다.

  • PDF

후처리를 이용한 환경음 인식 성능 개선 (Improvement of Environmental Sounds Recognition by Post Processing)

  • 박준규;백성준
    • 한국콘텐츠학회논문지
    • /
    • 제10권7호
    • /
    • pp.31-39
    • /
    • 2010
  • 본 연구에 사용된 환경음은 9 가지 상황으로 구분하였으며 생활 속에서 인간의 이동에 따라 변화하는 실제 환경음과 동일한 테스트 데이터 셋을 이용하였다. 실제 환경에서 녹음된 데이터는 Pre-emphasis, Hamming window를 이용하여 전처리하고 MFCC (Mel-Frequency Cepstral Coefficients) 방식으로 특징을 추출한 후 GMM (Gaussian Mixture Model)을 이용하여 분류 실험을 행했다. 후처리가 없는 GMM은 프레임 별로 판정하므로 분류 결과를 보면 상황이 갑자기 변화하는 이상 결과가 나타난다. 이에 본 연구에서는 인접한 프레임 별 확률 값 혹은 분류 순위를 이용해서 갑작스런 상황 변화가 발생하지 않도록 하는 후처리 방식을 제안하였다. 실험 결과에 따르면 GMM 분류방식에 인접 프레임들의 사후확률 값을 이용하는 후처리방법을 적용한 경우 후처리를 적용하지 않은 경우에 비해 10% 이상 평균 인식률이 개선되는 것을 확인할 수 있었다.

교사교육을 위한 공공 빅데이터 수집 및 스프레드시트 활용 기초 데이터과학 교육 사례 연구 (A Case Study of Basic Data Science Education using Public Big Data Collection and Spreadsheets for Teacher Education)

  • 허경
    • 정보교육학회논문지
    • /
    • 제25권3호
    • /
    • pp.459-469
    • /
    • 2021
  • 본 논문에서는 현장 교사 및 예비교사를 위한 기초 데이터과학 실습 교육 사례를 연구하였다. 본 논문에서는 기초 데이터과학 교육을 위해, 스프레드시트 SW를 데이터 수집 및 분석 도구로 사용하였다. 이후 데이터 가공, 예측 가설 및 예측 모델 검증을 위한 통계학을 교육하였다. 또한, 수천명 단위의 공공 빅데이터를 수집 및 가공하고, 모집단 예측 가설 및 예측 모델을 검증하는 교육 사례를 제안하였다. 이와 같은 데이터과학의 기초 교육내용을 담아, 스프레드시트 도구를 활용한 34시간 17주 교육 과정을 제시하였다. 데이터 수집, 가공 및 분석을 위한 도구로서, 스프레드시트는 파이썬과 달리, 프로그래밍 언어 및 자료구조에 대한 학습 부담이 없고, 질적 데이터와 양적 데이터에 대한 가공 및 분석 이론을 시각적으로 습득할 수 있는 장점이 있다. 본 교육 사례 연구의 결과물로서, 세가지 예측 가설 검증 사례들을 제시하고 분석하였다. 첫 번째로, 양적 공공데이터를 수집하여 모집단의 그룹별 평균값 차이 예측 가설을 검증하였다. 두 번째로, 질적 공공데이터를 수집하여 모집단의 질적 데이터 내 연관성 예측 가설을 검증하였다. 세 번째로, 양적 공공데이터를 수집하여 모집단의 양적 데이터 내 상관성 예측 가설 검증에 따른 회귀 예측 모델을 검증하였다. 그리고 본 연구에서 제안한 교육 사례의 효과성을 검증하기 위해, 예비교사와 현장교사의 만족도분석을 실시하였다.

산악지역 점군자료 분류기법 연구 (Point Cloud Classification Method for Mountainous Area)

  • 최연웅;이근상;조기성
    • 한국측량학회:학술대회논문집
    • /
    • 한국측량학회 2010년 춘계학술발표회 논문집
    • /
    • pp.387-388
    • /
    • 2010
  • There is no generalized and systematic method yet to data pre-processing for point cloud data classification even if there have been lots of previous studies such as local maxima filter, morphology filter, slope based filter and so on. Main focus of this study is to present classification method for bare ground information from LiDAR data for the mountainous area.

  • PDF

고 신뢰도 초고속 공기 유동 데이터 처리 알고리즘 개발 (Development of High Fidelity Supersonic Flow Air Data Processing Algorithm)

  • 최종호;윤현걸
    • 한국추진공학회지
    • /
    • 제14권2호
    • /
    • pp.54-62
    • /
    • 2010
  • 본 논문에서는 고속 비행체의 공기유동 데이터 측정 시스템에 직접 적용이 가능하며 고 신뢰도를 갖는 유동 데이터 처리 알고리즘 개발에 대해 기술하였다. 과거 공기유동 데이터 획득시스템과는 다르게 전산유동해석(CFD)을 통해 미리 획득한 데이터를 적용한 알고리즘으로 전압력 측정이 필요 없이 충분 한 센서 여유(redundancy) 및 오류 검출기능을 지니고 있다. 개발된 알고리즘에 대한 검증은 상용 프로그램인 매트랩 및 시뮬링크를 사용하여 진행하였다.

정지궤도 해색탑재체(GOCI) 데이터의 수신.처리 시스템과 배포 서비스 (Introduction of Acquisition System, Processing System and Distributing Service for Geostationary Ocean Color Imager (GOCI) Data)

  • 양찬수;배상수;한희정;안유환;유주형;한태현;유홍룡
    • 대한원격탐사학회지
    • /
    • 제26권2호
    • /
    • pp.263-275
    • /
    • 2010
  • 정지궤도 해색탑재체(GOCI, Geostationary Ocean Color Imager)의 주관 운영기관인 해양위성센터 (KOSC, Korea Ocean Satellite Center)는 한국해양연구원에 기반시설을 구축하였다. 또한, 해양위성센터는 수신시스템(GDAS), 전처리시스템(IMPS), 처리시스템(GDPS), 배포시스템(GDDS), 자료교환시스템(DMS), 기관간 자료교환시스템(EDES), 통합감시제어시스템(TMC) 등 GOCI 데이터의 서비스를 위한 준비를 완료하였다. 해양위성센 터에서는 매일 8번 관측되는 GOCI 데이터를 수신하고, 처리하여 배포정책에 따라 Level 1B 이후의 데이터를 사용자에게 배포하게 된다. 여기서는 해양위성센터의 시스템과 배포정책에 대한 개요를 설명하고, 사용자가 해양위성센터의 홈페이지에서 GOCI 데이터를 검색 요청하고 다운로드할 수 있는 방법을 소개한다.

Fe-18Mn TWIP강의 Pre-strain에 따른 저주기 및 고주기 피로 수명 예측 모델 (A Prediction Model for Low Cycle and High Cycle Fatigue Lives of Pre-strained Fe-18Mn TWIP Steel)

  • 김용우;이종수
    • 소성∙가공
    • /
    • 제19권1호
    • /
    • pp.11-16
    • /
    • 2010
  • The influence of pre-strain on low cycle fatigue behavior of Fe-18Mn-0.05Al-0.6C TWIP steel was studied by conducting axial strain-controlled tests. As-received plates were deformed by rolling with reduction ratios of 10 and 30%, respectively. A triangular waveform with a constant frequency of 1 Hz was employed for low cycle fatigue test at the total strain amplitudes in the range of ${\pm}0.4\;{\sim}\;{\pm}0.6$ pct. The results showed that low-cycle fatigue life was strongly dependent on the amount of pre-strain as well as the strain amplitude. Increasing the amount of prestrain, the number of reversals to failure was significantly decreased at high strain amplitudes, but the effect was negligible at low strain amplitudes. A new model for predicting fatigue life of pre-strained body has been suggested by adding ${\Delta}E_{pre-strain}$ to the energy-based fatigue damage parameter. Also, high-cycle fatigue lives predicted using the low-cycle fatigue data well agreed with the experimental ones.

경기지역 학교급식소에서 전처리 식재료의 이용에 대한 실태 조사 및 중요도${\cdot}$수행도 평가 (Survey on the use of pre-processed food materials in school foodservices in the Kyunggi area)

  • 이승미;이승주
    • 한국식품조리과학회지
    • /
    • 제22권5호통권95호
    • /
    • pp.553-564
    • /
    • 2006
  • This study was conducted to investigate the use and acceptability of pre-processed food materials in school foodservice. Self-administered questionnaires were collected from 81 schools in the Kyunggi area. Statistical data analysis was completed using the SPSS v. 10.0 program. Eighty-one school dietitians from 31 elementary, 31 middle, 19 high school participated in the survey. Most of the subjects (over 95%) understood that it is necessary to use pre-processed foods, and they considered food hygiene as the most important factor. The percentages of school foodservices that purchased and used pre-processed foods were: 82.7% for cabbage, 86.4% for onion 72.8% for carrot, 97% for garlic, 82.7% for potato, and over 90% for meats and fishes. Dietitians were most satisfied with the performance of ‘trash reduction’, and ‘saving cooking time’ when using pre-processed food materials. ‘Appearance’, ‘freshness’, ‘hygiene’, ‘nutrition’, and ‘specialty of the food-processing company’ were aspects of the most concern when purchasing and using pre-processed food materials.

Imputation of Medical Data Using Subspace Condition Order Degree Polynomials

  • Silachan, Klaokanlaya;Tantatsanawong, Panjai
    • Journal of Information Processing Systems
    • /
    • 제10권3호
    • /
    • pp.395-411
    • /
    • 2014
  • Temporal medical data is often collected during patient treatments that require personal analysis. Each observation recorded in the temporal medical data is associated with measurements and time treatments. A major problem in the analysis of temporal medical data are the missing values that are caused, for example, by patients dropping out of a study before completion. Therefore, the imputation of missing data is an important step during pre-processing and can provide useful information before the data is mined. For each patient and each variable, this imputation replaces the missing data with a value drawn from an estimated distribution of that variable. In this paper, we propose a new method, called Newton's finite divided difference polynomial interpolation with condition order degree, for dealing with missing values in temporal medical data related to obesity. We compared the new imputation method with three existing subspace estimation techniques, including the k-nearest neighbor, local least squares, and natural cubic spline approaches. The performance of each approach was then evaluated by using the normalized root mean square error and the statistically significant test results. The experimental results have demonstrated that the proposed method provides the best fit with the smallest error and is more accurate than the other methods.