• 제목/요약/키워드: 데이터 전처리

검색결과 1,170건 처리시간 0.034초

영화 흥행 실적 예측을 위한 빅데이터 전처리 (Big Data Preprocessing for Predicting Box Office Success)

  • 전희국;현근수;임경빈;이우현;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.615-622
    • /
    • 2014
  • 국제적 수준으로 성장한 한국의 영화 시장 환경은 더욱 타당한 자료 분석에 근거한 의사 결정 수단을 필요로 하게 되었다. 또한 발전된 정보 환경으로 인해 실시간으로 생성되는 대규모 데이터를 신속히 처리하고 분석하여 보다 정밀한 결과를 예측할 수 있어야 한다. 특히 전처리 작업은 정보 분석 과정 중 가장 많은 시간이 소요 되므로 대규모 데이터 기반 분석 환경에서도 합리적인 시간 내에 처리할 수 있어야 한다. 본 논문에서는 영화 흥행 예측을 위한 대용량 데이터 전처리 방법을 연구하였다. 영화 흥행 데이터의 특성을 분석해 전처리의 각 유형별 처리 방법을 설정했으며 하둡 기반 맵리듀스 프레임워크를 사용하는 방법을 사용하였다. 실험 결과 빅데이터 기법을 사용한 전처리가 기존의 방법보다 더 좋은 수행 결과를 보이는 것을 확인하였다.

메타휴리스틱 최적화 알고리즘-딥러닝 결합모형의 성능 개량을 위한 데이터 전처리의 적용 (Application of data preprocessing to improve the performance of the metaheuristic optimization algorithm-deep learning combination model)

  • 류용민;이의훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.114-114
    • /
    • 2022
  • 딥러닝의 학습 및 예측성능을 개선하기 위해서는 딥러닝 기법 내 연산과정의 개선과 함께 학습 및 예측에 사용되는 데이터의 전처리 과정이 중요하다. 본 연구에서는 딥러닝의 성능을 개량하기 위해 제안된 메타휴리스틱 최적화 알고리즘-딥러닝 결합모형과 데이터 전처리 기법을 통해 댐의 수위를 예측하였다. 수위예측을 위해 Multi-Layer Perceptron(MLP), 메타휴리스틱 최적화 알고리즘인 Harmony Search(HS)와 딥러닝을 결합한 MLP using a HS(MLPHS) 및 Exponential Bandwidth Harmony Search with Centralized Global Search(EBHS-CGS)와 딥러닝을 결합한MLP using a EBHS-CGS(MLPEBHS)를 통해 댐의 수위를 예측하였다. 메타휴리스틱 최적화 알고리즘-딥러닝 결합모형의 학습 및 예측성능을 개선하기 위해 학습 및 예측을 위한 자료를 기반으로 데이터 전처리기법을 적용하였다. 적용된 데이터 전처리 기법은 정규화, 수위구간별 사상(Event)분리 및 수위 변동에 대한 자료의 구분이다. 수위예측을 위한 대상유역은 금강유역에 위치한 대청댐으로 선정하였다. 대청댐의 수위예측을 위해 대청댐 상류에 위치하는 수위관측소 3개소를 선정하여 수위자료를 취득하였다. 각 수위관측소에서 취득한 수위자료를 입력자료로 설정하였으며, 대청댐의 수위자료를 출력자료로 설정하여 메타휴리스틱 최적화 알고리즘-딥러닝 모형의 학습을 진행하였다. 각 수위관측소 및 대청댐에서 취득한 수위자료는 2010년부터 2020년까지 총 11년의 일 단위 수위자료이며, 2010년부터 2019년까지의 자료를 학습자료로 사용하였으며, 2020년의 자료를 예측 및 검증자료로 사용하였다.

  • PDF

비침습적 센서 시스템에서 전처리 연산 (Preprocessing in a Noninvasive Sensor System)

  • 오현교;금효섭;조승호;김형태;문봉희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.83-85
    • /
    • 2013
  • 본 연구는 사용자가 센서를 의식하지 않고 편안하게 일상생활을 영위할 수 있는 비침습적 방식의 센서를 활용하여 향후 침대 위에 있는 사람의 움직임을 정량적으로 측정하고자 한다. 이러한 목적으로 필름 형태의 압전센서를 사용하는 센서 시스템을 구축하였으며, 본 논문에서는 구축된 시스템에서 필요한 전처리 과정을 제시한다. 본 연구에서 사용된 압전센서는 침대 매트리스 아래에 설치하였다. 사람의 움직임에 의한 압전센서의 출력 신호를 증폭하고 샘플링하여 PC로 전송하는 컨트롤러, 컨트롤러로부터 센서 데이터를 수신하고, 사용자에게 센서 데이터를 시각적으로 제시하는 모니터링 프로그램을 개발하였다. 본 연구에서는 컨트롤러에서의 노이즈 제거, 증폭, 샘플링 등의 전처리, 모니터링 프로그램에 의해 수집된 센서 데이터에 대한 이동 평균 필터, 불필요한 움직임이 없는 구간을 제거 후 움직임이 있는 구간 추출 등의 전처리 과정을 제시한다. 이러한 전처리 연산은 향후 침대 위 인체의 움직임을 정량적으로 측정하고, 행동유형을 식별하는데 기여하게 될 것이다.

정렬 알고리즘의 성능향상을 위한 정보블록 전처리 알고리즘 (Information Block Preprocessing Algorithm(IBPA) for Improving Performances of Sorting Algorithms)

  • 송태옥;송기상
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.557-559
    • /
    • 2000
  • 본 논문에서는 기존의 정렬 알고리즘의 성능을 향상시키기 위하여 정보블록 전처리알고리즘(IBPA)이라는 전처리 알고리즘을 제안한다. IBPA는 정렬된 리스트(list)에 있는 데이터에 관한 정보를 생성하고, 생성된 정보를 이용하여 각 데이터를 재배치하며, 실제적인 정렬은 기존의 정렬 알고리즘을 그대로 이용하여 이루어진다. IBPA의 성능을 측정해본 결과, 2백만개의 랜덤데이터를 정렬한 경우, O(N2)의 평균시간복잡도를 갖는 정렬알고리즘의 0.003%, O(NlogN)의 평균시간복잡도를 갖는 정렬알고리즘의 52%, 그리고 O(N)의 평균시간복잡도를 갖는 정렬알고리즘의 89%정도의 비교회수만으로도 정렬할 수 있음을 보여주었다.

  • PDF

데이터 마이닝을 위한 신경망 이용 결측 값 처리 방법 (A Method Processing Missing Values for Data Mining based on Artificial Neural Network)

  • 성지애;류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.446-448
    • /
    • 2003
  • 실세계의 많은 데이터는 결측 값들을 포항하고 있기 때문에 데이터 마이닝 시스템에 완벽한 데이터를 제공하기는 불가능하다. 또한 결측 값이 존재하는 대용량의 데이터를 추천시스템에 적용하여 분석하고자 할 경우, 정확성이 떨어지는 결과를 초래할 수 있다. 따라서 데이터에 결측 값이 존재할 경우 입력 데이터를 사전에 보간하는 전처리 방법이 필요하다. 이러한 기존의 보간 전처리 방법에는 결측 값 속성을 삭제하거나 대치하는 방범이 대표적이나. 삭제 방법은 결측 값이 존재하는 데이터를 제거하는 방법으로 중요속성 삭제 및 데이터 손실을 유발하는 단점이 있어 일반적으로 결측 값을 다른 값으로 처리하는 대치 방범이 널리 사용된다. 본 논문에서는 전처리 방법 중 결측 값을 처리하는 가장 일반적인 대치 방법과 신경망을 이용한 평가 예측 처리 방법을 소개한다. 또한 신경망을 이용 결측 값을 대치하는 새로운 모델을 제안하고, 각각의 결측 값 처리방법을 비교 분석한다.

  • PDF

시뮬레이션 데이터의 다양성을 고려한 데이터 전처리 프레임워크 설계 (Exploiting Data Diversity in a Simulation data Curation)

  • 안선일;안부영;장지훈;이식;조금원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.81-82
    • /
    • 2017
  • 계산과학 데이터를 공유하는 목적은 데이터의 분석을 통해 의미 있는 정보를 추출하기 위해서이다. 이를 위해서는 계산과학 데이터의 전처리 과정이 요구되며, 핵심 이슈는 계산과학 데이터의 다양성과 복잡성의 해결이다. 본 논문은 계산과학 데이터 저장소의 구축 과정에서 고려하였던 계산과학 데이터의 전처리에 대한 설계 이슈들과 해결 방안들에 대해 설명한다.

결정계수 기반의 데이터 마이닝을 이용한 특수일 최대 전력 수요 예측 (Load Forecasting for the Holidays Using a Data mining with the Coefficient of Determination)

  • 위영민;송경빈;주성관
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2008년도 제39회 하계학술대회
    • /
    • pp.552-553
    • /
    • 2008
  • 본 논문에서는 특수일 전력 수요 예측을 위한 알고리즘을 제시하였다. 논문에서 제안하는 전력 수요 예측 알고리즘은 데이터 마이닝을 이용한 데이터 전처리 부분과 전처리된 데이터를 사용하여 특수일 수요를 예측하는 다항 회귀분석 부분으로 나누어진다. 데이터 전처리에서는 전력 수요 예측을 위한 과거 데이터 중에 과거 특수일 수요의 패턴을 잘 보여주는 데이터를 찾기 위해 온도와 수요의 관계를 이용한다. 데이터 마이닝의 기준으로 결정계수를 사용하였으며, 알고리즘은 k-nearest neighbor 절차를 사용하였다. 또한 제안된 기법은 2006년 특수일 전력 수요 예측을 통하여 기존 논문의 결과와 비교 분석하여 기존 방식 대비 특수일 전력 수요예측 관련 우수성을 검증하였다.

  • PDF

가스 센서 데이터셋 시각화를 위한 데이터 전처리 기법 (Data Preprocessing Techniques for Visualizing Gas Sensor Datasets)

  • 김준수;박경원;임태범;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.21-22
    • /
    • 2021
  • 최근 AI(Artificial Intelligence)를 기반으로 정밀한 가스 성분 감지를 위한 후각지능(Olfactory intelligence) 기술에 연구가 활발히 진행 중이다. 후각지능 학습데이터는 다른 감지 방식의 가스 센서들이 동시에 적용되는 멀티모달리티의 특성을 지니며 또한, 공간상에 분포된 센서 배열을 통해 획득된 다차원의 시계열 특성을 지닌다. 따라서 대량의 다차원 데이터에 대한 정확한 이해와 분석을 위해서는 데이터를 전처리하고 시각화할 수 있는 기술이 필요하다. 본 논문에서는 후각지능 학습을 위한 다차원의 복잡한 가스 데이터의 시각화를 위해 잡음 등의 불필요한 값을 제거하고, 데이터가 일관성을 가지도록 하며, 데이터의 차원을 시각화 가능하도록 축소하기 위한 전처리 방법을 제시한다.

  • PDF

딥러닝 모델에서 포트홀 데이터셋의 성능 향상을 위한 전처리 방법 제안과 YOLO 모델을 통한 검증 (Proposed Pre-Processing Method for Improving Pothole Dataset Performance in Deep Learning Model and Verification by YOLO Model)

  • 이한진;양지웅;홍정희
    • 융합신호처리학회논문지
    • /
    • 제23권4호
    • /
    • pp.249-255
    • /
    • 2022
  • 포트홀은 아스팔트 포장도로의 구조적 결함을 나타내는 중요한 단서임과 동시에 많은 인명 피해와 재산 피해를 일으킨다. 따라서 정확한 포트홀 탐지는 도로 표면의 유지보수에 있어서 중요한 과제이다. 포트홀 탐지를 위해 많은 머신러닝 기술이 도입되고 있으며 딥러닝 모델의 효율성을 높이기 위해 데이터 전처리가 필요하다. 본 논문에서는 포트홀 데이터셋에서 중요한 질감과 형태를 강조하는 전처리 방법을 제안한다. 제안된 전처리 방법은 Intensity transformation을 사용해 도로의 불필요한 요소를 줄이고 포트홀의 질감과 형태를 부각한다. 또한 Superpixel, Sobel edge detection을 사용해 포트홀의 특징을 검출한다. 제안된 전처리 방법과 기존의 전처리 방법의 성능 비교를 통해 포트홀 검출에서 제안된 전처리 방법이 기존 방법보다 더 효과적인 방법이라는 것을 보여준다.

초음파 데이터에서 실시간 잡음 감쇄를 이용한 광선 투사법 (Volume Ray Casting for Ultrasound Data Using Real-Time Noise Reduction)

  • 서강희;권구주;신병석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.1623-1626
    • /
    • 2005
  • 초음파 영상 기법은 장기, 연조직, 혈류를 검사하는데 쓰이는 영상 진단법이다. 초음파 장비를 통해 얻어진 초음파 볼륨 데이터는 장비 특성상 많은 잡음(speckle noise)을 포함하기 때문에, 깨끗한 영상을 얻기 위해서는 잡음 필터링(noise filtering)이 필요하다. 그런데, 볼륨 데이터 모든 영역에 대해 잡음 필터링을 적용할 경우 전처리 시간이 길어져 실시간으로 초음파 볼륨 데이터를 렌더링하기 어렵다. 본 논문에서는 실시간으로 입력되는 초음파 볼륨 데이터를 가시화 하기위하여 전처리 시간 없이 잡음을 제거하는 방법을 제안한다. 전처리 시간에 전체 볼륨 데이터에 대해 잡음 필터링을 적용하지 않고, 영상을 생성하는 동안 참조되는 복셀(voxel)에 대해서만 잡음 필터를 적용하여 얻은 값을 사용한다. 이때 필터링에 소요되는 시간을 최소화하기 위해 가장 단순한 평균화 필터를 사용한다. 그리고 복셀에 적용되는 3차원 필터를 3단계의 1차원 필터 연산 단계로 분할 한 후, 각 단계별 연산을 거친 복셀들에 대해서는 다시 연산을 하지 않도록 하여 중복을 피한다. 이를 통해 전처리 시간 없이 기존 방법과 동일한 화질을 유지하는 최종 영상을 만들어 낸다.

  • PDF