• Title/Summary/Keyword: 전처리 과정

검색결과 2,009건 처리시간 0.035초

시뮬레이션 데이터의 다양성을 고려한 데이터 전처리 프레임워크 설계 (Exploiting Data Diversity in a Simulation data Curation)

  • 안선일;안부영;장지훈;이식;조금원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.81-82
    • /
    • 2017
  • 계산과학 데이터를 공유하는 목적은 데이터의 분석을 통해 의미 있는 정보를 추출하기 위해서이다. 이를 위해서는 계산과학 데이터의 전처리 과정이 요구되며, 핵심 이슈는 계산과학 데이터의 다양성과 복잡성의 해결이다. 본 논문은 계산과학 데이터 저장소의 구축 과정에서 고려하였던 계산과학 데이터의 전처리에 대한 설계 이슈들과 해결 방안들에 대해 설명한다.

우리별 1호 CCD 지구 관측 영상의 전처리

  • 이임평;김태정;이서림;최순달
    • Journal of Astronomy and Space Sciences
    • /
    • 제13권2호
    • /
    • pp.181-197
    • /
    • 1996
  • CCD 지구 영상 실험 장치(CCD earth image experiment, CEIE)는 우리별 I호의 주 탑재체중의 하나이다. 우리별 1호가 발사된 후에 CEIE는 이제까지 약 500여장의 세계 곳곳의 지표면 영상을 촬영하였다. 내재한 방사학적(radiometric) 오차 및 기하학적(geometric) 찌그러짐으로 인해, 관측된 영상은 지표면의 모습과 아주 다르다. 이러한 영상 데이터롤 다양한 목적의 응용을 위해 처리하고 분석하기전에 이러한 오차를 제거하기 위한 전처리 과정을 반드시 수행하여야한다. 이 논문은 CEIE:의 운영 결과를 요약하고 방사학적 및 기하학적 보정을 수행하는 전처리 과정을 설명한다.

  • PDF

개선된 전처리 과정을 통한 지문인식 알고리즘에 관한 연구 (A Study on the Fingerprint Identification Algorithm Using Improved Preprocessing)

  • 신의재;조성원
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2001년도 춘계학술대회 학술발표 논문집
    • /
    • pp.246-249
    • /
    • 2001
  • 본 연구는 온라인 지문 인식 기법의 속도 향상을 주목적으로 하여 기존의 지문 인식 기법과 비교하여 개선된 전처리 방법을 이용하여 적은 계산량으로 보다 높은 정확도를 확보하여 궁극적으로 지문 인식 및 대조 시스템이 적합한 특징점 추출 알고리즘 개발을 목적으로 한다. 먼저 방향성이미지에서 방향성추출에서는 4$\times$4화소를 하나의 Block으로 나눈 후, 3$\times$3의 Sobel 연산자를 이용하였고, 이 방향성 정보를 이용하여 지문영상의 품질 측정과 배경 분리를 하였으며, 또한 부분 영역간의 밝기 차이 등으로 발생하는 오류를 최소화하기 위하여 이진화 수행 과정에서 가장 애로점인 임계치(threshold value) 설정을 지문의 대상 영역의 밝기 등에 적응하여 스스로 변하도록 할 수 있게 Slit sum의 방법을 응용한 적응 이진화를 하였다. 세선화와 특징점 추출에서는 VHN(Vertical & horizontal Number)값을 이용하여 보정(Interpolation)효과를 주어 오류특징점을 배제하고, 자동 지문 인식 시스템의 인식성능을 향상시켰다.

  • PDF

운송 컨테이너 영상의 효율적인 문자인식을 위한 전처리에 관한 연구 (A Study on Preprocessing for Efficient Character Recognization of Shipping Container Image)

  • 최재영;김낙빈
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 제13회 춘계학술대회 및 임시총회 학술발표 논문집
    • /
    • pp.1077-1083
    • /
    • 2000
  • 본 논문은 운송 컨테이너 식별자의 자동화 처리를 위한 문자 인식의 단계중 최종 문자 인식 전단계 까지의 처리 과정을 컨테이너의 특성에 맞게 제안하였으며, 이러한 전처리 과정은 문자 인식 시스템의 성능에 중요한 영향을 미친다. 제안한 방법은 먼저 입력된 컨테이너 컬러 영상을 명암 영상으로 바꾸고 전체 영상중 인식에 필요한 식별자 영역만을 경계선 검출과 형태학적 연산을 이용하여 추출한다. 이어서 다양한 배경색과 문자색을 판단하여 일반 문서와 같이 일관성있게 통일한 후, DCT를 이용한 명암도별 이진영역으로 분할한 후에 Otsu방법과 새로운 이진화방법을 자동으로 선택하여 효율적인 이진화가 이루어지도록 하였다. 이렇게 얻어진 이진 영상은 문자인식 단계로 넘어갈 수 있도록 개별 문자로 분할한다. 이 방법은 컨테이너 영상의 불균등한 배경색과 잡음으로 인하여 문자인식에 오류가 생기는 단점을 보완하였으며 컨테이너 특성을 최대한 반영함으로써 효과적인 전처리 결과를 얻을 수 있었다. 또한, 제안한 방법의 응용은 컨테이너 이외의 다른 상황에서도 매우 효과적으로 사용될 수 있으리라 본다.

  • PDF

머신러닝을 위한 데이터셋 수집 RPA 개발 (Development of Dataset Cllection RPA for Machine Learning)

  • 김기태;서보인;윤상혁;이세훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.295-296
    • /
    • 2020
  • 본 논문에서는 RPA(Robotic Process Automation) Tool 개발 과정 중 머신 러닝, 딥러닝에 필요한 이미지 크롤링 및 전처리 기능을 이용한 가공된 데이터 셋 처리 과정을 기술한다. 개발된 RPA 툴에서 머신러닝 및 딥러닝에 사용될 데이터 확보 기능을 제공하며, 세부적으로 이미지 전처리(Convert Gray, Histogram Equalization, Binary, Resize)등 반복적으로 사용되는 기능들을 제공한다. 개발된 툴을 통해 RPA의 자동화 기능과, 전처리 기능의 융합을 통해 업무의 효율성을 제공한다.

  • PDF

H.264 동영상 표준 부호화 방식을 위한 변형된 가우시안 모델 기반의 저 계산량 전처리 필터 (A Modified Gaussian Model-based Low Complexity Pre-processing Algorithm for H.264 Video Coding Standard)

  • 송원선;홍민철
    • 한국통신학회논문지
    • /
    • 제30권2C호
    • /
    • pp.41-48
    • /
    • 2005
  • 본 논문에서는 H.264 표준 부호화 방식의 성능 향상 및 저 계산량을 위한 가우시안 모델 기반의 전처리 필터에 대해 제안한다. 일반적인 영상 획득 장치에서 첨가된 노이즈에 의해 훼손된 동영상은 다수의 고주파 성분으로 인하여 시각적으로 불편한 현상과 압축 효율의 저하를 초래한다. 본 논문에서는 필터링 과정에서 국부 통계적 특성과 양자화 매개변수를 이용하여, 주어진 양자화 스텝 사이즈에서 노이즈 성분을 제거하고 시각적인 효과와 비트율을 개선시켜 압축 효율을 개선하고자 한다. 또한 전처리 필터의 계산량을 줄이기 위하여 간단한 형태의 국부 통계적 특성을 재 정의하고 노이즈에 대한 매개변수를 H.264의 변환과 양자화 과정을 통하여 유추하여 적용하였다. 제안된 방식의 성능을 실험 결과로부터 확인할 수 있었다.

빅데이터의 정규화 전처리과정이 기계학습의 성능에 미치는 영향 (Effectiveness of Normalization Pre-Processing of Big Data to the Machine Learning Performance)

  • 조준모
    • 한국전자통신학회논문지
    • /
    • 제14권3호
    • /
    • pp.547-552
    • /
    • 2019
  • 최근, 빅데이터 분야에서는 빅 데이터의 양적 팽창이 주요 이슈로 떠오르고 있다. 더군다나 이러한 빅데이터는 기계학습의 입력값으로 사용되어지고 있으며 이들의 성능을 향상시키기 위해 정규화 전처리가 필요하다. 이러한 성능은 빅데이터 컬럼의 범위나 정규화 전처리 방식에 따라 크게 좌우된다. 본 논문에서는 다양한 종류의 정규화 전처리 방식과 빅데이터 컬럼의 범위를 조절하면서 서포트벡터머신(SVM)의 기계학습방식에 적용함으로써 더욱 효과적인 정규화 전처리 방식을 파악하고자 하였다. 이를 위하여 파이썬언어와 주피터 노트북 환경에서 기계학습을 수행하고 분석하였다.

식품 수입 절차에서의 효율적 의사결정을 위한 데이터 전처리 기술에 관한 연구 (Research on Data Preprocessing Techniques for Efficient Decision-Making in Food Import Procedures)

  • 박재형;송용욱;강주영
    • 한국빅데이터학회지
    • /
    • 제8권1호
    • /
    • pp.61-71
    • /
    • 2023
  • 데이터 기반 의사결정 방법론, 고도화된 빅데이터 처리 기법의 발달로 데이터를 처리하는 방법에 대한 정보의 수요가 늘어나고 있다. 데이터를 활용하는 거의 모든 작업과 연구에서 데이터 전처리 과정이 포함되나, 이러한 과정은 주장하고자 하는 내용이나 결과물을 도출하기 위한 수단으로써 언급될 뿐 실질적인 과정에 대해서 자세하게 설명하고 있는 연구는 부족하였다. 실질적인 분석 기법을 활용하기 이전의 단계로 간단하게 언급되는 경우가 많아 데이터 처리에 대한 인사이트를 획득하기 어려운 경우가 많았다. 따라서 이 연구에서는, raw data에서부터 데이터를 처리하는 과정, 즉 데이터 처리 파이프라인에 대해서 자세하게 작성하고자 하였다. 특히 수입식품 수입 절차에 대한 설명을 구체화함으로써 해당 상황에서 데이터의 필드들이 어떻게 해석될 수 있고 어떠한 필드들을 왜 활용하게 되었는지에 대한 상황과 관련 도메인 지식을 공유하면서 흐름을 기술하고자 하였다.

데이터 마이닝을 위한 연관규칙의 다중 값 속성 처리방법 (Processing Multi-Valued Attributes in Association Rules for Data Mining)

  • 김산성;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.340-342
    • /
    • 2002
  • 다중 값이란 속성 값이 집합인 것을 말한다. 즉, 관계형 데이터베이스에서 자료 유형이 집합인 속성을 의미한다. 이러한 다중 값 속성 처리는 기존 데이터마이닝 기술 자체로는 처리한 수 없으며 후처리나 선처리 과정을 이용하여 처리하고 있다. 전처리나 후처리 과정을 통해 처리할 경우 수행과장에 있어 많은 시간이 소요되고 혹은 타당하지 않은 규칙이 생성되는 문제점을 가지고 있다. 특히 연관화 기법 특성상 분석하고자 할 항목이 증가할수록 연관성의 수가 지수(exponential)단위이기 때문에 이를 해결하는데는 상당한 어려움이 따르게 된다. 본 논문에서는 관계형 데이터베이스 테이블 구조에서 데이터 마이닝의 수행을 위한 전처리나 후처리의 과정을 고려하지 않음으로 위에서 언급된 문제점들을 해결하고자 한다. 특히 데이터 변환 작업 없이 정량적(Quantitative)연관 규칙과 연관 규칙(Market Basket Analysis)의 혼합 형태의 규칙을 생성할 수 있게끔 알고리즘을 확장하여 보다 효율적인 규칙이 생성될 수 있도록 한다. 마지막으로 Each Movie 데이터를 사용하여 확장한 알고리즘의 다중 값 속성 처리 방법의 효율성과 타탕성을 검증한다.

  • PDF

데이터집합 특성에 기반한 데이터 마이닝 전처리 대수 연산자 (Dataset Property - based Algebraic Operators for Data Mining Preprocessing)

  • 김효숙;이원석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1709-1712
    • /
    • 2002
  • 지식 탐사 연구의 핵심이 되어온 데이터 마이닝은 축적 데이터로부터 쉽게 추출되지 않는 데이터 상호관계나 일정 패턴과 같은 유용한 내재 정보 추출을 주된 목적으로 수행된다. 그러나, 데이터 마이닝은 대용량의 데이터 처리로 인해 빈번한 메모리 공간 제약과 처리 속도 저하 등의 한계성을 드러낸다. 이를 극복하기 위해 많은 마이닝 알고리즘 개발과 기존 알고리즘 개선 방법이 제시되어 왔으나 여전히 궁극적인 해결방안은 대두되지 않고 있다. 따라서, 만약 데이터 전처리 과정을 통해 마이닝 목적에 적합한 부분 데이터집합 추출 및 가공이 선행된다면 보다 효율적인 데이터 마이닝 작업을 유도할 수 있을 것이다. 본 논문은 효과적 데이터 전처리를 위한 필수 기본 연산 기능들을 주어진 데이터집합의 트랜잭션 및 데이터 특성에 기초하여 관계형 대수 형태로 의미를 정립하고, 적용 사례에 의한 상세 설명 및 실제 구현된 온라인 데이터 전처리 시스템을 제안한다.

  • PDF