• 제목/요약/키워드: 데이터 정제

검색결과 469건 처리시간 0.047초

컨테이너 터미널 성능평가를 위한 대용량 이벤트 로그 정제 방안 연구 (Refining massive event logs to evaluate performance measures of the container terminal)

  • 박은정;배혜림
    • 한국빅데이터학회지
    • /
    • 제4권1호
    • /
    • pp.11-27
    • /
    • 2019
  • 컨테이너터미널 경영환경이 악화됨에 따라 컨테이너터미널의 수익률은 점차 감소하고 있다. 컨테이너터미널 운영자는 전반적인 컨테이너터미널의 문제점을 분석하고 개선함으로써 컨테이너터미널의 글로벌 경쟁력을 높이고자 한다. 이를 위해 컨테이너터미널은 운영 중 생성되는 데이터를 실시간으로 수집 및 저장하고 있으며, 운영자는 저장된 데이터를 활용하여 운영 문제를 분석하고자 많은 노력을 기울여왔다. 본 연구에서는 컨테이너터미널 운영 프로세스의 특성을 분석하고 컨테이너터미널 운영을 효과적으로 분석하기 위한 컨테이너 프로세스 및 CKO(container keeping object) 프로세스를 제안한다. 또한 TOS(terminal operating system)에 저장된 데이터로부터 본 연구에서 제안된 프로세스를 생성하기 위한 이벤트 로그를 정의한다. 제안된 프로세스를 활용하여 비정상적인 프로세스를 만드는 불완전한 이벤트 로그가 어떻게 효과적으로 정제되는지 설명한다. 이벤트 로그를 쉽고 빠르게 수정하기 위한 프레임워크를 제안하였으며, 이를 검증하기 위해 python2.7을 이용하여 해당 프레임워크를 구현하였다. 또한 실제 컨테이너터미널에서 수집된 데이터를 입력 데이터로 사용하여 제안된 프레임워크의 타당성을 검증하였다. 그 결과, 이벤트 로그 정제를 통해 컨테이너터미널의 비정상적인 프로세스가 크게 개선되었음을 확인할 수 있었다.

  • PDF

데이터웨어하우스를 위한 XMDR 기반의 데이터 정제시스템 설계 (Design of data cleansing system based on XMDR for Datawarehouse)

  • 송홍율;첸드 아유시;정계동;최영근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.180-182
    • /
    • 2010
  • 데이터웨어하우스는 기업의 정책을 결정하는데 사용하고 있다. 그러나, 새로운 시스템이 추가되면 데이터 통합 측면에서 시스템간의 여러 가지 이질적인 특성으로 인해 많은 비용과 시간이 필요로 하게 된다. 따라서, 이러한 이질적인 특성을 해결하기 위해 데이터 구조의 이질성 및 데이터 표현의 이질성은 XMDR(eXtended Master Data Registry)를 이용하여 추상화된 쿼리를 생성하고, XMDR에 맞게 쿼리를 분리함으로써 이질성을 해결한다. 특히 본 논문에서는 XMDR을 이용하여 분산 시스템 통합시 로컬시스템의 영향을 최소화하고, 데이터웨어하우스의 정보를 실시간으로 생성하기 위해 분산된 환경에서 데이터 통합을 위한 표준화된 정보를 제공한다. 또한, 기존 시스템의 변경 없이 데이터를 통합하여 비용과 시간을 절감하고, 실시간 데이터 추출 및 정제 작업을 통해 일관성있는 실시간 정보를 생성하여 정보의 품질을 향상시킬수 있도록 한다.

제조기업 현장 데이터를 이용한 빅데이터 분석시스템 모델

  • 김재중;성백민;유재곤;강찬우;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.741-743
    • /
    • 2015
  • 오늘날 BI(Business Intelligence)시스템 다차원 데이터를 다루는 많은 방법들이 제안되어 TB 이상의 데이터를 다룰 수 있다. 하지만 IT 전문가 및 IT에 대한 투자여력이 충분하지 않은 중소 제조 기업들은 발 맞춰가기 힘들다. 또한 생산관리시스템(MES)을 미 도입한 기업이 대다수이고, 존재하는 현장데이터의 대부분도 수기데이터 또는 Excel 데이터로 보관 되어 있어, 수작업에 의한 데이터 분석과 의사결정을 수행한다. 이로 인해, 불량 요인 파악이나 이상 현상 파악이 불분명하기 때문에 데이터 분석에 어려움을 겪는다. 이에 본 연구에서는 중소제조기업의 경쟁력 강화를 위하여 제조 기업현장에서 사용되는 데이터를 자동으로 수집하여 정제 및 처리하여 저장이 가능하도록 하는 빅 데이터 분석 시스템 모델을 개발하였다. 이 분석 시스템 모델은 ERP, MIS 등에 존재하는 데이터들이 각 시스템의 DB 기능을 활용하여 데이터를 추출하고 정제하여 수집하는 ETL(Extract Transform Loading)과정을 통한다. 현장에서 비정형으로 기록되고 있는 정보들(ex. Excel)은 ODE(Office Data Excavation)모듈을 통해 문서의 패턴을 자동으로 인식하고 정형화된 정보로서 추출, 정제되어 수집된다. 저장된 데이터는 오픈소스 데이터 시각화 라이브러리인 D3.js를 이용하여 다양한 chart들을 통한 강력한 시각효과를 제공함으로써, 정보간의 연관 관계 및 다차원 분석의 기반을 마련하여 의사결정체계를 효과적으로 지원한다. 또한, 높은 가격에 형성되어 있는 빅데이터 솔루션을 대신해 오픈소스 Spago BI를 이용하여 경제적인 빅 데이터 솔루션을 제공한다. 본 연구의 기대효과로는 첫째, 현장 데이터 중심의 효과적인 의사결정 기반을 마련할 수 있다. 둘째, 통합 데이터 기반의 연관/다차원 분석으로 경영 효율성이 향상된다. 마지막으로, 중소 제조기업 환경에 적합한 분석 시스템을 구축함으로써 경쟁력과 생산력을 강화한다.

  • PDF

연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견 (Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm)

  • 김동성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF

생성모델의 시각적 최적화를 위한 학습데이터 제작기법 (Learning data production technique for visual optimization of generative models)

  • 조형래;박구만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 추계학술대회
    • /
    • pp.13-14
    • /
    • 2021
  • 본 논문은 생성모델의 학습데이터 제작기법에 대한 실험 및 결과와 향후 관련 연구의 방향을 기술한다. GAN으로 대표되는 생성모델이 아티스트에게 얼마만큼의 만족도와 영감을 주는지를 비교 실험 및 평가하기 위해서는 정제된 학습데이터가 필요하다. 하지만 현실적으로 아티스트의 작품은 데이터 세트를 만들기에는 그 수가 적고 인공지능이 학습하기에도 정제되어있지 않다. 2차 가공작업을 통하여 아티스트의 원본 작업과 유사한 데이터 세트의 구축은 생성모델의 성능향상을 위해 매우 중요하다. 연구의 결과 생성모델이 표현하기 어려운 스타일의 작가 작품을 선정한 뒤 최적의 학습데이터를 만들기 위한 다양한 실험과 기법을 통해 구축한 데이터 세트를 생성모델 알고리즘에 적용하고 실험을 통해 창작자의 작품제작 의도인 작가 진술에 최대한 유사한 이미지의 생성과 더 나아가 작가가 생각하지 못했던 창조적 모방의 결과물을 도출하였고 작가평가를 통해 높은 만족도를 얻었다.

  • PDF

철도안전 기반의 데이터 마이닝 및 시각화 기술 (The Utilization of Data Mining Technology and Visualization on the Rail Safety Architecture)

  • 김정헌;박혜리;이수만;장용형;오염덕
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2024년도 제69차 동계학술대회논문집 32권1호
    • /
    • pp.135-138
    • /
    • 2024
  • 본 논문에서는 기존 철도 운영 및 관리 모니터링 시스템 플랫폼을 활용하여 수집한 소음, 진동 데이터들을 데이터 마이닝 하는 전 과정을 다루고 있다. 데이터 마이닝 과정은 python에서 제공하는 라이브러리를 사용하여 진행되었으며 데이터 저장, 정제, 분석 및 시각화 단계로 구성된다. 본 논문 및 이어질 후속 연구는 철도 사고 예방을 위한 아키텍처 설계에 유의미한 기여가 가능할 것이다.

  • PDF

표 기계독해 언어 모형의 의미 검증을 위한 테스트 데이터셋 (Test Dataset for validating the meaning of Table Machine Reading Language Model)

  • 유재민;조상현;권혁철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 추계학술대회
    • /
    • pp.164-167
    • /
    • 2022
  • 표 기계독해에서는 도메인에 따라 언어모형에 필요한 지식이나 표의 구조적인 형태가 변화하면서 텍스트 데이터에 비해서 더 큰 성능 하락을 보인다. 본 논문에서는 표 기계독해에서 이러한 도메인의 변화에 강건한 사전학습 표 언어 모형 구축을 위한 의미있는 표 데이터 선별을 통한 사전학습 데이터 구축 방법과 적대적인 학습 방법을 제안한다. 추출한 표 데이터에서 구조적인 정보가 없이 웹 문서의 장식을 위해 사용되는 표 데이터 검출을 위해 Heuristic을 통한 규칙을 정의하여 HEAD 데이터를 식별하고 표 데이터를 선별하는 방법을 적용했으며, 구조적인 정보를 가지는 일반적인 표 데이터와 엔티티에 대한 지식 정보를 가지는 인포박스 데이터간의 적대적 학습 방법을 적용했다. 기존의 정제되지 않는 데이터로 학습했을 때와 비교하여 데이터를 정제하였을 때, KorQuAD 표 데이터에서 F1 3.45, EM 4.14가 증가하였으며, Spec 표 질의응답 데이터에서 정제하지 않았을 때와 비교하여 F1 19.38, EM 4.22가 증가한 성능을 보였다.

  • PDF

전국자연환경조사 데이터 정제와 표준화 방안 연구 (A Study on the Data Cleaning and Standardization of National Ecosystem Survey in Korea)

  • 권용수;송교홍;김목영;김기동
    • 생태와환경
    • /
    • 제53권4호
    • /
    • pp.380-389
    • /
    • 2020
  • 본 연구에서는 최근, 자연환경의 변화에 따른 생태계 예측과 지속가능한 개발과 보전의 정량적 근거 제시를 위해 전세계적으로 연구중요도와 활용도가 높아지고 있는 생태 조사연구 데이터의 정제와 표준화 및 서비스 방안에 대하여 제시하였다. 1997년부터 매 10년 단위로 전국을 대상으로 수행된 제2차, 제3차 전국자연환경조사 결과와 2014년부터 매 5년 단위로 수행된 제4차 전국자연환경조사 결과를 대상으로 전국자연환경조사 지침을 따라 별도 개발된 입력 오류 검증 프로그램을 통해 1차 정제 후 분야별 전문가의 검수를 거쳤다. 또한, 국내외 데이터 표준 사례들을 분석하여 국내의 자연환경과 생태조사 자료인 생태정보를 표준화하는 방안을 제시하였다. 전국자연환경조사 결과에 대해 (1) 조사자료인 데이터 용어의 표준화, (2) 유사한 유형의 데이터 테이블 통합 및 (3) 불필요한 속성과 입력오류를 제거하였고 (4) 현장 조사자 별로 상이한 입력항목의 단일화, (5) 데이터를 일련번호 코드로 정리하고 (6) 입력항목별 코드 매핑을 수행하였다. 연구결과, 연구자와 일반인들이 활용하기 쉽도록 전국자연환경조사 데이터를 정제하고 국내 최초의 생태데이터 표준안 마련의 기반을 수립하였다. 또한, 연구결과로 산출된 전국자연환경조사 데이터는 국내의 환경영향평가, 서식지 보전지역 설정, 멸종위기종 분포 예측, 기후변화에 따른 생태계 위험 예측은 물론, 국외 생태정보 연계 등에 손쉽게 공유 및 활용가능하여 다양한 환경정책수립과 관련 연구활성화에 기여할 것으로 기대된다. 본 연구를 통해 정제된 전국자연환경조사 데이터는 국립생태원에서 국내 최초로 개발중인 생태정보포털서비스 시스템인 에코뱅크 (http://nie-ecobank.kr)를 통해 개방하여 누구나 온라인상에서 쉽게 접근하고 활용할 수 있도록 하였다.

LSTM 알고리즘을 이용한 수도데이터 정제기법 (A Study on the cleansing of water data using LSTM algorithm)

  • 유기현;김종립;신강욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.501-503
    • /
    • 2017
  • 수도분야에서는 정수장 및 관말 관로 상의 전 공정에서 유량, 압력, 수질, 수위 등 다양한 데이터를 수집하고 있다. 수집되는 데이터는 각 정수장 DB에 저장되며, 권역별 DB에서 합쳐져 수자원공사 본사의 DB 서버에 최종 저장된다. 측정기기가 데이터를 측정하거나 여러 과정에 걸쳐 데이터가 통신될 때 다양한 이상 데이터가 발생할 수 있으며 크게 결측 데이터와 오측 데이터로 분류할 수 있다. 각각의 이상 데이터의 발생원인은 상이하다. 따라서 오측 및 결측 데이터를 검출하는 방식에는 차이가 있으나 실제 이를 정제하는 방식은 동일하다. 본 연구에서는 딥러닝 알고리즘의 일종인 LSTM(Long Short Term Memory) 방식을 적용하여 오 결측 데이터를 자동으로 정제할 수 있는 프로그램에 대하여 고찰한다.

  • PDF

실시간 RFID 미들웨어에서의 태그 데이터 고속 필터링 방법 (A method for high-speed event processing in the real-time RFID middleware systems)

  • 박미선;김용진;유민수
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 추계학술발표대회
    • /
    • pp.435-436
    • /
    • 2009
  • RFID 시스템의 미들웨어는 태그에서 생성된 방대한 양의 데이터를 리더를 통해 전달받는다. RFID 미들웨어는 이러한 데이터를 정제하여 응용 애플리케이션에 전달하는 기능을 담당한다. 하지만 태그 데이터 정제 과정에서 발생되는 지연 시간은 RFID 미들웨의 응답성을 저하시킨다. 본 논문은 EPCglobal 의 RFID 미들웨어 표준인 ALE 에 의거하여 태그 데이터에 대한 다수의 필터링 조건들이 주어진 RFID 미들웨어 환경에서 실시간으로 수집되는 대용량의 태그에 대한 고속 필터링 엔진을 설계한다. 이를 위하여 Intermediate node 들이 key 값을 저장하는 Binary Search Tree 형태를 구성하여 태그를 필터링하는 방법을 제안한다. 결과로써 기존의 순차적인 RFID 데이터 필터링에 비해 고속의 필터링 성능을 보이며 특히 필터의 수가 증가할수록 필터링의 효율이 높아짐을 보인다.