• 제목/요약/키워드: 데이터 정제

검색결과 469건 처리시간 0.025초

Isomap을 이용한 향상된 기능의 오존 경보 예측기 구현 (Enhancing the Performance of an Ozone Day Predictor Using Isomap)

  • 이태훈;김한주;전용권;윤성로
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.345-348
    • /
    • 2010
  • 본 논문에서는 Isomap을 통해 기상 정보에서 특징을 추출하여, 보다 향상된 오존 경보 예측시스템의 구현을 제안한다. 큰 흐름은 전처리 과정과 특징 추출 과정 및 후처리 과정을 통해 정제한 데이터를, 기계 학습에 널리 사용되고 있는 SVM (Support Vector Machine) 등의 분류기로 오존 경보에 대한 예측을 하여 성능을 측정한다. 또한, 압축된 데이터를 분석하여 원 데이터에서의 중요한 특징들이 무엇이었는지를 분석하였다. 분류기의 실험 결과, 기후 데이터에서의 특징 추출은 제안된 Isomap 방법이 PCA 방법에 비해 성능이 우수한 것을 알 수 있었으며, 원래 데이터를 분류한 결과에 비해서는 15~35%정도가 향상되었다. 그리고 실험에 사용된 72가지의 Feature들 중, Tb, WSa, WSp 의 정보가 오존 경보 예측에 주요한 요인 인 것으로 분석되었다.

  • PDF

식품유통을 위한 프로토타입 센서 데이터처리 시스템 개발 (Development of Prototype Sensor Data Processing System for Food Distribution)

  • 민형준;니 게오르기;이동훈;김수희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.867-870
    • /
    • 2009
  • 이 연구에서는 온도에 민감한 식품을 대상으로 이들이 허용하는 저장 온도의 범위를 데이터베이스에 저장하고, 이들이 유통 중에 유지되는 온도를 측정하여 지정한 범위를 벗어나는지의 여부를 모니터링 하고자 한다. 이를 위해 식품 유통관리를 위한 온도와 위치에 대한 데이터를 RFID를 기반으로 하여 실시간에 수집하여, 허용하는 온도 범위를 벗어나면 경고 이벤트를 발생하는 프로토타입 센스 데이터처리 시스템을 개발한다. 이를 통해 유비쿼터스 환경에서의 센서데이터들의 효율적인 처리에 대한 기술을 축적하며, 향후에는 다양한 상황 데이터들을 필요에 맞게 정제하고 가공하는 기법을 개발하고자 한다.

KcBERT: 한국어 댓글로 학습한 BERT (KcBERT: Korean comments BERT)

  • 이준범
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.437-440
    • /
    • 2020
  • 최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base 모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

  • PDF

방향 비순환 그래프의 중심성을 이용한 위키데이터 기반 분류체계 구축 (Taxonomy Induction from Wikidata using Directed Acyclic Graph's Centrality)

  • 전희선;김현호;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.582-587
    • /
    • 2021
  • 한국어 통합 지식베이스를 생성하기 위해 필수적인 분류체계(taxonomy)를 구축하는 방식을 제안한다. 위키데이터를 기반으로 분류 후보군을 추출하고, 상하위 관계를 통해 방향 비순환 그래프(Directed Acyclic Graph)를 구성한 뒤, 국부적 도달 중심성(local reaching centrality) 등의 정보를 활용하여 정제함으로써 246 개의 분류와 314 개의 상하위 관계를 갖는 분류체계를 생성한다. 워드넷(WordNet), 디비피디아(DBpedia) 등 기존 링크드 오픈 데이터의 분류체계 대비 깊이 있는 계층 구조를 나타내며, 다중 상위 분류를 지닐 수 있는 비트리(non-tree) 구조를 지닌다. 또한, 위키데이터 속성에 기반하여 위키데이터 정보가 있는 인스턴스(instance)에 자동으로 분류를 부여할 수 있으며, 해당 방식으로 실험한 결과 99.83%의 분류 할당 커버리지(coverage) 및 99.81%의 분류 예측 정확도(accuracy)를 나타냈다.

  • PDF

GAN 기반 데이터 증강을 통한 폐기물 객체 인식 모델 설계 (Bulky waste object recognition model design through GAN-based data augmentation)

  • 김형주;박찬;박정현;김진아;문남미
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.1336-1338
    • /
    • 2022
  • 폐기물 관리는 전 세계적으로 환경, 사회, 경제 문제를 일으키고 있다. 이러한 문제를 예방하고자 폐기물을 효율적으로 관리하기 위해, 인공지능을 통한 연구를 제안하고 있다. 따라서 본 논문에서는 GAN 기반 데이터 증강을 통한 폐기물 객체 인식모델을 제안한다. Open Images Dataset V6와 AI Hub의 공공 데이터 셋을 융합하여 폐기물 품목에 해당하는 이미지들을 정제하고 라벨링한다. 이때, 실제 배출환경에서 발생할 수 있는 장애물로 인한 일부분만 노출된 폐기물, 부분 파손, 눕혀져 배출, 다양한 색상 등의 인식저해요소를 모델 학습에 반영할 수 있도록 일반적인 데이터 증강과 GAN을 통한 데이터 증강을 병합 사용한다. 이후 YOLOv4 기반 폐기물 이미지 인식 모델 학습을 진행하고, 학습된 이미지 인식 모델에 대한 검증 및 평가를 mAP, F1-Score로 진행한다. 이를 통해 향후 스마트폰 애플리케이션과 융합하여 효율적인 폐기물 관리 체계를 구축할 수 있을 것이다.

  • PDF

분산 데이터의 통합시 데이터의 품질향상 방안: 국가과학기술종합정보시스템 (A Data Quality Improvement Method in Integrations of Distributed Data: National Science & Technology Information Services)

  • 손강렬
    • 한국정보통신학회논문지
    • /
    • 제13권8호
    • /
    • pp.1623-1636
    • /
    • 2009
  • 현재 국내의 정부 R&D 사업은 300여개에 이르고 있고, 이를 사업의 특성별로 16개 국가R&D 관련 부처 청의 15개 대표연구관리 전문기관에서 각각 관리하고 있다. 이로 인하여 발생하는 국가 R&D에 대한 중복 투자와 체계적인 R&D연구과제 및 성과관리의 미흡으로 R&D 투자의 효율성에 대한 문제가 계속해서 제기되고 있다. 그러한 가운데 이러한 문제를 해결하기 위하여 교육과학기술부는 국가연구개발의 기획에서 성과활용에 이르기까지 연구개발의 효율화를 지원할 수 있는 국가 R&D 포털시스템으로써 국가과학기술종합정보시스템(NTS)을 구축하고 있다. NTIS와 같이 분산된 데이터의 통합시 동일한 의미의 데이터들이 각 조직에서 달리 명명되고 다른 데이터 유형으로 되어 있기에 통합된 데이터의 정확성과 높은 수준의 품질을 달성하는 것이 어려운 문제이다. 본 논문에서는 NTIS 시스템의 인력/과제/성과 정보의 통합DB 구축 및 연계방식과 이를 통해 수집된 데이터의 품질관리를 위한 데이터정제 프로세스를 고찰해 본다. 그 과정에서 발생할 수 있는 데이터 품질문제의 요인을 분석하여 NTIS의 데이터 품질향상을 위한 개선방안을 제시한다.

우수고객의 이력 뷰를 이용한 연관규칙 개별화 전자상점 설계 및 구현 (Design and Implementation of a Personalized e-Mall with Association Rules based on View History of Excellent Customers)

  • 정경자;한정혜
    • 디지털콘텐츠학회 논문지
    • /
    • 제2권2호
    • /
    • pp.117-127
    • /
    • 2001
  • 최근 인터넷의 급속한 발전으로 전자상점의 수가 계속적으로 증가함에 따라, 대부분의 전자 상점들은 고객이 전자상점을 이용하는 동안 고객에게 차별화된 제품 추천서비스를 제공하여 고객에 관심을 높이고자 한다. 이러한 CRM을 위한 서비스를 제공하기 위해서는 많은 고객 거래 정보 데이터베이스에 의해서 생성된 규칙을 이용해야한다. 개별화 전자 상점이 보다 더 효율적으로 운영되기 위해서는 많은 고객거래 데이터를 모두 활용하기보다는 정제된 고객 거래 정보가 필요하며, 이들 정보를 이용한 연관 규칙을 생성하는 것이 필요하다. 본 연구에서는 우수 고객의 거래 이력 정보를 뷰로 생성함으로써 데이터베이스 접근과 컴퓨팅을 줄이는 방법을 이용한 개별화 연관규칙 생성을 제안하였다. 특히 고객데이터가 정제된 우수고객의 이력 뷰로부터 연관 규칙을 생성하여, 보다 정확하고 효율적인 개별화 서비스를 지원하는 전자 상점을 설계 및 구축하였다.

  • PDF

문장틀 기반 Sequence to Sequence 구어체 문장 문법 교정기 (Template Constrained Sequence to Sequence based Conversational Utterance Error Correction Method)

  • 정지수;원세연;서혜인;정상근;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.553-558
    • /
    • 2022
  • 최근, 구어체 데이터에 대한 자연어처리 응용 기술이 늘어나고 있다. 구어체 문장은 소통 방식 등의 형태로 인해 정제되지 않은 형태로써, 필연적으로 띄어쓰기, 문장 왜곡 등의 다양한 문법적 오류를 포함한다. 자동 문법 교정기는 이러한 구어체 데이터의 전처리 및 일차적 정제 도구로써 활용된다. 사전학습된 트랜스포머 기반 문장 생성 연구가 활발해지며, 이를 활용한 자동 문법 교정기 역시 연구되고 있다. 트랜스포머 기반 문장 교정 시, 교정의 필요 유무를 잘못 판단하여, 오류가 생기게 된다. 이러한 오류는 대체로 문맥에 혼동을 주는 단어의 등장으로 인해 발생한다. 본 논문은 트랜스포머 기반 문법 교정기의 오류를 보강하기 위한 방식으로써, 필요하지 않은 형태소인 고유명사를 마스킹한 입력 및 출력 문장틀 형태를 제안하며, 이러한 문장틀에 대해 고유명사를 복원한 경우 성능이 증강됨을 보인다.

  • PDF

신뢰성 빅데이터 플렛폼의 연구 (Study of Trust Bigdata Platform)

  • 김정준;곽광진;이돈희;이용수
    • 한국인터넷방송통신학회논문지
    • /
    • 제16권6호
    • /
    • pp.225-230
    • /
    • 2016
  • 최근 네트워크와 인터넷의 발전으로 웹상에 대용량의 데이터가 생겨났으며, 이를 처리하기 위해 빅데이터 기술이라는 패러다임이 생겨났다. 빅데이터 기술은 기존의 정형 데이터뿐만 아니라 소셜 데이터 등 다양한 비정형 데이터를 이용해 다각적이고 정확한 분석을 목표로 연구되고 있다. 그러나 소셜 데이터는 전문성과 객관성을 가지고 있다고 보기는 힘들고 정보의 조작 및 은폐, 왜곡 등의 문제성이 제기되고 있다. 따라서, 본 논문에서는 신뢰성 빅데이터 플랫폼에 대하여 제안하며, 세부 관리자와 모듈에 대하여 설명한다. 본 논문에서 제안하는 신뢰성 빅데이터 플랫폼은 데이터 정제 관리자, 데이터 분석 관리자, 상호 신뢰 관리자, 시각화 관리자, 검색 관리자로 구성되어진다.

다수의 가상머신을 이용한 토르 트래픽 수집 시스템 설계 및 구현 (Design and Implementation of Tor Traffic Collection System Using Multiple Virtual Machines)

  • 최현재;김현수;신동명
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제15권1호
    • /
    • pp.1-9
    • /
    • 2019
  • 본 논문에서는 사용자 및 서비스 제공자의 신원을 공개하지 않는 토르 네트워크상에서 불법적으로 콘텐츠를 공유하는 행위의 저작권 침해를 탐지하기 위하여 트래픽을 효율적으로 수집하고 분석하고자, 다수의 가상머신을 이용한 토르 트래픽 수집 시스템 설계 및 구현을 진행하였다. 토르 네트워크에 접속할 수 있는 클라이언트로 다수의 가상머신과 Mini PC를 이용하였으며, 스크립트 기반의 테스트 클라이언트 소프트웨어를 통해 트래픽 수집 서버에서 수집과 정제 과정을 모두 자동화하였다. 이 시스템을 통해 토르 네트워크 트래픽만을 저장하고 필요한 필드 데이터만을 데이터베이스에 저장할 수 있으며, 한 번의 수집 과정 당 평균적으로 약 10,000개 이상의 패킷을 데이터베이스에 저장하고 토르 트래픽만을 인식하여 정제하는 성능을 95% 이상 달성하였다.