• Title/Summary/Keyword: 데이터 정제

Search Result 469, Processing Time 0.03 seconds

Enhancing the Performance of an Ozone Day Predictor Using Isomap (Isomap을 이용한 향상된 기능의 오존 경보 예측기 구현)

  • Lee, Tae-Hoone;Kim, Han-Joo;Jeon, Yong-Kweon;Yoon, Sung-Roh
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.345-348
    • /
    • 2010
  • 본 논문에서는 Isomap을 통해 기상 정보에서 특징을 추출하여, 보다 향상된 오존 경보 예측시스템의 구현을 제안한다. 큰 흐름은 전처리 과정과 특징 추출 과정 및 후처리 과정을 통해 정제한 데이터를, 기계 학습에 널리 사용되고 있는 SVM (Support Vector Machine) 등의 분류기로 오존 경보에 대한 예측을 하여 성능을 측정한다. 또한, 압축된 데이터를 분석하여 원 데이터에서의 중요한 특징들이 무엇이었는지를 분석하였다. 분류기의 실험 결과, 기후 데이터에서의 특징 추출은 제안된 Isomap 방법이 PCA 방법에 비해 성능이 우수한 것을 알 수 있었으며, 원래 데이터를 분류한 결과에 비해서는 15~35%정도가 향상되었다. 그리고 실험에 사용된 72가지의 Feature들 중, Tb, WSa, WSp 의 정보가 오존 경보 예측에 주요한 요인 인 것으로 분석되었다.

  • PDF

Development of Prototype Sensor Data Processing System for Food Distribution (식품유통을 위한 프로토타입 센서 데이터처리 시스템 개발)

  • Min, Hyeong-Jun;Ni, Georgy;Lee, Dong Hun;Kim, Su-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.04a
    • /
    • pp.867-870
    • /
    • 2009
  • 이 연구에서는 온도에 민감한 식품을 대상으로 이들이 허용하는 저장 온도의 범위를 데이터베이스에 저장하고, 이들이 유통 중에 유지되는 온도를 측정하여 지정한 범위를 벗어나는지의 여부를 모니터링 하고자 한다. 이를 위해 식품 유통관리를 위한 온도와 위치에 대한 데이터를 RFID를 기반으로 하여 실시간에 수집하여, 허용하는 온도 범위를 벗어나면 경고 이벤트를 발생하는 프로토타입 센스 데이터처리 시스템을 개발한다. 이를 통해 유비쿼터스 환경에서의 센서데이터들의 효율적인 처리에 대한 기술을 축적하며, 향후에는 다양한 상황 데이터들을 필요에 맞게 정제하고 가공하는 기법을 개발하고자 한다.

KcBERT: Korean comments BERT (KcBERT: 한국어 댓글로 학습한 BERT)

  • Lee, Junbum
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.437-440
    • /
    • 2020
  • 최근 자연어 처리에서는 사전 학습과 전이 학습을 통하여 다양한 과제에 높은 성능 향상을 성취하고 있다. 사전 학습의 대표적 모델로 구글의 BERT가 있으며, 구글에서 제공한 다국어 모델을 포함해 한국의 여러 연구기관과 기업에서 한국어 데이터셋으로 학습한 BERT 모델을 제공하고 있다. 하지만 이런 BERT 모델들은 사전 학습에 사용한 말뭉치의 특성에 따라 이후 전이 학습에서의 성능 차이가 발생한다. 본 연구에서는 소셜미디어에서 나타나는 구어체와 신조어, 특수문자, 이모지 등 일반 사용자들의 문장에 보다 유연하게 대응할 수 있는 한국어 뉴스 댓글 데이터를 통해 학습한 KcBERT를 소개한다. 본 모델은 최소한의 데이터 정제 이후 BERT WordPiece 토크나이저를 학습하고, BERT Base 모델과 BERT Large 모델을 모두 학습하였다. 또한, 학습된 모델을 HuggingFace Model Hub에 공개하였다. KcBERT를 기반으로 전이 학습을 통해 한국어 데이터셋에 적용한 성능을 비교한 결과, 한국어 영화 리뷰 코퍼스(NSMC)에서 최고 성능의 스코어를 얻을 수 있었으며, 여타 데이터셋에서는 기존 한국어 BERT 모델과 비슷한 수준의 성능을 보였다.

  • PDF

Taxonomy Induction from Wikidata using Directed Acyclic Graph's Centrality (방향 비순환 그래프의 중심성을 이용한 위키데이터 기반 분류체계 구축)

  • Cheon, Hee-Seon;Kim, Hyun-Ho;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.582-587
    • /
    • 2021
  • 한국어 통합 지식베이스를 생성하기 위해 필수적인 분류체계(taxonomy)를 구축하는 방식을 제안한다. 위키데이터를 기반으로 분류 후보군을 추출하고, 상하위 관계를 통해 방향 비순환 그래프(Directed Acyclic Graph)를 구성한 뒤, 국부적 도달 중심성(local reaching centrality) 등의 정보를 활용하여 정제함으로써 246 개의 분류와 314 개의 상하위 관계를 갖는 분류체계를 생성한다. 워드넷(WordNet), 디비피디아(DBpedia) 등 기존 링크드 오픈 데이터의 분류체계 대비 깊이 있는 계층 구조를 나타내며, 다중 상위 분류를 지닐 수 있는 비트리(non-tree) 구조를 지닌다. 또한, 위키데이터 속성에 기반하여 위키데이터 정보가 있는 인스턴스(instance)에 자동으로 분류를 부여할 수 있으며, 해당 방식으로 실험한 결과 99.83%의 분류 할당 커버리지(coverage) 및 99.81%의 분류 예측 정확도(accuracy)를 나타냈다.

  • PDF

Bulky waste object recognition model design through GAN-based data augmentation (GAN 기반 데이터 증강을 통한 폐기물 객체 인식 모델 설계)

  • Kim, Hyungju;Park, Chan;Park, Jeonghyeon;Kim, Jinah;Moon, Nammee
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.1336-1338
    • /
    • 2022
  • 폐기물 관리는 전 세계적으로 환경, 사회, 경제 문제를 일으키고 있다. 이러한 문제를 예방하고자 폐기물을 효율적으로 관리하기 위해, 인공지능을 통한 연구를 제안하고 있다. 따라서 본 논문에서는 GAN 기반 데이터 증강을 통한 폐기물 객체 인식모델을 제안한다. Open Images Dataset V6와 AI Hub의 공공 데이터 셋을 융합하여 폐기물 품목에 해당하는 이미지들을 정제하고 라벨링한다. 이때, 실제 배출환경에서 발생할 수 있는 장애물로 인한 일부분만 노출된 폐기물, 부분 파손, 눕혀져 배출, 다양한 색상 등의 인식저해요소를 모델 학습에 반영할 수 있도록 일반적인 데이터 증강과 GAN을 통한 데이터 증강을 병합 사용한다. 이후 YOLOv4 기반 폐기물 이미지 인식 모델 학습을 진행하고, 학습된 이미지 인식 모델에 대한 검증 및 평가를 mAP, F1-Score로 진행한다. 이를 통해 향후 스마트폰 애플리케이션과 융합하여 효율적인 폐기물 관리 체계를 구축할 수 있을 것이다.

  • PDF

A Data Quality Improvement Method in Integrations of Distributed Data: National Science & Technology Information Services (분산 데이터의 통합시 데이터의 품질향상 방안: 국가과학기술종합정보시스템)

  • Shon, Kang-Ryul
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.13 no.8
    • /
    • pp.1623-1636
    • /
    • 2009
  • A currently domestic governmental R&D business is early to 100. And this is each managed individually in 15 professional organizations of research and management by characteristics of a business. For this Reason, A redundant investment issue regarding national R&D occurs, and an issue regarding efficiency of R&D investment by insufficiency of systematic R&D research project and result management is continuously raised. Ministry of Education Science and Technology establishing National Science & Technology Information Service(NTIS) in order to solve these issues. NTIS is the national R&D Portal System which can support efficiency of research and development to result utilization in planning of national research and development. As data of the same meaning are named particularly in each organizations, and that made to different data types, It is an issue to be difficult to achieve high level qualify, accuracy of integrated data in case of integration of distributed data like NTIS In this paper We consider integrated DB constructions and Information Linking of R&D Participants/Projects/Results information in a NTIS system for data qualify Improvement, and then We analyze the cause of the data quality problem, and we propose the improvement plan for data quality elevation of NTIS system.

Design and Implementation of a Personalized e-Mall with Association Rules based on View History of Excellent Customers (우수고객의 이력 뷰를 이용한 연관규칙 개별화 전자상점 설계 및 구현)

  • Jeong Kyeong-Ja;Han Jeong-Hye
    • Journal of Digital Contents Society
    • /
    • v.2 no.2
    • /
    • pp.117-127
    • /
    • 2001
  • Since the number of e-malls is increased by the rapidly Progress of internet, most e-malls are trying to increase customers' interests by providing personalized services. To Provide this service for CRM, the e-mall must use the personalized rules calculated from customer transaction database. The more filtered transaction data are, the more the e-mall services efficiently and exactly to customer's need. The filtered transaction database is necessary to obtain the food personalized rules. In this paper we propose and develope a personalized e-mall with association rules based on view history of excellent customers who have good transaction data. Association rules based on view history of excellent customers reduce the access time and computing costs. The e-mall with them can provide personalized services more efficiently and exactly.

  • PDF

Template Constrained Sequence to Sequence based Conversational Utterance Error Correction Method (문장틀 기반 Sequence to Sequence 구어체 문장 문법 교정기)

  • Jeesu Jung;Seyoun Won;Hyein Seo;Sangkeun Jung;Du-Seong Chang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.553-558
    • /
    • 2022
  • 최근, 구어체 데이터에 대한 자연어처리 응용 기술이 늘어나고 있다. 구어체 문장은 소통 방식 등의 형태로 인해 정제되지 않은 형태로써, 필연적으로 띄어쓰기, 문장 왜곡 등의 다양한 문법적 오류를 포함한다. 자동 문법 교정기는 이러한 구어체 데이터의 전처리 및 일차적 정제 도구로써 활용된다. 사전학습된 트랜스포머 기반 문장 생성 연구가 활발해지며, 이를 활용한 자동 문법 교정기 역시 연구되고 있다. 트랜스포머 기반 문장 교정 시, 교정의 필요 유무를 잘못 판단하여, 오류가 생기게 된다. 이러한 오류는 대체로 문맥에 혼동을 주는 단어의 등장으로 인해 발생한다. 본 논문은 트랜스포머 기반 문법 교정기의 오류를 보강하기 위한 방식으로써, 필요하지 않은 형태소인 고유명사를 마스킹한 입력 및 출력 문장틀 형태를 제안하며, 이러한 문장틀에 대해 고유명사를 복원한 경우 성능이 증강됨을 보인다.

  • PDF

Study of Trust Bigdata Platform (신뢰성 빅데이터 플렛폼의 연구)

  • Kim, Jeong-Joon;Kwak, Kwang-Jin;Lee, Don-Hee;Lee, Yong-Soo
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.16 no.6
    • /
    • pp.225-230
    • /
    • 2016
  • Recently, Web has arisen large amount of data that to the development of the network and the Internet. In order to process it appeared that Big Data technology. Big Data technologies have been studied aiming a multifaceted and accurate analysis using existing regular data and a variety of data social data. But social data does not have the expertise and objectivity. And such manipulation and concealment and distortion of information have been raised troubling. Thus, this paper proposes for trust big data platform and will be described in detail. The big data platform proposed in this paper consists of data refiner, Data Analyzer, co-truster, visualizer, searcher, etc.

Design and Implementation of Tor Traffic Collection System Using Multiple Virtual Machines (다수의 가상머신을 이용한 토르 트래픽 수집 시스템 설계 및 구현)

  • Choi, Hyun-Jae;Kim, Hyun-Soo;Shin, Dong-Myung
    • Journal of Software Assessment and Valuation
    • /
    • v.15 no.1
    • /
    • pp.1-9
    • /
    • 2019
  • We intend to collect and analyze traffic efficiently in order to detect copyright infringement that illegally share contents on Tor network. We have designed and implemented a Tor traffic collection system using multiple virtual machines. We use a number of virtual machines and Mini PCs as clients to connect to Tor network, and automate both the collection and refinement processes in the traffic collection server through script-based test client software. Through this system, only the necessary field data on Tor network can be stored in the database, and only 95% or more of recognition of Tor traffic is achieved.