• Title/Summary/Keyword: 데이터 정제

Search Result 466, Processing Time 0.035 seconds

A Study on Data Clustering of Light Buoy Using DBSCAN(I) (DBSCAN을 이용한 등부표 위치 데이터 Clustering 연구(I))

  • Gwang-Young Choi;So-Ra Kim;Sang-Won Park;Chae-Uk Song
    • Journal of Navigation and Port Research
    • /
    • v.47 no.4
    • /
    • pp.231-238
    • /
    • 2023
  • The position of a light buoy is always flexible due to the influence of external forces such as tides and wind. The position can be checked through AIS (Automatic Identification System) or RTU (Remote Terminal Unit) for AtoN. As a result of analyzing the position data for the last five years (2017-2021) of a light buoy, the average position error was 15.4%. It is necessary to detect position error data and obtain refined position data to prevent navigation safety accidents and management. This study aimed to detect position error data and obtain refined position data by DBSCAN Clustering position data obtained through AIS or RTU for AtoN. For this purpose, 21 position data of Gunsan Port No. 1 light buoy where RTU was installed among western waters with the most position errors were DBSCAN clustered using Python library. The minPts required for DBSCAN Clustering applied the value commonly used for two-dimensional data. Epsilon was calculated and its value was applied using the k-NN (nearest neighbor) algorithm. As a result of DBSCAN Clustering, position error data that did not satisfy minPts and epsilon were detected and refined position data were acquired. This study can be used as asic data for obtaining reliable position data of a light buoy installed with AIS or RTU for AtoN. It is expected to be of great help in preventing navigation safety accidents.

Semi-Automatic Learning Model for Health Data Ontology (건강데이터 온톨로지를 위한 반자동 학습 모델)

  • Kim, Kwnag-Seong;Hwang, Doo-Sung
    • 한국IT서비스학회:학술대회논문집
    • /
    • 2009.05a
    • /
    • pp.388-392
    • /
    • 2009
  • 웹 관련 기술의 발전과 더불어 정보시스템의 개발에서 기계가 자동 처리할 수 있는 데이터의 기술 방법으로 온톨로지의 사용이 보편화되고 있다. 온톨로지는 특정 영역의 개념과 그들간의 관계를 단순 명료하게 기술한다. 지식 발견을 위한 도메인 온톨로지 구축은 도메인의 이해, 데이터의 이해, 테스크의 이해, 온톨로지 학습, 온톨로지 평가, 정제 등 다단계를 통해 완성되나 전문성이 요구된다. 본 논문에서는 학습 기반 도메인 온톨로지 구축방법을 제안하고 건강데이터를 위한 온톨로지 구축에서 응용하였다. 제안된 학습 기반 온톨로지 구축 방법은 건강데이터의 세부 영역별 개념과 관계를 밝히는데 유용하였다.

  • PDF

항로표지 데이터 품질지수 산출에 관한 연구

  • 정제한;한윤석;이예경;다이리;탕멍위엔;장준혁;신상문
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2022.06a
    • /
    • pp.100-102
    • /
    • 2022
  • 데이터의 품질을 파악하고 그 기준을 선정하는 것은 해양 항로 표지와 같은 분석에 있어서 중요한 역할을 한다. 본 연구에서는 해양 분야에서 디지털 항로표지 데이터의 품질 진단을 위해 공정능력지수를 이용하여 데이터의 품질을 정량적으로 산출하고 그 결과에 대한 판정 기준을 명확히 하여 데이터에 대한 품질을 판단할 수 있는 척도를 제시하였다.

  • PDF

AI Model-Based Automated Data Cleaning for Reliable Autonomous Driving Image Datasets (자율주행 영상데이터의 신뢰도 향상을 위한 AI모델 기반 데이터 자동 정제)

  • Kana Kim;Hakil Kim
    • Journal of Broadcast Engineering
    • /
    • v.28 no.3
    • /
    • pp.302-313
    • /
    • 2023
  • This paper aims to develop a framework that can fully automate the quality management of training data used in large-scale Artificial Intelligence (AI) models built by the Ministry of Science and ICT (MSIT) in the 'AI Hub Data Dam' project, which has invested more than 1 trillion won since 2017. Autonomous driving technology using AI has achieved excellent performance through many studies, but it requires a large amount of high-quality data to train the model. Moreover, it is still difficult for humans to directly inspect the processed data and prove it is valid, and a model trained with erroneous data can cause fatal problems in real life. This paper presents a dataset reconstruction framework that removes abnormal data from the constructed dataset and introduces strategies to improve the performance of AI models by reconstructing them into a reliable dataset to increase the efficiency of model training. The framework's validity was verified through an experiment on the autonomous driving dataset published through the AI Hub of the National Information Society Agency (NIA). As a result, it was confirmed that it could be rebuilt as a reliable dataset from which abnormal data has been removed.

Development of urban river data management platform(I) (도시하천관리 연계 플랫폼 개발(I))

  • Lee, Sunghack;Shim, Kyucheoul;Koo, Bonhyun
    • Journal of Korea Water Resources Association
    • /
    • v.52 no.12
    • /
    • pp.1087-1098
    • /
    • 2019
  • In this study, we developed an integrated urban river data platform that collects, cleans, and provides data for urban river management. The urban river integrated data platform has the function of collecting data provided by various institutions using the Open API service. The collected data is purified through pre-processing and loaded into a database. The collected data can be reviewed and analyzed using a visualization system and provided through the Open API, so that it can be used as individual input data by combining them in the urban river model. In addition, the development system for real-time data was developed to apply real-time data to urban river models. Through this, users will be able to reduce the time and effort required for data collection, pre-processing and input data construction, thereby increasing efficiency and scalability in the development of urban river models and systems.

Virus communicable disease cpidemic forecasting search using KDD and DataMining (KDD와 데이터마이닝을 이용한 바이러스성전염병 유행예측조사)

  • Yun, JongChan;Youn, SungDae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2004.05a
    • /
    • pp.47-50
    • /
    • 2004
  • 본 논문은 대량의 데이터를 처리하는 전염병에 관한 역학조사에 대한 과정을 KDD(Knowledge Discovery in Database)와 데이터마이닝 기법을 이용해서 의료 전문인들의 지식을 데이터베이스화하여 데이터 선정, 정제, 보강, 예측과 빠른 데이터 검출을 하도록 하였다. 그리고 각 바이러스의 동향은 데이터마이닝을 활용하므로 일부분만의 데이터를 산출하지 않고 전체적인 동향을 산출, 예측하도록 한다.

  • PDF

Error tolerant Korean Roadname Address Conversion using Hierarchical Administrative Division and Edit Distance (행정구역 위계정보와 편집거리를 이용한 오류입력에 강한 도로명주소 변환)

  • Song, Jae-Yong
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1182-1185
    • /
    • 2013
  • 도로명주소가 법적 주소체계로 지정되고 2014년도부터 전면 시행을 앞두고 있는 상황에서 기존의 지번주소를 도로명주소로 변경하려는 수요가 늘고 있으며 그에 따라 주소 전환 서비스를 제공하는 솔루션들이 증가하고 있다. 행정구역 체계에 따라 단계별로 입력된 지번주소의 도로명주소로의 변환은 크게 어렵지 않고 변환 성공율도 상당히 높지만 자유롭게 입력하여 정제되지 않은 형태의 주소는 전환에 실패하는 경우가 많다. 본 논문에서는 전산입력된 지번주소를 도로명주소로 변환시 주소형태가 정제되지 않은 상황에서도 변환 성공률을 높이기 위해 행정구역 줄임, 일부 주소정보 누락, 오타 등 여러 가지 변형 케이스에 대해서도 유연하게 변환을 수행하는 방안을 연구하였다. 이를 통해 기존 지번 주소의 표준 형태로의 정제는 최대 두 배까지 변환효율을 높일 수 있었다. 그러나 변환시 사용하는 도로명주소 매칭 테이블에 자료의 누락, 건물명의 불일치, 지번과 건물의 1:1 매칭이 되지 않는 경우가 존재하여 원활한 주소 전환을 위해서는 데이터의 정비가 필요하다.

Fast Grid-Based Refine Segmentation on V-PCC encoder (V-PCC 부호화기의 그리드 기반 세그먼트 정제 고속화)

  • Kim, Yura;Kim, Yong-Hwan
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2022.06a
    • /
    • pp.265-268
    • /
    • 2022
  • Video-based Point Cloud Compression(V-PCC) 부호화기의 세그먼트 정제(Refining segmentation) 과정은 3D 세그먼트를 2D 패치 데이터로 효율적으로 변환하기 위한 V-PCC 부호화기의 핵심 파트이지만, 많은 연산량을 필요로 하는 모듈이다. 때문에 이미 TMC2 에 Fast Grid-based refine segmentation 과정이 구현되어 있으나, 아직도 세그먼트 정제 기술의 연산량은 매우 높은 편이다. 본 논문에서는 현재 TMC2 에 구현되어 있는 Fast Gridbased Refine Segmentation 을 살펴보고, 복셀(Voxel) 타입에 따른 특성에 맞춰 두 가지 조건을 추가하는 고속화 알고리즘을 제안한다. 실험 결과 압축성능(BD-BR)은 TMC2 와 거의 차이를 보이지 않았지만, 모듈 단위 평균 10% 연산량이 절감되는 것을 확인하였다.

  • PDF

Sensor Data Collection & Refining System for Machine Learning-Based Cloud (기계학습 기반의 클라우드를 위한 센서 데이터 수집 및 정제 시스템)

  • Hwang, Chi-Gon;Yoon, Chang-Pyo
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.2
    • /
    • pp.165-170
    • /
    • 2021
  • Machine learning has recently been applied to research in most areas. This is because the results of machine learning are not determined, but the learning of input data creates the objective function, which enables the determination of new data. In addition, the increase in accumulated data affects the accuracy of machine learning results. The data collected here is an important factor in machine learning. The proposed system is a convergence system of cloud systems and local fog systems for service delivery. Thus, the cloud system provides machine learning and infrastructure for services, while the fog system is located in the middle of the cloud and the user to collect and refine data. The data for this application shall be based on the Sensitive data generated by smart devices. The machine learning technique applied to this system uses SVM algorithm for classification and RNN algorithm for status recognition.

Black Ice Formation Prediction Model Based on Public Data in Land, Infrastructure and Transport Domain (국토 교통 공공데이터 기반 블랙아이스 발생 구간 예측 모델)

  • Na, Jeong Ho;Yoon, Sung-Ho;Oh, Hyo-Jung
    • KIPS Transactions on Software and Data Engineering
    • /
    • v.10 no.7
    • /
    • pp.257-262
    • /
    • 2021
  • Accidents caused by black ice occur frequently every winter, and the fatality rate is very high compared to other traffic accidents. Therefore, a systematic method is needed to predict the black ice formation before accidents. In this paper, we proposed a black ice prediction model based on heterogenous and multi-type data. To this end, 12,574,630 cases of 46 types of land, infrastructure, transport public data and meteorological public data were collected. Subsequently, the data cleansing process including missing value detection and normalization was followed by the establishment of approximately 600,000 refined datasets. We analyzed the correlation of 42 factors collected to predict the occurrence of black ice by selecting only 21 factors that have a valid effect on black ice prediction. The prediction model developed through this will eventually be used to derive the route-specific black ice risk index, which will be utilized as a preliminary study for black ice warning alart services.