• 제목/요약/키워드: 데이터 정제

검색결과 466건 처리시간 0.042초

사이언스 빅 데이터(Science Big Data) 처리 기술 동향

  • 김희재;주경노;윤찬현
    • 정보와 통신
    • /
    • 제29권11호
    • /
    • pp.11-23
    • /
    • 2012
  • 본 고에서는 과학 분야에서의 대용량 데이터 처리를 위한 기술인 사이언스 빅데이터의 처리 기술 동향에 대하여 기술한다. 서론에서 사이언스 빅데이터의 정의 및 필요성을 다루고, 본론에서는 데이터 중심 과학 패러다임의 등장과 그로 인한 사이언스 빅데이터 요구사항, 사이언스 빅데이터 소스 수집 및 정제, 저장 및 관리, 처리, 분석 등으로 이루어지는 사이언스 빅데이터 처리 기법에 대하여 기술한다. 또한 현재 다양한 기관에서 연구하고 있는 사이언스 빅데이터 플랫폼, 맵리듀스 등을 이용한 워크플로우 제어 기반의 사이언스 빅데이터 처리 기법을 예시로 소개한다.

빅데이터 플랫폼 기반 건물 에너지 통합 관리 시스템 설계 (Design of Building Energy Management System Using Big data Platform)

  • 김태형;정연쾌;이일우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 춘계학술발표대회
    • /
    • pp.580-581
    • /
    • 2016
  • 국제적으로 지속적인 이슈가 되고 있는 에너지 절감에 대한 대책으로 다양한 에너지 절감 기술들이 연구 개발되고 있다. 특히 전체 에너지 사용량의 약 20%이상을 차지하는 건물(가정/상업/공공)부문에서는 에너지 진단 및 분석을 수행하기 위해 건물 에너지 관리 시스템(BEMS: Building Energy Management System)과 건물 자동화 시스템(BAS: Building Automation System) 그리고 다양한 환경정보들을 수집하여 활용한다. 하지만 기존 분석 방식은 결과의 신뢰성에 최소한의 영향을 주면서 데이터 관리 효율을 높이는 방법에 초점을 맞춰 연구가 진행되었으며, 이를 위해 기존에 수집된 데이터를 압축하거나 샘플링하는 사전 정제 과정을 거치게 되었다. 하지만 빅데이터 플랫폼을 활용하면 더 이상 신뢰성을 낮추면서까지 데이터를 정제할 필요가 없어지고, 수집되는 모든 데이터에 대한 다차원 분석을 빠르게 수행할 수 있게 된다. 따라서 본 논문에서는 하드웨어의 한계로 기존 건물에너지 진단 및 분석 시스템에서 제공하지 못했던 다양한 분석 및 진단 서비스들을 빠르고 정확하게 제공하도록 하는 빅데이터 플랫폼 기반 건물 에너지 통합 관리 시스템 설계에 대해 서술한다.

시차 정제를 위한 분리형 중앙-최댓값 필터 (Separable Median-Max Filter for Disparity Refinement)

  • 최철호;하지석;문병인
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.712-714
    • /
    • 2022
  • 스테레오 정합을 통해 산출되는 초기 시차 영상의 정합 정확도는 고주파 및 잡음 성분에 의해 감소될 수 있다. 또한, 폐색 및 질감이 없는 영역에서 잘못된 정합 결과가 산출됨으로 인해 정합 정확도가 감소될 수 있다. 정합 정확도를 향상시키기 위해 시차 정제에 관한 선행 연구들이 수행되었지만 정제 과정을 통한 정합 정확도 성능과 처리 속도간 트레이드-오프가 존재한다. 이에 본 논문에서는 종래 시차 정제 방법 대비 향상된 처리 속도와 함께 높은 시차 정제 성능을 갖는 분리형 중앙-최댓값 필터를 제안한다. 제안하는 방법의 정제 성능 및 평균 처리 시간을 객관적으로 평가하기 위해 KITTI 2015 stereo benchmark 데이터셋을 사용하였다. 제안하는 방법의 평균 오차율은 비폐색 및 폐색 조건에서 종래 방법 대비 각각 최소 25.61% 및 23.68% 감소되었다. 또한, 제안하는 방법의 처리 속도는 종래 방법 대비 최소 13.29% 향상되었다. 따라서 제안하는 방법은 빠른 처리 속도 및 높은 정확도 성능을 요구하는 스테레오 비전 시스템에 활용될 수 있다.

수출입 신고데이터 품질제고를 위한 전자통관 시스템 개선 (Improvement of the Electronic Customs System to Improve the Quality of Export and Import Declaration Data)

  • 조항진;박구락;이장식
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.429-430
    • /
    • 2021
  • 본 논문에서는 우리나라 수출입 등 통관의 전반적인 것을 담당하는 전자통관시스템의 문제점을 발굴하고 개선점을 찾아 보완하여 보다 진화된 양질의 전자통관시스템으로 개발하는 것을 목표로 하고 있다. 전자통관시스템의 문제점을 중심으로 구분하면 통관업무, 사전검증시스템, 데이터정제시스템으로 볼 수 있다. 각 부분별로 문제점을 분석한 결과 오류 데이터 전송, 자가진단 점검기능 부재, 경험치로 관리, 사후관리 체계 부재, 오류분석 기능 미활용으로 나왔으며, 이런 문제점을 해결하기 위해 개선방안에 대해 면밀히 검토하여 맞춤형 대책을 마련하여 처음 신고인이 양질의 정보를 정확히 입력할 수 있는 시스템 구축부터 검증시스템을 통해 정확한 정보를 정제하는 중간단계를 거쳐 마지막으로 최상의 결과를 도출 및 제공하기까지 시스템을 향상시켜 이용객에게 더욱 정확한 처리결과 제공 및 진화된 국가행정시스템을 구축함으로써 국가경쟁력을 강화할 수 있다.

  • PDF

360° 영상 응용을 위한 벤치마크 데이터 생성 연구 (Benchmark Dataset Generation for 360-degree Image Applications)

  • 이종성;이의진
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.112-115
    • /
    • 2021
  • 최근 가상현실 및 증강 현실에 대한 관심도가 높아지면서, 깊이 추정, 객체 인식, 영상 분할 등의 다양한 컴퓨터 비전 알고리즘을 360° 영상에 적용하는 연구가 활발히 진행되고 있다. 이 중, 다수의 RGB 카메라를 활용하여 3 차원 정보를 추출하는 깊이 추정 기술은 보다 나은 몰입감을 제공하기 위한 핵심 기술이다. 그러나 깊이 추정 알고리즘의 객관적 성능 평가를 위한 정제된 360° 영상 데이터셋은 극히 부족하며, 이로 인하여 관련 분야 연구에 한계가 있다. 따라서 본 논문에서는 객관적인 알고리즘 성능 평가가 가능하며, 정제된 360° 동영상 데이터셋을 제안하고, 추후 다양한 360° 영상 응용 알고리즘 개발에 활용하고자 한다.

  • PDF

임의의 다각형 질의 윈도우를 이용한 공간 선택 질의의 정제 전략 (A Refinement Strategy for Spatial Selection Queries with Arbitrary-Shaped Query Window)

  • 유준범;최용진;정진완
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.286-295
    • /
    • 2003
  • 공간 선택 질의에 사용되는 질의 윈도우로는 직사각형이 주로 사용된다. 하지만, 공간 선택 질의의 윈도우로는 직사각형이 아닌 일반적인 다각형 모양도 가능하며, 최근에는 GIS 등과 같은 응용 프로그램들이 성능 향상으로 인해 보다 많은 공간 데이터를 다룰 수 있게 됨에 따라, 여러 다양한 종류의 응용도 많이 등장하고 있다. 따라서, 직사각형뿐만 아니라 임의의 다각형 형태의 질의 윈도우에도 적합한 정제 단계 수행 전략에 대해 고려해 볼 필요가 있다. 이러한 전략으로는 기존의 공간 조인에서와 같이 plane-sweep 알고리즘을 이용하는 방법이 일반적이다. 하지만, 공간 데이터와 질의 윈도우의 특성을 관찰해보면, 일반적으로 질의 윈도우가 공간 데이터보다 훨씬 간단한 모양으로 구성되어 있음을 알 수 있으므로, 본 논문에서는 이러한 상황에 보다 적합한 정제 단계 수행 방법을 제시하고 있다. 실험을 통해 알 수 있듯이, 질의 윈도우를 구성하는 점의 개수가 약 20개 이하인 일반적인 경우에는, 본 논문에서 제시하는 새로운 방법이 기존의 방법보다 20% 정도 향상된 성능을 보이고 있다.

통신 데이터를 활용한 도보관광코스 유동인구 추정 및 분석 (Estimation of Flow Population of Seoul Walking Tour Courses Using Telecommunications Data)

  • 박예림;강영옥
    • 지적과 국토정보
    • /
    • 제49권1호
    • /
    • pp.181-195
    • /
    • 2019
  • 본 연구의 목적은 통신 데이터를 통해 구축한 유동인구 데이터를 활용하여 서울시 도심도보관광코스 내 유동인구 특성을 파악하고 효과적으로 시각화하여 공간적인 맥락을 분석하는 것이다. 도로에 따른 유동인구 추정을 위해 유동인구 데이터 정제 기법을 개발하여 도보관광코스 별 유동인구 데이터를 구축하였다. 도보관광코스 분석에 적합한 형태로 정제하기 도로 주변 유동인구 값을 고려한 유동인구 추정하여 도보관광코스 내 유동인구를 할당하였다. 정제된 데이터를 바탕으로 서울도보관광 18개 코스 각각의 유동인구 특성과 공간 특성을 도출하였다. 도보관광코스 내 유동인구의 공간 밀도와 집중 구간을 분석하기 위해 커널 밀도분석과 Getis-Ord $G^*_i$ 통계를 적용하였으며 3D 시각화를 통해 서울도보관광 18개 코스별 유동인구 특성을 성, 연령, 시간, 요일에 따라 정량적으로 파악하였다. 그 결과 청계천 제1코스, 경희궁-서대문코스, 인사동-운현궁 코스 순으로 유동인구 규모가 크게 나타났으며 주중에는 인사동-운현궁, 주말에는 성북동 코스의 유동인구가 많았다. 남성 유동인구 비율이 가장 높은 코스는 청계천 제1코스, 여성 유동인구 비율이 가장 높은 코스는 몽촌토성 코스였다. 주말 유동인구 비율이 가장 높은 도보관광코스는 성북동 코스임을 확인할 수 있었다.

데이터 품질을 고려한 국가R&D정보 데이터베이스의 통합 사례 연구 - NTIS 데이터베이스 통합 사례 (A Data Cleansing Strategy for Improving Data Quality of National R&D Information - Case Study of NTIS)

  • 신성호;윤영준;양명석;김진만;손강렬
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권6호
    • /
    • pp.119-130
    • /
    • 2011
  • 데이터 품질관리 관점에서 볼 때, 데이터의 품질은 품질정책, 품질조직, 업무프로세스, 업무규칙 등 여러 요인에 의해 영향을 받는다. 이중에서도 업무규칙은 실제 데이터를 조작하는 행위의 지침이 되는 것으로써 데이터 품질에 직접적인 영향을 미친다. 여러 기관의 데이터베이스를 통합하여 단일의 데이터베이스를 구축하는 경우에는 더 신중하게 업무규칙을 수립할 필요가 있다. 분산된 데이터베이스 내에 있는 데이터를 단일의 데이터베이스로 통합한다는 것은 단순히 데이터의 통합만을 의미하는 것이 아니라 상이한 스키마, 코드 체계, 데이터 표준 등을 사전에 고려해야 함을 의미한다. 이런 요소들을 고려하더라도 데이터 자체는 형식, 단위, 표현 등에 따라서 다양한 모습을 가진다. 결국 데이터베이스의 구조적인 문제와 데이터 자체의 의미적인 문제가 데이터베이스 통합과 통합된 데이터베이스 내 데이터의 품질 제고를 위한 선결 과제라 할 수 있다. 이러한 문제들을 해결하기 위해서는 먼저 통합 시 통합 모델의 설계가 필요하고, 통합된 데이터베이스의 데이터에 대한 정제가 필요하다. 범부처적으로 분산되어 있는 국가R&D정보를 수집하여 서비스하는 국가과학기술종합정보서비스(NTIS)도 여러 기관에 존재하는 데이터베이스를 연계 통합하여 단일의 데이터베이스를 구축하였다. NTIS의 사례를 통해 체계적인 통합 모델 수립과 정제에 의해 통합된 데이터베이스의 데이터는 그렇지 않은 데이터보다 정확도 측면에서 품질이 제고되었음이 입증되었다.