• 제목/요약/키워드: 데이터 정제

검색결과 469건 처리시간 0.024초

점진적 빅데이터 학습기반의 전자저널 구독가치 큐레이션 서비스 (Journal Subscription Value Curation Service Based on Incremental Big Data Learning)

  • 이정원;진성일
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.409-410
    • /
    • 2019
  • 점진적 빅데이터 학습 기반의 전자저널 구독가치 큐레이션 서비스는 대용량의 학술정보 처리환경을 하드웨어 기반에서 소프트웨어 기반으로 데이터를 학습함에 있어 학습 소요시간 및 메모리 부족 문제 등을 해결하기 위해 널리 사용하는 자질축소 기법에 의존하지 않고 대량의 데이터를 자유롭게 학습하고 증분 데이터 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법이다. 학술정보의 논문요약과 참고문헌의 데이터 수집 정제 분류 저장 분석을 통해 활용할 수 있는 지표를 생성하여 도서관 학교 공공기관 연구기관 등에 제공하여 기관에서 구독하고 있는 학술지가 연구에 얼마나 활용되고 있는지를 판단하는 정보 가용성을 활용한 양질의 정보원을 확보하여 불필요한 저널 구독을 중단하고 연구자가 요구하는 품질 좋은 학술정보를 제공할 수 있는 서비스로 일반적인 학술문헌 이용도 평가방법과 달리 구독 가치에 대한 지표를 제공하는 큐레이팅 방법이다.

  • PDF

GAN 기반 고해상도 의료 영상 생성을 위한 연구 (GAN-based research for high-resolution medical image generation)

  • 고재영;조백환;정명진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.544-546
    • /
    • 2020
  • 의료 데이터를 이용하여 인공지능 기계학습 연구를 수행할 때 자주 마주하는 문제는 데이터 불균형, 데이터 부족 등이며 특히 정제된 충분한 데이터를 구하기 힘들다는 것이 큰 문제이다. 본 연구에서는 이를 해결하기 위해 GAN(Generative Adversarial Network) 기반 고해상도 의료 영상을 생성하는 프레임워크를 개발하고자 한다. 각 해상도 마다 Scale 의 Gradient 를 동시에 학습하여 빠르게 고해상도 이미지를 생성해낼 수 있도록 했다. 고해상도 이미지를 생성하는 Neural Network 를 고안하였으며, PGGAN, Style-GAN 과의 성능 비교를 통해 제안된 모델이 양질의 고해상도 의료영상 이미지를 더 빠르게 생성할 수 있음을 확인하였다. 이를 통해 인공지능 기계학습 연구에 있어서 의료 영상의 데이터 부족, 데이터 불균형 문제를 해결할 수 있는 Data augmentation 이나, Anomaly detection 등의 연구에 적용할 수 있다.

사회 연결망 분석을 활용한 공공데이터 간 연관성에 관한 연구 (A Study on the Linkability of Public Information Using Social Network Analysis)

  • 정다운;이미숙;신동빈
    • 한국측량학회지
    • /
    • 제35권6호
    • /
    • pp.461-470
    • /
    • 2017
  • 한국은 정부 3.0 정책을 기조로 하여 경제 성장을 증진하기 위한 주요 추진 동력으로써 공공데이터의 활용이 주요 이슈로 부각되고 있다. 그러나 한국정부는 현재 공공 영역에 축적되어 있는 데이터의 공개나 제공 수준에 머무르고 있다. 따라서 단순 공공데이터뿐만 아닌 공공데이터 간의 연계를 통한 새로운 정보를 창출하고, 관련 서비스의 개발 등이 요구되고 있다. 이에 본 연구는 공공데이터 목록을 수집 및 정제하고, 사회 연결망 분석을 통해 핵심 주제별 연관성이 높은 공공데이터 정보 목록을 도출하였다. 이를 위해서 첫째, 수집한 공공데이터 목록을 지자체 담당자를 대상으로 설문조사를 수행하였다. 이를 통해 접근 용이성 측면과 가공 용이성 측면에서 전처리 과정을 수행하여 불필요한 공공데이터를 정제하였다. 다음으로 개념적인 차원에서의 공공데이터 간 연관성을 분석하기 위해서 형태소 분석을 통해 공공데이터의 대표 키워드를 도출하였다. 이후 사회 연결망 분석을 활용하여 핵심 키워드(상위 10개) 및 연관성이 높은 공공데이터 목록을 도출하였다. 본 연구결과를 바탕으로, 향후에는 공공데이터 간 연계를 통해 융${\cdot}$복합된 새로운 정보를 기반으로 다양한 스마트시티 서비스를 창출할 수 있을 것으로 전망된다. 또한, 이를 위해서는 개념적 연계뿐만 아니라 실질적인 연계 방안이 도출되어야 할 것이며, 이에 따른 법${\cdot}$제도적 정비도 필요할 것으로 사료된다.

교통이력 데이터의 품질 개선과 What-If 분석을 위한 자료처리 기법의 구현 (Implementation of a Data Processing Method to Enhance the Quality and Support the What-If Analysis for Traffic History Data)

  • 이민수;정수정;최옥주;맹보연
    • 정보처리학회논문지D
    • /
    • 제17D권2호
    • /
    • pp.87-102
    • /
    • 2010
  • 현재 우리나라에서는 매일 막대한 양의 교통 데이터가 측정장치들로부터 수집되고 있으나 오류 데이터와 누락된 데이터들이 상당히 많은 실정이다. 더구나 이러한 데이터는 중요한 분석의 대상이 될 수 있음에도 불구하고 일정 시간이 지나면 삭제되고 있다. 그리하여 본 논문에서는 이러한 교통 데이터를 지속적으로 누적하여 다차원 모델로 저장하면서 데이터의 품질을 결정하는 유효성과 완전성을 높이면서 what-if 분석 기능을 지원하는 일련의 자료처리 과정을 제공하는 통합 교통이력 데이터베이스 시스템의 구현을 설명한다. 구현된 시스템에서는 다양한 오류 및 누락 데이터 패턴들을 보정하는 기법들을 제공하며, what-if 분석 기능은 다양한 데이터 정제 및 가공 과정들에 관련된 환경변수와 일련의 처리 과정들의 조합을 융통성 있게 정의하도록 함으로써 다양한 상황들을 가정하고 실험하여 결과를 분석할 수 있게 해준다. 이러한 what-if 분석 기능은 교통 데이터의 활용도를 획기적으로 높여주며 외국의 교통데이터 시스템들에서도 제공하지 못하고 있다. 교통이력데이터를 정제한 실험결과 매우 우수한 유효성 및 완전성을 가진 교통 데이터를 생성함을 확인하였다.

3차원 장면 복원을 위한 강건한 실시간 시각 주행 거리 측정 (Robust Real-Time Visual Odometry Estimation for 3D Scene Reconstruction)

  • 김주희;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권4호
    • /
    • pp.187-194
    • /
    • 2015
  • 본 논문에서는 RGB-D 입력 영상들로부터 3차원 공간을 움직이는 카메라의 실시간 포즈를 효과적으로 추적할 수 있는 시각 주행 거리측정기를 제안한다. 본 논문에서 제안하는 시각 주행 거리 측정기에서는 컬러 영상과 깊이 영상의 풍부한 정보를 충분히 활용하면서도 실시간 계산량을 줄이기 위해, 특징 기반의 저밀도 주행 거리 계산 방법을 사용한다. 본 시스템에서는 보다 정확한 주행 거리 추정치를 얻기 위해, 카메라 이동 이전과 이동 이후의 영상에서 추출한 특징들을 정합한 뒤, 정합된 특징들에 대한 추가적인 정상 집합 정제 과정과 주행 거리 정제 작업을 반복한다. 또한, 정제 후 잔여 정상 집합의 크기가 충분치 않은 경우에도 잔여 정상 집합의 크기에 비례해 최종 주행 거리를 결정함으로써, 추적 성공률을 크게 향상시켰다. TUM 대학의 벤치마크 데이터 집합을 이용한 실험과 3차원 장면 복원 응용 시스템의 구현을 통해, 본 논문에서 제안하는 시각 주행 거리 측정 방법의 높은 성능을 확인할 수 있었다.

RTLS를 위한 위치 데이터 스트림 처리기 개발 (Development of Location Data Stream Processor for RTLS)

  • 이승철;홍봉희;김기홍;박재관
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2007년도 GIS 공동춘계학술대회 논문집
    • /
    • pp.15-20
    • /
    • 2007
  • 최근 항만 물류 및 자산 관리 분야에서 실시간 위치 정보를 처리하는 RTLS(Real Time Locating System)시스템이 도입되고 있다. 이러한 시스템에서 RTLS 서버는 태그를 부착한 이동 객체들의 위치 데이터 스트림을 일정 시간 동안 수집하여 애플리케이션으로 전달한다. 이 때 위치 정보는 전파 굴절 현상으로 인해 오차가 발생하며, 이동 객체에 부착된 태그는 수 초 마다 위치 정보를 보고하기 때문에 시스템의 과부하를 초래하게 된다. 본 논문에서는 표준과의 호환성을 고려하고, 요구사항을 반영한 위치 데이터 스트림 처리기를 설계 및 개발하였다. RTLS 시스템의 전파 굴절 현상으로 야기되는 비정상적인 위치 오차를 보정하기 위해 맵 매칭 기법을 도입하여 위치 데이터 스트림의 신뢰성을 제공하며, 위치 변화가 없는 객체의 위치 데이터 스트림을 빠르게 정제하는 정지 상태 제거 필터를 개발하여 질의 처리 시 부하를 줄인다. 또한 각 애플리케이션의 질의 결과에 무의미한 위치 정보를 배제하는 중요 위치 수집기를 개발하여 시스템 성능을 향상시킨다.

  • PDF

고객 중심의 WEB-OLAP 지원을 위한 데이터 마트 설계 방안 연구 (Data Mart Design Techniques to Support Customer-Centered WEB-OLAP Function)

  • 이정협;최덕원
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2000년도 춘계공동학술대회 논문집
    • /
    • pp.728-730
    • /
    • 2000
  • 고객에게 일방적인 정보를 제공하는 매스마케팅 보다는 고객과의 대화를 통한 고객의 확보가 중요하게 되었다. 인터넷의 대중화로 고객과의 거리가 가까워져 고객 정보의 획득은 수월해진 반면 고객 확보에 어려움을 겪고 있다. 또한 고객들은 보다 합리적이고 현명해졌기 때문에 단순한 정보 제공보다는 다양한 정보분석을 요구하고 있다. 고객에게 다양한 정보분석 기능을 제공하기 위해서는 기존의 데이터 웨어하우스에서 고객이 원하는 정보를 분석할 수 있게 해주는 데이터 마트가 필요하며 웹 상에서 OLAP을 지원해야 한다. 즉 고객이 웹 상에서 다차원 정보에 직접 접근하여 대화식으로 정보를 분석하여 여러 의사결정에 활용하도록 지원하여야 한다. 이 연구에서는 고객의 의사결정에 필요로 하는 정보들을 추출, 분석하여 다차원 정보로 재구성 및 정제를 하는 데 대한 체계적 연구 분석을 통하여 데이터 마트의 설계방안을 제시하고자 한다. 고객은 Web-OLAP을 사용하여 데이터 마트 정보에 액세스하며 실시간 정보 분석을 수행할 수 있게된다.

  • PDF

스키마간 연관성을 이용한 테이블 군집화 기법 (Table Clustering Using Inter-schema Association)

  • 조순이;이도헌
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.85-87
    • /
    • 2001
  • 업무 데이터 분석을 통한 종합적인 의사결정을 지원할 수 있도록 데이터웨어하우스, OLAP, 데이터마이닝을 적용하려는 기업의 요구가 많아졌다. 그래서 기초 데이터의 이해, 선별, 수집, 가공, 정제가 매우 중요한 과정이나 테이블명 및 속성명이 표준화되어있지 않고 코드나 시스템 카탈로그와 같은 기본 데이터는 부정확하고 부족하다. 본 논문에서는 거의 스키마 정보에만 의존하여 테이블의 의미적 연관성에 근거한 유사한 특성을 가진 집단끼리 분류하는 대략적인 군집분석 방법을 제안한다. 질의 수행시 사용자가 설정한 임계 거리에 ㄸ라 관련된 군집만 검색함으로써 신속한 응답시간을 보장하고, 분석시점에서 다양한 질의에 유연하게 대처할 수 있다는 장점이 있다. 또한 실제 데이터에 본 연구를 적용하여 산출한 군집결과와 사람이 매뉴얼하게 그룹핑한 군집결과와 비교한다.

  • PDF

핵융합 기술 정보시스템 개발을 위한 원자 및 분자 데이터베이스 구축에 관한 연구 (The Study of Atomic & Molecular Database Structure for National Fusion Technology Information System Development)

  • 황성하;박준형;송미영;윤정식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(C)
    • /
    • pp.69-71
    • /
    • 2012
  • 핵융합 실증로는 미래 에너지원 개발을 위한 대형 프로젝트로 한국형 핵융합 실증로 건설 및 핵융합 에너지 상용화 기술을 개발하는데 목표로 한다. 이를 위해 원자 및 분자 충돌을 통한 데이터는 물리적으로 화학적으로 기본을 이루고 있으며 우리가 주로 접하는 데이터들이다. 특히, 플라즈마 내에서 일어나는 입자(전자, 원자, 이온 분자) 등의 충돌에 따른 데이터를 물성데이터라 하며 이는 핵융합, 반도체 제작, 디스플레이 장치 등의 다양한 분야에 응용된다. 본 논문은 원자 및 분자에 대한 데이터를 수집 및 정제하고 이를 저장하고 관리하는 기술 정보시스템 개발을 위한 원자 및 분자 데이터베이스 구축을 위한 방법을 연구한다.