• 제목/요약/키워드: 데이터기반연구

검색결과 14,093건 처리시간 0.042초

R기반 데이터마이닝 분석을 통한 상수관망 자료 활용가능성 제시 (Presenting the possibility of using water pipe network data through R-based data mining analysis)

  • 홍성진;이찬욱;유도근
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2020년도 학술발표회
    • /
    • pp.236-236
    • /
    • 2020
  • 데이터마이닝은 빅데이터를 활용하는데 주로 활용되는 기술이다. 빅데이터 활용의 중요성이 증대됨에 따라 빅데이터를 기반으로 데이터마이닝을 활용한 생산, 금융, 통신 등의 성공적인 활용사례가 있지만 상수도 시설물에 적용한 사례는 드물다. 본 연구에서는 R프로그램을 기반으로 확보하기 어려운 데이터를 얻고자 관련 기사를 수집하고 데이터마이닝의 주요 기능인 분류, 군집(K-means)분석을 수행하였다. 예를들어, 상수관로의 정밀한 누수 분석을 위해서는 관경, 매설년도 등의 세분화된 자료가 필요하나 이러한 자료들은 쉽게 확보할 수 없다는 한계를 갖고 있다. 이러한 관점에서 상수관망 단수, 누수 등의 키워드를 통해 얻을 수 있는 기사를 기반으로 주요 키워드에 대한 군집분석을 수행하여 세분화된 상수관망 자료를 획득 및 분석하였다. 단수, 누수 키워드 기사에 의해 관경정보 등 파손된 관로의 정보를 확보할 수 있는 것으로 나타났으며 향후 확보하기 어려운 데이터를 보완할 수 있는 방법 중 하나로 활용될 수 있을것으로 기대된다. 그러나, 데이터의 양과 보다 정교한 군집분석을 위한 키워드설정 등의 추가연구가 필요할 것으로 판단된다.

  • PDF

해사데이터의 과학적 분석 및 활용을 위한 현행 법제도 개선방안 (Improvement of Current Legal System for Promoting Scientific Analysis and Utilization of Maritime Data)

  • 임광현;백종화;조득재
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.304-305
    • /
    • 2022
  • 최근 디지털 통신기술이 해사(海事)분야에도 널리 적용되기 시작하면서 대용량의 데이터가 축적되고 있으며, 이에 따라 데이터과학 및 인공지능 기술을 활용하여 새로운 가치를 창출하기 위한 시도가 널리 이루어지고 있다. 대표적으로 우리나라 해양수산부는 LTE-Maritime 통신망을 기반으로 지능형 해상교통정보 서비스를 2021년부터 국민들에게 제공하고 있으며, 이와 함께 대용량의 해상교통정보를 데이터과학 기반으로 분석하여 서비스를 개선하는 등 부가가치를 창출하기 위한 연구개발이 진행되고 있다. 한편 이러한 해사 분야의 데이터 기반 연구를 수행하기 위해서는 연구자가 원하는 데이터를 적시에 제공받아 활용할 수 있는 법제도적 연구 환경의 조성이 필수적이다. 이번 연구에서는 우리나라 해사 분야 데이터의 종류를 살펴보고, 과학적 분석 및 활용과 관련된 법제도를 식별하였다. 연구 결과 개별 해사데이터의 활용을 제한하는 법제도적 요인이 있음을 확인하였으며, 이를 개선하여 데이터 기반 연구개발을 촉진하기 위한 방안을 제시하였다.

  • PDF

희박한 고객 활동 데이터에서 최신성 기반 추천 성능 향상 연구

  • 백상훈;김주영;안순홍
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.781-784
    • /
    • 2019
  • 최근 AI를 산업 서비스에 적용하기 위해 많은 회사들이 활발히 연구를 하고 있다. 아마존과 넷플릭스 같은 거대 기업들은 이미 빅데이터와 AI 머신러닝을 이용한 추천 시스템을 구현하였고 아마존은 매출의 35%가 추천에 의해 발생하고 넷플릭스 75%의 사용자가 추천을 통해 영화를 선택한다고 보고되었다. 이러한 두 기업의 높은 추천 효율성의 이유는 협업 필터링(Collaborative filtering)과 같은 다양한 추천 알고리즘과 방대한 상품 및 고객 행동(구매, 시청 등) 데이터 등이 존재하고 있기 때문이다. 기계학습에서 알고리즘 학습을 위한 데이터의 양이 많지 않을 경우 알고리즘의 성능을 보장할 수 없다는 것이 일반적인 의견이다. 방대한 데이터를 가진 기업에서 추천 알고리즘을 적극적으로 활용 및 연구하고 있는 것도 이러한 이유 때문이다. 반면, 오프라인 및 여행사 기반에서 온라인 기반으로 영역을 차츰 확대하고 있는 항공 서비스 고객 데이터의 경우, 산업의 특성상 많은 회원에 비해 고객 1명당 온라인에서 활동하는 이력이 많지 않은 것이 특징이다. 이는, 추천 알고리즘을 통한 서비스 제공에서 큰 제약사항으로 작용한다. 본 연구에서는, 이러한 희박한 고객 활동 데이터에서 최신성 기반의 추천 시스템을 통하여 제약사항을 극복하고 추천 효율을 높이는 방법을 제안한다. 고객의 최근 접속 이력 로그를 시간 기준으로 데이터 셋을 분할하여 추천 알고리즘에 반영하였을 때, 추천된 노선에 대한 고객의 반응을 추천 성능 지표인 CTR(Click-Through Rate)로 측정하여 성능을 확인해 보았다.

데이터 기반 R&D 지원을 위한 연구자의 학술정보 및 데이터 요구 분석 연구 (A Study on the Scholarly Information and Data Requirements of Researchers for Data-Driven Research and Development)

  • 이석형;이강산다정;김재훈;이혜진
    • 한국문헌정보학회지
    • /
    • 제58권1호
    • /
    • pp.255-283
    • /
    • 2024
  • 본 연구에서는 연구자의 데이터 기반 R&D를 효율적으로 지원하기 위해 새로운 학술정보유형과 데이터셋을 발굴하고, 학술정보서비스의 방향을 제시하기 위한 선행 연구로서 연구자가 필요한 학술정보와 데이터 요구사항을 분석하였다. 이를 위해 관련 연구자 5인의 탐색적 사례 연구와 ScienceON 이용자의 온라인 설문을 통해 데이터 기반 R&D 행태 및 정보·데이터 요구사항을 도출하였다. 그 결과 데이터 기반 연구를 수행하는 연구자들은 학술논문을 많이 활용하며 데이터셋이나 소프트웨어 정보 또한 학술논문이나 학술회의자료로부터 참조하는 것으로 나타났다. 또한 주제 분야별로 활용하는 데이터 확보 방법, 획득 경로와 활용 데이터 유형이 차이가 있으며, 연구자들은 필요한 데이터셋이나 학습모델과 같은 소프트웨어가 어디에 있고 어떻게 확보해야할지 모르는 경우가 많아 연구를 수행하는데 애로사항이 많은 것으로 나타났다. 향후 데이터 기반 R&D를 지원하기 위해 주제별로 데이터셋을 체계적으로 구축해야할 필요가 있으며, 학술논문과 연계하여 데이터셋과 관련 소프트웨어 정보를 별도로 추출·요약해서 제공하는 방안을 고려해야 할 것으로 분석하였다.

시계열 데이터 특성 기반 품질 관리 방법 연구 (Data Quality Management Method base on Seasonality from Time series Data)

  • 이지훈;문재원;황지수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2022년도 하계학술대회
    • /
    • pp.93-96
    • /
    • 2022
  • IoT 기기의 보급 및 확산으로 많은 산업군에서 이를 바탕으로 시계열 데이터를 획득하고 분석하려는 시도가 확대되고 있다. 시간의 흐름에 따라 저장된 데이터들은 주기에 따라 특정 패턴을 갖는 경우가 많으며 이러한 패턴을 파악한다면 주요 산업군의 의사 결정에 도움이 된다. 그러나 IoT 기기의 수집 오류 및 네트워크 환경에 의해 대부분의 시계열 데이터들은 누락 데이터, 이상 데이터를 갖고 있으며 이를 처리하지 않고 분석할 경우 오히려 잘못된 결과를 초래한다. 본 논문에서는 패턴 파악을 위해 '시간, 일, 주, 월, 년' 등 시간의 주기를 기준으로 데이터를 분할하며 이에 기반하여 데이터셋을 재구성하고 활용 가능한 데이터와 불가능한 데이터로 구분한다. 선별된 데이터셋은 클러스터링에 적용하였으며, 제안하는 방법을 적용할 경우 주기를 갖는 시계열 데이터를 활용하는 분석 및 학습에서 더 나은 결과를 보임을 확인하였다.

  • PDF

RFID 기반에서 정보 서버를 위한 웹 데이터 구조 설계 (Web Data Structure Design For Information Server Based on RFID)

  • 고민정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 춘계학술발표대회
    • /
    • pp.915-917
    • /
    • 2007
  • 최근 RFID 기술 보급이 증가되면서 이를 활용한 웹 데이터 교류가 활발해지고 있다. 이러한 RFID 기반의 웹 데이터를 신속하게 처리하기 위해서는 처리되는 데이터의 형태와 구조에 대한 연구가 필요하다. 현재 RFID 기반에서 교환되는 데이터는 서버의 정보 서버와 클라이언트의 로컬 서버로 분류되어 처리되고 있으며, 이 경우에는 교류되는 다양한 데이터가 구조화가 되지 않아서 많은 전송량으로 인하여 처리시간이 길어지는 어려움이 있다. 본 논문에서는 이러한 문제점을 해결하고자 RFID 기반에서 발생되는 데이터를 분석하고, 여기에 적합한 처리 과정을 적용하여 데이터의 처리시간을 단축하는 방법을 제안한다. 이를 통하여 RFID 기반 정보 서버의 웹 데이터 구조화를 기할 수 있으며, 우수한 전송 속도를 보장하는 시스템 환경 구축이 가능하다.

  • PDF

그래프 기반 음악 추천을 위한 소리 데이터를 통한 태그 자동 분류 (Automatic Tag Classification from Sound Data for Graph-Based Music Recommendation)

  • 김태진;김희찬;이수원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권10호
    • /
    • pp.399-406
    • /
    • 2021
  • 콘텐츠 산업의 꾸준한 성장에 따라 수많은 콘텐츠 중에서 개인의 취향에 적합한 콘텐츠를 자동으로 추천하는 연구의 필요성이 증가하고 있다. 콘텐츠 자동 추천의 정확도를 향상시키기 위해서는 콘텐츠에 대한 사용자의 선호 이력을 바탕으로 하는 기존 추천 기법과 더불어 콘텐츠의 메타데이터 및 콘텐츠 자체에서 추출할 수 있는 특징을 융합한 추천 기법이 필요하다. 본 연구에서는 음악의 소리 데이터로부터 태그 정보를 분류하는 LSTM 기반의 모델을 학습하고 분류된 태그 정보를 음악의 메타 데이터로 추가하여, 그래프 임베딩 시 콘텐츠의 특징까지 고려할 수 있는 KPRN 기반의 새로운 콘텐츠 추천 방법을 제안한다. 카카오 아레나 데이터 기반 실험 결과, 본 연구의 제안 방법은 기존의 임베딩 기반 추천 방법보다 우수한 추천 정확도를 보였다.

엔지니어링 서비스 지원을 위한 클라우드 기반 빅데이터 플랫폼 개발 연구 (A Study of Bigdata Platform for Supporting Engineering Services)

  • 서동우;김명일;박상진;김재성;정석찬
    • 한국빅데이터학회지
    • /
    • 제4권1호
    • /
    • pp.119-127
    • /
    • 2019
  • 본 연구는 엔지니어링 분야에서 생성되는 대용량의 빅데이터를 효율적으로 저장, 관리, 분석하는 클라우드 기반 빅데이터 플랫폼을 제안하고자 한다. 클라우드 기반 빅데이터 플랫폼은 HPC 클라우드 환경, 엔지니어링 빅데이터 분석 플랫폼, 데이터 수집 및 처리 모듈, 인공지능 기반 분석 라이브러리, 응용서비스로 구성된다. 이를 통해 데이터 분석에 대한 전문지식이 없는 엔지니어링 전문가가 IoT 빅데이터를 수집 및 분석함으로써 산업적으로 활용이 가능하다. 마지막으로 응용서비스에서는 빅데이터 플랫폼 적용 사례를 제시하기 위해 하수처리플랜트 데이터를 이용하여 서비스를 구현하였다.

  • PDF

관제 로그의 빅데이터 관리 방안 연구 (A Study on the Big Data Management of VTS Log)

  • 김혜진;오재용
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2019년도 추계학술대회
    • /
    • pp.24-25
    • /
    • 2019
  • 최근 빅데이터 기술 개발로 방대한 데이터의 유의미한 분석 및 예측이 용이해졌다. 선박교통관제센터에서는 각종 센서와 다양한 정보를 기반으로 VHF 교신을 통해 선박교통관제를 수행한다. 관제사가 활용하는 레이더, AIS, Port-MIS. 센서 등의 데이터들이 디지털로 저장되고 있으며, 관제사의 VHF 교신내용은 디지털파일로 저장되어 선박교통관제센터의 서버 2개월간 보관된다. 본 논문에서는 관제 결과로 저장되고 있는 관제 로그 데이터를 활용하여 빅데이터를 구성하고 이를 기반으로 유의미한 정보를 생성할 수 있는 방안을 연구하였다.

  • PDF

매뉴얼 기반의 소프트웨어 분석 및 테스트 데이터 생성 방안 (A Method for Manual-based Software Analysis and Test Data Generation)

  • 이윤정;천은경;최병주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.394-396
    • /
    • 2002
  • 품질 인증 테스트는 소프트웨어 품질을 결정하고 보증하기 위하여 인증 기관에서 제품 개발 후에 수행하는 테스트이다. 제품 개발 완료 후에 매뉴얼과 소프트웨어 제품을 가지고 수행되므로 효과적으로 테스트가 수행되기 위해서는 제품의 매뉴얼과 제품에 대한 정확한 분석을 해야 하고 이를 바탕으로 테스트 데이터를 생성해야 한다. 따라서 본 연구에서는 매뉴얼 기반의 테스트 데이터 선정 기법을 제안한다. 본 연구에서 제안한 매뉴얼 기반의 테스트 분석 모델과 테스트 데이터 선정기법을 사용하면 보다 정확하고 체계적인 데스트를 수행 할 수 있을 것이다.

  • PDF