• 제목/요약/키워드: 개방 데이터 마이닝

검색결과 19건 처리시간 0.021초

데이터 스트림에서 개방 데이터 마이닝 기반의 빈발항목 탐색 (Finding Frequent Itemsets based on Open Data Mining in Data Streams)

  • 장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제10D권3호
    • /
    • pp.447-458
    • /
    • 2003
  • 기존의 데이터 마이닝 방법들은 기본적으로 지식 발견의 대상이 되는 데이터 집합이 마이닝 작업 시작 이전에 명확히 정의되는 것으로 가정하며 이러한 가정은 고정적으로 정의된 특정 데이터 집합에 내재된 정보 추출이 데이터 마이닝의 목적이 될 때 유효하다. 또한, 기존의 데이터 마이닝 방법들은 대용량의 데이터 집합에 대한 마이닝 결과를 얻는데 있어서 상당한 처리 시간을 요구한다. 따라서, 새로운 트랜잭션 데이터가 지속적으로 추가되는 데이터 스트림에서 추가된 트랜잭션의 정보들을 포함하는 최신의 마이닝 결과를 최대한 빠른 시간 안에 얻기를 기대하는 실시간 처리 환경에서는 기존의 데이터 마이닝 방법을 적용하는 것이 거의 불가능하다. 이러한 목적에 부합하기 위해서 본 논문에서는 새로운 데이터 마이닝 개념인 개방 데이터 마이닝을 제안한다. 개방 데이터 마이닝에서는 새로운 트랜잭션이 발생함에 따라 이전에 발생한 트랜잭션들에 대한 마이닝 결과가 새롭게 갱신되며 따라서 확장된 전체 트랜잭션 집합에 대한 마이닝 결과를 빠르게 얻을 수 있다. 이러한 방법을 효과적으로 구현하기 위해서는 새롭게 출현한 항목에 대한 지연추가와 이전 데이터 집합에 출현한 항목들 중에서 중요하지 않는 항목에 대한 전지작업이 병행되어야 한다. 논문에서 제안하는 알고리즘은 알고리즘의 특성을 파악하기 위한 일련의 다양한 실험을 통해서 검증된다.

개방 데이터 마이닝에 효율적인 이동 윈도우 기법 (A Sliding Window Technique for Open Data Mining over Data Streams)

  • 장중혁;이원석
    • 정보처리학회논문지D
    • /
    • 제12D권3호
    • /
    • pp.335-344
    • /
    • 2005
  • 근래들어 구성 요소가 빠른 속도로 지속적으로 발생되는 무한 집합으로 정의되는 데이터 스트림에 대한 개방 데이터 마이닝 방법들이 활발히 제안되고 있다. 데이터 스트림에 내재된 정보들은 시간 흐름에 따른 변화의 가능성이 매우 높다. 따라서, 이러한 변화를 빠른 시간에 분석할 수 있다면 해당 데이터 스트림에 대한 분석에서 보다 유용한 정보를 제공할 수 있다. 본 논문에서는 개방 데이터 마이닝 환경에서 효율적인 최근 빈발 항목 탐색을 위한 이동 윈도우 기법을 제시한다. 해당 기법에서는 데이터 스트림이 지속적으로 확장되더라도 지연 추가 및 전지 작업을 적용하여 마이닝 수행과정에서의 메모리 사용량이 매우 작게 유지되며, 분석 대상 범위의 데이터 객체들을 반복적으로 탐색하지 않기 때문에 각 시점에서 마이닝 결과를 짧은 시간에 구할 수 있다. 더불어, 해당 방법은 데이터 스트림의 최근 정보에 집중한 분석을 통해 해당 데이터 집합의 변화를 효율적으로 감지할 수 있다.

텍스트 마이닝 기반의 온라인 상품 리뷰 추출을 통한 목적별 맞춤화 정보 도출 방법론 연구 (A Study on the Method for Extracting the Purpose-Specific Customized Information from Online Product Reviews based on Text Mining)

  • 김주영;김동수
    • 한국전자거래학회지
    • /
    • 제21권2호
    • /
    • pp.151-161
    • /
    • 2016
  • 개방, 공유, 참여를 특징으로 하는 웹 2.0 시대로 들어서면서 인터넷 사용자들의 데이터 생산 및 공유가 쉬워졌다. 이에 따른 데이터의 기하급수적인 증가와 함께 디지털 정보의 대부분인 비정형적 데이터(Unstructured Data)의 양도 증가하고 있다. 인터넷에서 정해진 형식 없이 자연어 형태로 만들어진 비정형 데이터 중, 특정 상품들에 대해 개인이 평가한 리뷰들은 해당 기업이나 해당 상품에 관심이 있는 잠재적 고객에게 필요한 데이터이다. 많은 양의 리뷰 데이터에서 상품에 대한 유용한 정보를 얻기 위해서는 데이터 수집, 저장, 전처리, 분석, 및 결론 도출의 과정이 필요하다. 따라서 본 연구는 R을 이용한 텍스트 마이닝(Text Mining) 기법을 사용하여 텍스트 형식의 비정형 데이터에서 자연어 처리 기술 및 문서 처리 기술을 적용하여 정형화된 데이터 값을 도출하는 방법에 대해 소개한다. 또한, 도출된 정형화된 리뷰 정보를 데이터 마이닝 기법에 적용하여 목적에 맞게 맞춤화된 리뷰 정보를 도출시키는 방안을 제시하고자 한다.

의료정보서비스 접근성 향상을 위한 개방형 플랫폼 구축방안 (Open Platform for Improvement of e-Health Accessibility)

  • 이현직;김윤호
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권7호
    • /
    • pp.1341-1346
    • /
    • 2017
  • 본 논문에서는 개개인의 복합적 속성과 요구를 반영한 통합된 개인 맞춤형 서비스와 지능정보기술을 기반으로 의료서비스 접근성을 향상시킬 수 있는 개방형 서비스플랫폼의 구축방안에 대하여 설계하였다. 먼저, 데이터 수집 및 저장단계는 데이터 추출, 변환, 로딩을 반복하며 신속하고 정확하게 처리한다. ETL 모듈로부터 생성된 데이터는 분산 파일 시스템에 저장한다. 데이터 분석단계는 스토리지에 저장된 과거 의료 데이터들을 기반으로 기계학습과 데이터 마이닝 분야에서 사용되고 있는 분석 알고리즘을 적용하여 다양한 패턴들을 생성한다. 데이터 처리단계에서는 데이터를 신속히 처리해야 하므로 보통 작업을 병렬 및 분산 처리하여 성능을 향상시킨다. 데이터 제공방식은 디바이스별 운영하는 플랫폼에 독립적으로 동작해야 하며, 데이터 전송 시 네트워크 부하가 적고, 다양한 형태의 서비스를 제공하기 위하여 Open API 형태로 제공한다.

토픽 모델링을 이용한 개방형 혁신 연구동향 분석 및 정책 방향 모색 (A Study on the Research Trends on Open Innovation using Topic Modeling)

  • 조성배;신신애;강동석
    • 정보화정책
    • /
    • 제25권3호
    • /
    • pp.52-74
    • /
    • 2018
  • 2018년 2월, 우리나라 정부는 '국민이 주인인 정부'를 실현하고자 정부혁신 종합추진계획을 수립하였다. 종합계획의 핵심은 국민 참여이며, 정부 내부의 역량만을 통해 가치를 창출하는 것이 아닌 시민, 기업의 아이디어와 역량을 함께 모아 정부가 해결할 수 없는 사회 현안을 해결한다는 관점에서 개방형 혁신(Open Innovation)과 매우 유사하다. 이에 따라 본 연구에서는 개방형 혁신이 처음 발표된 2003년부터 2018년 4월까지의 영문 초록 데이터로 LDA(Latent Dirichlet Allocation) 기반의 토픽모델링을 이용하여 개방형 혁신 연구 주제들을 도출하고, 도출된 주제간 토픽 네트워크 분석을 실시하였다. 도출된 결과를 바탕으로 정부혁신 종합추진계획의 추진과제와 비교 분석하였다. 본 연구의 시사점은 개방형 혁신에 대한 연구 주제와 주제간 관계를 도출하고, 그 결과를 정부혁신 종합추진계획과의 비교를 통해 개방형 혁신 관련 우리나라 정책의 향후 발전방향을 제시하였다는 점에서 의의가 있다.

빅데이터 분석을 활용한 기금지원 체육시설 활성화 방안 (A study of the vitalization strategy for public sports facility through big-data)

  • 김미옥;고진수;노승철;정재훈
    • 디지털융복합연구
    • /
    • 제15권2호
    • /
    • pp.527-535
    • /
    • 2017
  • 운동을 통한 건강증진에 대한 관심이 증가하면서 공공체육시설에 대한 수요는 꾸준히 증가하고 있다. 그러나 공공체육시설의 공급 계획에 비해 운영과 관리에 대한 연구는 부족한 상황이다. 이와 같은 맥락에서 본 연구는 국민체육진흥기금지원 체육시설 사업인 국민체육센터와 개방형체육관에 대한 빅데이터 분석을 통해 시설 활성화 방안을 모색하였다. 2015년 1년 간 뉴스, 블로그, 까페 등 인터넷 문서를 분석한 결과 국민체육센터와 개방형 체육관은 유사한 이용행태를 보이면서도 다른 수요를 갖고 있는 것으로 나타났다. 두 시설 모두 주민의 체육장소로 이용되고 있으나 국민체육시설이 좀 더 전문적인 프로그램을 보이는 반면 개방형 체육관은 생활체육공간으로 이용되는 차이를 보였다. 한편 두 시설 모두 운동 이외 산책, 소풍 등 휴식을 목적으로 방문하는 비율이 높아 시설 활성화를 위해서는 편의시설 확충과 다양한 기능의 복합이 필요할 것으로 보인다.

공공데이터에 적합한 다양한 소셜 그래프 비주얼라이제이션 알고리즘 제안 (Social graph visualization techniques for public data)

  • 이만재;온병원
    • 한국HCI학회논문지
    • /
    • 제10권1호
    • /
    • pp.5-17
    • /
    • 2015
  • 최근 다양한 공공데이터가 개방되고 있으며, 적절한 데이터 마이닝과 시각화 알고리즘을 통해 일반 시민에게 서비스 되고 있다. 이를 통해 정부와 지방자치단체는 공공 정책의 투명성과 효율성을 널리 알릴 수 있을 뿐 아니라, 일반 사용자들이 개방된 공공데이터를 재가공하여 서비스함으로써 관련 산업의 성장을 이끌고 있다. 공공데이터의 최종 사용자는 일반 시민이기 때문에, 누구나 손쉽게 이해할 수 있도록 공공데이터를 적절히 시각화하는 것이 무엇보다 중요하다. 본 연구에서는 공공데이터 비주얼라이제이션의 중요성을 널리 알리기 위해, 일반 국민이 관심을 가질만한 공공데이터로 UN 회원국의 투표 데이터를 고려한다. 외교와 교육 목적으로 그 활용 가치가 높고 데이터를 쉽게 얻을 수 있는 장점이 있다. 또한 적절한 데이터 마이닝과 시각화 과정을 거친다면, 일반 사용자들이 유엔 회원국 간의 투표 성향에 대한 통찰력을 쉽게 얻을 수 있다. 유엔 투표 데이터를 시각화하기 위해서는, 회원국 간의 투표성향 유사도를 측정하고, 이를 바탕으로 소셜 그래프를 구현한다. 그리고 그래프 레이아웃 알고리즘을 적용하여 그래프를 화면에 렌더링 하게 된다. 기존 방법을 이용하여 소셜 그래프를 비주얼라이제이션 할 경우에 그래프의 복잡도가 증가하여 유엔 회원국 간의 투표성향을 파악하는데 큰 어려움이 있다. 이러한 문제를 개선하기 위해, 본 논문에서는 친구 매칭(Friend-Matching), 친구-라이벌 매칭(Friend-Rival Matching), 버블힙(Bubble Heap) 알고리즘들을 차례로 제안한 다. 제안된 알고리즘을 바탕으로, 기존 그래프 비주얼라이제이션을 개선하여 일반 사용자들이 손쉽게 유엔 회원국 간의 투표성향과 관련된 특정 패턴이나 통찰력을 얻는데 큰 도움을 줄 것이다. 또한 웹에서 동작하는 프로토타입을 구현하여, 누구나 방문하여 테스트를 할 수 있다. 웹 페이지 주소: http://datalab.kunsan.ac.kr/politiz/un/

데이터 활용률 제고를 위한 기술 용어의 상호 네트워크 생성과 통제 (Generating and Controlling an Interlinking Network of Technical Terms to Enhance Data Utilization)

  • 정도헌
    • 정보관리학회지
    • /
    • 제35권1호
    • /
    • pp.157-182
    • /
    • 2018
  • 빅 데이터 시대에 접어들면서 저장 기술과 처리 기술이 급속도로 발전함에 따라, 과거에는 간과되었던 롱테일(long tail) 데이터가 많은 기업과 연구자들에게 관심의 대상이 되고 있다. 본 연구는 롱테일 법칙의 영역에 존재하는 데이터의 활용률을 높이기 위해 텍스트 마이닝 기반의 기술 용어 네트워크 생성 및 통제 기법을 제안한다. 특히 텍스트 마이닝의 편집 거리(edit distance) 기법을 이용해 학문분야에서 사용되는 기술 용어의 상호 네트워크를 자동으로 생성하는 효과적인 방안을 제시하였다. 데이터의 활용률 향상 실험을 위한 데이터 수집을 위해 LOD(linked open data) 환경을 이용하였으며, 이 과정에서 효과적으로 LOD 시스템의 데이터를 활용하는 기법과 용어의 패턴 처리 알고리즘을 제안하였다. 마지막으로, 생성된 기술 용어 네트워크의 성능 측정을 통해 제안한 기법이 롱테일 데이터의 활용률 제고에 효과적이었음을 확인하였다.

다중 에이전트 기반 지식 탐사 및 문제 해결 프레임워크 (Multi-Agent Knowledge Discovery and Problem Solving Framework)

  • 강성희;박승수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.101-103
    • /
    • 1999
  • Decentralized 정보는 여러 도메인에 대한 heterogeneous한 독립적인 정보가 자율적으로 존재하며 이들 정보간의 관계성의 고려한 전체에 대한 global view가 존재하지 않기 때문에 inter-domain에 대한 마이닝을 수행하는데 어려움이 있다. 본 연구에서는 intra-domain knowledge discovery, intra 및 inter-domain problem solving method라는 접근방법으로, decentralized 데이터 환경에서 문제 해결에 필요한 정보 추출을 위한 데이터 tailoring과 분산 데이터에 대한 목표-지향 데이터마이닝(goal-oriented data-mining)을 통해 문제 해결을 위해 필요한 지식을 생성하고 이들 간의 관련 정보를 탐색하여 문제를 해결하는 프레임워크를 제안한다. 특히, 생성된 지식간의 협동 문제 처리를 멀티 에이전트 패러다임을 이용하기로 한다. 제안 프레임워크는 산재되어 있는 데이터들로부터 문제 해결에 유용한 지식 차원의 정보를 추출해내고 생성된 지식을 바탕으로 각 도메인 정보에 대한 개별적인 사용뿐 만 아니라 서로 cooperation을 통한 문제 해결을 지원함으로써, 개방된 분산 환경하에 decentralized 되어 있는 여러 도메인 정보를 보다 효율적으로 활용할 수 있는 새로운 형태의 문제 해결 방법이라고 할 수 있다.

  • PDF

거주민 공간복지 향상을 위한 공공 개방 민원 데이터 분석 모델 - 강동구 공간복지 분석 사례를 중심으로 - (A Public Open Civil Complaint Data Analysis Model to Improve Spatial Welfare for Residents - A Case Study of Community Welfare Analysis in Gangdong District -)

  • 신동윤
    • 한국BIM학회 논문집
    • /
    • 제13권3호
    • /
    • pp.39-47
    • /
    • 2023
  • This study aims to introduce a model for enhancing community well-being through the utilization of public open data. To objectively assess abstract notions of residential satisfaction, text data from complaints is analyzed. By leveraging accessible public data, costs related to data collection are minimized. Initially, relevant text data containing civic complaints is collected and refined by removing extraneous information. This processed data is then combined with meaningful datasets and subjected to topic modeling, a text mining technique. The insights derived are visualized using Geographic Information System (GIS) and Application Programming Interface (API) data. The efficacy of this analytical model was demonstrated in the Godeok/Gangil area. The proposed methodology allows for comprehensive analysis across time, space, and categories. This flexible approach involves incorporating specific public open data as needed, all within the overarching framework.