• 제목/요약/키워드: 공간데이터마이닝

검색결과 66건 처리시간 0.065초

한정된 메모리 공간에서 데이터 스트림의 빈발항목 최적화 방법 (Finding Frequent Itemsets Over Data Streams in Confined Memory Space)

  • 김민정;신세정;이원석
    • 정보처리학회논문지D
    • /
    • 제15D권6호
    • /
    • pp.741-754
    • /
    • 2008
  • 지속적으로 확장되는 데이터 스트림에 대한 데이터 마이닝 수행과정에서는 메모리 사용량을 가용한 범위 내로 제한하는 것이 중요한 요소이다. 본 논문에서는 데이터 스트림 환경에서 한정된 메모리 공간을 이용하여 빈발 항목집합을 탐색하는데 효과적인 프라임 패턴 트리(Prime pattern tree: PPT)구조를 제안한다. 프라임 패턴 트리는 기존의 전위 트리 구조와 비교하여 항목집합들을 하나의 노드로 관리함으로써 트리의 크기를 크게 줄일 수 있는 장점이 있다. 또한, 전지 임계값 $S_{\delta}$에 따라 노드를 병합하거나 분리하여 동적으로 트리의 크기와 결과 집합의 정확도를 마이닝 수행 중에 조절 할 수 있다. $S_{\delta}$값이 크면 한 노드에서 관리되는 항목집합의 수가 증가하게 되고, 출현 빈도수를 추정해야 하기 때문에, $S_{\delta}$값이 작을수록 결과집합의 정확도가 높다. 이처럼 PPT에는 트리의 크기와 정확도의 trade-off 가 존재한다. PPT의 이러한 특성에 기반하여, 데이터 스트림에서 갑자기 데이터 집합에 변화가 생겨 빈발항목이 될 가능성이 높은 항목들이 많이 출현하는 경우에도 마이닝을 지속적으로 수행할 수 있도록 지원한다. 본 논문에서는 프라임 패턴 트리를 이전 연구에서 제안한 데이터 스트림에서 최근 빈발 항목 탐색 방법인 estDec 방법에 적용하여 한정된 작은 양의 메모리 공간을 이용하여 온라인 데이터 스트림에서 빈발항목을 탐색하는 방법을 제시한다. 또한, 가용 메모리 범위에서 최적의 메모리를 사용하여 최적의 마이닝 결과를 얻을 수 있도록 하는 메모리 사용량에 대한 적응적 방법을 제시한다. 끝으로, 여러 실험을 통한 효율성 검증을 통해 제안된 방법의 여러 특성을 확인한다.

KNHNAES (2013~2015) 에 기반한 대형 특징 공간 데이터집 혼합형 효율적인 특징 선택 모델 (A Hybrid Efficient Feature Selection Model for High Dimensional Data Set based on KNHNAES (2013~2015))

  • 권태일;이정곤;박현우;류광선;김의탁;박명호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권4호
    • /
    • pp.739-747
    • /
    • 2018
  • 고차원 데이터에서는 데이터마이닝 기법 중에서 특징 선택은 매우 중요한 과정이 되었다. 그러나 전통적인 단일 특징 선택방법은 더 이상 효율적인 특징선택 기법으로 적합하지 않을 수 있다. 본 논문에서 우리는 고차원 데이터에 대한 효율적인 특징선택을 위하여 혼합형 특징선택 기법을 제안하였다. 본 논문에서는 KNHANES 데이터에 제안한 혼합형 특징선택기법을 적용하여 분류한 결과 기존의 분류기법을 적용한 모델보다 5% 이상의 정확도가 향상되었다.

정량 정보를 포함한 순차 패턴 마이닝 알고리즘 (Sequential Pattern Mining Algorithms with Quantities)

  • 김철연;임종화;;심규석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.453-462
    • /
    • 2006
  • 순차 패턴을 찾는 것은 데이타마이닝 응용분야에서 중요한 문제이다. 기존의 순차 패턴 마이닝 알고리즘들은 아이템으로만 이루어진 순차 패턴만을 취급하였으나 경제나 과학분야와 같은 많은 분야에서는 정량 정보가 아이템과 같이 기록되어 있으며, 기존의 알고리즘이 처리하지 못하는 이러한 정량 정보는 사용자에게 보다 유용한 정보를 전달하여 줄 수 있다. 본 논문에서는 정량 정보를 포함한 순차패턴 마이닝 문제를 제안하였다. 기존의 순차패턴 알고리즘에 대한 단순한 확장으로는 모든 정량에 대한 후보 패턴들을 모두 생성하기 때문에 확대된 탐색 공간을 효율적으로 탐색할 수 없음을 보이고, 이러한 단순한 확장 알고리즘의 성능을 대폭 향상시키기 위하여 정량 정보에 대해 해쉬 필터링과 정량 샘플링 기법을 제안하였다. 다양한 실험 결과들은 제안된 기법들이 단순히 확장된 알고리즘과 비교하여 수행시간을 매우 단축시켜 줄 뿐만 아니라, 데이타베이스 크기에 대한 확장성 또한 향상시켜줌을 보여 준다.

정부 정보의 활용을 위한 서비스디자인 -동북지방통계청의 국민디자인단 사례를 중심으로- (Service Design for Utilizing Government Information -Focusing on the Case of Gov3.0 Design Group for East North Statistics-)

  • 이윤주;백수현;김선아
    • 디지털융복합연구
    • /
    • 제16권6호
    • /
    • pp.335-341
    • /
    • 2018
  • 본 연구는 정부 정보나 공공데이터의 활용과 국민이 체감할 수 있는 서비스를 제공하기 위해 수요자 중심의 서비스 디자인을 활용해 정책 서비스 개발을 혁신하고자 하였다. 2015년 대구지역 동북지방통계청이 운영한 국민디자인단의 사례는 통계청이 보유하고 있는 GIS공간정보에 대한 데이터마이닝과 카드사의 실시간 결제정보를 활용해 예비창업자들을 위한 '창업 의사결정 지원'서비스를 제안하고자 하였다. 이를 위해 서비스디자인의 프로세스와 방법론을 채택하였고, 다양한 이해 관계자의 참여를 통해 이루어졌다. 본 연구를 통해 서비스디자인을 기반으로 한 국민디자인단 활동은 정부 정보 공개에 기반 한 공공서비스를 혁신하는데 유효함을 시사한다. 또한, 정부가 정보나 공공데이터를 국민에게 유용한 형태로 공개하거나 개방하고자 할 때 고려할 수 있는 접근 방법으로서 가치 있는 연구로 사료된다.

SVM과 의사결정트리를 이용한 혼합형 침입탐지 모델 (The Hybrid Model using SVM and Decision Tree for Intrusion Detection)

  • 엄남경;우성희;이상호
    • 정보처리학회논문지C
    • /
    • 제14C권1호
    • /
    • pp.1-6
    • /
    • 2007
  • 안전한 네트워크의 운영을 함에 있어 네트워크 침입 탐지에서 오탐지율을 줄이고 정탐지율을 높이는 것은 매우 중요한 일이라 할 수 있다. 최근에 얼굴 인식과 생물학 정보칩 분류 등에서 활발히 적용 연구되는 SVM을 침입탐지에 이용하면 실시간 탐지가 가능하므로 탐지율의 향상을 기대할 수 있다. 그러나 기존의 연구에서는 입력값들을 벡터공간에 나타낸 후 계산된 값을 근거로 분류하므로, 이산형의 데이터는 입력 정보로 사용할 수 없다는 단점을 가지고 있다. 따라서 이 논문에서는 의사결정트리를 SVM에 결합시킨 침입 탐지 모델을 제안하고 이에 대한 성능을 평가한 결과 기존 방식에 비해 침입 탐지율, F-P오류율, F-N오류율에 있어 각각 5.5%, 0.16%, 0.82% 향상이 있음을 보였다.

공간분석·데이터마이닝 융합방법론을 통한 산업안전 취약지 등급화 방안 (Industrial Safety Risk Analysis Using Spatial Analytics and Data Mining)

  • 고경석;양재경
    • 산업경영시스템학회지
    • /
    • 제40권4호
    • /
    • pp.147-153
    • /
    • 2017
  • The mortality rate in industrial accidents in South Korea was 11 per 100,000 workers in 2015. It's five times higher than the OECD average. Economic losses due to industrial accidents continue to grow, reaching 19 trillion won much more than natural disaster losses equivalent to 1.1 trillion won. It requires fundamental changes according to industrial safety management. In this study, We classified the risk of accidents in industrial complex of Ulju-gun using spatial analytics and data mining. We collected 119 data on accident data, factory characteristics data, company information such as sales amount, capital stock, building information, weather information, official land price, etc. Through the pre-processing and data convergence process, the analysis dataset was constructed. Then we conducted geographically weighted regression with spatial factors affecting fire incidents and calculated the risk of fire accidents with analytical model for combining Boosting and CART (Classification and Regression Tree). We drew the main factors that affect the fire accident. The drawn main factors are deterioration of buildings, capital stock, employee number, officially assessed land price and height of building. Finally the predicted accident rates were divided into four class (risk category-alert, hazard, caution, and attention) with Jenks Natural Breaks Classification. It is divided by seeking to minimize each class's average deviation from the class mean, while maximizing each class's deviation from the means of the other groups. As the analysis results were also visualized on maps, the danger zone can be intuitively checked. It is judged to be available in different policy decisions for different types, such as those used by different types of risk ratings.

유사도와 유클리디안 계산패턴을 이용한 CBR 패턴연구 (A Study on the CBR Pattern using Similarity and the Euclidean Calculation Pattern)

  • 윤종찬;김학철;김종진;윤성대
    • 한국정보통신학회논문지
    • /
    • 제14권4호
    • /
    • pp.875-885
    • /
    • 2010
  • 사례기반추론(CBR:Case-Based Reasoning)은 기존 데이터와 사례 데이터들의 관계성을 추론하는 기법으로 유사도(Similarity)와 유클리디안(Euclidean) 거리 계산 방법이 가장 많이 사용되고 있다. 그러나 이 방법들은 기존 데이터와 사례 데이터를 모두 비교하기 때문에 데이터 검색과 필터링에 많은 시간이 소요되는 단점이 있다. 따라서 이를 해결하기 위한 다양한 연구들이 진행되고 있다. 본 논문에서는 기존의 유사도와 유클리디안 계산과정에서 발견된 패턴을 활용한 SE(Speed Euclidean-distance) 계산방법을 제안한다. SE 계산방법은 새로운 사례입력에 발견된 패턴과 가중치를 적용하여 빠른 데이터 추출과 수행시간 단축으로 시간적 공간적 제약사항에 대한 연산 속도를 향상시키고 불필요한 연산 수행을 배제하는 것이다. 실험을 통해 유사도나 유클리디안 방법으로 데이터를 추출하는 기존의 방법보다 제안하는 방법이 다양한 컴퓨터 환경과 처리 속도에서 성능이 향상됨을 확인할 수 있었다.

철도 위험관리 데이터 연계 분석을 위한 기준 데이터 매핑 연구 (A Study on Data Mapping for Integrated Analysis of Railway Safety Data)

  • 변현진;이용상
    • 한국철도학회논문집
    • /
    • 제20권5호
    • /
    • pp.703-712
    • /
    • 2017
  • 철도는 인터페이스 산업으로 철도차량 선로 관제 등이 유기적으로 맞물려야 움직일 수 있다. 이를 정상적으로 운영하기 위해서는 많은 유지보수 활동이 필요한데 이러한 활동과정에서 발생하는 데이터들은 각 분야별로 관리하고 있어 업무특성에 따라 위치, 시간 등 기준 데이터가 각각 상이하여 시 공간 기반의 통합 분석을 할 수 없는 실정이다. 각 분야별로 상이한 데이터를 통합 분석하기 위해서는 데이터마이닝 기법을 통해 유의미한 정보를 추출하여 분석하는데, 이러한 분석을 위해서는 데이터 유형의 상호관련성을 인지하기 위한 기준정보의 추출과 매핑이 반드시 필요하다. 본 연구는 서로 다른 분야에서 발생하는 안전과 관련된 데이터에 대한 매핑 툴 선정과 결과에 대하여 검증을 수행하고자 한다.

N-Block substring 가중 선형모형을 이용한 단백질 CDS의 특징 추출 및 분류 (Feature Selection and Classification of Protein CDS Using n-Block substring weighted Linear Model)

  • 최성용;김진수;한승진;최준혁;임기욱;이정현
    • 한국지능시스템학회논문지
    • /
    • 제19권5호
    • /
    • pp.730-736
    • /
    • 2009
  • 방대한 유전 정보를 분석, 가공하는 생명정보학의 중요성은 더욱 높아지고 있다. 본 논문에서는 단백질의 1차 구조만으로 단백질의 구조와 기능을 예측하는 새로운 데이터마이닝 방법을 제안한다. 단백질 서열만으로 특징 추출시 발생할 수 있는 문제점인 방대한 탐색공간을 효과적으로 축소하기 위해 n-Block substring 탐색 알고리즘을 제안한다. 또한 선별된 각 substring의 도메인 연관도를 결정하는 가중치를 구하여 가중 선형모형을 구축함으로써 구조와 기능에 관련이 있을 것으로 예상되는 단백질 도메인의 특징을 추출하고 분류에 효과적임을 보인다. 도메인에 포함되는 각각의 CDS(coding sequence)에 대해 모형으로부터 구한 점수를 통해 해당 도메인과의 연관성의 정도를 추정하며, 분류 효율을 더욱 향상시킬 수 있음을 보인다.

효과적인 데이터 수집을 위한 웹 크롤러 개선 및 동적 프로세스 설계 및 구현 (Web crawler Improvement and Dynamic process Design and Implementation for Effective Data Collection)

  • 왕태수;송재백;손다연;김민영;최동규;장종욱
    • 한국정보통신학회논문지
    • /
    • 제26권11호
    • /
    • pp.1729-1740
    • /
    • 2022
  • 근래 정보의 다양성과 활용에 따라 많은 데이터가 생성되었고, 데이터를 수집, 저장, 가공 및 예측 하는 빅데이터 분석의 중요성이 확대되었으며, 필요한 정보만을 수집할 수 있는 능력이 요구되고 있다. 웹 공간은 절반 이상이 텍스트로 이루어져 있고, 유저들의 유기적인 상호작용을 통해 수많은 데이터가 발생한다. 대표적인 텍스트 데이터 수집 방법으로 크롤링 기법이 있으나 데이터를 가져올 수 있는 방법에 치중되어 웹 서버나 관리자를 배려하지 못하는 크롤러가 많이 개발되고 있다. 본 논문에서는 크롤링 과정에서 발생할 수 있는 문제점 및 고려해야 할 주의사항에 대해 살펴보고 효율적으로 데이터를 가져올 수 있는 개선된 동적 웹 크롤러를 설계 및 구현한다. 기존 크롤러의 문제점들을 개선한 크롤러는 멀티프로세스로 설계되어 작업소요 시간이 평균적으로 4배정도 감소하였다.