• 제목/요약/키워드: 공간데이터마이닝

검색결과 66건 처리시간 0.19초

L2-tree를 이용한 효율적인 빈발항목 집합 탐사 (An Efficient Algorithm for mining frequent itemsets using L2-tree)

  • 박인창;장중혁;이원석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.259-261
    • /
    • 2002
  • 데이터마이닝 분야에서 빈발항목집합 탐사에 관한 연구는 활발히 진행되어 왔지만 여전히 많은 메모리 공간과 시간을 필요로 한다. 특히 apriori 알고리즘에 기반한 방법들은 긴 패턴이 생성될수록 지수적으로 시간과 공간이 증가한다. 최근에 발표된 fp-growth는 일반적인 데이터 집합에서 우수한 성능을 보이나 희소 데이터 집합에서 효율적인 성능을 보여주지 못한다. 본 논문에서는 길이가 2인 빈발항목집합 L2에 기반한 L2-tree 구조를 제안한다. 또한 L2-tree에서 빈발항목집합을 탐사하는 L2-traverse 알고리즘을 제안한다. L2-tree는 L2를 기반으로 하기 때문에 L2가 상대적으로 적은 희소 데이터 집합 환경에서 적은 메모리 공간을 사용하게 된다. L2-traverse 알고리즘은 별도의 추출 데이터베이스를 생성하는 FP-growth와 달리 단순히 L2-tree를 오직 한번의 깊이 우선 탐사를 통해 빈발항목집합을 찾는다. 최적화 기법으로써 길이가 3인 빈발항목집합 L3가 되지 않는 L2 패턴들을 미리 제거하는 방법으로 C3-traverse 알고리즘을 제안하며 실험을 통해 기존 알고리즘과 비교 검증한다.

  • PDF

마이크로어레이 데이터의 부공간 대조 샘플집단 마이닝 (Mining of Subspace Contrasting Sample Groups in Microarray Data)

  • 이경미;이건명
    • 한국지능시스템학회논문지
    • /
    • 제21권5호
    • /
    • pp.569-574
    • /
    • 2011
  • 이 논문에서는 마이크로어레이 데이터에 대한 분석 문제로서 부공간 대조집단 식별 문제를 소개하고, 이를 해결하는 방법을 제안한다. 제안한 방법은 부공간에서 속성값이 대조적인 집단의 쌍들을 식별하기 위해, 먼저 각 속성에 대해서 분석자가 지정한 대조영역의 값을 갖는 두 개의 샘플집단을 선택한 다음, 연관규칙 마이닝과 유사한 형태의 방법으로 부공간의 차원을 점진적으로 확대해 가면서 대조집단을 추출한다. 마이크로어레이 데이터는 수천개 이상의 유전자에 대한 발현정보를 포함할 수 있는 다차원 데이터이기 때문에, 대조적인 발현특성을 갖는 유전자집합에 대한 샘플집단의 쌍을 모두 부차원에 대해서 질의를 통해 식별하는 것은 부담이 되지만, 제안한 방법을 사용하면 분석자가 지정한 대조영역 값의 범위를 기준으로 하여 모든 가능한 부공간에서의 대조집단을 효과적으로 추출할 수 있다.

유무선 통합 인터넷환경에서의 개별화마케팅 지원방안 연구 (Study of Personalized Marketing in Internet and Mobile Computing Environment)

  • 채승민;김남호
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 추계학술발표대회(하)
    • /
    • pp.749-752
    • /
    • 2003
  • 통신서비스를 이용하는 고객들은 시간, 공간, 기기의 제약을 받지않고 편리하게 서비스를 받고 싶어한다. 유무선 통합서비스는 고객과 사업자에게 다양한 혜택을 제공할 수 있다 각 서비스에 해당하는 적절한 마케팅과 고객관리를 할 수 있는 시스템이 요구된다. 본 논문에서는 개별화마케팅을 위한 사용자 관심에 기반한 적절한 광고를 제공하기 위한 개인정보 취득방법, 이들 개인정보 분석을 위해 연관관계와 군집모델 탐사를 기반으로 한 데이터마이닝 기술의 활용법, 분석된 정보를 토대로 사용자의 새로운 관심분야를 발견하고 그에 적합한 마케팅을 실시하기 위한 시스템을 제안한다.

  • PDF

데이터 클러스터링에서 클러스터 수 결정방안 (A Method for Determining the Number of Clusters in Data Clustering)

  • 이병수;홍지원;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1268-1269
    • /
    • 2011
  • 데이터마이닝 분야에서는 주어진 공간상에 분포되어있는 데이터들을 분석위해 다양한 클러스터링 알고리즘이 존재한다. 그러나 대부분의 클러스터링 알고리즘에서는 클러스터 전체 개수를 미리 요구한다. 이 때문에 클러스터링 알고리즘에서 클러스터 전체개수를 미리 알아내는 것은 매우 중요하다. 본 논문에서는 데이터에 분포하는 클러스터들의 개수를 데이터의 그래프 모델을 이용한 분석으로 찾아내는 방법을 제안한다.

서울시 대중교통 이용자의 통행패턴 분석 (Travel Patterns of Transit Users in the Metropolitan Seoul)

  • 이금숙;박종수
    • 한국경제지리학회지
    • /
    • 제9권3호
    • /
    • pp.379-395
    • /
    • 2006
  • 본 연구의 목적은 도시성장과 함께 통행거리와 교통량이 크게 늘어나 심각한 교통체증현상을 보이고 있는 서울을 대상으로 교통흐름의 공간적 특징을 파악하고, 이를 수도권 지역의 토지이용 및 시설 분포와 연결시켜 수도권 지역의 기능적 연계의 공간구조를 밝히는 것이다. 이를 위해 본 연구에서는 교통카드를 이용하여 이동하는 대중교통 이용자들이 만들어 내는 통행 거래 자료를 바탕으로 통행행태와 통행흐름의 공간적 특징을 분석하였다. 교통카드 데이터는 하루 천만 건이 넘으며, 각 통행거래자료 마다 승 하차 및 환승의 위치와 시간, 이용 교통수단 등 방대한 정보를 담고 있어 이의 효율적 분석을 위하여 데이터마이닝 기법을 도입하였다. 특히 대중교통이용자의 통행행태를 파악하고 각 지점의 통행 수요를 파악하기 위한 새로운 알고리즘 개발하여 적용하였다. 분석결과의 공간적 특성을 파악하기위하여 지리정보체계를 이용하여 시각화시키고, 그에 입각하여 공간적 특성을 분석하였다. 또한 출발 교통량, 도착교통량, 총 지지도들 간의 관계성을 파악하기 위하여 상관관계분석을 시도하였다. 통행수요에 있어 강남의 2호선 지하철역을 따라 가장 많은 통행 수요가 나타나고 있으며, 그 다음으로 강북의 구도심지역이 또 하나의 중심축을 이룬다. 그밖에도 대단위 고층 아파트가 밀집되어 있는 주거지역들이 부수적인 중심축을 형성한다. 기 종점 수요와 함께 통과 수송량 까지 나타내는 총지지도는 강남의 구로-신도림 역이 가장 놓게 나타나며 강남지역에 위치한 지하철 2호선 역들과 환승역들에서 높게 나타나고 있다. 이러한 통행패턴 분석은 일차적으로는 교통망 상의 교통흐름과 각 지점의 통행수요를 나타나며 지역 내에서 지점 간의 기능적 연계를 반영하고 있기 때문에 도시의 교통계획은 물론 지역의 토지이용 및 시설 입지 계획 수립에 필수적이다.

  • PDF

빅데이터 분석을 위한 스마트폰 사용 데이터 수집 앱 및 관리 프로그램 (Smartphone Usage Data Collection Application and Management Program for Big Data Analysis)

  • 조성민;오승현;안지우;이명숙
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.225-228
    • /
    • 2021
  • 본 연구는 스마트폰 중독과 관련된 다양한 분석을 위한 스마트폰 사용 앱과 관리자 웹을 개발하고자 한다. 연구방법으로 이전 연구에서 중요한 변수로 작용되었던 '화면 켠 횟수', '실사용시간-인지사용시간' 변수를 분석할 있도록 적용하여 스마트폰 사용시간, 사용량, 사용 앱, 화면 잠금을 해제한 횟수 등 다양한 데이터 수집이 가능한 앱을 개발한다. 관리자 웹은 수집된 데이터를 저장, 분석할 수 있는 공간으로 사용할 것이다. 앱에서 수집된 데이터는 서버에 전송한 후, 시각화 분석 기능을 제공하는 관리 프로그램으로 개발하여 스마트폰 중독 연구에 사용한다. 향후 데이터 수집과 사용 목적에 동의한 사용자를 모집하여 데이터를 수집하고 스마트폰 사용 패턴, 데이터마이닝, 중독 등과 관련된 다양한 분석을 할 것이다. 이를 통해 보다 정확하고 효과적인 스마트폰 중독 진단이 가능해질 것과 나아가 스마트폰 중독 치료방안 연구에 기여할 것으로 기대한다.

  • PDF

CHAID분석을 이용한 나들목 주변 지가의 공간분포 영향모형 개발 - 서울외곽순환고속도로를 중심으로 - (Development of Selection Model of Interchange Influence Area in Seoul Belt Expressway Using Chi-square Automatic Interaction Detection (CHAID))

  • 김태호;박제진;김영일;노정현
    • 대한토목학회논문집
    • /
    • 제29권6D호
    • /
    • pp.711-717
    • /
    • 2009
  • 본 연구는 고속도로 나들목의 접근성이 주변 아파트 지가형성에 미치는 영향 관계를 규명하기 위해서 서울외곽순환고속도로를 중심으로 분석하였다. 분석을 위해서는 데이터마이닝(CHAID분석), 추세선 분석(Trend Analysis) 등을 활용하여 고속도로의 나들목(IC) 주변 아파트가격과 관련된 지가경사 모형을 개발하였다. 분석결과, 첫째, 고속도로 나들목이 위치한 지역별(외측 : 경기도, 내측 : 서울시)로 아파트 가격에 차이가 있으며, 일반적인 주택가격과 교통결절점이 가지는 선형 관계가 아닌 비선형적 관계(2차 다항식)를 가지는 것으로 나타났다. 둘째, CHAID분석을 이용한 공간분포 검토 결과, 외측지역(경기도)의 경우 2.6km를 전후하여 2개의 상이한 공간분포를 가지며, 내측지역(서울시)의 경우 1.4km와 3.8km를 전후하여 3개의 상이한 공간분포를 가지는 것으로 나타났다. 이는 아파트 가격이 도로결절점(고속도로 나들목)으로부터 첫 번째 임계점까지 는 점차 상승하다가 일정거리 이후부터 서서히 감소하는 복합적인 공간분포를 가지는 것으로 나타나 교통접근성이 좋다고 하여 주택가격이 높지만은 않으며, 주거환경(고속도로 소음, 지역단절 등)과 교통접근성간의 상호 교환 작용(Trade Off Effect)에 의한 현상이라 할 수 있다. 향후 본 연구의 고속도로 나들목 주택가격 영향모형을 이용하여 고속도로 주변에 지속적으로 건설되고 있는 신도시 주택가격 산정에 활용이 가능할 것으로 판단된다.

GML데이터에서 지역적 연관규칙 탐색 기법 (A Local Association Rule Search Method from GML Data)

  • 홍성한;황병연
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2006년도 GIS/RS 공동춘계학술대회
    • /
    • pp.37-42
    • /
    • 2006
  • GIS분야에 대한 다양한 연구가 진행됨에 따라 그 활용에 대한 관심도 확대되고 있다. Open GIS Consortium에서는 GML(Geography Markup Language)을 개발하여 이를 GIS 응용분야에 활용하고자 하는 연구가 활발히 진행되고 있다. GML데이터에서 의미 있는 정보를 추출하기 위해서는 데이터 마이닝 기법 활용이 필수적이다 최근에 데이터마이닝 기법 중 연관규칙을 이용한 탐색 방법이 제안되었다. 그러나 이 방법은 전체 데이터를 대상으로 의미 있는 정보를 탐색 하므로, 데이터 내에 포함되어 있는 부분 속성인 지리 공간적 연관성을 탐색하는데 한계를 가지고 있다. 따라서 녈 연구에서는 GML데이터에서 부분적 속성을 고려한 지역적 연관규칙 탐색 기법을 제안한다.

  • PDF

효율적인 의료데이터마이닝을 위한 특징축소와 레이지안망 학습 (Features Reduction and Baysian Networks Learning for Efficient Medical Data Mining)

  • 정용규;김인철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.258-265
    • /
    • 2002
  • 베이지안망은 기존의 방법에 비해 불확실한 상황에서도 지식을 표현하고 결론을 추론하는데 유용한 것으로 알려져 있다. 본 논문에서는 대표적인 베이지안망 분류기들을 제시하고, 동일 임상데이터에 대해 서로 다른 유형별 베이지안망 분류기들을 학습하였다. 베이지안망을 적용할 때 변수의 수가 많아짐에 따라 베이지안망의 구조를 학습하는데 탐색공간이 넓어져 어려움이 있다. 본 연구에서는 이런 탐색공간을 효율적으로 줄이기 위하여 클래스 노드의 Markov blanket에 속한 특징들로 집합을 축소하는 것을 제안하고, 실험을 통해 이 특징 축소방법이 베이지안망 분류기들의 성능을 높여 줄 수 있는지 알아보았다. 분류기들의 성능에서는 축소한 특징집합으로부터 얻은 베이지안망으로 확장한 나이브 베이지안망 분류기가 가장 우수한 정확도를 가짐을 실험을 통해 알 수 있었다.

  • PDF

의료데이터마이닝을 위한 특징축소와 베이지안망 학습 (Features Reduction and Baysian Networks Learning for Medical Datamining)

  • 정용규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.595-597
    • /
    • 2004
  • 본 연구에서는 베이지안망을 기초로 불임환자의 임상 데이터에 대한 다양한 실험을 전개한다. 실험을 통해 임신여부에 영향을 주는 요인들간의 상호 의존성을 분석하고. 또 제약조건이 다른 다양한 베이지안망의 대표적 유형으로 나이브 베이지안망(NBN), 베이지안망으로 확장한 나이브 베이지안망(BAN), 일반 베이지안앙(GBN) 분류기들의 분류성능을 서로 비교 분석한다. 베이지안망을 적응할 때 변수의 수가 많아짐에 따라 베이지안망의 구조를 학습하는데 탐색공간이 넓어져 시간의 요구량이 급격히 많아진다. 따라서 이런 탐색공간을 효율적으로 줄이기 위하여 클래스 노드의 Markov blanket에 속한 특징들로 집합을 축소하는 것을 제안하고, 실험을 통해 이 특징 축소 방법이 베이지안망 분류기들의 성능을 높여 줄 수 있는지 알아본다.

  • PDF