• 제목/요약/키워드: 데이터 중심 탐색

검색결과 303건 처리시간 0.032초

고차원 데이터에서 점진적 프로젝션을 이용한 클러스터링 (A Clustering using Incremental Projection for High Dimensional Data)

  • 이혜명;박영배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (1)
    • /
    • pp.189-191
    • /
    • 2000
  • 데이터 마이닝의 방법론 중 클러스터링은 데이터베이스 객체들의 에트리뷰트 값에 근거하여 유사한 그룹으로 식별하는 기술적인 작업이다. 그러나 대부분 알고리즘들은 데이터의 차원이 증가할수록 형성된 전체 데이터 공간은 매우 방대하므로 의미있는 클러스터의 탐색이 더욱 어렵다. 따라서 효과적인 클러스터링을 위해서는 클러스터가 포함될 데이터 공간의 예측이 필요하다. 본 논문에서는 고차원 데이터에서 각 차원에 대한 점진적 프로젝션을 이용한 클러스터링 방법을 제안한다. 제안한 방법에서는 클러스터가 포함될 가능성이 있는 데이터공간의 후보영역을 결정하여, 이 영역에서 점들의 평균값을 중심으로 클러스터를 탐색한다.

  • PDF

진화알고리즘을 이용한 클러스터링 알고리즘 (A Clustering Algorithm using the Genetic Algorithm)

  • 류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.313-315
    • /
    • 2000
  • 클러스터링에 있어서 K-means와 FCM(Fuzzy C-means)와 같은 기존의 알고리즘들은 지역적 최소 해에 수렴될 문제와 사전에 클러스터 개수를 결정해야 하는 문제점을 가지고 있다. 본 논문에서는 병렬 탐색을 통해 최적 해를 찾는 진화 알고리즘을 사용하여 지역적 최소 해에 수렴되는 문제점을 개선하였으며, 클러스터의 특성을 표준편차 벡터를 계산하여 중심으로부터 포함된 데이터가 얼마나 분포되어 있는지 알 수 있는 분산도와 임의의 데이터와 모든 중심들간의 거리의 비율로서 얻어지는 소속정도를 고려하여 클러스터간의 간격을 알 수 있는 분리도를 정의함으로써 자동으로 클러스터 개수를 결정할 수 있게 하였다. 실험데이터와 가우시안 분포에 의해 생성된 다차원 실험데이터를 사용하여 제안한 알고리즘이 이러한 문제점들을 해결하고 있음을 보인다.

  • PDF

향상된 균일 스케일링을 이용한 유사 음악 검색시스템 (A Similar Music Retrieval System using Improved Uniform Scaling)

  • 이혜환;심규석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.183-188
    • /
    • 2006
  • 허밍을 통한 유사 검색 질의가 주어질 때 효과적으로 음악 데이터베이스를 검색하는 시스템에 대한 연구는 다양한 방향으로 진행되어 왔다. 최근에는 음악 데이터와 허밍 질의를 시계열 데이터로 보고 시계열 데이터 유사 검색과 관련하여 제안되어 왔던 여러 가지 거리 척도(distance measure)나 인덱싱 기법등을 적용하여 효과적으로 질의를 처리하려는 시도가 계속 되고 있다. 허밍 질의의 특성을 고려한 균일 스케일링(Uniform Scaling)을 사용하여 효과적인 유사 검색을 하는 방법은 가장 최근 제시된 방법 중 하나이다. 본 논문에서는 허밍을 통한 유사 검색 시스템인 Humming BIRD(Humming Based similaR miDi music retrieval system)를 제안하고 구현하였다. 슬라이딩 윈도우를 사용하여 음악의 임의의 부분에 대한 허밍 질의를 처리할 수 있도록 하였으며 효율적인 검색을 위해 중심을 일치시킨(center-aligned) 균일 스케일링을 제안하고 이 거리의 하한을 계산하는 하계 함수를 사용하여 탐색 공간(search space)을 효과적으로 줄여 더 빠르고 효과적인 유사 검색을 가능하도록 하였으며 실험을 통해 중심을 일치시킨된 균일 스케일링이 이전과 같은 검색 결과를 얻으면서도 효과적으로 검색함을 탐색 공간을 줄이는 가지치기 성능을 비교함으로써 보였다.

  • PDF

개인화된 사용자 학습을 위한 연관 객체 추출 설계 및 구현 (Assocate Object Extraction Using personalized user Learning)

  • 유수경;김교정
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.636-639
    • /
    • 2004
  • 본 논문은 웹 도큐먼트를 기반으로 사용자에게 의미 있는 정보를 찾아주기 위한 연관 객체 추출 기법인 PMPL(Personalized Multi-Strategey Pattern Loaming) 시스템을 제안하고자 한다. PMPL 모듈은 인터넷의 정보를 여과하여 필터링하고, 사용자 개인화의 키워드를 중심으로 연관된 객체를 추출한다. 이때 연관된 객체 추출 시 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관 탐색 기법인 Fp-Tree와 Fp-Growth 알고리즘을 적용시켰으며, 연관규칙 탐색을 보완하기 위해 가중치 기법인 만유인력 기법을 적용시켰다. PMPL 시스템을 실행한 결과 개인화된 사용자 중심어 기초로 기존의 단일 학습 기법에 비해 더 많은 의미 있는 연관 지식을 추출한 결과가 보였다.

  • PDF

NFP-Algorithm 알고리즘을 기반한 텍스트 연관 패턴 추출 (Text Assocation Pattern Extraction using NFP-tree Algorithm)

  • 유수경;김교정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.97-100
    • /
    • 2004
  • 인터넷상에서 존재하는 많은 데이터베이스들 중 현실적으로 유용한 정보를 가지고 있는 것은 텍스트 데이타베이스이다. 텍스트 마이닝 기법에서 비구조적인 특징을 가진 텍스트 데이타로부터 유용한 정보를 분석하고 추출하여 연관된 패턴을 탐색하는 과정은 중요한 연구과제이다. 이에 본 논문은 인터넷에서 저장된 텍스트 데이터를 가지고 기존 텍스트 마이닝 기법 중 연관탐색 기법을 적용하여 사용자 중심의 연관된 패턴을 찾아서 의미있는 정보를 얻고자 한다. 탐색하기 위해 먼저 전처리 작업으로 용어의 객체를 추출하고. 추출된 각 객체들은 대용량 데이터에서 시간적, 공간적면에서 효율적인 연관탐색 기법인 NFP-Algorithm(N-most interesting k-itemsets Using FP-tree and FP-Growth)을 적용시켜서 의미있는 정보를 추출했다. 또한 Apriori계 Algorithm, FP-Algorithm, NFP-Algorithm을 비교하여 NFP-Algorithm이 시간적면에서 효율적임을 보여주었다.

  • PDF

저전력 움직임 추정을 위한 데이터 재사용 스캔 방법 (Data Reusable Search Scan Methods for Low Power motion Estimation)

  • 김태선;선우명훈
    • 전자공학회논문지
    • /
    • 제50권9호
    • /
    • pp.85-91
    • /
    • 2013
  • 본 논문은 저전력 움직임 추정장치를 구현하기 위한 전역 탐색 및 고속 탐색용 데이터 재사용 스캔 방법을 제안한다. 제안하는 최적화된 소 구역 분할방법은 탐색 영역을 여러 개의 소 구역으로 나누어 기존의 smart snake scan 방법과 비교 하였을때 같은 양의 데이터 재사용에 필요한 재구성 가능한 레지스터 어레이를 반으로 줄일 수 있다. 또한 제안하는 중심 편향 탐색 스캔방법은 다양한 고속탐색 알고리즘의 데이터 재사용 가능성을 향상 시킬 수 있다. 제안하는 탐색 순서는 기존의 래스터 스캔과 snake scan 방법에 비해 평균적으로 각각 26%와 16.1%의 반복된 데이터 로딩을 줄일 수 있다. 따라서 제안하는 스캔 방법은 메모리의 접근 횟수를 줄일 수 있기 때문에 저전력과 고성능의 움직임 추정 구현에 적합하다.

이동 컴퓨팅 환경에서의 위치 기반 질의 처리를 위한 탐색 공간의 최적화 (Optimizing the Search Space for Location-Dependent Query Processing in Mobile Computing)

  • 백형종;구경이;김유성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.130-132
    • /
    • 2001
  • 이동 컴퓨팅 환청에서 이동 사용자는 언제, 어디서나 현재 자신의 지리적 위치에서 유효성을 갖는 위치 기반 데이터를 액세스 하고자 하는 이동 사용자의 요구가 증가하고 있다. 따라서, 이러한 위치기반의 데이타를 얻기 위한 위치 기반 질의를 표현하고, 효율적으로 처리할 수 있는 방법이 필요하다. 본 논문에서는 위치 기반 질의를 효율적으로 처리 하기 위해 이동 사용자의 현재 위치를 중심으로 하는 원의 방정식을 이용하여 질의 탐색 공간을 표현하고, 질의 영역 분말 방법을 이용하여 탐색공간을 최적화하는 위치 기반 질의 처리 기법을 제안하였다. 또한 이동 사용자에게 적응하는 효율적인 부분 질의 통합 방안을 제시하였다.

  • PDF

웹 탐색과정에서 이용자들의 정보의 판단과 선택 -정보의 질 및 권위를 중심으로 - (Judgment Decision, and Choice in Web Searching Behavior - Information Quality and Cognitive Authority -)

  • 이수영
    • 한국문헌정보학회지
    • /
    • 제36권2호
    • /
    • pp.119-138
    • /
    • 2002
  • 본 연구는 웹 환경에서 이용자들의 정보의 질과 권위에 대한 판단이 웹 탐색과정에서 정보의 선택과 이용에 어떻게 영향을 미치는가를 다루고 있다. 실험실환경에서 교수와 박사과정학생 총 16명을 대상으로 탐색실험을 실시하여, 로그 데이터, 생각 소리내어 말하기 (think-aloud), 인터뷰를 통하여 데이터를 수집하였다. 연구결과, 본 연구의 대상자들은 정보에 대한 판단을 탐색과정의 두 가지 단계에서 내리고 있음이 밝혀졌으며, 이는 예측적 판단과 평가적 판단으로 각각 분석되었다. 웹 정보의 질과 권위에 대한 판단성향과 판단에 영향을 미친 요소를 탐색과제의 유형, 이용자의 신분, 학문영역에 따라 비교하였다.

무선 센서 네트워크에서 에너지 효율을 고려한 모바일 싱크의 데이터 중심 탐색 우선순위결정 기법 (An Energy Efficient Data-Centric Probing Priority Determination Method for Mobile Sinks in Wireless Sensor Networks)

  • 성동욱;이지희;여명호;유재수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권5호
    • /
    • pp.561-565
    • /
    • 2010
  • 센서 네트워크의 수명을 향상 시키기 위해 모바일 싱크 기술을 이용하는 다양한 기법이 연구되고 있다. 모바일 싱크를 이용한 대표적인 연구로 트랙기반 모바일 싱크 운용 기법과 앵커 포인트기반 모바일 싱크 운용 기법이 있다. 이러한 기법들은 질의 발생 위치, 데이터 중요도 등과 같은 네트워크 환경을 고려하지 않은 고정적인 경로 기반으로 하여 QoS(Quality of Service)를 감소시키고, 경로 인근에 전송 핫스팟을 야기시켜 네트워크 수명을 감소시킨다. 본 논문에서는 기존 기법들의 문제점을 해결하는 모바일 싱크 운용 기법을 제안한다. 제안하는 기법에서는 데이터의 중요도를 고려하여 모바일 싱크의 탐색 우선순위를 결정하여 QoS를 높이고, 모바일 특성을 최대한 활용하여 라우팅 핫스팟을 최소화 시킨다. 성능평가 결과 기존 기법에 비해 평균 질의 응답시간을 감소시키고, 네트워크 수명이 연장됨을 보였다.

Chatterjee의 ξ 계수에 대한 탐색적자료분석 (Exploratory data analysis for Chatterjee's ξ coefficient)

  • 장대흥
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.421-434
    • /
    • 2022
  • Chatterjee (2021)는 새로운 상관계수 ξ를 제안하였다. 두 가지 질문 (1. Anscombe's quartet 데이터셋에 대하여 ξ 계수는 구별이 가능한가?, 2. 다양한 종류의 산점도에서 데이터의 개수에 따라 ξ 계수 값의 변화는 어떠한가?)을 중심으로 ξ 계수에 대한 탐색적자료분석을 시도하였다. 세 가지 측도 (ξ 계수, 피어슨상관계수, 상호정보)를 서로 비교하였다.