• 제목/요약/키워드: 밀도 기반 클러스터링

검색결과 45건 처리시간 0.026초

역방향 인덱스 기반의 저장소를 이용한 이상 탐지 분석 (Anomaly Detection Analysis using Repository based on Inverted Index)

  • 박주미;조위덕;김강석
    • 정보과학회 논문지
    • /
    • 제45권3호
    • /
    • pp.294-302
    • /
    • 2018
  • 정보통신 기술의 발전에 따른 새로운 서비스 산업의 출현으로 개인 정보 침해, 산업 기밀 유출 등 사이버 공간의 위험이 다양화 되어, 그에 따른 보안 문제가 중요한 이슈로 떠오르게 되었다. 본 연구에서는 기업 내 개인 정보 오남용 및 내부 정보 유출에 따른, 대용량 사용자 로그 데이터를 기반으로 기존의 시그니처(Signature) 보안 대응 방식에 비해, 실시간 및 대용량 데이터 분석기술에 적합한 행위 기반 이상 탐지방식을 제안하였다. 행위 기반 이상 탐지방식이 대용량 데이터를 처리하는 기술을 필요로 함에 따라, 역방향 인덱스(Inverted Index) 기반의 실시간 검색 엔진인 엘라스틱서치(Elasticsearch)를 사용하였다. 또한 데이터 분석을 위해 통계 기반의 빈도 분석과 전 처리 과정을 수행하였으며, 밀도 기반의 군집화 방법인 DBSCAN 알고리즘을 적용하여 이상 데이터를 분류하는 방법과 시각화를 통해 분석을 간편하게 하기위한 한 사례를 보였다. 이는 기존의 이상 탐지 시스템과 달리 임계값을 별도로 설정하지 않고 이상 탐지 분석을 시도하였다는 것과 통계적인 측면에서 이상 탐지 방식을 제안하였다는 것에 의의가 있다.

유사한 인기도 추세를 갖는 웹 객체들의 클러스터링 (Clustering of Web Objects with Similar Popularity Trends)

  • 노웅기
    • 정보처리학회논문지D
    • /
    • 제15D권4호
    • /
    • pp.485-494
    • /
    • 2008
  • 인터넷이 광범위하게 활용됨에 따라 검색 키워드, 멀티미디어 객체, 웹 페이지, 블로그 등의 다양한 웹 객체들이 크게 증가하고 있다. 이러한 웹 객체들의 인기도는 시간에 따라 변화하며, 그러한 웹 객체 인기도의 시간적 패턴에 대한 마이닝이 여러 가지 웹 응용에 필요한 중요한 연구 과제가 되고 있다. 예를 들어, 검색 키워드에 대한 인기도 패턴의 분석은 앞으로 인기가 높아질 키워드를 미리 예측할 수 있게 하여 광고주들에게 키워드를 판매하기 위한 가격을 결정하는 데에 중요한 자료가 될 수 있다. 하지만, 웹 객체 인기도가 시간에 따라 변화하고 웹 객체의 개수가 매우 방대하다는 특성으로 인하여 웹 객체 인기도에 대한 분석은 매우 어려운 문제이다. 본 논문에서는 웹 객체 인기도의 시간적 패턴을 마이닝하기 위한 효율적인 알고리즘을 제안한다. 본 논문은 웹 객체 인기도를 시계열로 표현하고, 두 웹 객체 인기도 간의 유사성을 측정하기 위하여 gap 척도를 제안한다. gap 척도의 효율적인 계산을 위하여 FFT를 활용한 알고리즘을 제안하고, 밀도기반 클러스터링 알고리즘을 이용하여 유사한 인기도 추세를 갖는 웹 객체들의 클러스터를 생성한다. 본 논문에서는 웹 객체 인기도가 특정 분포를 따르거나 주기적이라고 가정하지 않는다. Google Trends 웹 사이트로부터 구한 검색 키워드 인기도를 이용한 실험을 통하여, 제안된 알고리즘이 실세계 응용에서 유용함을 보인다.

차량 통신 네트워크에서 효율적인 긴급 메시지 전파를 위한 클러스터링 기반의 라우팅 알고리즘 (Clustering based Routing Algorithm for Efficient Emergency Messages Transmission in VANET)

  • 김준수;류민우;차시호;이종언;조국현
    • 한국산학기술학회논문지
    • /
    • 제13권8호
    • /
    • pp.3672-3679
    • /
    • 2012
  • 차량 통신 네트워크는 이동하는 차량과 차량 간의 통신 및 차량과 인프라 간의 통신을 이용하여 운전자의 안전 및 교통 흐름 개선 등 다양한 서비스를 제공하는 차세대 네트워크 기술이다. 이러한 차량 통신 네트워크에서는 운전자의 안전을 위하여 최근 다양한 연구가 활발히 이루어지고 있으며, 특히 긴급 메시지를 전송하여 이동하는 차량에게 경고 메시지를 전달함으로써 교통안전의 효율성을 높이기 위한 연구가 활발히 진행되고 있다. 이동하는 차량에게 긴급 메시지를 효율적으로 전파하기 위해서는 차량 노드의 전송 범위 안에 속해 있는 노드들에게 브로드캐스팅을 통하여 최대한 많은 노드들에게 빠르게 메시지를 전송하는 것이 매우 중요하다. 하지만 기존 제안되었던 연구들은 메시지 전송 시 통신에 참여하는 노드들의 무분별한 브로드캐스팅으로 인한 브로드캐스팅 폭풍 문제가 발생하였으며, 이로 인하여 전체적인 성능이 감소하는 문제를 야기하였다. 또한 이러한 문제는 도심 지역과 같이 차량 노드의 밀도가 높고 다양한 도로의 형태에서 많은 문제점을 야기한다. 따라서 본 논문에서는 도심지역과 같이 차량의 밀도가 높은 지역에서 효율적으로 메시지를 전달할 수 있는 클러스터링 기반의 라우팅 알고리즘 (CBRA, Clustering based Routing Algorithm)을 제안한다. 제안하는 라우팅 알고리즘은 메시지 전송 시 클러스터링 방법을 통해 차량을 관리함으로써 도로 형태에 따른 링크 단절 문제를 해결하고 각 클러스터에서 선택적 플러딩 방법을 적용하여 브로드캐스팅 폭풍문제와 메시지 전송 시 효율성을 향상시킨다. ns-2를 이용한 시뮬레이션 결과 본 논문에서 제안하는 CBRA 방법이 기존 제안되었던 방법보다 더 우수한 성능을 보이는 것을 입증하였다.

Zigbee환경에서 효율적인 Cluster Header 선출 기법 (An Efficient Cluster Header Election Technique in Zigbee Environments)

  • 이주현;이경화;이준복;신용태
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권3호
    • /
    • pp.346-350
    • /
    • 2010
  • 현재, Zigbee환경에서 센서 노드는 자원 제약적인 특성 때문에 효율성을 높이기 위한 다양한 연구가 진행되고 있다.[1] 계층적 구조를 가지는 클러스터링 기법은 정보의 중복 전달 방지와 네트워크 확장 용이성을 제공한다.[2] 그러나 클러스터 헤더 선출 시 오버헤드 발생하며 잘못된 클러스터 헤더 선출은 자원을 효율적으로 사용할 수 없다는 한계가 있다. 본 논문에서는 계층적 클러스터링 기법에서 노드의 위치나 에너지 정보를 싱크노드에서 알고 있는 중앙 처리식을 활용하여 거리와 노드의 밀도를 기반으로 하는 클러스터 헤더의 선출기법을 제안하고자 한다.

모돈 행동 특성 분석을 위한 마이크로 클러스터링 기술 연구 (A Study on Micro Clustering Technology for Breeding Pig Behavior Analysis)

  • 조진호;오종우;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.165-165
    • /
    • 2017
  • 모돈은 사육 특성상 제한된 파일롯 공간 안에 장시간 머물기 때문에 과중한 몸무게에 의한 지제 이상, 섭식 등의 불량, 수면상태의 불량 등을 지속적으로 관찰해야 하는 대상이다. 측면에 다수의 초음파 센서를 설치하여 기립의 상태 및 운동 시 몸체 궤적의 특성을 분석하여 종합적으로 모돈의 행동 특성을 정량화 하고자 하였다. 이 과정에서 계측 신호의 값을 대수적으로 비교하는 방식에 한계가 있음을 발견하였고, 이를 해결하고자 10 Hz/Ch 내외의 시계열 상대거리 궤적 신호를 주파수 도메인으로 변경하여 분석을 수행하였다. 일정 주파수에 집중되어 있는 주파수 값의 크기 변화(파워 스펙트럼 밀도)를 기준으로 모돈의 움직임의 정상 상태 유무 판별이 가능하였다. 단, 이러한 분석은 계측 데이터를 일괄 처리 방식으로 분석하는 방법으로 도출이 되었으므로, 계측과 정량 분석을 동시에 수행하기 위한 개선이 필요하였다. 계측 시스템에서 사용한 마이크로 프로세서는 Nucleo-446(STMelectronics, CA, USA)로 180 Mhz의 클럭 속도로 작동하나, 총 100 Hz 내외의 16비트 계측 신호에 대해 추가적으로 FFT 등의 주파수 변환 신호 처리를 수행하기에는 연산 능력이 부족하였다. 한편, 주파수 분석의 주기를 1분 단위로 할 경우 처리해야할 정보의 크기는 $100{\times}60{\times}5{\times}2Byte$ 이므로 1분 내에 해당 연산을 종료할 수 있는 추가의 연산 장치가 필요하였다. 계측과 주파수 도메인 변환 연산을 동시에 수행하기 위하여 1 Ghz의 연산능력을 가진 ARM A9 계열의 초소형 멀티코어 AP인 NanoPi Neo Air(Friendlyarm, Guangzhou, China)을 선정하였다. 4개의 코어를 각각 계측, Median 필터링, Smoothing 연산, FFT 분석에 사용하여 1분 단위, 2분 단위, 5분 단위의 주파수 분석을 동시에 수행하였다. 병렬 연산 라이브러리는 오픈 소스인 MPICH(www.mpich.org)를 이용하였다. 상대적으로 여유있는 자원을 보유하고 코어를 실시간으로 결정하여 다수의 모돈 개체 동시 모니터링을 위한 네트워크 연결 역할을 동시에 수행하도록 하였다. 1주일 내외의 요인 실험 수행 결과, 약 70 Mbyte의 데이터가 축적이 되었으며, 1분 단위, 2분 단위, 5분 단위의 주파수 도메인 변환 후 결과를 동시에 취득할 수 있었다. 일부 주파수 도메인 상의 파워 밀도 값이 모돈의 행동 특성에 분석에 유효한 정보를 제공함을 발견하였다. 모돈사 내 현장 보급이 가능한 초소형 AP와 멀티 코어 기반 병렬 처리 기법을 이용한 현장 진단 시스템 개발 연구를 지속적으로 수행할 것이다.

  • PDF

EM알고리즘을 기반으로 한 뉴로-퍼지 모델링 (EM Algorithm based Neuro-Fuzzy Modeling)

  • 김승석;전병석;김주식;유정웅
    • 대한전기학회:학술대회논문집
    • /
    • 대한전기학회 2002년도 하계학술대회 논문집 D
    • /
    • pp.2846-2849
    • /
    • 2002
  • 본 논문은 뉴로-퍼지 시스템에서의 규칙 선택 및 모델 학술에 대하여 EM 알고리즘을 기반으로 하는 구조 동정을 제안한다. 뉴로-퍼지 모델링에서의 초기 파라미터가 학습과정에서의 모델 성능에 큰 영향을 주고 있다. 주어진 데이터에 근거한 파라미터 추정에는 다양한 방법들이 소개되고 응용되어져 왔는데 이전 연구들에서 볼 수 있는 HCM, FCM 등은 데이터와의 유클리디언 거리를 최소화하는 중심점을 파라미터로 선택하는 등의 방법과 퍼지 균등화 등은 데이터의 확률 밀도함수를 이용하여 파라미터를 추정하였다. 제안된 방법에서는 데이터에서의 Maximum Likelihood Estimator를 기반으로 하는 방법으로 EM 알고리즘을 이용하였다. 초기 파라미터의 결정에서 EM 알고리즘을 이용하여 뉴로-퍼지 모델의 전제부 소속함수 파라미터 추정을 실시한다. EM 알고리즘을 이용한 퍼지 모델의 특징으로는 전제부가 클러스터링에 의하여 생성되므로 입력의 차원이나 소속함수의 수가 증가하여도 규칙의 수는 증가하지 않는다. 이를 자동차 MPG 예제를 통하여 제안된 방법의 유용성을 보이고자 한다.

  • PDF

지리정보를 이용한 자동사진분류 (Automatic Photograph Classification Using Geographical Information)

  • 홍영진;김성운;유명현;이영범;김상룡
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2006년도 학술대회 1부
    • /
    • pp.692-698
    • /
    • 2006
  • 점점 더 많은 디지털 카메라와 휴대폰이 고해상도 카메라가 장착되고 대용량의 저장공간이 제공되면서 사용자들의 사진촬영 빈도가 증대하고 있다. 조만간 휴대폰의 저장된 사진을 효과적으로 관리하고 브라우징할 수 있는 기술이 필요한 시기가 올 것이다. 본 논문은 휴대폰이나 디지털 카메라 혹은 카메라가 장착되어 사진을 찍을 수 있는 모든 형태의 휴대단말에서 촬영된 개인사진을 지리적 위치정보를 이용하여 자동으로 분류하는 시스템을 제시한다. 기존의 시간정보를 이용하여 촬영시간의 근접성을 이용해 순차적으로 자동 분류하는 시스템과는 달리 위치정보를 이용하여 촬영위치에 따라 비순차적으로 자동 분류한다. 촬영위치 근접성을 결정하기 위해 밀도기반 클러스터링 알고리즘을 사용하여 전체 사진을 대분류하고 기존의 자동사진 분류방식에서는 다루지 않았던 일상사진과 비일상사진을 분류하고, 대분류된 사진을 시간정보를 이용하여 소분류 함으로서 자동 사진분류 성능을 높이고자 한다.

  • PDF

확장성을 갖는 클러스터 기반의 라우팅 프로토콜 (Scalable Cluster Overlay Source Routing Protocol)

  • 장광수;양효식
    • 전자공학회논문지CI
    • /
    • 제47권3호
    • /
    • pp.83-89
    • /
    • 2010
  • 확장성을 제공하는 라우팅 알고리즘은 대규모 MANETs를 운영하는데 중요한 요소 중 하나이다. 현재까지 개발된 라우팅 알고리즘의 성능은 네트워크내의 노드의 수에 종속적이거나 노드의 위치정보를 알아야 하는 등 여러 가지로 제한적이었다. 라우팅 알고리즘의 성능이 네트워크내의 노드의 수에 종속적이어서 노드의 밀도가 증가하는 경우 기존의 알고리즘들은 성능이 현저히 떨어지는 결과를 보인다. 본 논문에서는 확장성 제공을 위한 클러스터링 기반의 Dynamic Source Routing 알고리즘을 제안하고 컴퓨터 시뮬레이션을 이용하여 성능분석을 수행하여 기존의 DSR과 비교하였다. 단위 메시지 당 전송한 경로발견에 사용된 메시지의 수의 경우 DSR과 비교하여 90% 이상 향상된 성능개선을 보였다. 또한 네트워크내의 노드 밀도와 네트워크 사이즈를 변화하면서 성능분석을 수행한 결과 제안된 알고리즘은 동작이 단순하고, 목적지까지의 경로 획득에 있어서 메시지나 경로 획득 수행시간의 복잡도가 네트워크 내의 노드의 수가 증가하더라도 일정한 성능을 보인다.

청크 기반 MOLAP 큐브를 위한 비트맵 인덱스 (A Bitmap Index for Chunk-Based MOLAP Cubes)

  • 임윤선;김명
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.225-236
    • /
    • 2003
  • 다차원 온라인 분석처리 (MOLAP, Multidimensional On-line Analytical Processing) 시스템은 데이타를 큐브라고 불리는 다차원 배열에 저장하고 배열 인덱스를 이용하여 데이타를 엑세스한다. 큐브를 디스크에 저장할 때 각 변의 길이가 같은 작은 청크들로 조각내어 저장하게 되면 데이타 클러스터링 효과를 통해 모든 차원에 공평한 질의 처리 성능이 보장되며, 이러한 큐브 저장 방법을 ‘청크기반 MOLAP 큐브’ 저장 방법이라고 부른다. 공간 효율성을 높이기 위해 밀도가 낮은 청크들은 또한 압축되어 저장되는데 이 과정에서 데이타의 상대 위치 정보가 상실되며 원하는 청크들을 신속하게 엑세스하기 위해 인덱스가 필요하게 된다. 본 연구에서는 비트맵을 사용하여 청크기반 MOLAP 큐브를 인덱싱하는 방법을 제시한다. 인덱스는 큐브가 생성될 때 동시에 생성될 수 있으며, 인덱스 수준에서 청크들의 상대 위치 정보를 보존하여 청크들을 상수 시간에 검색할 수 있도록 하였고, 인덱스 블록마다 가능한 많은 청크들의 위치 정보가 포함되도록 하여 범위 질의를 비롯한 OLAP 주요 연산 처리 시에 인덱스 엑세스 회수를 크게 감소시켰다. 인덱스의 시간 공간적 효율성은 다차원 인덱싱 기법인 UB-트리, 그리드 파일과의 비교를 통해 검증하였다.

기술예측을 위한 특허 키워드 네트워크 분석 (Keyword Network Analysis for Technology Forecasting)

  • 최진호;김희수;임남규
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.227-240
    • /
    • 2011
  • 특허의 중요성이 커짐에 따라 특허분석의 중요성 또한 점점 커지고 있다. 특허분석은 네트워크 기반 방법과 키워드 기반 방법으로 나눠지는데 네트워크 기반은 특허 내부에 존재하는 세부 기술정보에 대한 분석이 불가능하다는 단점이 있고 키워드 기반은 기술정보간의 상호관계를 규명하지 못한다는 단점이 있다. 기존에 제시된 네트워크 기반 특허 분석과 키워드 기반 분석의 한계를 극복하기 위해서 두 방법을 혼합한 방법으로서 본 연구에서는 특허 키워드 네트워크 기반 분석 방법론을 제시하였다. 본 연구에서는 LED 분야의 특허들을 대상으로 텍스트 마이닝을 통해 중요한 기술정보를 추출한 다음, 키워드 네트워크를 구축하고, 이를 대상으로 커뮤니티 네트워크 분석을 수행하였다. 분석 결과는 다음과 같다. 첫째, 특허 키워드 네트워크는 매우 낮은 밀도와 매우 높은 클러스터링 지수를 나타내었다. 밀도가 높다는 것은 LED 분야내 특허 키워드 네트워크 내 노드(키워드)들이 산발적으로 연결되어 있다는 것을 의미하며, 클러스터링 지수가 높다는 것은 해당 키워드 네트워크 내 노드, 즉 키워드들이 각각의 커뮤니티로 매우 긴밀하게 연결되어 있음을 나타낸다. 둘째, 특허 키워드 네트워크도 다른 지식네트워크와 마찬가지로 명확한 멱함수 분포를 따른다는 사실을 알 수 있었다. 이는 기존에 활발히 연구, 활용되어 많은 연결고리를 갖고 있는 특허개념(키워드)수록 지속적으로 다른 연구자들에 의해 선택되고 이 키워드를 바탕으로 새로운 키워드들이 연결되어서 이들 키워드간의 조합으로 새로운 기술이 발명된다는 것이다. 셋째, 특허가 개발될 때 특정 분야에 유입된 키워드 중 새로운 링크가 생긴 키워드의 대부분이 기존에 연결되어 있던 커뮤니티 내의 키워드들과 결합되어 새로운 특허 개념을 구성한다는 사실을 발견하였다. 이러한 사실은 단기(4년) 장기(10년) 두 기간 모두 동일하게 나타났다. 나아가 본 연구에서 제시한 방법론을 통해 도출된 특허 키워드 조합 정보를 활용하면 미래에 어떤 개념들이 합쳐져서 새로운 특허 단위로 만들어 질지 가늠해볼 수 있고, 새로운 특허를 개발할 때 참고할 수 있는 유용한 정보로 활용할 수 있다.