• 제목/요약/키워드: Recursive tree

검색결과 43건 처리시간 0.018초

클러스터링과 차원축약 기법을 통합한 영상 검색 시스템 (Combined Image Retrieval System using Clustering and Condensation Method)

  • 이세한;조정원;최병욱
    • 전자공학회논문지CI
    • /
    • 제43권1호
    • /
    • pp.53-66
    • /
    • 2006
  • 본 논문에서는 전체 차원으로 데이터베이스 내의 모든 영상에 대해 순차적인 검색을 했을 때의 상세 검색 결과와 동일한 적합성을 유지하면서 검색 속도를 훨씬 더 향상시킬 수 있는 통합 검색 시스템을 제안한다. 통합 검색 시스템은 적합성을 유지하는 서로 다른 두 독립적인 시스템이 병합되어 있다. 하나는 특징 벡터 차원 축약을 이용한 2단계 검색 시스템이고 나머지 하나는 이진 트리 클러스터링을 이용한 2단계 검색 시스템이다. 각각의 방법은 1단계에서 상세 검색에서의 검색 결과를 항상 포함하는 후보 영상들을 추출하고, 추출된 후보 영상들을 대상으로 2단계 검색에서 전체 차원으로 재 검색을 한다 그러므로 각 방법과 통합 검색 방법은 모두 상세 검색을 수행했을 때와 동일한 검색 결과를 얻게 된다. 특징 벡터 차원 축약을 이용한 2단계 검색 방법은 Cauchy- Schwartz 부등식의 성질을 이용하여 특징 벡터를 차원 축약하여 검색에 사용하는 방법이다. 이때 전체 검색 시간을 최소로 하는 최적 차원 축약율이 존재하게 되고, 이를 후보 영상 추출을 위한 1차 검색에 적용하게 된다. 이진 트리 클러스터링을 이용한 2단계 검색 방법은 재귀적인 2-means 클러스터링을 통해 각 클러스터의 반경이 동일하게 동적으로 분할하는 방법이다. 동일한 적합성 유지를 위해 유사도 기준이 보정된 질의를 통해 1단계 검색에서 후보 클러스터를 추출하고, 2단계 검색에서 후보 클러스터 내의 영상을 대상으로 최종 결과 영상들을 얻게 된다. 통합 검색 방법은 위의 두 검색 방법을 통합한 것으로 서로 독립적인 두 방법을 동시에 적용함으로써 검색 시스템의 성능을 훨씬 더 향상시킬 수 있다 제안하는 방법은 상세 검색의 적합성을 유지하면서도 검색 속도를 훨씬 더 향상시킬 수 있음이 실험을 통해 입증되었다.

생물학적 데이터 서열들에서 빈번한 최대길이 연속 서열 마이닝 (Mining Maximal Frequent Contiguous Sequences in Biological Data Sequences)

  • 강태호;유재수
    • 정보처리학회논문지D
    • /
    • 제15D권2호
    • /
    • pp.155-162
    • /
    • 2008
  • DNA 염기 서열이나 단백질 아미노산 서열과 같은 생물학적 서열 데이터들은 일반적으로 많은 수의 항목들을 가지고 있다. 생물학적 데이터 서열들에는 보통 빈번하게 발생하는 수 백개의 항목으로 이루어진 연속된 서열들이 존재한다. 이들 서열들에서 빈번하게 발생하는 연속 서열을 검색하는 것은 생물학적 서열 분석에서 중요한 부분을 차지하고 있다. 이전에는 순차 패턴을 효과적으로 발견하고자 하는 많은 연구들이 수행되었으며 대부분의 기존 순차패턴 마이닝 기법들은 Apriori 알고리즘을 기반으로 한다. PrefixSpan 알고리즘은 Apriori 기반의 가장 효율적인 순차패턴 마이닝 기법이다. 하지만 이 알고리즘은 길이-1인 빈발 패턴들로 부터 서열 패턴을 확장해나가는 방식이다. 따라서 길이가 긴 연속 서열을 포함하는 생물학적 데이터서열들에 대한 검색방법으로는 적합하지 않다. 최근에는 기존의 PrefixSpan방식을 이용하면서도 반복적인 처리과정을 줄인 MacosVSpan이 제안되었다. 하지만 이 알고리즘 또한 길이가 긴 생물학적 데이터 서열들로부터 빈번하게 발생하는 연속 서열들을 검색하기에는 효율적이지 않다. 본 논문에서는 많은 양의 생물학적 데이터 서열들로부터 빈번한 연속서열을 고정길이 확장 트리를 이용하여 효과적으로 찾아내는 방법을 제안한다. 그리고 다양한 환경에서 실험을 통해 제안하는 방식이 MacosVSpan알고리즘에 비해 검색성능이 보다 우수함을 보인다.

낙동강의 중·하류 4개보에서 남조류 우점 환경 요인 분석 (Factors analysis of the cyanobacterial dominance in the four weirs installed in of Nakdong River)

  • 김성진;정세웅;박형석;조영철;이희숙
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.413-413
    • /
    • 2019
  • 하천과 호수에서 남조류의 이상 과잉증식 문제(이하 녹조문제)는 담수생태계의 생물다양성을 감소시키며, 음용수의 이취미 원인물질을 발생시켜 물 이용에 장해가 된다. 또한 독소를 생산하는 유해남조류가 대량 증식할 경우에는 가축이나 인간의 건강에 치명적 해를 끼치기도 한다. 그 동안 국내에서 녹조문제는 댐 저수지와 하구호와 같은 정체수역에서 간헐적으로 문제를 일으켰으나, 4대강사업(2010-2011)으로 16개의 보가 설치된 이후 낙동강, 금강, 영산강 등 대하천에서도 광범위하게 발생되고 있어 중요한 사회적 환경적 이슈로 대두되었다. 한편, 대하천에 설치된 보 구간에서 빈번히 발생하는 녹조현상의 원인에 대해서는 전 지구적 기온상승에 따른 기후변화의 영향이라는 주장과 유역으로부터 영양염류의 과도한 유입, 가뭄에 따른 유량감소, 보 설치에 따른 체류시간 증가 등 다양한 의견이 제시되고 있으나, 대상 유역과 수체의 특성에 따라 녹조 발생의 원인이 상이하거나 또는 다양한 요인이 복합적으로 작용하기 때문에 보편적 해석(universal interpretation)이 어려운 것이 현실이다. 따라서 각 수계별, 보별 녹조현상에 대한 정확한 원인분석과 효과적인 대책 마련을 위해서는 집중된 실험자료와 데이터마이닝 기법에 근거로 한 보다 과학적이고 객관적인 접근이 이루어져야 한다. 본 연구에서는 2012년 보 설치 이후 남조류에 의한 녹조현상이 빈번히 발생하고 있는 낙동강 4개보(강정고령보, 달성보, 합천창녕보, 창녕함안보)를 대상으로 집중적인 현장조사와 실험분석을 수행하고, 수집된 기상, 수문, 수질, 조류 자료에 대해 통계분석과 다양한 데이터모델링 기법을 적용하여 보별 남조류 우점 환경조건과 이를 제어하기 위한 주요 조절변수를 규명하는데 있다. 연구대상 보 별 수질과 식물플랑크톤의 정성 및 정량 실험은 2017년 5월부터 2018년 11월까지 2년에 걸쳐 실시하였으며, 남조류 세포수 밀도와 환경요인과의 상관성 분석을 실시하고, 단계적 다중회귀모델(Step-wise Multiple Linear Regressions, SMLR), 랜덤포레스트(Random Forests, RF) 모델과 재귀적 변수 제거 기법(Recursive Feature Elimination using Random Forest, RFE-RF)을 이용한 변수중요도 평가, 의사결정나무(Decision Tree, DT), 주성분분석(Principal Component Analysis, PCA) 기법 등 다양한 모수적 및 비모수적 데이터마이닝 결과를 바탕으로 각 보별 남 조류 우점 환경요인을 종합적으로 해석하였다.

  • PDF