• 제목/요약/키워드: DBSCAN

검색결과 66건 처리시간 0.019초

불균형자료를 위한 판별분석에서 HDBSCAN의 활용 (Discriminant analysis for unbalanced data using HDBSCAN)

  • 이보희;김태헌;최용석
    • 응용통계연구
    • /
    • 제34권4호
    • /
    • pp.599-609
    • /
    • 2021
  • 군집간의 개체 수의 차이가 큰 자료들을 불균형자료라고 한다. 불균형자료의 판별분석에서 다수 범주의 개체를 잘 분류하는 것 보다 소수 범주의 개체를 잘 분류하는 것이 더 중요하다. 그러나 개체 수가 상대적으로 작은 소수 범주의 개체를 개체 수가 상대적으로 많은 다수 범주의 개체로 오분류하는 경우가 많다. 본 연구에서는 이를 해결하기 위해 HDBSCAN과 SMOTE를 결합한 방법을 제안한다. HDBSCAN을 이용하여 소수 범주의 노이즈와 다수 범주의 노이즈를 제거하고 SMOTE를 적용하여 새로운 자료를 만들어낸다. 기존의 방법들과 성능을 비교하기 위하여 AUC와 F1 점수를 이용하였고 그 결과 대부분의 경우에 HDBSCAN과 SMOTE를 결합한 방법이 높은 성능 지표를 보였고, 불균형자료를 분류하는데 있어 뛰어난 방법으로 나타났다.

전략적 정보제공을 위한 침수영향구역 클러스터링 (Dentifying and Clustering the Flood Impacted Areas for Strategic Information Provision)

  • 박은미;빌랄 무하메드
    • 한국ITS학회 논문지
    • /
    • 제20권6호
    • /
    • pp.100-109
    • /
    • 2021
  • 본 연구는 폭우로 인해 도로침수가 발생되고 그로 인한 교통상황 악화가 발생할 때, 도로이용자와 침수와 혼잡 상황을 관리하는 시의 관리자들에 필요한 정보를 생산하기 위한 방법론에 대한 연구이다. 홍수와 같은 재난상황에서, 도로이용자들의 2차 피해를 막고, 도로상황 악화를 방지하며 빠른 회복을 위해서는, 적절한 정보가 제공되어야 한다. 도시의 규모에 따라 차이가 있겠으나, 도시에 수천 개의 구간이 존재하고, 특히 홍수와 같은 상황에서 수백 개 내지 천개 이상의 혼잡구간이 존재할 때, 개별 구간단위 혼잡수준 정보는 재난상황관리에 더 이상 유용하지 않다. 본 연구에서는 홍수상황에 영향을 받는 링크들을 공간적으로 클러스터링하고, 클러스터에 포함되지 못하는 영향 링크들은 정보제공 대상에 열외 시켜 무의미한 정보는 제외될 수 있도록 하였다. 또한 클러스터의 시공간적 특성, 즉 시간적 지속성, 공간적 크기를 산정하여, 영향 지역의 심각도 정보가 제공될 수 있도록 하였다. 본 연구를 통하여 만들어진 정보는 도로 이용자와 도시 관리자 모두가 홍수로 파급된 도로네트워크 문제에 적절히 대응하게 하는데 활용될 수 있을 것으로 기대된다.

송야천 유역의 비점오염물질 유출 특성 및 오염기여율 분석 (Analysis of Characteristics of NPS Runoff and Pollution Contribution Rate in Songya-stream Watershed)

  • 강태성;유나영;신민환;임경재;박민지;박배경;김종건
    • 한국물환경학회지
    • /
    • 제39권4호
    • /
    • pp.316-328
    • /
    • 2023
  • In this study, the characteristics of nonpoint pollutant outflow and contribution rate of pollution in Songya-stream mainstream and tributaries were analyzed. Further, water pollution management and improvement measures for pollution-oriented rivers were proposed. An on-site investigation was conducted to determine the inflow of major pollutants into the basin, and it was found that pollutants generated from agricultural land and livestock facilities flowed into the river, resulting in a high concentration of turbid water. Based on the analysis results of the pollution load data calculated through actual measurement monitoring (flow and water quality) and the occurrence and emission load data calculated using the national pollution source survey data, the S3 and S6 were selected as the concerned pollution tributaries in the Songya-stream basin. Results of cluster analysis using Pearson correlation coefficient evaluation and Density based spatial clustering of applications with noise (DBSCAN) technique showed that the S3 and S6 were most consistent with the C2 cluster (a cluster of Songya-stream mainstream owned area) corresponding to the mainstream of Songya-stream. The analysis results of the major pollutants in the concerned pollution tributaries showed that livestock and land pollutants were the major pollutants. Consequently, optimal management techniques such as fertilizer management, water gate management in paddy, vegetated filter strip and livestock manure public treatment were proposed to reduce livestock and land pollutants.

오인식률 감소를 위한 이동 물체 검출 및 추적 기법 (Moving Object Detection and Tracking Techniques for Error Reduction)

  • 황승준;고하윤;백중환
    • 한국항행학회논문지
    • /
    • 제22권1호
    • /
    • pp.20-26
    • /
    • 2018
  • 본 논문에서는 오인식률 감소를 위한 다중 프레임 특징점 추적 정보 기반 이동 물체 검출 및 추적 알고리즘을 제안한다. 기존의 연구에서는 이동 물체 탐지의 오인식과 추적의 속도 문제가 존재 하였다. 본 연구에서는 이를 보완하기 위해 먼저, 카메라 이동 보상과 물체의 추적을 위해 다중 프레임의 코너 특징점과 옵티컬 플로우를 계산한다. 다음으로 다중 프레임 전-후방향 추적으로 옵티컬 플로우의 추적 오류를 감소시키고, 카메라 이동 보상을 위해 호모그래피와 RANSAC 알고리즘 기반으로 추적된 코너 특징점을 배경영역과 이동 물체 후보 영역으로 구분한다. 변환된 코너 특징점들 중 RANSAC에 의해 제거되는 이상점들을 군집화하고 일정 크기 이상의 이상점 군집 영역을 이동 물체 후보군으로 구분한다. 이동 물체 후보군으로 구분된 물체는 라벨 추적 기반 데이터 상관 분석에 따라 라벨 번호를 할당하고 추적한다. 이동 물체 후보군으로 구분된 물체는 라벨 추적 기반 데이터 상관 분석에 따라 라벨 번호를 할당하고 추적한다. 본 논문에서는 제안한 알고리즘이 기존 알고리즘에 비해 Precision과 Recall 모두 향상됨을 쿼드로터 영상기반 탐지 및 추적 성능 실험으로 확인하였다.

KOMPSAT 영상을 활용한 SLIC 계열 Superpixel 기법의 최적 파라미터 분석 및 변화 탐지 성능 비교 (Optimal Parameter Analysis and Evaluation of Change Detection for SLIC-based Superpixel Techniques Using KOMPSAT Data)

  • 정민경;한유경;최재완;김용일
    • 대한원격탐사학회지
    • /
    • 제34권6_3호
    • /
    • pp.1427-1443
    • /
    • 2018
  • 객체 기반 영상 분석은 영상의 복잡도를 낮추는 동시에 영상의 특성을 유지한다는 점에서 픽셀 기반 영상 분석보다 높은 효율성과 정보 활용 가능성을 지닌다. Superpixel은 일반적인 영상 분할보다 작은 영상 단위로 영상을 과분할함으로써 영상 내의 경계를 보다 잘 유지할 수 있다. 이 가운데 SLIC(Simple linear iterative clustering) superpixel 기법은 기존의 기법들보다 높은 품질의 영상 분할 결과를 제시하는 것으로 알려져 있다. 이러한 SLIC 기법의 입력 파라미터인 superpixel의 개수는 영상 분할 결과에 큰 영향을 미침에도 이에 대한 연구는 선행 연구에서 충분히 다루어지지 않았다. 이에 본 연구에서는 KOMPSAT 영상을 이용하여 변화 탐지 활용 연구를 위한 SLIC 계열 superpixel 기법의 최적 파라미터 분석 및 변화 탐지 성능 비교를 수행하였다. 사용된 superpixel 기법은 SLIC, SLIC0(SLIC의 무변수 버전), SNIC(Simple non-iterative clustering) 의 세 가지 기법으로, $5{\times}5$(픽셀)에서 $50{\times}50$(픽셀)의 superpixel 크기 범위에 대해서 superpixel 개수를 지정하여 superpixel 분할 영상을 생성하고 변화 탐지 참조 영상에 대한 재현율을 분석하였다. 이를 통해 얻어진 최적 superpixel 크기를 바탕으로 변화를 탐지하고자 하는 두 영상의 차 영상을 분할한 후 일정 크기의 객체로 clustering하였다. 두 시기(bi-temporal) 영상으로부터 얻어진 공통된 영상경계는 전후 영상에 각각 적용함으로써 각 superpixel의 feature(Lab 색상 차이) 변화를 탐지하였다. 최종적인 변화 탐지 결과는 참조 영상을 통해 그 성능이 분석하였으며, 영상의 과분할 정도가 높지 않더라도 규칙적인 크기와 형태의 superpixel을 통해 높은 변화 탐지 성능을 달성할 수 있음을 확인하였다.

지능형 검색엔진을 위한 색상 질의 처리 방안 (Color-related Query Processing for Intelligent E-Commerce Search)

  • 홍정아;구교정;차지원;서아정;여운영;김종우
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.109-125
    • /
    • 2019
  • 지능형 전자상거래 검색 엔진에 대한 관심이 커지면서, 검색 상품의 특징을 지능적으로 추출하고 활용하기 위한 연구들이 수행되고 있다. 특히 전자상거래 지능형 검색 엔진에서 상품을 검색 할 때, 제품의 색상은 상품을 묘사하는 중요한 특징 중에 하나이다. 따라서 사용자의 질의에 정확한 응답을 위해서는 사용자가 검색하려는 색상과 그 색상의 동의어 및 유의어에 대한 처리가 필요하다. 기존의 연구들은 색상 특징에 대한 동의어 처리를 주로 사전 방식으로 다뤄왔다. 하지만 이러한 사전방식으로는 사전에 등록되지 않은 색상 용어가 질의에 포함된 경우 처리하지 못하는 한계점을 가지고 있다. 본 연구에서는 기존에 사용하던 방식의 한계점을 극복하기 위하여, 실시간으로 인터넷 검색 엔진을 통해 해당 색상의 RGB 값을 추출한 후 추출된 색상정보를 기반으로 유사한 색상명들을 출력하는 모델을 제안한다. 본 모델은 우선적으로 기본적인 색상 검색을 위해 671개의 색상명과 각 RGB값이 저장된 색상 사전을 구축하였다. 본 연구에서 제시한 모델은 특정 색상을 검색하는 것으로 시작하며, 검색된 색상이 색상 사전 내 존재하는 지 유무를 확인한다. 사전 내에 검색한 색상이 존재한다면, 해당 색상의 RGB 값이 기준 값으로 사용된다. 만일 색상사전 내에 존재하지 않는다면, Google 이미지 검색 결과를 크롤링하여 각 이미지의 특정 영역 내 RGB값들을 군집화하여 구한 평균 RGB값을 검색한 색상의 기준 값으로 한다. 기준 RGB값을 앞서 구축한 색상 사전 내의 모든 색상의 RGB 값들과 비교하여 각 R, G, B 값에 있어서 ${\pm}50$ 내의 색상 목록을 정렬하고, RGB값 간의 유클리디안 거리 유사도를 활용하여 최종적으로 유사한 색 상명들을 출력한다. 제안 방안의 유용성을 평가하기 위해 실험을 진행하였다. 피설문자들이 생각하는 300 개의 색상 이름과 해당 색상 값을 얻어, 본 연구에서 제안한 방안을 포함한 총 네가지 방법을 통해 얻은 RGB 값들과 피설문자가 지정한 RGB값에 대한 비교를 진행했다. 인간의 눈을 반영하는 측정 기준인 CIELAB의 유클리드안거리는 평균 13.85로 색상사전만을 활용한 방안의 30.88, 한글 동의어사전 사이트인 워드넷을 추가로 활용한 방안의 30.38에 비해 비교적 낮은 색상 간의 거리 값을 보였다. 연구에서 제시하는 방안에서 군집화 과정을 제외한 방안의 색 차는 13.88로 군집화 과정이 색 차를 줄여준다는 것을 확인할 수 있었다. 본 연구에서는 기존 동의어 처리 방식인 사전 방식이 지닌 한계에서 벗어나기 위해, 사전 방식에 새로운 색상명에 대한 실시간 동의어 처리 방식을 결합한 RGB값 기반의 새로운 색상 동의어 처리 방안을 제안한다. 본 연구의 결과를 활용하여 전자상거래 검색 시스템의 지능화에 크게 기여할 수 있을 것이다.