• 제목/요약/키워드: HDBSCAN

검색결과 4건 처리시간 0.017초

불균형자료를 위한 판별분석에서 HDBSCAN의 활용 (Discriminant analysis for unbalanced data using HDBSCAN)

  • 이보희;김태헌;최용석
    • 응용통계연구
    • /
    • 제34권4호
    • /
    • pp.599-609
    • /
    • 2021
  • 군집간의 개체 수의 차이가 큰 자료들을 불균형자료라고 한다. 불균형자료의 판별분석에서 다수 범주의 개체를 잘 분류하는 것 보다 소수 범주의 개체를 잘 분류하는 것이 더 중요하다. 그러나 개체 수가 상대적으로 작은 소수 범주의 개체를 개체 수가 상대적으로 많은 다수 범주의 개체로 오분류하는 경우가 많다. 본 연구에서는 이를 해결하기 위해 HDBSCAN과 SMOTE를 결합한 방법을 제안한다. HDBSCAN을 이용하여 소수 범주의 노이즈와 다수 범주의 노이즈를 제거하고 SMOTE를 적용하여 새로운 자료를 만들어낸다. 기존의 방법들과 성능을 비교하기 위하여 AUC와 F1 점수를 이용하였고 그 결과 대부분의 경우에 HDBSCAN과 SMOTE를 결합한 방법이 높은 성능 지표를 보였고, 불균형자료를 분류하는데 있어 뛰어난 방법으로 나타났다.

공정관리 활용을 위한 BIM모델의 공정별 수순 및 위치정보 추출방안 (Method of Deriving Activity Relationship and Location Information from BIM Model for Construction Schedule Management)

  • 윤형석;이재희;황재영;강효정;박상미;강인석
    • 한국건설관리학회논문집
    • /
    • 제23권2호
    • /
    • pp.33-44
    • /
    • 2022
  • 시공단계의 BIM 활용 시 대표적인 기능은 4D시스템에 의한 공정 시뮬레이션 기능을 들수 있다. 4D시뮬레이션을 위해서는 공정 생성 후 공정별 3D모델의 연동과정이 필수적으로 요구된다. 설계단계에 작성된 3D모델은 공정 정보를 고려하지 않으므로 시공단계 적용을 위한 공정 정보의 생성과 3D모델의 연동과정에는 실무적 애로사항이 존재한다. 본 연구에서는 설계단계에 작성된 3D모델에서 HDBSCAN 알고리즘을 이용하여 시공단계의 공정 정보를 추출한 후에 위상정렬 알고리즘 적용으로 선후행관계를 파악하고 공정정보를 자동으로 생성하는 방법론을 제시한다. 생성된 공정 정보는 설계 3D모델을 기반으로 생성되었으므로, 4D시스템에서 공정과 3D모델간의 공통 매개변수에 의해 상호간 자동 연동되는 정보로 활용되어 4D시스템의 실무적 활용성을 배가할 수 있다. 제시된 방법론은 4개 교량에 적용하여 공정 정보 생성결과를 확인하였고, 4D시스템에 적용하여 공정과 3D모델 연동과정의 간편화를 확인하였다.

유의어 사전 기반 환경기술 검색 시스템 설계 (Design of environmental technology search system using synonym dictionary)

  • ;;구영현;유성준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.582-586
    • /
    • 2020
  • 국가기후기술정보시스템은 국내 환경기술과 국외의 수요기술 정보를 제공하는 검색 시스템이다. 그러나 기존의 시스템은 유사한 뜻을 가진 단일 단어와 복수 단어들을 모두 식별하지 못하기에 유의어를 입력했을 경우 검색 결과가 다르다. 이런 문제점을 해결하기 위해 본 연구에서는 유의어 사전을 기반으로한 환경기술 검색 시스템을 제안한다. 이 시스템은 Word2vec 모델과 HDBSCAN(Hierarchical Density-Based Spatial Clustering of Application with Noise) 알고리즘을 이용해 유의어 사전을 구축한다. Word2vec 모델을 이용해 한국어와 영어 위키백과 코퍼스에 대해 형태소 분석을 진행한 후 단일 단어와 복수 단어를 포함한 단어를 추출하고 벡터화를 진행한다. 그 다음 HDBSCAN 알고리즘을 이용해 벡터화된 단어를 군집화 해주고 유의어를 추출한다. 기존의 Word2vec 모델이 모든 단어 간의 거리를 계산하고 유의어를 추출하는 과정과 대비하면 시간이 단축되는 역할을 한다. 추출한 유의어를 통합해 유의어 사전을 구축한다. 국가기후기술정보시스템에서 제공하는 국내외 기술정보, 기술정보 키워드와 구축한 유의어 사전을 Multi-filter를 제공하는 Elasticsearch에 적용해 최종적으로 유의어를 식별할 수 있는 환경기술 검색 시스템을 제안한다.

  • PDF

Matching Matrix를 사용하여 운전자와 승객의 관계를 반영한 강화학습 기반 유동적인 가격 책정 체계 (Dynamic Pricing Based on Reinforcement Learning Reflecting the Relationship between Driver and Passenger Using Matching Matrix)

  • 박준형;이찬재;윤영
    • 한국ITS학회 논문지
    • /
    • 제19권6호
    • /
    • pp.118-133
    • /
    • 2020
  • 최근 통합교통서비스(Mobility-as-a-Service)의 개념을 도입하여 이용자들의 이동성과 접근성을 향상시키고자 하는 연구가 진행되고 있다. 특히 카셰어링, 택시 등 에 대해 수요와 공급에 따라 지역을 구분하여 가격을 책정하는 유동적인 가격 책정 전략을 도입하여 단일 요금제가 가지는 서비스 기피 등의 문제를 해결함과 동시에 기업과 운전자들의 수익성에 긍정적인 영향을 줄 수 있을 것으로 기대되고 있다. 본 연구에서는 승객과 운전자간의 배차거리, 승객의 운행거리, 승객의 목적지에 대한 HDBSCAN 알고리즘을 통해서 정밀하게 인식된 수요 밀집지역, 승객과 운전자가 생각하는 선호가격을 고려하여 승객과 운전자의 입장에서 Matching Matrix를 생성한다. 이를 조합하고 보상에 반영하여, 강화학습이 더욱더 현실적인 유동적인 가격 책정전략을 도출할 수 있는 새로운 방법론을 제안한다.