• 제목/요약/키워드: 군집 샘플링

검색결과 22건 처리시간 0.024초

텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법 (A Clustering-based Undersampling Method to Prevent Information Loss from Text Data)

  • 김종휘;신사임;장진예
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

기계학습 알고리즘의 컴퓨팅시간 단축을 위한 새로운 통계적 샘플링 기법 (A New Statistical Sampling Method for Reducing Computing time of Machine Learning Algorithms)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제21권2호
    • /
    • pp.171-177
    • /
    • 2011
  • 기계학습에서 모형의 정확도와 컴퓨팅시간은 중요하게 다루어지는 부분이다. 일반적으로 모형을 구축하는 데 사용되는 컴퓨팅시간은 분석에 사용되는 데이터의 크기에 비례하여 커진다. 따라서 컴퓨팅시간 단축을 위하여 분석에 사용되는 데이터의 크기를 줄이는 샘플링전략이 필요하다. 하지만 학습데이터의 크기가 작게 되면 구축된 모형의 정확도도 함께 떨어지게 된다. 본 논문에서는 이와 같은 문제를 해결하기 위하여 전체데이터를 분석하지 않아도 전체를 분석할 때와 비슷한 모형성능을 유지할 수 있는 새로운 통계적 샘플링방법을 제안한다. 주어진 데이터의 구조에 따라 최선의 통계적 샘플링기법을 선택할 수 있는 기준을 제시한다. 군집, 층화, 계통추출에 의한 통계적 샘플링기법을 사용하여 정확도를 최대한 유지하면서 컴퓨팅시간을 단축할 수 있는 방법을 보인다. 제안방법의 성능을 평가하기 위하여 객관적인 기계학습 데이터를 이용하여 전체데이터와 샘플데이터 간의 정확도와 컴퓨팅시간을 비교하였다.

샘플링 기반 Canopy Clustering 파라미터 설정 기법 (Sampling-Based Automated Parameter Estimation for Canopy Clustering)

  • 최성운;유승학;윤성로
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.438-440
    • /
    • 2012
  • 대용량 데이터를 효율적으로 군집화하기위해 개발된 Canopy Clustering은 2개의 파라미터 (T1, T2)에 기반하여 Canopy 형성이 결정되며, 결과적으로 이들 파라미터에 의해 군집화 결과가 크게 달라질 수 있다. 이에 따라 데이터의 특성을 잘 반영하는 파라미터 값을 적절히 선택하는 것이 매우 중요하지만, 자동화된 파라미터 설정 기법의 부재로 인하여, 기존 연구에서는 사용자의 경험에 의하여 Canopy Clustering의 파라미터 값을 설정하는 것이 일반적이었다. 본 논문에서는 통계적 샘플링을 이용하여 T1, T2의 값을 효과적으로 설정하는 방법을 제안한다.

노이즈 환경에서 입자 군집 최적화 알고리즘의 성능 향상을 위한 통계적 가설 검정 기반 리샘플링 기법의 적용 (Application of Resampling Method based on Statistical Hypothesis Test for Improving the Performance of Particle Swarm Optimization in a Noisy Environment)

  • 최선한
    • 한국시뮬레이션학회논문지
    • /
    • 제28권4호
    • /
    • pp.21-32
    • /
    • 2019
  • 군집에 대한 사회적 행동 모델에 영감을 받은 군집 최적화 알고리즘은 복잡한 최적화 문제 해결에서부터 인공 신경망의 학습에까지 활용되는 대표적인 메타휴리스틱 최적화 알고리즘 중의 하나이다. 하지만 이 알고리즘은 기본적으로 확률적 노이즈가 존재하지 않는 결정적인 환경에서 개발되었기 때문에, 많은 경우 확률적 노이즈가 존재하는 실제 문제에 적용하기에 어려움이 있었다. 본 논문에서는 이를 개선하기 위하여 불확실 평가 기법이라고 정의되는 통계적 가설 검정 기반의 리샘플링 기법을 적용한다. 이 기법을 통하여 입자 군집 최적화 알고리즘의 성능에 가장 큰 영향을 미치는 입자들의 전역 최적을 정확하게 찾으므로 노이즈 환경에서 입자들이 최적해로 보다 정확하고 빠르게 수렴하도록 한다. 다양한 벤치마크 문제들에 대한 기존 알고리즘들과의 비교 실험 결과는 제안하는 알고리즘의 개선된 성능을 입증하고, 사례 연구의 결과는 본 연구의 필요성을 강조한다. 본 연구 결과가 4차 산업혁명 시대에 디지털 트윈 등을 통한 시뮬레이션 기반 시스템 최적화에 효과적으로 적용될 수 있을 것이라 기대한다.

효율적인 지도 퍼지 군집화를 위한 휴리스틱 분할 진화알고리즘 (A Partitioned Evolutionary Algorithm Based on Heuristic Evolution for an Efficient Supervised Fuzzy Clustering)

  • 김성은;류정우;김명원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.667-669
    • /
    • 2005
  • 최근 새로운 데이터마이닝 방법인 지도 군집화가 소개되고 있다. 지도 군집화의 목적은 동일한 클래스가 한 군집에 포함되도록 하는 것이다. 지도 군집화는 데이터에 대한 배경 지식을 획득하거나 분류 방법의 성능을 향상시키기 위한 방법으로 사용된다. 그러나 군집화 방법에서 파생된 지도 군집화 역시 군집화 개수 설정 방법에 따라 효율성이 좌우된다. 따라서 클래스 분포에 따라 최적의 지도 군집화 개수를 찾기 위해 진화알고리즘을 적용할 수 있으나, 진화알고리즘은 대용량 데이터를 처리할 경우 수행 시간이 증가되어 효율성이 감소되는 문제가 있다. 본 논문은 지도 군집화보다 강인한인 지도 퍼지 군집화를 효율적으로 생성하기 위해 진화성이 우수한 휴리스틱 분할 진화알고리즘을 제안한다. 휴리스틱 분할 진화알고리즘은 개체를 생성할 때 문제영역의 지식을 반영한 휴리스틱 연산으로 탐색 시간을 단축시키고, 개체 평가 단계에서 전체 데이터 대신 샘플링된 부분 데이터들을 이용하여 진화하는 분할 진화 방법으로 수행 시간을 단축시킴으로써 진화알고리즘의 효율성을 높인다. 또한 효율적으로 개체를 평가하기 위해 지도 퍼지 군집화 알고리즘인 지도 분할 군집화 알고리즘(SPC: supervised partitional clustering)을 제안한다. 제안한 방법은 이차원 실험 데이터에 대해서 정확성과 효율성을 분석하여 그 타당성을 확인한다.

  • PDF

협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘 (Effective User Clustering Algorithm for Collaborative Filtering System)

  • 고수정;임기욱;이정현
    • 정보처리학회논문지B
    • /
    • 제8B권2호
    • /
    • pp.144-154
    • /
    • 2001
  • 협력적 여과 시스템은 사용자가 검색하고 읽었던 웹문서를 기반으로 사용자 군집을 생성하여 웹문서의 정확한 추천을 가능하게 한다. 이러한 목적으로 설계된 다양한 알고리즘이 있으나 속도가 느리거나 정확도가 낮다는 등의 단점이 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘인 CUG알고리즘은 사용자 군집을 생성하기 위해 Apriori 알고리즘, Native Bayes 알고리즘을 이용한다. Apriori 알고리즘은 연관 단어 지식 베이스를 구축하고, Native Bayes 알고리즘은 구축된 연관 단어 지식 베이스에 가중치를 추가하며, 사용자가 검색하여 읽은 웹문서를 클래스별로 분류한다. CUG 알고리즘은 분류된 웹문서를 기반으로 하여 사용자 군집을 만든다. 이러한 방법으로 설계된 CUG 알고리즘은 사용자들이 사용할 문서를 미리 검색하여 저장함에 의해 정보검색의 효율성을 향상시키는데 사용될 수 있다. 본 논문에서 설계한 CUG 알고리즘의 선능을 평가하기 위하여 기존의 K-means 방법과 Gibbs샘플링 방법에 의한 군집과 비교한다.

  • PDF

그리드 기반 표본의 무게중심을 이용한 케이-평균군집화 (K-means clustering using a center of gravity for grid-based sample)

  • 이선명;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제21권1호
    • /
    • pp.121-128
    • /
    • 2010
  • 케이-평균 군집분석은 데이터들을 k개의 군집으로 임의로 분할을 하여 군집의 평균을 대푯값으로 분할해 나가는 방법으로 데이터들을 유사성을 바탕으로 재배치를 하는 방법이다. 이러한 케이-평균 군집분석은 시장조사, 패턴분석 및 인식, 그리고 이미지 처리 분야 등에서 폭넓게 응용되고 있다. 그러나 대용량의 데이터베이스를 분석대상으로 하므로 그 만큼 데이터 처리 시간이 많이 소요되는 것이 문제 중의 하나이다. 특히 웹이 보편화된 현재 사용자들의 다양한 패턴을 분석하기 위한 데이터 마이닝 방법이 사용되어지고 있는데 처리 속도 문제는 더욱 중요하게 생각하고 있다. 이러한 속도 문제를 해결하기 위해 본 논문에서는 분할 군집법에서 가장 일반적으로 사용되고 있는 케이-평균 알고리즘에 대해 그리드를 기반으로 한 무게중심 알고리즘을 제안하고자 한다.

단세포 RNA 시퀀싱 데이터를 위한 가중변수 스펙트럼 군집화 기법 (One-step spectral clustering of weighted variables on single-cell RNA-sequencing data)

  • 박민영;박세영
    • 응용통계연구
    • /
    • 제33권4호
    • /
    • pp.511-526
    • /
    • 2020
  • 단세포 RNA 시퀀싱 데이터(single-cell RNA-sequencing data, 이하 단세포 RNA 데이터)는 세포 조직으로부터 추출한 각 단세포 별 유전자의 신호를 기록한 데이터로, 세포 간의 이질성을 파악하는 것을 주요 목적으로 한다. 그러나 단세포 RNA 데이터는 샘플링 및 기술적인 한계로 인해 결측비율이 높고, 노이즈가 크다. 이러한 이유 때문에 기존의 군집화 방법을 적용하는 데에 한계가 존재한다. 본 논문에서는 단세포 RNA 데이터 분석에서 모티브를 얻어 스펙트럼 군집화(spectral clustering) 기반의 방법을 제안한다. 특히 유사도 행렬(similarity matrix) 계산에서 유전자 별로 가중치를 부여하여 기존의 단세포 데이터 분석 방법과 차별화하였다. 제안하는 군집화 방법은 유전자별 가중치를 부여함과 동시에 세포를 군집화한다. 군집화는 반복 알고리즘을 통해 제안하는 비볼록식(non-convex optimization)을 풀어 진행한다. 또한 실데이터 적용과 시뮬레이션을 통해 제안하는 군집화 방법이 기존의 방법보다 군집을 잘 구분하는 것을 보인다.

낙동강 수변공원에 서식하는 식물 군집의 종 다양성 분석 : 조사 방법에 따른 차이 비교 (Comparison of sampling methods in biodiversity analysis of plant communities living in a riparian park area of Nakdong river)

  • 남기정;김민중
    • 한국습지학회지
    • /
    • 제24권4호
    • /
    • pp.312-319
    • /
    • 2022
  • 식물 군집의 종다양성은 정량적으로 측정되며 이때 군집을 조사하는 방법이 결과에 영향을 미칠 수 있다. 본 연구는 낙동강 수변 생태 공원 다섯지역에 서식하는 초본 군집을 대상으로, 세 가지 군집 조사 방법(modified Whittaker 법, modified Daubenmire 법, modified Point-line intercept transect 법)을 적용하였을 때 군집의 구조 및 다양성 양상이 어떻게 다르게 나타나는지 실험적으로 살펴보았다. 연구 결과로 산출한 다양도 profile에 따르면, modified Whittaker 법으로 조사하였을 때 지역에 상관없이 종풍부도가 가장 높게 나타났으나, 지역에 따라 우점하는 종의 다양도가높은 방법이 서로 달랐다. 지역들간 𝛽다양성을 조사한 결과, modified Whittaker 법, modified Daubenmire 법은 다섯지역의 식물군집의 구조가 유사함을 시사한 반면, Point-line intercept 법은 소수의 우점종을 공유함을 시사하였다.

호모그래피 정확도 향상을 위한 Constraint Satisfaction Problem(CSP) 기반의 RANSAC 알고리즘 (CSP driven RANSAC Algorithm for improving the accuracy of Homography)

  • 장철희;이기성;조근식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.318-320
    • /
    • 2012
  • 증강현실 콘텐츠를 2D 이미지기반으로 저작할 때, 작성된 증강현실 콘텐츠를 카메라 시점과 일치시켜 합성하기 위해 호모그래피를 이용한다. 이때 증강현실 콘텐츠를 이질감 없이 합성하기위해 정확한 호모그래피 행렬을 추정해야 한다. 그러나 호모그래피 행렬 추정 시 사용되는 특징점들이 선형을 이루거나, 특정 영역에 군집을 이루는 경우 정확한 호모그래피 행렬을 추정하지 못하는 문제가 발생한다. 본 논문에서는 이러한 문제를 해결하기 위해 선형제약, 거리제약을 적용한 CSP 기반의 RANSAC 알고리즘을 제안한다. 실험결과 호모그래피 행렬 추정 시 CSP를 적용한 RANSAC 알고리즘이 기존의 랜덤샘플링 또는 삼각형의 넓이를 이용한 샘플링을 적용한 RANSAC 알고리즘보다 정확도가 향상됨을 보였다.