• 제목/요약/키워드: k-mean clustering

검색결과 283건 처리시간 0.033초

사용자 질의어 특징을 반영한 하이라이트 기반 노래 가사 검색 (Highlight based Lyrics Search Considering the Characteristics of Query)

  • 김권양
    • 한국지능시스템학회논문지
    • /
    • 제26권4호
    • /
    • pp.301-307
    • /
    • 2016
  • 본 논문에서는 사용자들이 노래 가사를 입력으로 음악을 검색할 때 사용자의 질의어 특징을 반영한 검색 방법을 제안한다. 일반적으로 노래 가사 검색에서 사용자들이 작성하는 질의어들은 음악 하이라이트 부분에 해당된다는 점을 고려하여 본 논문에서는 노래 가사를 색인할 때, 하이라이트 부분이 더 중요하도록 만든다. 이를 위해 본 논문에서는 응집 계층 군집화를 사용하여 자동으로 음악 하이라이트 부분을 찾고, 하이라이트 부분과 그 주변 부분을 중요하게 고려할 수 있는 가우시안 중요도를 제안한다. 이 가우시안 함수는 평균을 하이라이트 부분으로 설정함으로써 하이라이트에서 가장 높은 값을 가지며, 주변부는 하이라이트보다 낮은 중요도를 가진다. 이렇게 얻어진 중요도와 함께 노래 가사를 색인함으로써 사용자들이 작성한 질의어에 대해 더 부합하는 검색 결과를 제공해준다. 실험에서 실사용자 5명에 대해 다양한 질의 타입들과 함께 평가하였으며, 가중치를 고려하지 않는 비교 모델보다 제안한 방법이 효과적임을 보인다.

후방산란 통신시스템에서 군집화를 통한 블라인드 채널 추정 (Blind Channel Estimation through Clustering in Backscatter Communication Systems)

  • 김수현;이동구;선영규;심이삭;황유민;신요안;김동인;김진영
    • 한국인터넷방송통신학회논문지
    • /
    • 제20권2호
    • /
    • pp.81-86
    • /
    • 2020
  • 주변 후방산란 통신 (Ambient Backsactter Communication, AmBC)은 주변의 RF 신호를 활용해 데이터를 전송하기 때문에 송신 전력이 제한되는 단점을 가지고 있다. 이를 위해, 송수신기 간 전송 효율을 높이 위한 방법으로 수신단에서 채널 상태를 추정할 수 있는 채널 추정기가 필요하다. 본 논문에서는 주변 후방산란 통신에서 기댓값-최대화 알고리즘(Expectation-Maximization Algorithm, EM algorithm) 기반의 채널 추정기의 성능 개선을 위해 K-means 알고리즘 도입 방안을 고려하였다. 모의실험은 제안한 채널 추정기의 성능 확인을 위해 성능 지표로 평균 제곱 오차 (Mean Square Error, MSE)를 사용한다. 모의실험을 통해 K-means을 통한 초깃값 설정 시, 기존 EM 알고리즘을 통한 채널 추정 방식 대비 개선된 성능을 보인다.

데이터 형태에 적응하는 클러스터링 알고리즘 (Data Clustering Algorithm Adaptive to Data Forms)

  • 이기호;이기철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (하)
    • /
    • pp.1433-1436
    • /
    • 2000
  • 클러스터링에 있어서 k-means[7], DBSCAN[2], CURE[4], ROCK[5], PAM[8], 같은 기존의 알고리즘은 원형이나 타원형 등의 어느 고정된 모양에 의해 클러스터를 결정한다. 만약 클러스터 하려는 데이터의 분포가 우연히 알고리즘의 결정된 모양과 일치하면 정확한 해를 얻을 수 있다. 하지만 자연적인 데이터의 분포에서는 발생하기 어렵다. 데이터의 형태를 추적하여 이러한 문제점을 해결한 CHAMELEON[1] 알고리즘이 최근에 발표되었다. 하지만 모양에는 독립적이나 데이터의 양이 증가함에 따라 소요되는 시간이 폭발적으로 증가한다. 이것은 기존의 마이닝 데이터들이 대용량이라는 것을 고려하면 현실에 적용하기 힘든 문제점이 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 K-means[7]]를 이용한 대표를 선출하는 방법으로 CHAMELEON[1]의 문제점 개선(EF-CHAMELEON)을 시도하였으며 여러 자연적인 형태의 도형들은 아주 작은 원형들의 집합으로 구성 될 수 있다는 생각을 기본으로 잡음에 영향을 받지 않을 정도로 아주 작은 초기 다수의 소형 클러스터를 K-mean을 이용하여 구성하고 이를 다시 크러스터간의 상대적인 거리를 이용하여 다시 머지 하는 방법으로 모양에 의존적인 문제를 해결하며 비교사 학습(unsupervised learning)에 충실하기 위해 임계값을 적용 적정 단계에서 알고리즘을 멈추게 한 ADF 알고리즘을 소개한다. 실험 데이터는 기존의 여러 클러스터링 알고리즘이 판별 할 수 없었던 다양한 모양을 가지고있는 2차원 배열을 사용하여 ADF. CHAMELEON[1], EF-CHAMELEON,의 성능을 비교하였다.

  • PDF

스마트폰 가속도 센서의 K-평균 클러스터링을 이용한 사람행동 자동분석 방법에 대한 연구 (A Study on Automatic Analysis Method of Human Behavior Using K-Mean Clustering of Smartphone Acceleration Sensor)

  • 박종권;송특섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.486-487
    • /
    • 2019
  • 스마트폰에는 다양한 센서가 내장되어 있다. 특히 가속도 센서는 물체의 움직임을 파악할 수 있기 때문에 사람의 행동을 분석하는데 많이 사용된다. 기존의 연구들은 가속도센서의 값의 크기를 분석하여 사람의 행동을 분석하였다. 본 연구에서는 스마트폰에 내장된 가속도 센서의 값을 K-평균을 적용하여 움직임을 파악하는 방법을 제안하였다. 스마트폰의 가속도센서의 값을 K-평균을 적용하여 사람의 기본적인 행동인 걷기와 달리기를 인식하기 방법을 제안하였다.

  • PDF

K-means와 Sobel-mask 윤곽선 검출 기법을 이용한 미세먼지 측정 방법 (A Fine Dust Measurement Technique using K-means and Sobel-mask Edge Detection Method)

  • 이원형;서주완;김기연;인치호
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권2호
    • /
    • pp.97-101
    • /
    • 2022
  • 본 논문에서는 CCTV를 활용하여 K-means, Sobel-mask 기반의 윤곽선 검출 기법을 이용한 영상 속 미세먼지 측정 방법을 제안한다. 제안하는 알고리즘은 CCTV 카메라를 이용하여 이미지를 수집하고 관심영역을 통해 이미지 범위를 지정한다. K-means 알고리즘을 적용하여 군집화가 완료되면 Sobel-mask를 통해 윤곽선을 검출하고 윤곽선 강도를 측정하며, 측정된 데이터를 바탕으로 미세먼지의 농도를 파악한다. 제안하는 방법은 대각선 측정에 장점을 가지는 Sobel-mask의 특성을 활용하여 산맥의 윤곽선을 추출하고 실험 결과로 미세먼지 농도에 따른 검출의 차이를 보여준다.

구제역의 시.공간 군집 분석 - 2010~2011 한국에서 발생한 구제역을 사례로 - (A Space-Time Cluster of Foot-and-Mouth Disease Outbreaks in South Korea, 2010~2011)

  • 박선일;배선학
    • 한국지역지리학회지
    • /
    • 제18권4호
    • /
    • pp.464-472
    • /
    • 2012
  • 본 연구는 2010~2011년 한국에서 발생한 구제역이 시 공간에서 어떠한 군집 특징을 보이는가를 질병역학적 관점에서 지리정보시스템(GIS) 기반의 공간통계 방법으로 분석한 것으로 다음과 같은 주요 소견을 도출하였다. 첫째, 경기북부의 발생 사례에서는 가축 사육밀도가 높아 주변 농장으로 바이러스 전파가 용이한 환경에서는 구제역이 상대적으로 좁은 공간적 범위에서 시 공간 군집을 이루면서 전파되는 양상을 보였다. 둘째, 여주 이천 안성 등 경기도 남동부지역에서는 전체 구제역 발생 지점이 공간상으로는 밀집해 있지만 시간상으로는 분산되는 양상을 보였다. 셋째, 시간적 범위를 7일로 하였을 때 시 공간 군집의 평균 반경이 25km이고 최소 반경은 5.4km, 최대 반경은 74km로 분석되었다. 또한 구제역 발병 초기에는 군집의 반경이 작지만, 시간이 지남에 따라 군집의 반경이 커진다는 소견에 근거할 때 특정 지점에서 발생한 구제역에 대한 방역계획을 수립할 때 일차적으로 방역 범위에 대한 정확한 평가가 중요함을 시사한다.

  • PDF

연관 규칙 학습과 군집분석을 활용한 멸종위기 기수갈고둥과 생태계 내 종 간 연관성 분석 (Analyzing the Co-occurrence of Endangered Brackish-Water Snails with Other Species in Ecosystems Using Association Rule Learning and Clustering Analysis)

  • 임성호;도윤호
    • 생태와환경
    • /
    • 제57권2호
    • /
    • pp.83-91
    • /
    • 2024
  • 본 연구는 한국의 멸종위기야생생물 II급으로 분류된 기수갈고둥 (Clithon retropictum)과 생태계 내 다른 종들 사이의 공동출현 양상을 분석하고자, 연관 규칙 학습과 군집분석 방법론을 통합적으로 사용했다. 이 연구의 주요 목적은 기수갈고둥과 다른 생물종 사이의 공동출현 패턴을 파악하는 것이다. 대규모 데이터 세트를 통한 연관 규칙 학습으로 종 간의 공동 출현 패턴과 그들사이의 연관성을 탐색하였고, K-mean와 계층적 군집분석을 통해 종들 간의 생태적 유사성과 차이에 기반으로 한 그룹화를 진행하였다. 연구 결과는 기수갈고둥과 다른 종들 사이에 상당한 공동 출현 관계가 있음을 보여주며, 이러한 공동 출현은 특정 환경 조건과 밀접하게 연결되어 있음을 나타냈다. 특히, 기수갈고둥이 출현하는 지점에서는 특정종의 출현 빈도가 높게 나타나는 패턴을 보였고, 이는 기수갈고둥이 생태계 내에서 중요한 생물지표종으로서의 역할을 수행하고 있음을 시사한다. 이러한 접근 방식은 기수갈고둥과 같은 멸종 위기종의 보존과 생태계 관리 전략 수립에 있어 중요한 의미를 지닌다. 생태계 내에서 공동으로 출현하는 종들 간의 복잡한 연관성을 이해함으로써, 보다 효과적인 보존 전략을 개발하고 생태계의 건강과 안정성을 유지하는 데 기여할 수 있다. 본 연구는 생태계 연구에 있어 데이터기반 접근법의 중요성을 강조하며, 생물 다양성 보존을 위한 새로운 방향을 제시한다.

Analysis of genetic diversity and population structure of rice cultivars from Africa, Asia, Europe, South America, and Oceania using SSR markers

  • Cheng, Yi;Cho, Young-Il;Chung, Jong-Wook;Ma, Kyung-Ho;Park, Yong-Jin
    • 한국작물학회지
    • /
    • 제54권4호
    • /
    • pp.441-451
    • /
    • 2009
  • In this study, 29 simple sequence repeat (SSR) markers were used to analyze the genetic diversity and population structure of 125 rice accessions from 40 different origins in Africa, Asia, Europe, South America, and Oceania. A total of 333 alleles were detected, with an average of 11.5 per locus. The mean values of major allele frequency, expected heterozygosity, and polymorphism information content (PIC) for each SSR locus were 0.39, 0.73, and 0.70, respectively. The highest mean PIC was 0.71 for Asia, followed by 0.66 for Africa, 0.59 for South America, 0.53 for Europe, and 0.47 for Oceania. Model-based structure analysis revealed the presence of five subpopulations, which was basically consistent with clustering based on genetic distance. Some accessions were clearly assigned to a single population in which >70% of their inferred ancestry was derived from one of the model-based populations. In addition, 12 accessions (9.6%) were categorized as having admixed ancestry. The results could be used to understanding the genetic structure of rice cultivars from these regions and to support effective breeding programs to broaden the genetic basis of rice varieties.

Genetic diversity and phenotype variation analysis among rice mutant lines (Oryza sativa L.)

  • Truong, Thi Tu Anh;Do, Tan Khang;Phung, Thi Tuyen;Pham, Thi Thu Ha;Tran, Dang Xuan
    • 한국작물학회:학술대회논문집
    • /
    • 한국작물학회 2017년도 9th Asian Crop Science Association conference
    • /
    • pp.22-22
    • /
    • 2017
  • Genetic diversity is one of fundamental parameters for rice cultivar improvement. Rice mutants are also a new source for rice breeding innovation. In this study, ninety-three SSR markers were applied to evaluate the genetic variation among nineteen rice mutant lines. The results showed that a total of 169 alleles from 56 polymorphism markers was recorded with an average of 3.02 alleles per locus. The values of polymorphism information content (PIC) varied from 0.09 to 0.79. The maximum number of alleles was 7, whereas the minimum number of alleles was 2. The heterozygosity values ranged from 0.10 to 0.81. Four clusters were generated using the unweighted pair group method with arithmetic mean (UPGMA) clustering. Fourteen phenotype characteristics were also evaluated. The correlation coefficient values among these phenotye characteristics were obtained in this study. Genetic diversity information of rice mutant lines can support rice breeders in releasing new rice varieties with elite characterisitics.

  • PDF

Genetic Relationships among Korean Adlay, Coix lachryma-jobi L., Landraces Based on AFLPs

  • Moon Jung-Hun;Jang Jung Hee;Park Jung Soo;Kim Sung Kee;Lee Kyung-Jun;Lee Sang-Kyu;Kim Kyung-Hee;Lee Byung-Moo
    • 한국작물학회지
    • /
    • 제50권2호
    • /
    • pp.142-146
    • /
    • 2005
  • Thirty-two germplasms of Korean adlay landraces were examined to analyse the genetic relationship through the amplified fragment length polymorphism (AFLP) approach. Total number of AFLP products generated by 12 selective primer combinations was 882. The number of polymorphic fragments by each primer combination greatly varied from 4 to 51 with a mean of 20.3, bands visible on the polyacrylamide gel. A genetic similarity coefficient was used for cluster analysis following UPGMA (unweighted pair grouping method of averages) method. The resulting clusters were represented in the form of a dendrogram. The clustering was not tight in the dendrogram. There was generally no clear grouping of the adlay according to the geographic regions in which germplasms were collected. The present AFLP analysis imply that although Korean adlay displayed a larger amount of AFLP variation within germplasms, the variation was shown independently without reflecting a clinal variation. This study demonstrated that AFLP method can be used to examine the genetic relationships among different germplasms of adlay.