• 제목/요약/키워드: 클러스터 간 유사도

검색결과 106건 처리시간 0.028초

개선된 유사성 검증 방법과 동적인 경계 변수를 이용한 ART1 알고리즘에 관한 연구 (A Study on ART1 Algorithm by Using Enhanced Similarity Test and Dynamical Vigilance Threshold)

  • 민지희;홍제형;김재용;김광백
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2003년도 춘계학술발표대회논문집
    • /
    • pp.193-197
    • /
    • 2003
  • 기존의 ART1 알고리즘은 입력 패턴과 저장 패턴간의 유사성 검증 방법의 문제점과 경계 변수에 따라 클러스터의 수와 인식률이 좌우되는 문제점이 있다. 본 논문에서는 기존의 ART1 알고리즘을 개선하기 위하여 입력 패턴과 저장 패턴간의 Exclusive NOR의 놈(norm) 비율을 사용하는 유사성 측정 방법과 퍼지 접속 연산자를 이용하여 유사성에 따라 경계변수를 동적으로 조정하는 방법을 적용한 개선된 ART1을 제안한다. 제안된 방법에서는 1의 개수 비율이 아니라 같은 값을 가진 노드의 비율을 사용하여 유사성을 측정하고 경계 변수는 Yager의 합 접속 연산자를 사용하여 동적으로 조정한다. 제안된 방법의 성능을 확인하기 위하여 26개의 영문 패턴 분류 문제와 잡음이 있는 패턴 인식 문제를 대상으로 실험한 결과, 제안된 방법이 기존의 ART1 알고리즘 보다 경계 변수의 설정에 따라 민감하게 반응하지 않았고 인식률에서도 개선된 것을 확인하였다.

  • PDF

스타일 분석을 통한 커플 매칭 플랫폼 (Couple Matching Platform through Style Analysis)

  • 최형락;조성언;김동하;문재현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.868-871
    • /
    • 2019
  • 본연구는 커플들의 이미지 빅 데이터를 분석하여 각각 얼굴과 패션에 따라 유사한 유형 끼리 클러스터링 하여 새로운 사람 이미지가 주어졌을 때 해당 사람이 어느 유형에 속하는지 찾아내고 해당 유형의 사람들은 어떤 유형의 이성과 잘 맞는지 찾아 추천해주는 플랫폼이다. 빅 데이터를 수집하기 위하여 SNS상에서 커플들의 이미지를 크롤링하여 저장한다. 수집된 커플들의 이미지를 AI 머신 러닝으로 나이, 성별을 분석하여 미리 설정한 나이대의 이성 커플들의 이미지 만을 추려내서 각각 남, 여의 이미지를 분리하여 저장한다. 해당 이미지들로 비슷한 얼굴, 패션 유형의 사람들을 같은 클러스터로 모으고 CNN 으로 학습 시켜서 새로운 이미지가 들어올 경우 효율적으로 해당 이미지가 어느 클러스터에 속하는지 찾아낼 수 있도록 한다. 특정 이미지가 속하는 클러스터를 찾아내면 해당 클러스터에 속하는 사람들의 연인들이 어느 클러스터에 가장 많이 포함되어 있는지 찾아서 해당 클러스터 유형의 이성을 추천해준다. 웹과 어플리케이션으로 이루어진 플랫폼 서비스이며, 커플 매칭 기능 뿐만 아니라 매칭된 회원 간 연락 기능, 실제 커플의 이미지로 두 사람의 매칭도 확인 등의 부가적 기능 또한 인공 지능 서비스로 제공된다.

검색결과의 브라우징을 위한 계층적 클러스터링 (A Hierarchical Clustering for Browsing Retrieval Results)

  • 윤보현;김현기;노대식;강현규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.342-344
    • /
    • 2000
  • 대부분 웹 검색엔진들의 검색결과로 수십 혹은 수백만건의 문서가 제시되어 사용자가 원하는 문서를 찾는데 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 검색 결과의 브라우징을 위한 검색 결과 문서에 대한 자동 클러스터링 방법을 제안한다. 문서간 유사도를 계산하기 위해 공통 키워드 빈도를 이용하고, 클러스터링 방법은 계층적 클러스터링을 사용하고, 각 클러스터에 대한 디스트립터를 추출하기 위해 빈도를 이용한다. 실험 결과, 완전 연결 방법이 가장 나은 정확도를 보였지만 계산시간이 많이 소요되어 동적 환경에 부적합하다는 것을 보였다. 아울러 집단 평균 연결이 정확도나 계산 시간 측면에서 우수함을 알수 있었다.

  • PDF

순차패턴에 기반한 XML 문서 클러스터링 (XML Document Clustering Based on Sequential Pattern)

  • 황정희;류근호
    • 정보처리학회논문지D
    • /
    • 제10D권7호
    • /
    • pp.1093-1102
    • /
    • 2003
  • 인터넷의 사용 증가로 정보의 양은 기하급수적으로 증가하고 있으며 웹 데이터의 표준인 XML의 데이터 표현의 유연성으로 인해 EDMS(Electronic Document Management System), ebXML(e-business extensible Markup Language) 등 웹 기반의 전자문서론 이용하는 시스템들은 XML를 문서 교환 방식 및 표준 문서 형식으로 도입하고 있는 실정이다. 그러므로 점차 확산되어 가고 있는 XML 문서에 대한 효율적인 문서의 관리와 검색을 위한 연구가 필요하다. 이 논문에서는 다중 문서간의 구조적 유사성을 분류하기 위하여 엘리먼트의 순서적 의미를 갖는 XML 문서를 대상으로 순차패턴을 이용하여 문서의 특성을 반영하는 대표구조를 추출하고 추출된 구조를 기반으로 유사 구조 문서를 클러스터링하는 방법을 제시한다. 이 논문의 제안 알고리즘은 클러스터의 응집도와 클러스터간의 유사도를 함께 고려하는 비용계산 방식을 이용하므로써 클러스터링의 정확도를 높일 수 있는 효과를 얻을 수 있다.

다종의 유전체로부터 탐지된 Ortholog 군집에 대한 분석 (An Analysis of Ortholog Clusters Detected from Multiple Genomes)

  • 김선신;오정수;이범주;김태경;정광수;이충세;김영창;조완섭;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권2호
    • /
    • pp.125-131
    • /
    • 2008
  • 새로운 유전체 주석달기와 유전체 진화에 대한 연구를 위해서 올소로그(Ortholog)를 탐지하는 일은 매우 유용하다. 이전에 제안한 연구에서, 우리는 여러 종의 유전체로부터 올소로그 클러스터를 자동적으로 구축하는 방법을 제안하였다. 이 방법은 단지 두 종의 결과를 생성하는 InParanoid를 여러 종으로 확장하고 이와 동일한 질을 가진 결과를 산출한다. 한편, 새롭게 서열이 밝혀진 유전자의 기능을 보다 정확히 예측하기 위해, 패럴로그(Paralog)가 가급적 적게 포함되는 올소로그 클러스터를 구축하는 것이 중요한 문제가 될 수 있다. 이 논문에서, 우리는 임계값을 사용하여 보다 순수한 올소로그 클러스터를 구축하는 방법에 대하여 조사하였다 우리는 20개의 원핵생물의 데이타셋으로부터 올소로그 클러스터를 구축하였다. 우리의 올소로그 클러스터를 COG(Clusters of Orthologous Group) 및 KO(Kegg Orthology)와 비교하였을 매, 약 90%의 유사도를 가지며 임계간의 증가와 더불어 증가하는 경향이 있다.

문장 클러스터링에 기반한 자동요약 모형 (A Text Summarization Model Based on Sentence Clustering)

  • 정영미;최상희
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.159-178
    • /
    • 2001
  • 본 연구에서는 문장 클러스터로부터 대표문장을 선정하여 요약문을 생성하는 자동요약 모형을 제시하고. 학습문서 집단을 미용하여 최적의 요약 환경을 구축한 후 요약 실험을 수행하였다. 학습 과정에서 문장의 클러스터링 기법으로는 7개의 계층적 기법들을 비교한 결과 클러스터를 구성하는 문장 수의 편차가 가장 적고 단일 문장 클러스터를 가장 적게 생성하는 센트로이드 기법이 선택되었다. 또한 각 클러스터를 대표하는 문장의 선정을 위해 용어 및 문장 가중치를 합산한 문장값과 클러스터-문장 벡터간 유사도의 두 기준을 비교한 결과 문장값 기준이 선택되었다. 용어 가중치로는 역문장빈도와 표제어 가중치, 그리고 문장의 위치 가중치가 자동요약 성능을 개선시키는 것으로 나타났으며, 적절한 요약문의 길이는 전체 문서의 1/3인 것으로 나타났다. 실험문서 집단으로는 문서의 길이와 특성이 다른 신문기사와 잡지기사의 두 집단을 이용하였다. 요약 모형의 검증 실험 결과 요약 정확률은 신문기사 집단에서는 53%, 잡지기사 집단에서는 47%인 것으로 나타났다. 두 실험 모두 랜덤하게 생성한 베이스라인 요악문보다 성능이 우수하였으나, 리드문장들로 구성된 베이스라인 요약문과의 비교에서는 짧은 길이의 신문기사의 경우 요약 모형의 성능이 오히려 떨어지는 것으로 나타났다.

  • PDF

유즈넷 뉴스 그룹 결정 방법을 활용한 성능평가 (Performance Analysis by utilizing a Determination Method of Usenet News Groups)

  • 김종완;김희재;김병익
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2004년도 춘계학술대회 21세기 IT산업의 발전 전망
    • /
    • pp.67-72
    • /
    • 2004
  • 않은 양의 유즈넷 뉴스 중에서 사용자가 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것은 중요하다. 그러나 뉴스 문서는 이메일과 달라서 미리 자신에게 맞는 뉴스그룹을 등록해 주어야만 정보를 얻을 수 있다. 본 연구에서는 다양한 뉴스그룹들 중에서 사용자의 취향과 유사한 뉴스그룹들을 코호넨 신경망을 이용하여 추천해주는 방법을 제시한다. 신경망을 학습시키기 위한 뉴스 문서의 키워드들을 선택하기 위해 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 대표 용어들을 선택한다. 하지만 신경망의 학습 패턴을 관찰해 보면, 많은 부분이 비어있는 희소성 문제를 발견할 수 있다. 이에 본 연구에서는 통계적인 결정계수를 도입하여 불필요한 차원을 제거한 후 신경망을 학습시키는 새로운 방법을 제안한다. 제안된 방법은 모든 차원을 활용할 때 보다 클러스터내 거리와 클러스터간 거리의 척도를 이용한 클러스터 중첩도 면에서 우수한 분류 성능을 보여줌을 확인하였다.

  • PDF

통계적 결정계수를 이용한 유즈넷 뉴스 필터링 (Usenet News Filtering by Using Statistical Coefficient of Determination)

  • 김종완;김희재;김병만
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2003년도 추계공동학술대회
    • /
    • pp.747-752
    • /
    • 2003
  • 많은 양의 유즈넷 뉴스 중에서 사용자가 찾고자 하는 정확한 정보를 빠른 시간 안에 검색하고, 원하는 정보만 필터링 하는 것은 중요하다. 그러나 뉴스 문서는 이메일과 달라서 미리 자신에게 맞는 뉴스그룹을 등록해 주어야만 정보를 얻을 수 있다. 본 연구에서는 다양한 뉴스그룹들 중에서 사용자와 취향이 가장 유사한 뉴스그룹을 분류하여 뉴스 문서의 키워드들을 선택하기 위해 예제 문서들로부터 후보 용어들을 추출하고 퍼지 추론을 적용하여 대표용어들을 선택한다. 이에 본 연구에서는 통계적인 결정계수를 도입하여 불필요한 차원을 제거한 후 신경망을 학습시키는 새로운 방법을 제안한다. 제안된 방법은 모든 차원을 활용할 때 보다 클러스터간 거리와 표준편차, 클러스터간 거리의 척도 면에서 우수한 분류 성능을 보여줌을 확인하였다.

  • PDF

친환경 고에너지 물질로서의 금속-질소 클러스터 화합물의 안정성 예측

  • 최창혁;정유성
    • EDISON SW 활용 경진대회 논문집
    • /
    • 제4회(2015년)
    • /
    • pp.147-150
    • /
    • 2015
  • Polynitrogen Compounds (PNC)는 질소만으로 이루어진 물질을 칭하며, 주로 질소간의 단일 결합과 이중결합으로 이루어져 있다. 질소 간 단일결합에너지 38.4kcal/mole에 비해 유난히 큰 229kcal/mole의 삼중결합 에너지 덕택에 PNC는 고에너지 물질로 큰 각광을 받고 있다. PNC는 합성과정이 큰 흡열반응으로 실험이 까다로워 이론적인 연구가 많이 진행되어왔다. 그 중에서 고리형태의 $N_5{^-}$가 안정할 것으로 예측되며, 실험적으로도 발견되었다. $N_5{^-}$를 안정화시키기 위해 많은 연구가 진행되었으며 그 중 하나가 금속과의 결합을 통한 화합물의 안정화이다. 본 연구에서는 $N_5{^-}$와 Cyclopentadienyl($C_5H_5{^-}$)이 전자구조나 기하학적 구조가 매우 유사함에 착안하여 이미 상대적으로 많은 합성이 보고되어 있는 $M(C_5H_5)_3$, $M(C_5H_5)_4$의 전이금속 M구조에 대하여 아직 발견되지 않은 $M(N_5)_3$, $M(N_5)_4$ 화합물의 구조와 열역학적 안정성을 알아보도록 한다. 본 연구에서 찾아진 $Zr(C_5H_5)_4$은 현재까지 실험적으로 보고된 $M(C_7H_7)(C_5H_5)$ 클러스터 구조에 비해 질소함유량이 약 67% 더 높다.

  • PDF

대용량 데이터를 위한 사례기반 추론기법의 실시간 처리속도 개선방안에 대한 연구: 심장병 예측을 중심으로 (A Case-Based Reasoning Method Improving Real-Time Computational Performances: Application to Diagnose for Heart Disease)

  • 박윤주
    • 경영정보학연구
    • /
    • 제16권1호
    • /
    • pp.37-50
    • /
    • 2014
  • 사례기반 추론기법(case-based reasoning)은 수많은 데이터 속에서 현재 문제와 유사한 과거데이터를 실시간으로 탐색하고 복원해내야 하기 때문에, 과거에 축적된 데이터의 양이 방대하거나 또는 데이터의 축적 속도가 빠를 경우 계산비용(computational cost)이 급격히 높아지는 확장성(scalability) 문제를 갖는다. 이러한 문제를 해결하기 위하여, 기존의 일부 연구들은 클러스터링(clustering) 기법을 적용하여, 전체 데이타를 사전에 몇 개의 그룹으로 분류한 후, 특정 클러스터 내에서만 과거 사례를 탐색하도록 하는 클러스터링과 사례기반 추론의 하이브리드 기법을 제안하였다. 그러나 이러한 기법은 클러스터 수를 얼마로 설정했는지에 따른 성능편차가 심하고, 또한 기본적인 사례기반 추론기법에 비해 일반적으로 낮은 예측성능을 도출하는 문제점이 있다. 본 연구는 이러한 기존의 클러스터-사례기반추론기법의 문제점을 실증적으로 분석하고, 이를 극복할 수 있는 새로운 하이브리드(hybrid) 사례기반 추론기법을 제안한다. 제안된 기법은 실제 심장병환자를 예측하는 문제에 적용하였으며, 그 결과 제안된 기법이 기존의 사례기반 추론기법에 비해 현격하게 낮은 계산비용을 사용하면서도, 유사한 수준의 예측성능을 도출할 수 있음을 확인하였다.