• 제목/요약/키워드: 클러스터 대표어

검색결과 11건 처리시간 0.029초

계층적 클러스터링에서 분류 대표어 선정에 관한 연구 (A Study on Cluster Topic Selection in Hierarchical Clustering)

  • 이상선;이신원;안동언;정성종
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.669-672
    • /
    • 2004
  • 정보의 양이 많아지면서 정보 검색 시스템에 검색 결과를 자동으로 구조화하는 계층적 클러스터링을 적용하는 시도가 늘고 있다. 계층적 클러스터링은 문서 간의 유사도를 통해 클러스터를 계층 구조로 만들어 검색 성능을 높이고 결과를 사용자에게 이해하기 쉽게 보여준다. 계층 구조는 검색 결과를 요약하는 것이기 때문에 클러스터의 내용을 효과적으로 함축할 수 있는 대표어의 선정이 중요하다. 각 클러스터의 대표어를 선정하기 위해 대표어에 명사인 단어만 추출하고 상위 클러스터 대표어에 사용된 단어는 하위 클러스터에 사용하지 않는 방법을 적용하여 대표어의 질을 높였다.

  • PDF

클러스터링 기법을 이용한 개별문서의 지식구조 자동 생성에 관한 연구 (Automatic Generation of the Local Level Knowledge Structure of a Single Document Using Clustering Methods)

  • 한승희;정영미
    • 정보관리학회지
    • /
    • 제21권3호
    • /
    • pp.251-267
    • /
    • 2004
  • 이 연구에서는 전통적인 인쇄매체 환경에서 지식에 대해 지역적인 접근법을 제공하는 권말색인과 목차의 기능에 착안하여 용어 클러스터링 실험과 클러스터 대표어 선정 실험을 통해 개별문서의 지식구조 자동 생성 기법을 제안하였다. 자동 생성된 지식구조가 갖는 기능성을 평가하여 정보 검색 환경에서의 적용 가능성을 확인하였다. 용어 클러스터링 실험에서는 워드 기법의 성능이 중복 분류를 허용하는 퍼지 K-means 클러스터링 기법에 비해 높았으며, 클러스터 대표어 선정 기법으로는 단락빈도를 이용한 경우가 가장 좋은 성능을 나타냈다. 또한, 이용자 태스크를 기반으로 하여 최종적으로 생성된 지식구조의 기능성을 평가한 결과, 이 연구에서 자동 생성된 지식구조가 인쇄매체 환경에서의 권말색인과 목차가 갖는 기능을 어느 정도 수행한다는 것을 입증하였다.

문서 클러스터를 위한 워드넷기반의 대표 레이블 선정 방법 (Representative Labels Selection Technique for Document Cluster using WordNet)

  • 김태훈;손미애
    • 인터넷정보학회논문지
    • /
    • 제18권2호
    • /
    • pp.61-73
    • /
    • 2017
  • 본 연구에서는 문서 클러스터링 결과 도출된 개별 클러스터가 함축하고 있는 의미를 파악하는 데 필요한 어휘들의 정보량을 활용한 문서 클러스터 레이블링(Documents Cluster Labeling) 방법을 제안하였다. 이를 위해, 클러스터에 포함된 어휘들이 해당 클러스터에서 얼마나 중요한 비중을 차지하고 있는지 파악하기 위하여 각 어휘의 출현 빈도와 정보량을 이용한 어휘의 가중치를 계산한 후, 워드넷을 이용하여 클러스터에 포함된 어휘들의 최근접 공통 상위어를 후보 레이블로 식별하였다. 이상의 과정을 거쳐 식별된 후보 레이블의 정보량과 클러스터내에서의 중요도 가중치를 활용해, 해당 클러스터의 의미와 특징을 포괄적으로 표현할 수 있는 대표 레이블을 결정하였다. 본 연구의 우수성을 입증하기 위해 다음과 같은 실험을 수행하였다. 실험은 본 연구에서 제안한 방법에 따라 선정된 레이블과 후보 레이블을 워드넷에 프로젝션한 후, 워드넷상에서 이들 레이블의 위치(깊이)를 확인하였다. 또한 선정된 후보 레이블을 상위어로 갖고 있는 클러스터 내 어휘의 수를 도출하여, 휴리스틱 방법에 따라 선정된 레이블을 전문가가 찾은 대표 레이블과의 비교를 수행하였다. 평가지표로 후보 레이블의 적합성($Suitability_{cl}$)과 대표 레이블의 적절성($Appropriacy_{rl}$)을 활용하였다. 실험 결과, 본 연구에서 제안한 방법을 적용해 문서 클러스터 레이블링을 수행할 경우, 후보 레이블의 적합성의 경우 기존의 방법보다 약간 감소하지만 계산량이 기존 방법의 약 20% 정도로 감소하였으며, 대표 레이블의 적절성의 경우 기존의 방법보다 우수한 결과를 도출하는 것을 확인하였다.

MDS를 이용한 개별문서의 계층적 지식구조 브라우징 인터페이스 설계 (Designing Hierarchical User Interface Model for Browsing the Knowledge Structure of a Single Document Using MDS)

  • 한승희;이재윤
    • 정보관리연구
    • /
    • 제35권3호
    • /
    • pp.125-138
    • /
    • 2004
  • 이 연구에서는 현재의 정보검색 환경에서 이용자 친화적인 검색 시스템을 개발하기 위한 한 방안으로 개별문서의 계층적 지식구조 브라우징 인터페이스를 제안하였다. 계층적 형태를 갖는 개별문서의 지식구조를 자동 생성하기 위해 개별문서에 출현한 용어를 이용하여 대군집과 소군집의 용어 클러스터링 결과에 대해 클러스터 대표어 선정 작업을 수행하였고, 이를 대상으로 다차원 척도법을 이용하여 2차원 공간에 개별문서의 지식구조를 표현함으로써 이용자가 개별문서에 대해 보다 용이하게 접근할 수 있는 브라우징 인터페이스를 마련하였다.

문장 클러스터링에 기반한 자동요약 모형 (A Text Summarization Model Based on Sentence Clustering)

  • 정영미;최상희
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.159-178
    • /
    • 2001
  • 본 연구에서는 문장 클러스터로부터 대표문장을 선정하여 요약문을 생성하는 자동요약 모형을 제시하고. 학습문서 집단을 미용하여 최적의 요약 환경을 구축한 후 요약 실험을 수행하였다. 학습 과정에서 문장의 클러스터링 기법으로는 7개의 계층적 기법들을 비교한 결과 클러스터를 구성하는 문장 수의 편차가 가장 적고 단일 문장 클러스터를 가장 적게 생성하는 센트로이드 기법이 선택되었다. 또한 각 클러스터를 대표하는 문장의 선정을 위해 용어 및 문장 가중치를 합산한 문장값과 클러스터-문장 벡터간 유사도의 두 기준을 비교한 결과 문장값 기준이 선택되었다. 용어 가중치로는 역문장빈도와 표제어 가중치, 그리고 문장의 위치 가중치가 자동요약 성능을 개선시키는 것으로 나타났으며, 적절한 요약문의 길이는 전체 문서의 1/3인 것으로 나타났다. 실험문서 집단으로는 문서의 길이와 특성이 다른 신문기사와 잡지기사의 두 집단을 이용하였다. 요약 모형의 검증 실험 결과 요약 정확률은 신문기사 집단에서는 53%, 잡지기사 집단에서는 47%인 것으로 나타났다. 두 실험 모두 랜덤하게 생성한 베이스라인 요악문보다 성능이 우수하였으나, 리드문장들로 구성된 베이스라인 요약문과의 비교에서는 짧은 길이의 신문기사의 경우 요약 모형의 성능이 오히려 떨어지는 것으로 나타났다.

  • PDF

탐방-동국대학교 산업대학원 인쇄화상전공

  • 유창준;조갑준
    • 프린팅코리아
    • /
    • 통권33호
    • /
    • pp.108-113
    • /
    • 2005
  • 한번 몰아치면 일주일, 심지어는 열흘동안 위세를 떨쳤던 지난 겨울의 한파도 어김없이 밀려드는 봄기운에 힘없이 자리를 양보하던 2월. 인쇄산업 심장부에서 산학협력 클러스터를 형성한다는 막중한 역할을 자임하고 나선 동국대학교 산업대학원 인쇄화상전공을 찾았다. 봄을 부르는 입춘을 통과하고 있는 시점, 동국대학교는 이미 곳곳에서 생기를 뿜어내고 있었다. 지난 2004년 2학기에 개설, 산학협력의 새로운 길을 개척해 나가고 있는 동국대학교 산업대학원 인쇄화상전공에 대한 탐방은 유창준 편집국장과 이의수 인쇄화상전공 주임교수, 김성욱 인쇄 화상전공 1기 학생대표간의 인쇄산업과 산학협력에 대한 깊이 있는 인터뷰 중심으로 진행됐다.

  • PDF

개별문서의 지식구조 브라우징 인터페이스에 관한 연구 (Designing User Interface Model for Browsing the Knowledge Structure of a Single Document)

  • 한승희;이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2004년도 제11회 학술대회 논문집
    • /
    • pp.11-16
    • /
    • 2004
  • 이 연구에서는 현재의 정보검색 환경에서 이용자 친화적인 검색 시스템을 개발하기 위한 한 방안으로 개별문서의 지식구조 브라우징 인터페이스를 제안하였다. 개별문서에 대한 지식구조를 자동 생성하기위해 개별문서에 출현한 용어를 이용하여 용어 클러스터링과 클러스터 대표어 선정 작업을 수행하였고, 이를 대상으로 다차원 축척법을 이용하여 2차원 공간에 개별문서의 지식구조를 표현함으로써 이용자가 개별문서에 대해 보다 용이하게 절근할 수 있는 브라우징 인터페이스를 마련하였다.

  • PDF

인용문헌 표제를 이용한 문헌 클러스터링에 관한 연구 (Document Clustering Using Reference Titles)

  • 최상희
    • 정보관리학회지
    • /
    • 제27권2호
    • /
    • pp.241-252
    • /
    • 2010
  • 본 연구에서는 원문헌의 표제가 문헌클러스터링에서 문헌의 주제를 나타내는데 효과적인 자질로 인식되고 있지만 동의어나 유사어를 포함하여 문헌의 주제를 대표하는데 한계가 있음을 인지하고 인용문헌의 표제로 클러스터링 자질을 확대하는 방안을 제시하였다. 문헌 클러스터링의 자질로 원 문헌의 표제 용어와 인용문헌의 표제 용어, 두 종류의 표제 용어를 혼합하여 적용하여 인용문헌의 표제가 클러스터링 성능을 향상시키는 정도를 측정하였다. 각 자질별로 계층적 클러스터링 기법 3개, within group average linkage, complete linkage, Ward 기법을 결합하여 클러스터를 생성하는 성능을 비교, 분석하였는데 원문헌과 인용문헌 표제어를 혼합하여 within group average linkage 기법으로 클러스터링 한 경우가 가장 좋은 결과를 나타내었다.

핵심어 검출을 위한 단일 끝점 DTW알고리즘 (A Single-End-Point DTW Algorithm for Keyword Spotting)

  • 최용선;오상훈;이수영
    • 대한전자공학회논문지SP
    • /
    • 제41권3호
    • /
    • pp.209-219
    • /
    • 2004
  • 본 논문에서는 핵심어 검출 시스템을 실시간 적용이 가능한 하드웨어로 구현하기 위해 연산량이 적고 구조가 간단한 단일 끝점 DTW 방법을 제안한다. 제안된 알고리즘은 일반적 DTW가 양쪽 끝점을 요구하는데 비하여 단지 한쪽 끝점만 필요하므로 이용하기에 편리하며, 국부 검색의 연속이 전역 경로를 이루게 되므로 매우 적은 연산량을 가진다. 그리고, 제안한 단일 끝점 DTW가 보다 나은 성능을 지니도록 하기 위해 새로운 경사 가중치와 거리 측정법을 가지도록 하였다. 이외에도, 단일 끝점 DTW는 특징벡터 정규화를 적용하여 특징벡터 각각의 차원에서 데이터들이 같은 표준편차를 가지게 하며 모든 프레임이 같은 에너지를 가지도록 정규화 되었다 또한, 주어진 학습 패턴들에 클러스터링을 적용한 후, 각 클러스터 내에서 평균을 계산하여 구한 패턴을 해당 핵심어를 대표하는 여러 개의 기준패턴으로 삼았다. 이러한 기준패턴들과 입력 음성의 특징벡터가 이미 정해진 문턱값 보다 작은 거리 내에 있을 때 핵심어는 검출된다. 제안된 알고리즘을 고립단어 음성인식과 핵심어 검출 실험에 적용하여 다른 방법을 이용한 결과보다 성능이 뛰어남을 확인하였다.

색인어 가중치 부여 방법에 따른 K-Means 문서 클러스터링의 LSI 분석 (Latent Semantic Indexing Analysis of K-Means Document Clustering for Changing Index Terms Weighting)

  • 오형진;고지현;안동언;박순철
    • 정보처리학회논문지B
    • /
    • 제10B권7호
    • /
    • pp.735-742
    • /
    • 2003
  • 정보검색 시스템에서 문서 클러스터링 기술은 사용자 질의에 대해 검색된 문서들을 문서간의 유사도를 기반으로 특정 주제에 따라 재배치하여 놓는 기술로써 사용자에게 검색의 편의성을 제공하고, 그 결과들을 시각적으로 보여줄 수 있다. 본 논문에서는 K-Means 알고리즘을 사용하여 문서를 클러스터링하며 문서를 대표하는 색인어에 가중치를 부여하는 기법에 대하여 논한다. 클러스터링 결과를 시각적으로 보여주기 위하여 문서와 클러스터 중심들을 2차원 공간으로 사상하기 위한 Latent Semantic Indexing 접근 방법을 적용하였다. 실험 결과 문서의 색인어에 대한 가중치 부여 방법을 동일하게 하거나 또는 유사한 수식을 적용한 사례보다는 로컬가중치, 글로벌가중치, 정규화 요소를 모두 부여한 사례에서 문서들이 2차원 벡터 공간에서 군집하여 분포하는 클러스터링 효과가 우수하였다. 특히 로컬 가중치와 글로벌 가중치에 logarithm을 적용하였을 때 문서 분포의 군집도는 현저하게 나타남을 알 수 있었다.