• 제목/요약/키워드: 문서 군집화

검색결과 93건 처리시간 0.029초

준 실시간 뉴스 이슈 분석을 위한 계층적·점증적 군집화 (Hierarchical and Incremental Clustering for Semi Real-time Issue Analysis on News Articles)

  • 김호용;이승우;장홍준;서동민
    • 한국콘텐츠학회논문지
    • /
    • 제20권6호
    • /
    • pp.556-578
    • /
    • 2020
  • 실시간으로 발생하는 뉴스 기사로부터 이슈를 분석하기 위한 다양한 연구가 진행되어 왔다. 하지만 범주에 따라 계층적으로 이슈를 분석하는 연구는 많이 진행되지 않았고, 계층적 이슈 분석을 위한 기존의 연구에서 제안하는 방식 또한 뉴스 기사 증가에 따라 군집화 속도가 느려지는 문제점이 있다. 따라서 본 논문에서는 준 실시간으로 뉴스 기사의 이슈를 분석하는 계층적·점증적 군집화 방식을 제안한다. 제안하는 군집화 방식은 샴 신경망을 이용한 가중 코사인 유사도 측정 모델 기반의 k-평균 알고리즘을 이용한 단어 군집 기반 문서 표현 방식을 통해 뉴스 기사를 문서 벡터로 표현한다. 그리고 문서 벡터로부터 초기 이슈 군집 트리를 생성하고, 새로 발생한 뉴스 기사를 해당 이슈 군집 트리에 추가하는 점증적 군집화 방식을 제안함으로써 뉴스 기사의 계층적 이슈를 준 실시간으로 분석한다. 마지막으로, 본 논문에서 제안하는 방식과 기존 방식들과의 성능평가를 통해 제안하는 군집화 방식이 정확도 측면에서 기존 방식 대비 NMI 지표 기준 0.26 정도 성능이 향상되었고, 속도 측면에서 약 10배 이상의 성능이 향상됨을 입증하였다.

문서의 주제어별 가중치 부여와 단어 군집을 이용한 한국어 문서 자동 분류 시스템 (An Automatic Classification System of Korean Documents Using Weight for Keywords of Document and Word Cluster)

  • 허준희;최준혁;이정현;김중배;임기욱
    • 정보처리학회논문지B
    • /
    • 제8B권5호
    • /
    • pp.447-454
    • /
    • 2001
  • 새로운 문서를 기존에 존재하는 클래스들에 할당하는 방법을 문서의 자동 분류라고 한다. 문서의 자동 분류는 뉴스 그룹의 기사분류, 웹 문서의 범주화, 전자 메일의 순서화, 사용자의 관심을 학습하여 보다 정확한 정보 검색을 제시하는데 사용될수 있다. 본 논문에서는 한국어 문서분류의 정확도를 높이기 위하여 문서내의 모든 단어들에 대한 확률값을 사용하여, 문서를 분류하는 기존의 방법과 달리 문서의 주제어를 선정하여 주제어로 선정된 단어들에 가중치를 부여하고 그렇지 않은 단어들에 대해서는 제거하너가 낮은 가중치를 부여하는 베이지안 분류자를 사용한다. 문서에는 특징으로 추출된 단어가 적어 문서를 분류하기 위한 만족할 만한 정보를 제공하지 못할 경우에 부족한 문서의 특징을 보충하기 위하여 말뭉치로부터 자동 단어 군집화를 통해 형성된 연관 단어 군집을 사용한다. 이러한 방법을 한국어 문서에 적용한 결과 기존의 베이지안 확률을 사용한 분류법보다 향상된 분류 정확도를 얻을 수 있었다.

  • PDF

정보 검색에서의 잠재 의미 분석 방법을 이용한 응집 계층 군집화 기법 연구 (Agglomerative Hierarchical Clustering Using Latent Semantic Analysis in Information Retrieval)

  • ;강대현;박한샘;권경락;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.952-955
    • /
    • 2014
  • 본 논문에서는 정보 검색 분야에서 잘 알려진 잠재 의미 분석 방법과 계층적 군집화 방법의 단점을 상호 보완하여 보다 효율적인 정보 검색을 위한 혼합형 군집화 방법을 제안한다. 먼저, 잠재 의미 분석 방법은 벡터 연산을 통하여 자동적으로 문서 내에 있는 잠재적인 의미를 찾는 정보 검색분야에서 많이 사용되는 고전적인 방법이다. 그러나 이 방법은 언어의 유의성이나 다의성으로 인하여 발생되는 백-오브-워드(bag-of-word) 문제를 가지고 있다. 두 번째 방법인 문서 군집화를 위하여 범용적으로 사용되고 있는 계층적 군집화 방법이다. 이 방법은 이를 통하여 분석된 군집의 질적 측면에서 볼 때, 여전히 단층적 군집들이 많이 형성되어 세부적인 분석을 통한 추가적인 군집화가 필요함을 알 수 있다. 따라서, 본 논문에서는 앞서 언급한 문제점을 해결하기 위하여 혼합적인 방법으로 잠재 의미 분석 방법을 이용한 응집 계층 군집화 방법을 제안한다. 제안한 방법을 이용하여 잘 알려진 두 개의 데이터에 적용하고 기존의 방법과 그 결과를 비교함으로써 군집의 질적 측면에서의 우수함을 보인다.

텍스트 데이터 분석을 위한 근접성 데이터의 생성과 군집화 (Creation and clustering of proximity data for text data analysis)

  • 정민지;신상민;최용석
    • 응용통계연구
    • /
    • 제32권3호
    • /
    • pp.451-462
    • /
    • 2019
  • 문서-용어 빈도행렬은 텍스트 마이닝 분야에서 보편적으로 사용되는 데이터의 한 유형으로, 여러 개체들이 제공하는 문서를 기반으로 만들어진다. 그러나 대다수의 연구자들은 개체 정보에 무게를 두지 않고 여러 문서에서 공통적으로 등장하는 공통용어 중 핵심적인 용어를 효과적으로 찾아내는 방법에 집중하는 경향을 보인다. 공통용어에서 핵심어를 선별할 경우 특정 문서에서만 등장하는 중요한 용어들이 공통용어 선정단계에서부터 배제될 뿐만 아니라 개별 문서들이 갖는 고유한 정보가 누락되는 등의 문제가 야기된다. 본 연구에서는 이러한 문제를 극복할 수 있는 데이터를 근접성 데이터라 정의한다. 그리고 근접성 데이터를 생성할 수 있는 12가지 방법 중 개체 군집화의 관점에서 가장 최적화된 방법을 제안한다. 개체 특성 파악을 위한 군집화 알고리즘으로는 다차원척도법과 K-평균 군집분석을 활용한다.

대용량 문서 데이터베이스를 위한 효율적인 점진적 문서 클러스터링 기법 (An Effective Incremental Text Clustering Method for the Large Document Database)

  • 강동혁;주길홍;이원석
    • 정보처리학회논문지D
    • /
    • 제10D권1호
    • /
    • pp.57-66
    • /
    • 2003
  • 컴퓨터의 발전과 인터넷의 급속한 발전으로 정보의 양이 폭발적으로 증가하게 되었고 이러한 방대한 양의 정보들은 대부분 문서 형태로 관리되고 있으며, 문서 단위별 표현된 많은 정보들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서들을 주제별로 통합하는 방법으로 대용량의 문서들을 자동으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 본 논문에서는 새로운 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고, 이미 생성된 클러스터들의 구조를 적극적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 클러스터링의 정확도를 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안하고, 문서 클러스터링에서 정확한 단어가중치 산출을 위해 TF$\times$IDF 공식을 수정한 TF$\times$NIDF 공식을 제안한다.

U-learning 환경의 대용량 학습문서 판리를 위한 효율적인 점진적 문서 (An Effective Increment리 Content Clustering Method for the Large Documents in U-learning Environment)

  • 주길홍;최진탁
    • 한국컴퓨터산업학회논문지
    • /
    • 제5권9호
    • /
    • pp.859-872
    • /
    • 2004
  • 컴퓨터와 통신 기술이 발전함에 따라 최근의 교육 환경은 학습자 스스로 학습 내용, 학습 시간 및 학습 순서를 선택하고 조직하는 유비쿼터스 학습 방향으로 나아가고 있다. 방대한 양의 학습정보들은 대부분 문서 형태로 관리되고 있기 때문에 문서 단위로 표현된 많은 정도들을 효과적으로 관리하고 검색하기 위한 방법의 연구가 필요하게 되었다. 문서 클러스터링은 문서간의 유사도를 바탕으로 서로 연관된 문서들을 군집화하여 문서틀을 주제별로 통합하는 방법으로 대용량의 문서들을 자통으로 분류하고, 검색하는 데 있어서 검색의 정확성을 증대시킬 수 있다. 따라서 본 논문에서는 새로운 학습 문서의 추가나 기존문서의 삭제로 인하여 군집화 대상이 되는 학습 문서 집합이 점진적으로 변화하는 환경을 위한 점진적 문서 클러스터링 알고리즘을 제안한다. 점진적 문서 클러스터링 알고리즘은 새로운 문서가 추가되었을 경우 문서 전체를 다시 클러스터링하지 않고. 이미 생성된 클러스터들의 구조를 적응적으로 변화시킴으로써 높은 효율성을 제공할 수 있다. 또한, 문서 글러스터링의 정확도극 높이기 위하여 통계적인 기법으로 불용어를 판별하여 제거하는 알고리즘을 제안한다.

  • PDF

부모-자식 행렬을 사용한 XML 문서 유사도 측정과 군집 기법 (Similarity Measure and Clustering Technique for XML Documents by a Parent-Child Matrix)

  • 이윤구;김우생
    • 한국정보통신학회논문지
    • /
    • 제19권7호
    • /
    • pp.1599-1607
    • /
    • 2015
  • 최근 들어, 인터넷에서 자주 사용되는 XML 문서들에 대한 접근, 질의와 관리를 위한 효율적인 기법들이 연구 되어 왔다. 이 논문에서, 우리는 XML 문서를 효율적으로 군집화하기 위해 부모-자식 행렬 기법을 제안한다. 부모-자식 행렬은 XML 문서의 내용과 구조의 특징들을 분석한다. 부모-자식 행렬의 각 셀은 XML 트리 노드의 값이거나, 트리에서 부모-자식 관계가 존재할 때의 자식 노드의 값이 된다. 따라서 두 XML 문서의 유사도는 대응하는 부모-자식 행렬들의 유사도로 측정된다. 실험을 통해 우리가 제안하는 기법이 좋은 결과를 냄을 보였다.

가중치를 이용한 효과적인 항공 단문 군집 방법 (DOCST: Document frequency Oriented Clustering for Short Texts)

  • 김주영;이지민;안순홍;이훈석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.331-334
    • /
    • 2018
  • 비정형 데이터의 대표적인 형태 중 하나인 텍스트 데이터 기계학습은 다양한 산업군에서 활용되고 있다. NOTAM 은 하루에 수 천개씩 생성되는 항공전문으로써 현재는 사람의 수작업으로 분석하고 있다. 기계학습을 통해 업무 효율성을 기대할 수 있는 반면, 축약어가 혼재된 단문이라는 데이터의 특성상 일반적인 분석에 어려움이 있다. 본 연구에서는, 데이터의 크기가 크지 않고, 축약어가 혼재되어 있으며, 문장의 길이가 매우 짧은 문서들을 군집화하는 방법을 제안한다. 주제를 기준으로 문서를 분류하는 LDA 와, 단어를 k 차원의 벡터공간에 표현하는 Word2Vec 를 활용하여 잡음이 포함된 단문 데이터에서도 효율적으로 문서를 군집화 할 수 있다.

군집과 비음수 행렬 분해를 이용한 개인화된 문서 요약 (Personalized Document Summarization Using NMF and Clustering)

  • 박선
    • 한국항행학회논문지
    • /
    • 제13권1호
    • /
    • pp.151-155
    • /
    • 2009
  • 본 논문은 비음수 행렬 분해와 군집 방법을 이용하여 개인화된 문장을 추출하여 문서요약을 하는 새로운 방법을 제안한다. 제안된 방법은 검색 문서에 군집 방법을 이용하여 문서의 주제와 세부 주제를 반영한 문장을 추출하며, 비음수 행렬 분해에 의해 분해된 문서의 고유 의미 특징을 이용하여 사용자의 흥미가 잘 반영된 문장을 추출한다. 실험결과 제안방법이 유사도, 비음수행렬분해를 이용한 방법들에 비하여 좋은 성능을 보인다.

  • PDF

능동적 학습을 위한 군집화 기반 복수 문의 예제 선정

  • 강재호;류광렬;권혁철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 춘계학술대회
    • /
    • pp.240-249
    • /
    • 2005
  • 사용자 맞춤 서비스를 위하여 온라인상에서 사용자의 관심 분야를 파악하고자 하는 경우에는 적은 수의 훈련 예제로 효율적인 학습이 가능한 능동적 학습이 적절하다. 능동적 학습을 효과적으로 적용하기 위하여 사용자에게 문의할 가치가 높은 예제를 선정하는 것도 중요하지만, 사용자 편의를 위해서는 문의 횟수를 가능한 최소화하여야 한다. 문의 횟수를 줄이면서도 많은 수의 훈련 예제를 획득하기 위해서는 복수의 문의 예제들을 사용자에게 한꺼번에 제시하고 그 관심 여부를 표한하게 하는 것이 효과적이다. 본 논문에서는 능동적 학습 적용 시 사용자에게 문의할 가치가 높은 복수 문의 예제들을 효과적으로 선정하기 위하여 가중치 반영 군집화를 적용하는 방안을 제안한다. 본 제안 방안은 먼저 각 예제의 문의 예제로서의 가치를 파악하고 이를 가중치로 삼아 군집화를 수행하여 상대적으로 유사한 예제들의 집합을 구성한다. 이어서 생성된 각각의 군집에서 가장 보편적인 예제를 문의 예제로 선정하면 선정된 각각의 문의 예지는 문의할 가치가 높으면서 함께 문의하게 될 예제들은 서로 충분히 달라 학습에 보다 유용하게 사용할 수 있는 훈련 예제들을 얻을 수 있다. 문서 분류 문제를 대상으로 본 제안 방안을 실험한 결과, 단순히 문의 가치가 높은 복수의 예제들을 함께 문의할 예제들로 선정하는 방안에 비해 학습 성능이 뛰어났으며, 한 번에 문의하는 예제 수를 증가시키더라도 분류기의 성능 저하가 적음을 확인하였다.

  • PDF