• 제목/요약/키워드: Document Clustering Method

검색결과 131건 처리시간 0.029초

연관규칙을 이용한 문헌정보학 전문용어 클러스터링 기법에 관한 연구 (A Clustering Technique Using Association Rules for The Library and Information Science Terminology)

  • 승현우;박미영
    • 한국문헌정보학회지
    • /
    • 제37권2호
    • /
    • pp.89-105
    • /
    • 2003
  • 본 논문에서는 대량의 웹 문서로부터 연관된 지식정보를 검색하기 위한 전문 검색엔진을 개발하기 위하여 텍스트에서 추출된 전문 용어를 효율적으로 클러스터링하기 위한 방법을 제안하고자 한다. 즉, 일반적인 용어들간의 무의미한 연관 규칙이 양산되는 것을 방지하기 위하여 전문 용어로 구성된 지식베이스 테이블을 이용하여 의미 있는 용어들간의 연관 규칙을 생성한다. 연관 규칙은 하나의 논문에서 사용된 전문 용어들의 집합을 트랜잭션 단위로 구성하여 Apriori 알고리즘을 적용하여 생성된다. 하나의 용어로부터 생성된 연관 규칙 집합은 해당 전문 용어와 관련된 클러스터로 구성된다.

사건중심 뉴스기사 자동요약을 위한 사건탐지 기법에 관한 연구 (A Study on an Effective Event Detection Method for Event-Focused News Summarization)

  • 정영미;김용광
    • 정보관리학회지
    • /
    • 제25권4호
    • /
    • pp.227-243
    • /
    • 2008
  • 이 연구에서는 사건중심 뉴스기사 요약문을 자동생성하기 위해 뉴스기사들을 SVM 분류기를 이용하여 사건 주제범주로 먼저 분류한 후, 각 주제범주 내에서 싱글패스 클러스터링 알고리즘을 통해 특정한 사건 관련 기사들을 탐지하는 기법을 제안하였다. 사건탐지 성능을 높이기 위해 고유명사에 가중치를 부여하고, 뉴스의 발생시간을 고려한 시간벌점함수를 제안하였다. 또한 일정 규모 이상의 클러스터를 분할하여 적절한 크기의 사건 클러스터를 생성하도록 수정된 싱글패스 알고리즘을 사용하였다. 이 연구에서 제안한 사건탐지 기법의 성능은 단순 싱글패스 클러스터링 기법에 비해 정확률, 재현율, F-척도에서 각각 37.1%, 0.1%, 35.4%의 성능 향상률을 보였고, 오보율과 탐지비용에서는 각각 74.7%, 11.3%의 향상률을 나타냈다.

칼라 문서에서 문자 영역 추출믹 문자분리 (The Character Area Extraction and the Character Segmentation on the Color Document)

  • 김의정
    • 한국지능시스템학회논문지
    • /
    • 제9권4호
    • /
    • pp.444-450
    • /
    • 1999
  • 본 논문에서는 칼라로 입력된 문서 영상에서 문자 영역추출을 위하여 k-means을 이용한 클러스트링 알고리즘을 제안하였다. 칼라 영상의 클러스트링을 위해서 HIS 좌표계에 적합한 거리함수를 제안하였다. 이를 인식하기 위한 전처리 단계인 문자분리(segmentation)방법은 연결 화소를 이용한 개별문자 추출 알고리즘을 제안하였다. 본 알고리즘 에서는 문자분리방벙에서 접촉문자 (touching character)또는 겹친 문자(overlapped character)등과 같이 분리가 곤란한 문자를 개별문자로 분리하는 방법이다. 기존의 문자 분리방법에서는 투영(projection)dop 의한 방법과 외곽선(edge)추적에 의한 방법등을 사용하여 왔으나 제안된 방법은 문자열 추출후 한번의 투영으로 연결화소를 이용하여 개별문자를 추출한다. 문자 영역과 비 문자 영역을 구분하여 개발문자 추출을 한 결과 단순한 이진 영상이 아닌 칼라 영상에서의 문서 처리가 큰 의의가 있고 기존의 문서 처리기 보다 향상된 알고리즘인 것을 확인하였다.

  • PDF

단어 빈도와 α-cut에 의한 연관 웹문서 분류를 이용한 추천 시스템 (Recommendation System using Associative Web Document Classification by Word Frequency and α-Cut)

  • 정경용;하원식
    • 한국콘텐츠학회논문지
    • /
    • 제8권1호
    • /
    • pp.282-289
    • /
    • 2008
  • 협력적 필터링을 개선하기 위하여 많은 기술들이 개발되고 실용화되었으나 아이템의 연관 관계를 정확하게 반영하지는 못한다. 본 논문에서는 협력적 필터링의 문제점을 보완하기 위하여 단어 빈도와 ${\alpha}$-cut에 의한 연관 웹문서 분류를 이용한 추천 시스템을 제안한다. 제안된 방법은 형태소 분석을 통한 웹문서에서 단어를 추출하고 빈도 가중치를 계산한다. 추출된 단어를 Apriori 알고리즘을 이용해서 연관 규칙을 생성하고 신뢰도에 단어 빈도 가중치를 적용한다. 그리고 연관 규칙 하이퍼그래프 분할을 이용하여 연관 단어간의 유사도를 계산한다. 마지막으로 유사 클래스를 기반으로 연관 웹문서를 ${\alpha}$-cut을 이용하여 분류하고 개선된 코사인 유사도를 이용하여 유사도를 계산한다. 실험 결과 제안한 방법이 기존의 방법들보다 우수함을 확인하였다.

감정요소를 사용한 정보검색에 관한 연구 (A Study of using Emotional Features for Information Retrieval Systems)

  • 김명관;박영택
    • 정보처리학회논문지B
    • /
    • 제10B권6호
    • /
    • pp.579-586
    • /
    • 2003
  • 감정요소를 사용한 정보검색시스템은 감정에 기반한 정보검색을 수행하기 위하여 감정시소러스를 구성하였으며 이를 사용한 감정요소추출기를 구현하였다. 감정요소추출기는 기본 5가지 감정 요소를 해당 문서에서 추출하여 문서를 벡터화시킨다. 벡터화시킨 문서들은 k-nearest neighbor, 단순 베이지안 및 상관계수기법을 사용한 2단계 투표방식을 통해 학습하고 분류하였다. 실험결과 분류 방식과 K-means를 이용한 클러스터링에서 감정요소에 기반한 방식이 더 우수하다는 결과와 5,000 단어 미만의 문서 검색에 감정기반 검색이 유리하다는 것을 보였다.

데이터마이닝을 이용한 동의보감에서 경락의 주치특성 분석 (An Analysis of Indications of Meridians in DongUiBoGam Using Data Mining)

  • 채윤병;류연희;정원모
    • Korean Journal of Acupuncture
    • /
    • 제36권4호
    • /
    • pp.292-299
    • /
    • 2019
  • Objectives : DongUiBoGam is one of the representative medical literatures in Korea. We used text mining methods and analyzed the characteristics of the indications of each meridian in the second chapter of DongUiBoGam, WaeHyeong, which addresses external body elements. We also visualized the relationships between the meridians and the disease sites. Methods : Using the term frequency-inverse document frequency (TF-IDF) method, we quantified values regarding the indications of each meridian according to the frequency of the occurrences of 14 meridians and 14 disease sites. The spatial patterns of the indications of each meridian were visualized on a human body template according to the TF-IDF values. Using hierarchical clustering methods, twelve meridians were clustered into four groups based on the TF-IDF distributions of each meridian. Results : TF-IDF values of each meridian showed different constellation patterns at different disease sites. The spatial patterns of the indications of each meridian were similar to the route of the corresponding meridian. Conclusions : The present study identified spatial patterns between meridians and disease sites. These findings suggest that the constellations of the indications of meridians are primarily associated with the lines of the meridian system. We strongly believe that these findings will further the current understanding of indications of acupoints and meridians.

부모-자식 행렬을 사용한 XML 문서 유사도 측정과 군집 기법 (Similarity Measure and Clustering Technique for XML Documents by a Parent-Child Matrix)

  • 이윤구;김우생
    • 한국정보통신학회논문지
    • /
    • 제19권7호
    • /
    • pp.1599-1607
    • /
    • 2015
  • 최근 들어, 인터넷에서 자주 사용되는 XML 문서들에 대한 접근, 질의와 관리를 위한 효율적인 기법들이 연구 되어 왔다. 이 논문에서, 우리는 XML 문서를 효율적으로 군집화하기 위해 부모-자식 행렬 기법을 제안한다. 부모-자식 행렬은 XML 문서의 내용과 구조의 특징들을 분석한다. 부모-자식 행렬의 각 셀은 XML 트리 노드의 값이거나, 트리에서 부모-자식 관계가 존재할 때의 자식 노드의 값이 된다. 따라서 두 XML 문서의 유사도는 대응하는 부모-자식 행렬들의 유사도로 측정된다. 실험을 통해 우리가 제안하는 기법이 좋은 결과를 냄을 보였다.

텍스트마이닝을 활용한 주요 대기업 신년사 분석 (Study on CEO New Year's Address: Using Text Mining Method)

  • 김유경;조대곤
    • 한국IT서비스학회지
    • /
    • 제22권2호
    • /
    • pp.93-127
    • /
    • 2023
  • This study analyzed the CEO New Year's addresses of major Korean companies, extracting key topics for employees via text mining techniques. An intended contribution of this study is to assist reporters, analysts, and researchers in gaining a better understanding of the New Year's addresses by elucidating the implicit and implicative features of messages within. To this end, this study collected and analyzed 545 New Year's addresses published between 2012 and 2021 by the top 66 Korean companies in terms of market capitalization. Research methodologies applied include text clustering, word embedding of keywords, frequency analysis, and topic modeling. Our main findings suggest that the messages in the New Year's addresses were categorized into nine topics-organizational culture, global advancement, substantial management, business reorganization, capacity building, market leadership, management innovation, sustainable management, and technology development. Next, this study further analyzed the managerial significance of each topic and discussed their characteristics from the perspectives of time, industry, and corporate groups. Companies were typically found to emphasize sound management, market leadership, and business reorganization during economic downturns while stressing capacity building and organizational culture during market transition periods. Also, companies belonging to corporate groups tended to emphasize founding philosophy and corporate culture.

의미특징의 포괄적 중요도를 이용한 포괄적 문서 요약 (Generic Summarization Using Generic Important of Semantic Features)

  • 박선;이종훈
    • 한국항행학회논문지
    • /
    • 제12권5호
    • /
    • pp.502-508
    • /
    • 2008
  • 인터넷의 급속한 확산과 대량 정보의 이동은 문서요약을 더욱 필요 하고 있다. 본 논문은 비음수 행렬 인수분해로 얻어진 비음수 의미 가변 행렬과 의미특징의 포괄적 중요도를 이용하여 문장을 추출하여서 포괄적 문서요약을 하는 새로운 방법을 제안하였다. 제안된 방법은 인간의 인식 과정과 유사한 비음수 제약을 사용한다. 이 결과 주제의 군집방법이나 잠재의미분석을 사용한 비지도 학습방법에 비해 더욱 의미 있는 문장을 선택하여 문서를 요약할 수 있다. 실험결과 제안방법이 다른 방법들에 비하여 좋은 성능을 보인다.

  • PDF

군집 주제의 유의어와 유사도를 이용한 문서군집 향상 방법 (Enhancing Document Clustering Method using Synonym of Cluster Topic and Similarity)

  • 박선;김철원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1538-1541
    • /
    • 2011
  • 본 논문은 군집 주제의 유의어와 유사도를 이용하여 문서군집의 성능을 향상시키는 방법을 제안한다. 제안된 방법은 비음수행렬분해의 의미특징을 이용하여 군집 주제(topic)의 용어들을 선택함으로서 문서 군집 집합의 내부구조를 잘 표현할 수 있으며, 군집 주제의 용어들에 워드넷의 유의어를 사용하여서 확장함으로써 문서를 용어집합(bag-of-words)으로 표현하는 문제를 해결할 수 있다. 또한 확장된 군집 주제의 용어와 문서집합에 코사인 유사도를 이용하여서 군집의 주제에 적합한 문서를 잘 군집하여서 성능을 높일 수 있다. 실험결과 제안방법을 적용한 문서군집방법이 다른 문서군집 방법에 비하여 좋은 성능을 보인다.