• Title/Summary/Keyword: Document Clustering

Search Result 224, Processing Time 0.022 seconds

Structure-based Clustering for XML Document Retrieval (XML 문서 검색을 위한 구조 기반 클러스터링)

  • Hwang Jeong Hee;Ryu Keun Ho
    • The KIPS Transactions:PartD
    • /
    • v.11D no.7 s.96
    • /
    • pp.1357-1366
    • /
    • 2004
  • As the importance or XML is increasing to manage information and exchange data efficiently in the web, there are on going works about structural integration and retrieval. The XML. document with the defined structure can retrieve the structure through the DTD or XML schema, but the existing method can't apply to XML. documents which haven't the structure information. Therefore. in this paper we propose a new clus-tering technique at a basic research which make it possible to retrieve structure fast about the XML documents that haven't the structure information. We first estract the feature of frequent structure from each XML document. And we cluster based on the similar structure by con-sidering the frequent structure as representative structure of the XML document, which makes it possible to retrieve the XML document raster than dealing with the whole documents that have different structure. And also we perform the structure retrieval about XML documents based on the clusters which is the group of similar structure. Moreover, we show efficiency of proposed method to describe how to apply the structure retrieval as well as to display the example of application result.

Feature-selection algorithm based on genetic algorithms using unstructured data for attack mail identification (공격 메일 식별을 위한 비정형 데이터를 사용한 유전자 알고리즘 기반의 특징선택 알고리즘)

  • Hong, Sung-Sam;Kim, Dong-Wook;Han, Myung-Mook
    • Journal of Internet Computing and Services
    • /
    • v.20 no.1
    • /
    • pp.1-10
    • /
    • 2019
  • Since big-data text mining extracts many features and data, clustering and classification can result in high computational complexity and low reliability of the analysis results. In particular, a term document matrix obtained through text mining represents term-document features, but produces a sparse matrix. We designed an advanced genetic algorithm (GA) to extract features in text mining for detection model. Term frequency inverse document frequency (TF-IDF) is used to reflect the document-term relationships in feature extraction. Through a repetitive process, a predetermined number of features are selected. And, we used the sparsity score to improve the performance of detection model. If a spam mail data set has the high sparsity, detection model have low performance and is difficult to search the optimization detection model. In addition, we find a low sparsity model that have also high TF-IDF score by using s(F) where the numerator in fitness function. We also verified its performance by applying the proposed algorithm to text classification. As a result, we have found that our algorithm shows higher performance (speed and accuracy) in attack mail classification.

Text Detection and Binarization using Color Variance and an Improved K-means Color Clustering in Camera-captured Images (카메라 획득 영상에서의 색 분산 및 개선된 K-means 색 병합을 이용한 텍스트 영역 추출 및 이진화)

  • Song Young-Ja;Choi Yeong-Woo
    • The KIPS Transactions:PartB
    • /
    • v.13B no.3 s.106
    • /
    • pp.205-214
    • /
    • 2006
  • Texts in images have significant and detailed information about the scenes, and if we can automatically detect and recognize those texts in real-time, it can be used in various applications. In this paper, we propose a new text detection method that can find texts from the various camera-captured images and propose a text segmentation method from the detected text regions. The detection method proposes color variance as a detection feature in RGB color space, and the segmentation method suggests an improved K-means color clustering in RGB color space. We have tested the proposed methods using various kinds of document style and natural scene images captured by digital cameras and mobile-phone camera, and we also tested the method with a portion of ICDAR[1] contest images.

A Clustering Technique Using Association Rules for The Library and Information Science Terminology (연관규칙을 이용한 문헌정보학 전문용어 클러스터링 기법에 관한 연구)

  • Seung, Hyon-Woo;Park, Mi-Young
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.37 no.2
    • /
    • pp.89-105
    • /
    • 2003
  • In this paper, an effective method for clustering terminologies extracted from text is proposed, in order to develope a search engine to extract relevant information from large web documents. To prevent frequency of the meaningless association rules among general terminologies, only useful association rules among terminologies are produced using database tables which consist of domain-specific terminologies. Such association rules are produced by applying the Apriori algorithm after forming transaction units from groups of association rules in a document. A group of association rules produced from a terminology forms in a cluster.

Analysis of News Articles on Child Welfare Policies in South Korea: K-Means Clustering (대한민국 정권별 아동복지정책 관련 뉴스 기사 분석: K-평균 군집 분석)

  • Kim, Eun Joo;Kim, Seong Kwang;Park, Bit Na
    • Journal of East-West Nursing Research
    • /
    • v.29 no.2
    • /
    • pp.185-195
    • /
    • 2023
  • Purpose: The purpose of this study is to analyze changes of child welfare policies and provide insights based on the collection and classification of newspaper articles. Methods: Articles related to child welfare policies were collected from 1990, during the Kim, Young-sam administration, to May 9, 2022, under the Moon, Jae-in administration. K-Means clustering and keyword Term Frequency-Inverse Document Frequency analysis were utilized to cluster and analyze newspaper articles with similar themes. Results: The administrations of Kim, Young-sam, Kim, Dae-jung, Roh, Moo-hyun, and Park, Geun-hye were classified into two clusters, and the Lee, Myung-bak and Moon, Jae-in administrations were classified into three clusters. Conclusion: South Korea's child welfare policies have focused on ensuring the safety and healthy development of children through diverse policies initiatives over the years. However, challenges related to child protection and child abuse persist. This requires additional resources and budget allocation. It is important to establish a comprehensive support system for children and families, including comprehensive nursing support.

Advanced Association Rules using XML Document Clustering (XML 문서 클러스터링을 이용한 개선된 연관규칙)

  • 김의찬;이재민;황병연
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.181-183
    • /
    • 2004
  • 기존의 연관규칙을 생성하는 알고리즘의 문제점을 개선하기 위해 본 논문에서는 XML 문서 클러스터링을 이용하였다. XML 문서 클러스터링을 이용하여 데이터베이스 탐색 횟수 일 조인 개수를 줄여서 수행 속도를 향상시키고, 또한 클러스터링을 통해 얻은 클러스터에서 규칙을 찾기 때문에 기존의 연관규칙 생성 방법에서는 찾지 못했던 규칙들도 찾아낼 수 있다 본 논문에서 사용하는 클러스터링 방법은 XML문서 검색을 위한 3차원 비트맵 인덱싱인 xPlaneb를 사용하여 구현하였다.

  • PDF

Mobile App Clustering and Analyzing using Document Embedding (문서임베딩 기반 모바일 앱 분류 및 이를 이용한 마켓 분석)

  • Yoon, Yeo Chan;Pahk, Soo Myung;Lim, Heui Seok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.378-381
    • /
    • 2018
  • 스마트폰이 출시된 이후로 수많은 어플리케이션이 모바일로 출시되고 있다. 본 논문에서는 모바일 앱을 자동으로 분류하는 방법에 대하여 제안한다. 제안한 방법은 딥러닝 기반의 문서 임베딩 방법을 기반으로 효과적으로 앱을 분류한다. 본 논문에서는 또한 제안한 방법을 이용하여 독점도, 포화도, 인기순위를 기준으로 실제 마켓을 분석한다.

  • PDF

Web Document Clustering Using Statistical Techniques & Tag Information on the Specific-Domain Web site (전문 웹 사이트에서의 통계적 기법과 태그 정보를 이용한 문서 분류)

  • 조은휘;변영태
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2002.11a
    • /
    • pp.297-302
    • /
    • 2002
  • 특정 영역에 대해 사용자에게 관련 정보를 제공하는 서비스를 위해 정보 에이전트를 개발하고 있다. 이 시스템은 웹 상에서 문서를 수집해 오는데 특정 영역과 관련한 지식베이스를 토대로 하고 있는데, 이들 중 몇몇 전문 사이트 내의 정보가 많이 포함되어 있음을 볼 수 있다. 그러므로 전문 사이트 내의 관련 문서 수집은 중요한 의의가 있다. 본 논문에서는 이들 전문 사이트 내의 전문 문서 수집을 위해 문서간의 유사성을 토대로 클러스터링 한다. 즉, 문서내의 텀(term)과 HTML 태그(tag), 지식베이스의 WordNet 계층구조를 data로 하고 SVD(Singular Value Decomposition)을 사용하여 문서간의 관계를 밝혀내었다.

  • PDF

Document Clustering for Web Directory Service (웹 디렉토리 서비스를 위한 문서 클러스터링)

  • 이문기;권오욱;이종혁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.351-353
    • /
    • 2000
  • 대부분의 검색 엔진에서의 사용자의 정보 검색 요구에서 나타나는 키워드 장벽의 문제점을 해결하고 사용자의 정보 검색 과정에 도움을 주기 위해 디렉토리 서비스를 제공한다. 하지만 디렉토리 서비스에서 새로운 웹 사이트를 지속적으로 인덱스하여 하나의 주제어에 너무 많은 수의 웹 사이트가 부여되어 있으면 사용자의 검색 편의를 위해서 재분류하여 세분류할 필요가 있다. 따라서 본 논문에서는 한 주제어에 과다하게 부여된 웹 사이트들을 세분류하기 위해 기존의 문서 클러스터링 기법을 사용하여 클러스터링 할 때 생기는 문제점을 보완한 문서 클러스터링 시스템을 소개한다.

  • PDF

Hierarchical Overlapping Document Clustering for Efficient Categorization of Semantic Information (의미정보의 효율적인 분류를 위한 계층적 중복 문서 클러스터링)

  • 강동혁;주길홍;이원석
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.10a
    • /
    • pp.175-177
    • /
    • 2001
  • 기존의 문서 클러스터링 알고리즘은 모든 문서가 각각 하나의 클러스터에만 할당되도록 설계되어 문서에 여러 개의 주제가 포함되어 있을지라도 문서는 유사도 비교에 의해 오직 하나의 플러스터에 포함된다는 단점이 있다. 본 연구에서는 이러한 문서 플러스터링 방법의 한계를 파악하기 위해 문서가 여러 개의 클러스터에 포함될 수 있는 계층적 중복 문서 클러스터링을 제안한다. 또한, 문서 클러스터링의 정확도를 높이기 위해서 불용어 제거 알고리즘을 이용해 불용어를 제거하여 클러스터링에 사용되는 키워드를 선별하고, 단어가중치 산출을 위한 TF*NHDF 공식을 제안한다.

  • PDF