• 제목/요약/키워드: document classification

검색결과 451건 처리시간 0.026초

비지도학습 기반의 행정부서별 신문기사 자동분류 연구 (A Study on Automatic Classification of Newspaper Articles Based on Unsupervised Learning by Departments)

  • 김현종;유승의;이철호;남광우
    • 한국산학기술학회논문지
    • /
    • 제21권9호
    • /
    • pp.345-351
    • /
    • 2020
  • 행정기관은 정책 대응성을 제고하기 위해 빅데이터 분석에 관심을 기울이고 있다. 빅데이터 중 뉴스 기사는 정책 이슈와 정책에 대한 여론을 파악하는데 중요한 자료로 활용될 수 있다. 한편으로 새로운 온라인 매체의 등장으로 뉴스 기사의 생산은 급격히 증가하고 있어 문서 자동분류를 통해 기사를 수집할 필요가 있다. 그러나 기존 뉴스 기사의 범주와 키워드 검색방법으로는 특정 행정기관 및 부서별로 업무에 관련된 기사를 자동적으로 수집하는 것에 한계가 있었다. 또한 기존의 지도학습 기반의 분류 기법은 다량의 학습 데이터가 필요한 단점을 가지고 있다. 이에 본 연구에서는 행정부서의 업무특징을 포함한 분류사전을 활용하여 기사의 분류를 효과적으로 처리하기 위한 방법을 제안한다. 이를 위해 행정 기관의 업무와 신문기사를 Word2Vec와 토픽모델링 기법으로 부서별 특징을 추출하여 분류사전을 생성하고, 행정 부서별로 신문기사를 자동분류 한 결과 71%정도의 정확도를 얻었다. 본 연구는 행정부서별 신문기사를 자동분류하기 위해 부서별 업무 특징 추출 방법과 비지도학습 기반의 자동분류 방법을 제시하였다는 학문적·실무적 기여점이 있다.

수문학적 토양군의 분류기준에 따른 SCS CN 및 유출변화특성에 관한 연구 (Study on SCS CN Estimation and Flood Flow Characteristics According to the Classification Criteria of Hydrologic Soil Groups)

  • 안승섭;박노삼;고수현;송인렬
    • 한국환경과학회지
    • /
    • 제15권8호
    • /
    • pp.775-784
    • /
    • 2006
  • In this study, CN value was estimated by using detailed soil map and land cover characteristic against upper basin of Kumho watermark located on the upper basin of Kumho river and the hydrologic morphological characteristic factors were extracted from the basin by using the DEM document. Also the runoff analysis was conducted by the WMS model in order to study how the assumed CN value affects the runoff characteristic. First of all, as a result of studying the soil type in this study area, mostly D type soil was Identified by the application of the 1987 classification criteria. However, by that in 1995, B type soil and C type soil were distributed more widely in that area. When CN value was classified by the 1995 classification criteria, it was estimated lower than in 1987, as a result of comparing the estimated CNs by those standars. Also it was assumed that CN value was underestimated when the plan for Geum-ho river maintenance was drawn up. As a result of the analysis of runoff characteristic, the pattern of generation of the classification criteria of soil groups appeared to be similar, but in the case of the application of the classification criteria in 1995, the peak rate of runoff was found to be smaller on the whole than in the case of the application of the classification criteria in 1987. Also when the statistical data such as the prediction errors, the mean squared errors, the coefficient of determination and other data emerging from the analysis, was looked over in total, it seemed appropriate to apply the 1995 classification criteria when hydrological soil classification group was applied. As the result of this study, however, the difference of the result of the statistical dat was somewhat small. In future study, it is necessary to follow up evidence about soil application On many more watersheds and in heavy rain.

국가 과학기술 표준분류 체계 기반 연구보고서 문서의 자동 분류 연구 (Research on Text Classification of Research Reports using Korea National Science and Technology Standards Classification Codes)

  • 최종윤;한혁;정유철
    • 한국산학기술학회논문지
    • /
    • 제21권1호
    • /
    • pp.169-177
    • /
    • 2020
  • 과학기술 분야의 연구·개발 결과는 연구보고서 형태로 국가과학기술정보서비스(NTIS)에 제출된다. 각 연구보고서는 국가과학기술 표준 분류체계 (K-NSCC)에 따른 분류코드를 가지고 있는데, 보고서 작성자가 제출 시에 수동으로 입력하게끔 되어있다. 하지만 2000여 개가 넘는 세분류를 가지고 있기에, 분류체계에 대한 정확한 이해가 없이는 부정확한 분류코드를 선택하기 십상이다. 새로이 수집되는 연구보고서의 양과 다양성을 고려해 볼 때, 이들을 기계적으로 보다 정확하게 분류할 수 있다면 보고서 제출자의 수고를 덜어줄 수 있을 뿐만 아니라, 다른 부가 가치적인 분석 서비스들과의 연계가 수월할 것이다. 하지만, 국내에서 과학기술표준 분류체계에 기반을 둔 문서 자동 분류 연구 사례는 거의 없으며 공개된 학습데이터도 전무하다. 본 연구는 KISTI가 보유하고 있는 최근 5년간 (2013년~2017년) NTIS 연구보고서 메타정보를 활용한 최초의 시도로써, 방대한 과학기술표준 분류체계를 기반으로 하는 국내 연구보고서들을 대상으로 높은 성능을 보이는 문서 자동 분류기법을 도출하는 연구를 진행하였다. 이를 위해, 과학기술 표준분류 체계에서 과학기술 분야의 연구보고서를 분류하기에 적합한 중분류 210여 개를 선별하였으며, 연구보고서 메타 데이터의 특성을 고려한 전처리를 진행하였다. 특히, 가장 영향력 있는 필드인 과제명(제목)과 키워드만을 이용한 TK_CNN 기반의 딥러닝 기법을 제안한다. 제안 모델은 텍스트 분류에서 좋은 성능을 보이고 있는 기계학습법들 (예, Linear SVC, CNN, GRU등)과 비교하였으며, Top-3 F1점수 기준으로 1~7%에 이르는 성능 우위를 확인하였다.

The Analysis of MOUs and their Activities Related to Port State Control

  • Min, Byung-Sun;Kim, Soon-Kap;Kong, Gil-Young;Kim, Chol-Seong;Lee, Yoon-Sok;Kim, Jung-Man;Lee, Chung-Ro
    • 한국항해항만학회지
    • /
    • 제27권3호
    • /
    • pp.321-327
    • /
    • 2003
  • The Memorandum of Understanding (MOU) is the document of intent signed between the Port States Control(PSC) to undertake a uniform as agreed. Though the MOU is not a legally binding, in case where the agreed items are violated without a just cause, the denunciation will follow. International Maritime Organization (IMO) and regional MOUs have been making amendments and reinforcing the relevant requirements, so that port State Authorities can effectively eradicate the substandard vessels. However, the various problems have arisen due to the existence of different requirements of each MOU, the lack of information exchange between each MOU, the lack of uniform PSC implementation within the same MOU and the lack of adequate system due to the short history of MOUs. In this paper, the MOU records for three years (1999∼2001) were analyzed according to each MOU, type of ship, deficiency code, classification society, the number of inspected ships and the number of detained ships to assess the problems (Statistics during 2002 will be published after August 2003). The purpose of this study is to help better understand the PSC activities within each MOU and to establish effective countermeasures by grasping the problems that exist in the PSC at present.

시맨틱 텍스트 마이닝을 위한 온톨로지 활용 방안 (Using Ontologies for Semantic Text Mining)

  • 유은지;김정철;이춘열;김남규
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제21권3호
    • /
    • pp.137-161
    • /
    • 2012
  • The increasing interest in big data analysis using various data mining techniques indicates that many commercial data mining tools now need to be equipped with fundamental text analysis modules. The most essential prerequisite for accurate analysis of text documents is an understanding of the exact semantics of each term in a document. The main difficulties in understanding the exact semantics of terms are mainly attributable to homonym and synonym problems, which is a traditional problem in the natural language processing field. Some major text mining tools provide a thesaurus to solve these problems, but a thesaurus cannot be used to resolve complex synonym problems. Furthermore, the use of a thesaurus is irrelevant to the issue of homonym problems and hence cannot solve them. In this paper, we propose a semantic text mining methodology that uses ontologies to improve the quality of text mining results by resolving the semantic ambiguity caused by homonym and synonym problems. We evaluate the practical applicability of the proposed methodology by performing a classification analysis to predict customer churn using real transactional data and Q&A articles from the "S" online shopping mall in Korea. The experiments revealed that the prediction model produced by our proposed semantic text mining method outperformed the model produced by traditional text mining in terms of prediction accuracy such as the response, captured response, and lift.

자동분류 알고리즘을 이용한 지능형 정보검색시스템 구축에 관한 연구 (A Study of Designing the Intelligent Information Retrieval System by Automatic Classification Algorithm)

  • 서휘
    • 한국도서관정보학회지
    • /
    • 제39권4호
    • /
    • pp.283-304
    • /
    • 2008
  • 본 연구의 목적은 이용자의 탐색 행태, 시스템의 정보 구축 행태를 기반으로 초기 질의어의 범주에 해당하는 연관 용어들(해당 용어의 지식구조와 관련된 연관 용어들)을 학습기능을 통해 자동으로 제시해 줄 수 있는 지능형 검색 시스템을 구현하는 것이다. 이를 위해 학습을 통해 전문가 수준의 색인어를 추출할 수 있는 지능형자동색인 알고리즘, 자동분류에 관련한 클러스터링 알고리즘과 문서 범주화 알고리즘 그리고 범주 표현 알고리즘에 대한 이론적 연구를 수행하였으며, 이들 이론적 연구를 근거로 비용과 시간적인 측면에서 그리고 재현율과 정도율이란 측면에서 우수한 성능을 발휘할 수 있는 지능형검색시스템을 구현하였다.

  • PDF

유전자 알고리즘 기반 용어 중의성 분석 (Analysis of Term Ambiguity based on Genetic Algorithm)

  • 김정준;정성택;박정민
    • 한국인터넷방송통신학회논문지
    • /
    • 제17권5호
    • /
    • pp.131-136
    • /
    • 2017
  • 최근 인터넷 미디어의 발달로 웹상에 수많은 문서자료들이 기하급수적으로 늘어나게 되었다. 이러한 자료들은 대부분 텍스트에 의해 그 내용이 무엇인지를 설명하고 있고 이에 따라 분류된다. 그러나 텍스트가 가지는 의미는 모호하게 해석되어질 여지가 많고 이를 정확히 해석하기 위해서는 다각도로 이를 살펴봐야 한다. 기존의 분류 방법에서는 단순히 텍스트의 출현만을 가지고 분류를 하였다. 따라서, 본 논문에서는 이를 유전자 알고리즘과 토픽추출을 기반으로 하여 용어 중의성을 분석하고 이를 단편화한 클러스터링 시스템을 구현하였다. 마지막으로 구현된 결과물을 토대로 기존의 방법과 비교하여 본 논문의 성능을 평가하였다.

유사 어절 트리와 비 색인어 기반의 문서 표절 유사도 분류 방법 ((The Classification Method of the Document Plagiarism Similarity based on Similar Syntagma Tree and Non-Index Term))

  • 천승환;김미영;이귀상
    • 한국컴퓨터산업학회논문지
    • /
    • 제3권8호
    • /
    • pp.1039-1048
    • /
    • 2002
  • 전자문서와 온라인으로 수신된 문서들은 표절 여부를 판별하기가 매우 어렵고 번거로운 일이다. 특히 학생들에게 부여된 과제물의 경우 동일한 주제에 대해서 작성되는 경우가 많으므로 독자적으로 작성된 문서와 표절되어진 문서를 판별하기가 쉽지 않다. 이것은 분류하고자 하는 문서들에서 주요 단어들 즉, 색인어들의 출현 빈도를 추출한 뒤 이를 이용하여 가장 적합한 카테고리를 찾는 기존의 방법들과는 전혀 다른 문제이다. 본 논문에서는 어절들의 -유사 어절 트리 구조와 색인어를 제외한 어절- 벡터를 기반으로 하여 비슷하게 작성된 문서들의 표절 판별을 목적으로 하는 작업에 적용될 수 있는 방법을 제안한다.

  • PDF

스타일에 따른 웹 문서의 자동 분류 (Automatic Classification of Web documents According to their Styles)

  • 이공주;임철수;김재훈
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.555-562
    • /
    • 2004
  • 스타일 또는 장르는 문서의 주제와는 다른 문서를 보는 또 하나의 관점이 될 수 있다. 그렇기 때문에 문서의 스타일은 문서 분류의 기준으로 사용될 수 있다. 문서의 스타일에 따른 자동 분류 시스템에 대한 여러 연구들이 수행되어 왔다. 그러나 이런 연구들의 대부분이 일반 문서를 대상으로 수행하였으며, 몇몇 일부의 연구만이 웹 문서를 대상으로 스타일 분류에 대한 연구를 수행하였다. 웹 문서는 일반 문서와는 달리 URL HTML을 갖고 있다. 본 연구에서는 이와 같은 URL과 HTML로부터 추출한 자질들을 웹 문서의 스타일 분류에 사용해 보고자 한다. 실험을 통해서 이와 같은 자질들이 웹 문서의 스타일 분류에 어떤 영향을 미치는지를 밝혀보고자 한다.

비정형 데이터 분석을 통한 금융소비자 유형화 및 그에 따른 금융상품 추천 방법 (Financial Instruments Recommendation based on Classification Financial Consumer by Text Mining Techniques)

  • 이재웅;김영식;권오병
    • 한국IT서비스학회지
    • /
    • 제15권4호
    • /
    • pp.1-24
    • /
    • 2016
  • With the innovation of information technology, non-face-to-face robo advisor with high accessibility and convenience is spreading. The current robot advisor recommends appropriate investment products after understanding the investment propensity based on the structured data entered directly or indirectly by individuals. However, it is an inconvenient and obtrusive way for financial consumers to inquire or input their own subjective propensity to invest. Hence, this study proposes a way to deduce the propensity to invest in unstructured data that customers voluntarily exposed during consultation or online. Since prediction performance based on unstructured document differs according to the characteristics of text, in this study, classification algorithm optimized for the characteristic of text left by financial consumers is selected by performing prediction performance evaluation of various learning discrimination algorithms and proposed an intelligent method that automatically recommends investment products. User tests were given to MBA students. After showing the recommended investment and list of investment products, satisfaction was asked. Financial consumers' satisfaction was measured by dividing them into investment propensity and recommendation goods. The results suggest that the users high satisfaction with investment products recommended by the method proposed in this paper. The results showed that it can be applies to non-face-to-face robo advisor.