• Title/Summary/Keyword: 문서 분류기

Search Result 192, Processing Time 0.034 seconds

Design and Implementation of a Generic Classification System Based on Incremental Learning Technology (점진적 학습 기술 기반 범용적인 분류기 구조설계 방법의 설계 및 구현)

  • Min, Byung-Won;Oh, Yong-Sun
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2019.05a
    • /
    • pp.425-426
    • /
    • 2019
  • 전통적인 마이닝 기법은 다양한 디지털 매체와 센서 등에서 생산되는 빅데이터를 처리하기 어려울 뿐 아니라 신규 데이터 누적시 전체 데이터를 재분석 해야하는 비효율성과 대용량의 문서를 학습함에 있어 메모리부족 문제, 학습 소요시간 문제 등이 있다. 이러한 문제를 해결하기 위하여 본 논문에서는 자질축소 기법에 의존하지 않고 대량의 문서를 자유롭게 학습하고 부분적인 자질 추가 변경 시에 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법을 설계 및 구현하였다. 점진적 학습 모듈은 일반적인 학습 방법이 데이터의 추가 및 변동시마다 모든 데이터를 재학습하는 데 반해, 기존의 학습 결과에 증분된 데이터만 재처리 없이 추가적으로 학습한다. 재학습을 위해 사용자는 작업 수행 중 자원 관리를 통해 기존에 처리된 데이터를 자유롭게 가져와서 새로운 데이터와 병합이 가능하다. 이러한 점직적 학습 효율성은 빅데이터 기반 데이터 처리에 주요한 특성인 데이터 생산 속도를 극복하기 위한 좋은 대안이 될 수 있음을 확인하였다.

  • PDF

A Method for Generating and Combining Classifiers for Large Scale Data (대용량 문서학습을 위한 분류기 생성 및 결합방법)

  • Jeong, Do-Heon;Hwang, Myung-Gwon;Sung, Won-Kyung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.1551-1554
    • /
    • 2011
  • 대용량 데이터 환경에의 적용이 가능한 대용량 학습기반의 자동범주화 기법과 범용적으로 사용할 수 있는 기법은 대량의 정보를 처리해야하는 정보분석 및 정보서비스 환경에 가장 필요한 기술요소라 할 수 있다. 본 논문에서는 대용량의 문서를 단위 컴포넌트로 분할하여 학습하고 이를 동적으로 결합하는 대용량 분류기 생성 기법을 소개하고 자동범주화 성능을 SVM 모델과 비교하여 봄으로써, 본 기술의 활용 가능성을 살펴보도록 한다.

Improving Dense Retrieval Performance by Extracting Hard Negative and Mitigating False Negative Problem (검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법)

  • Seong-Heum Park;Hongjin Kim;Jin-Xia Huang;Oh-Woog Kwon;Harksoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.366-371
    • /
    • 2023
  • 신경망 기반의 검색 모델이 활발히 연구됨에 따라 효과적인 대조학습을 위한 다양한 네거티브 샘플링 방법이 제안되고 있다. 대표적으로, ANN전략은 하드 네거티브 샘플링 방법으로 질문에 대해 검색된 후보 문서들 중에서 정답 문서를 제외한 상위 후보 문서를 네거티브로 사용하여 검색 모델의 성능을 효과적으로 개선시킨다. 하지만 질문에 부착된 정답 문서를 통해 후보 문서를 네거티브로 구분하기 때문에 실제로 정답을 유추할 수 있는 후보 문서임에도 불구하고 네거티브로 분류되어 대조학습을 진행할 수 있다는 문제점이 있다. 이러한 가짜 네거티브 문제(False Negative Problem)는 학습과정에서 검색 모델을 혼란스럽게 하며 성능을 감소시킨다. 본 논문에서는 False Negative Problem를 분석하고 이를 완화시키기 위해 가짜 네거티브 분류기(False Negative Classifier)를 소개한다. 실험은 오픈 도메인 질의 응답 데이터셋인 Natural Question에서 진행되었으며 실제 False Negative를 확인하고 이를 판별하여 기존 성능보다 더 높은 성능을 얻을 수 있음을 보여준다.

  • PDF

International Patent Classificaton Using Latent Semantic Indexing (잠재 의미 색인 기법을 이용한 국제 특허 분류)

  • Jin, Hoon-Tae
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.1294-1297
    • /
    • 2013
  • 본 논문은 기계학습을 통하여 특허문서를 국제 특허 분류(IPC) 기준에 따라 자동으로 분류하는 시스템에 관한 연구로 잠재 의미 색인 기법을 이용하여 분류의 성능을 높일 수 있는 방법을 제안하기 위한 연구이다. 종래 특허문서에 관한 IPC 자동 분류에 관한 연구가 단어 매칭 방식의 색인 기법에 의존해서 이루어진바가 있으나, 현대 기술용어의 발생 속도와 다양성 등을 고려할 때 특허문서들 간의 관련성을 분석하는데 있어서는 단어 자체의 빈도 보다는 용어의 개념에 의한 접근이 보다 효과적일 것이라 판단하여 잠재 의미 색인(LSI) 기법에 의한 분류에 관한 연구를 하게 된 것이다. 실험은 단어 매칭 방식의 색인 기법의 대표적인 자질선택 방법인 정보획득량(IG)과 카이제곱 통계량(CHI)을 이용했을 때의 성능과 잠재 의미 색인 방법을 이용했을 때의 성능을 SVM, kNN 및 Naive Bayes 분류기를 사용하여 분석하고, 그중 가장 성능이 우수하게 나오는 SVM을 사용하여 잠재 의미 색인에서 명사가 해당 용어의 개념적 의미 구조를 구축하는데 기여하는 정도가 어느 정도인지 평가함과 아울러, LSI 기법 이용시 최적의 성능을 나타내는 특이값의 범위를 실험을 통해 비교 분석 하였다. 분석결과 LSI 기법이 단어 매칭 기법(IG, CHI)에 비해 우수한 성능을 보였으며, SVM, Naive Bayes 분류기는 단어 매칭 기법에서는 비슷한 수준을 보였으나, LSI 기법에서는 SVM의 성능이 월등이 우수한 것으로 나왔다. 또한, SVM은 LSI 기법에서 약 3%의 성능 향상을 보였지만 Naive Bayes는 오히려 20%의 성능 저하를 보였다. LSI 기법에서 명사가 잠재적 의미 구조에 미치는 영향은 모든 단어들을 내용어로 한 경우 보다 약 10% 더 향상된 결과를 보여주었고, 특이값의 범위에 따른 성능 분석에 있어서는 30% 수준에 Rank 되는 범위에서 가장 높은 성능의 결과가 나왔다.

The Classification and filing of the Official Documents of the Office of Crown Properties in the Great Han Empire (대한제국기 내장원의 공문서 편철과 분류)

  • Park, Sung-Joon
    • The Korean Journal of Archival Studies
    • /
    • no.28
    • /
    • pp.3-33
    • /
    • 2011
  • The Office of Crown Properties was established to manage the property of royal properties as an institution belonging to the Department of the Royal Household in April, 1895. However, as the Great Han Empire established and various policies enforcing the power of the emperor became introduced, the Office of Crown Properties came to be expanded to a large financial agency that would be in charge of various financial sources such as Public Land and Maritime Tax. As the Office of Crown Properties came to manage various income sources, it classified the documents dealing with various government agencies in the Capital and other countryside regions by the unit of Section. The Office of Crown Properties classified the documents by Section and filed them according to Sending/Receiving subject. Sometimes, it filed one kind of document only but sometimes many different kinds of documents were filed together. The types of the document can show the characteristics of the document and the hierarchy of the related agencies through the document name. The fact that they filed the documents with different grades in one file shows that the hierarchy of the agency they dealt with was not the primary standard of the filing and that they did not file the documents by its type. The Office of Crown Properties did not file the related documents in the same file, either. We can say the documents are related if they were corresponded with other agencies while they dealt with a specific item. However, they did not file the related documents in the same file but distinguished sending documents from receiving documents. The reason why they filed different kind documents in the same file and separated the related documents in different file was they took 'whether they were sent or received' as the primary filing standard. They separated the sending documents from the receiving documents first and then filed them according to time regardless of the region or institution. The Office of Crown Properties primarily classified the documents by Section, classified the documents with the standard of whether they were receiving documents or sending documents and then filed them in a file according to the time. It means that the Office of Crown Properties came to create the Official Document Classification and filing system.

Document Classification Methodology Using Autoencoder-based Keywords Embedding

  • Seobin Yoon;Namgyu Kim
    • Journal of the Korea Society of Computer and Information
    • /
    • v.28 no.9
    • /
    • pp.35-46
    • /
    • 2023
  • In this study, we propose a Dual Approach methodology to enhance the accuracy of document classifiers by utilizing both contextual and keyword information. Firstly, contextual information is extracted using Google's BERT, a pre-trained language model known for its outstanding performance in various natural language understanding tasks. Specifically, we employ KoBERT, a pre-trained model on the Korean corpus, to extract contextual information in the form of the CLS token. Secondly, keyword information is generated for each document by encoding the set of keywords into a single vector using an Autoencoder. We applied the proposed approach to 40,130 documents related to healthcare and medicine from the National R&D Projects database of the National Science and Technology Information Service (NTIS). The experimental results demonstrate that the proposed methodology outperforms existing methods that rely solely on document or word information in terms of accuracy for document classification.

Implementation of Workbench Program for Multi-Level Harmful Document Classification (다중 등급 유해문서 분류를 위한 워크벤치 프로그램 구현)

  • Lee, Won-Hee;Cho, Yun-Jeong;Chung, Sung-Jong;An, Dong-Un
    • Proceedings of the IEEK Conference
    • /
    • 2008.06a
    • /
    • pp.691-692
    • /
    • 2008
  • 유해 문서를 분류하기 위한 고정된 등급에 의한 분류가 아닌 사용자의 필요에 의해 다양한 등급으로 분류할 수 있는 분류기를 구현하였다. 자질 생성을 위해 ${\chi}^2$, IG, DF, ICF를 이용하였으며, 분류를 위해 나이브 베이지언, C4.5, kNN, SVM을 이용하였다.

  • PDF

A Study on the Learning Method of Documents for Implementation of Automated Documents Classificator (문서 자동 분류기의 구현을 위한 문서 학습 방법에 관한 연구)

  • 선복근;이인정;한광록
    • Proceedings of the IEEK Conference
    • /
    • 1999.06a
    • /
    • pp.1001-1004
    • /
    • 1999
  • We study on machine learning method for automatic document categorization using back propagation algorithm. Four categories are classified for the experiment and the system learns with 20 documents per a category by this method. As a result of the machine learning, we can find that a new document is automatically classified with a category according to the predefined ones.

  • PDF

Kernel Perceptron Boosting for Effective Learning of Imbalanced Data (불균형 데이터의 효과적 학습을 위한 커널 퍼셉트론 부스팅 기법)

  • 오장민;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2001.04b
    • /
    • pp.304-306
    • /
    • 2001
  • 많은 실세계의 문제에서 일반적인 패턴 분류 알고리즘들은 데이터의 불균형 문제에 어려움을 겪는다. 각각의 학습 예제에 균등한 중요도를 부여하는 기존의 기법들은 문제의 특징을 제대로 파악하지 못하는 경우가 많다. 본 논문에서는 불균형 데이터 문제를 해결하기 위해 퍼셉트론에 기반한 부스팅 기법을 제안한다. 부스팅 기법은 학습을 어렵게 하는 데이터에 집중하여 앙상블 머신을 구축하는 기법이다. 부스팅 기법에서는 약학습기를 필요로 하는데 기존 퍼셉트론의 경우 문제에 따라 약학습기(weak learner)의 조건을 만족시키지 못하는 경우가 있을 수 있다. 이에 커널을 도입한 커널 퍼셉트론을 사용하여 학습기의 표현 능력을 높였다. Reuters-21578 문서 집합을 대상으로 한 문서 여과 문제에서 부스팅 기법은 다층신경망이나 나이브 베이스 분류기보다 우수한 성능을 보였으며, 인공 데이터 실험을 통하여 부스팅의 샘플링 경향을 분석하였다.

  • PDF

Sentiment Classification for Korean Tweets via Semi-Supervised Learning (준지도 학습을 이용한 트윗 감정 분류)

  • Seo, Hyeong-Won;Noh, Kyung-Mok;Cheon, Min-A;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.123-125
    • /
    • 2012
  • 본 논문은 기계 학습을 이용한 감정 분류에 필요한 학습 말뭉치를 효율적으로 확장하는 방법에 대하여 기술한다. 학습 말뭉치는 일반적으로 그에 알맞은 레이블을 정해야 하는데, 그 양이 어마어마하기 때문에 이 과정을 일일이 사람이 할 수는 없다. 그에 대한 해결책으로써 이미 많은 준지도학습 방법이 연구되었고, 그것을 트윗이라는 짧은 문서를 감정 분류하는 것에 적용해도 감정 문서 분류기의 성능이 좋다는 결과를 확인하였다.

  • PDF