• 제목/요약/키워드: 문서 분류기

검색결과 192건 처리시간 0.044초

점진적 학습 기술 기반 범용적인 분류기 구조설계 방법의 설계 및 구현 (Design and Implementation of a Generic Classification System Based on Incremental Learning Technology)

  • 민병원;오용선
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2019년도 춘계종합학술대회
    • /
    • pp.425-426
    • /
    • 2019
  • 전통적인 마이닝 기법은 다양한 디지털 매체와 센서 등에서 생산되는 빅데이터를 처리하기 어려울 뿐 아니라 신규 데이터 누적시 전체 데이터를 재분석 해야하는 비효율성과 대용량의 문서를 학습함에 있어 메모리부족 문제, 학습 소요시간 문제 등이 있다. 이러한 문제를 해결하기 위하여 본 논문에서는 자질축소 기법에 의존하지 않고 대량의 문서를 자유롭게 학습하고 부분적인 자질 추가 변경 시에 변경요소만을 추가 반영할 수 있는 범용적이고 일반적인 분류기의 구조설계 방법을 설계 및 구현하였다. 점진적 학습 모듈은 일반적인 학습 방법이 데이터의 추가 및 변동시마다 모든 데이터를 재학습하는 데 반해, 기존의 학습 결과에 증분된 데이터만 재처리 없이 추가적으로 학습한다. 재학습을 위해 사용자는 작업 수행 중 자원 관리를 통해 기존에 처리된 데이터를 자유롭게 가져와서 새로운 데이터와 병합이 가능하다. 이러한 점직적 학습 효율성은 빅데이터 기반 데이터 처리에 주요한 특성인 데이터 생산 속도를 극복하기 위한 좋은 대안이 될 수 있음을 확인하였다.

  • PDF

대용량 문서학습을 위한 분류기 생성 및 결합방법 (A Method for Generating and Combining Classifiers for Large Scale Data)

  • 정도헌;황명권;성원경
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1551-1554
    • /
    • 2011
  • 대용량 데이터 환경에의 적용이 가능한 대용량 학습기반의 자동범주화 기법과 범용적으로 사용할 수 있는 기법은 대량의 정보를 처리해야하는 정보분석 및 정보서비스 환경에 가장 필요한 기술요소라 할 수 있다. 본 논문에서는 대용량의 문서를 단위 컴포넌트로 분할하여 학습하고 이를 동적으로 결합하는 대용량 분류기 생성 기법을 소개하고 자동범주화 성능을 SVM 모델과 비교하여 봄으로써, 본 기술의 활용 가능성을 살펴보도록 한다.

검색 모델 성능 향상을 위한 Hard Negative 추출 및 False Negative 문제 완화 방법 (Improving Dense Retrieval Performance by Extracting Hard Negative and Mitigating False Negative Problem)

  • 박성흠;김홍진;황금하;권오욱;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.366-371
    • /
    • 2023
  • 신경망 기반의 검색 모델이 활발히 연구됨에 따라 효과적인 대조학습을 위한 다양한 네거티브 샘플링 방법이 제안되고 있다. 대표적으로, ANN전략은 하드 네거티브 샘플링 방법으로 질문에 대해 검색된 후보 문서들 중에서 정답 문서를 제외한 상위 후보 문서를 네거티브로 사용하여 검색 모델의 성능을 효과적으로 개선시킨다. 하지만 질문에 부착된 정답 문서를 통해 후보 문서를 네거티브로 구분하기 때문에 실제로 정답을 유추할 수 있는 후보 문서임에도 불구하고 네거티브로 분류되어 대조학습을 진행할 수 있다는 문제점이 있다. 이러한 가짜 네거티브 문제(False Negative Problem)는 학습과정에서 검색 모델을 혼란스럽게 하며 성능을 감소시킨다. 본 논문에서는 False Negative Problem를 분석하고 이를 완화시키기 위해 가짜 네거티브 분류기(False Negative Classifier)를 소개한다. 실험은 오픈 도메인 질의 응답 데이터셋인 Natural Question에서 진행되었으며 실제 False Negative를 확인하고 이를 판별하여 기존 성능보다 더 높은 성능을 얻을 수 있음을 보여준다.

  • PDF

잠재 의미 색인 기법을 이용한 국제 특허 분류 (International Patent Classificaton Using Latent Semantic Indexing)

  • 진훈태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1294-1297
    • /
    • 2013
  • 본 논문은 기계학습을 통하여 특허문서를 국제 특허 분류(IPC) 기준에 따라 자동으로 분류하는 시스템에 관한 연구로 잠재 의미 색인 기법을 이용하여 분류의 성능을 높일 수 있는 방법을 제안하기 위한 연구이다. 종래 특허문서에 관한 IPC 자동 분류에 관한 연구가 단어 매칭 방식의 색인 기법에 의존해서 이루어진바가 있으나, 현대 기술용어의 발생 속도와 다양성 등을 고려할 때 특허문서들 간의 관련성을 분석하는데 있어서는 단어 자체의 빈도 보다는 용어의 개념에 의한 접근이 보다 효과적일 것이라 판단하여 잠재 의미 색인(LSI) 기법에 의한 분류에 관한 연구를 하게 된 것이다. 실험은 단어 매칭 방식의 색인 기법의 대표적인 자질선택 방법인 정보획득량(IG)과 카이제곱 통계량(CHI)을 이용했을 때의 성능과 잠재 의미 색인 방법을 이용했을 때의 성능을 SVM, kNN 및 Naive Bayes 분류기를 사용하여 분석하고, 그중 가장 성능이 우수하게 나오는 SVM을 사용하여 잠재 의미 색인에서 명사가 해당 용어의 개념적 의미 구조를 구축하는데 기여하는 정도가 어느 정도인지 평가함과 아울러, LSI 기법 이용시 최적의 성능을 나타내는 특이값의 범위를 실험을 통해 비교 분석 하였다. 분석결과 LSI 기법이 단어 매칭 기법(IG, CHI)에 비해 우수한 성능을 보였으며, SVM, Naive Bayes 분류기는 단어 매칭 기법에서는 비슷한 수준을 보였으나, LSI 기법에서는 SVM의 성능이 월등이 우수한 것으로 나왔다. 또한, SVM은 LSI 기법에서 약 3%의 성능 향상을 보였지만 Naive Bayes는 오히려 20%의 성능 저하를 보였다. LSI 기법에서 명사가 잠재적 의미 구조에 미치는 영향은 모든 단어들을 내용어로 한 경우 보다 약 10% 더 향상된 결과를 보여주었고, 특이값의 범위에 따른 성능 분석에 있어서는 30% 수준에 Rank 되는 범위에서 가장 높은 성능의 결과가 나왔다.

대한제국기 내장원의 공문서 편철과 분류 (The Classification and filing of the Official Documents of the Office of Crown Properties in the Great Han Empire)

  • 박성준
    • 기록학연구
    • /
    • 제28호
    • /
    • pp.3-33
    • /
    • 2011
  • 내장원은 1895년 4월 궁내부 소속 기관으로 왕실의 보물 및 세전장원(世傳莊園)과 기타 재산을 관리하기 위해 설치되었다. 그러나 대한제국이 성립되고 황제권을 강화하는 정책이 시행되면서 내장원은 역둔토(驛屯土) 해세(海稅) 인삼(人蔘) 광산(?山) 등 각종 재원을 관할하며 거대 재정기구로 확대되었다. 내장원의 관할 재원이 증대됨에 따라 하급기관도 증가해 장원과(莊園課), 종목과(種牧課), 삼정과(蔘政課) 등이 설치되었다. 내장원은 각종 재원을 관리하면서 각부부원청(各府部院廳) 지방기관 민들과 거래한 다양한 문서를 1단계로 과(課)를 단위로 분류하였다. 내장원의 대표적 문서철인 "훈령조회존안(訓令照會存案)", 13도 각군 보고 소장, "각부군래첩(各府郡來牒)"은 장원과, "내장원경리원각도각군보고존안(內藏院經理院各道各郡報告存案)", "훈령존안(訓令存案)"은 종목과, "통첩편안(通牒編案)", "궁내부훈령편안(宮內府訓令編案)"은 지응과에서 처리한 문서철이었다. 이들 문서철은 같은 시기에 내장원에서 처리한 문서들이지만, 각 문서철의 문서의 내용은 중복되지 않았다. 이는 내장원에서 과를 단위로 문서를 분류하여 편철하였기 때문이다. 내장원은 과 단위로 문서를 분류한 다음 문서의 수발신 여부를 문서의 편철 기준으로 삼았다. 내장원은 한 종류의 문서만을 편철한 경우도 있었지만, 다른 종류의 문서를 함께 편철하기도 했다. 문서 종류는 문서 명칭을 통해 문서 성격과 거래 기관간의 위계를 보여주는 역할을 한다. 그런데 문서의 등급이 다른 조회와 훈령, 조회와 보고 같은 문서를 함께 편철했다는 것은 거래 기관의 위계가 문서 편철의 1차 기준은 아니었다는 것이고, 이는 문서 종류별로 문서를 편철하지 않았다는 것이다. 내장원은 서로 연관된 문서를 조응해서 편철하지도 않았다. 조회는 대등한 관리에게 보내는 문서이며, 이에 대해 답신하는 문서가 조복이다. 조회 조복은 각각 동일한 사안을 처리하는 과정에서 거래한 서로 조응하는 문서이다. 그러나 장원과와 종목과 모두 조회 조복을 따로 분리해서 각각 편철하였다. 문서 종류가 다른 훈령과 조회를 함께 편철하고, 서로 조응하는 조회 조복을 따로 분리하여 편철한 것은 해당 문서가 수신 문서인지, 발신 문서인지 문서의 수발신 여부를 편철 기준으로 삼았기 때문이었다. 수발신 문서를 구분한 다음, 한 책 단위로 문서를 편철할 때는 지역이나 기관의 구분 없이 문서시기를 기준으로 삼았다. 거래 기관이나 지역의 구분 없이 편철된 다른 문서철과는 달리 1900년부터 13도 각군 보고 소장은 도를 단위로 구분한 다음 각 책을 문서 시기별로 구분하여 편철하였다. 13도 각군 보고 소장에 지역별 구분이 적용된 것은 내장원의 관할 재원이 증대되면서 지방과 맺는 관계 또한 확대되었기 때문에, 이들과 거래한 문서를 효율적으로 관리하기 위해 도를 단위로 지역을 구분한 다음 문서 시기별로 문서를 나누어 편철하였던 것이다. 내장원은 1차적으로 과를 단위로 문서를 분류한 다음, 수발신을 기준으로 문서를 구분하고, 각 문서철은 문서시기를 단위로 편철하는 공문서 편철과 분류체계를 마련하였던 것이다.

Document Classification Methodology Using Autoencoder-based Keywords Embedding

  • Seobin Yoon;Namgyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권9호
    • /
    • pp.35-46
    • /
    • 2023
  • 본 연구에서는 문서 분류기의 정확도를 높이기 위해 문맥 정보와 키워드 정보를 모두 사용하는 이중 접근(Dual Approach) 방법론을 제안한다. 우선 문맥 정보는 다양한 자연어 이해 작업(Task)에서 뛰어난 성능을 나타내고 있는 사전학습언어모델인 Google의 BERT를 사용하여 추출한다. 구체적으로 한국어 말뭉치를 사전학습한 KoBERT를 사용하여 문맥 정보를 CLS 토큰 형태로 추출한다. 다음으로 키워드 정보는 문서별 키워드 집합을 Autoencoder의 잠재 벡터를 통해 하나의 벡터 값으로 생성하여 사용한다. 제안 방법을 국가과학기술정보서비스(NTIS)의 국가 R&D 과제 문서 중 보건 의료에 해당하는 40,130건의 문서에 적용하여 실험을 수행한 결과, 제안 방법이 문서 정보 또는 단어 정보만을 활용하여 문서 분류를 진행하는 기존 방법들에 비해 정확도 측면에서 우수한 성능을 나타냄을 확인하였다.

다중 등급 유해문서 분류를 위한 워크벤치 프로그램 구현 (Implementation of Workbench Program for Multi-Level Harmful Document Classification)

  • 이원휘;조윤정;정성종;안동언
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2008년도 하계종합학술대회
    • /
    • pp.691-692
    • /
    • 2008
  • 유해 문서를 분류하기 위한 고정된 등급에 의한 분류가 아닌 사용자의 필요에 의해 다양한 등급으로 분류할 수 있는 분류기를 구현하였다. 자질 생성을 위해 ${\chi}^2$, IG, DF, ICF를 이용하였으며, 분류를 위해 나이브 베이지언, C4.5, kNN, SVM을 이용하였다.

  • PDF

문서 자동 분류기의 구현을 위한 문서 학습 방법에 관한 연구 (A Study on the Learning Method of Documents for Implementation of Automated Documents Classificator)

  • 선복근;이인정;한광록
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 하계종합학술대회 논문집
    • /
    • pp.1001-1004
    • /
    • 1999
  • We study on machine learning method for automatic document categorization using back propagation algorithm. Four categories are classified for the experiment and the system learns with 20 documents per a category by this method. As a result of the machine learning, we can find that a new document is automatically classified with a category according to the predefined ones.

  • PDF

불균형 데이터의 효과적 학습을 위한 커널 퍼셉트론 부스팅 기법 (Kernel Perceptron Boosting for Effective Learning of Imbalanced Data)

  • 오장민;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.304-306
    • /
    • 2001
  • 많은 실세계의 문제에서 일반적인 패턴 분류 알고리즘들은 데이터의 불균형 문제에 어려움을 겪는다. 각각의 학습 예제에 균등한 중요도를 부여하는 기존의 기법들은 문제의 특징을 제대로 파악하지 못하는 경우가 많다. 본 논문에서는 불균형 데이터 문제를 해결하기 위해 퍼셉트론에 기반한 부스팅 기법을 제안한다. 부스팅 기법은 학습을 어렵게 하는 데이터에 집중하여 앙상블 머신을 구축하는 기법이다. 부스팅 기법에서는 약학습기를 필요로 하는데 기존 퍼셉트론의 경우 문제에 따라 약학습기(weak learner)의 조건을 만족시키지 못하는 경우가 있을 수 있다. 이에 커널을 도입한 커널 퍼셉트론을 사용하여 학습기의 표현 능력을 높였다. Reuters-21578 문서 집합을 대상으로 한 문서 여과 문제에서 부스팅 기법은 다층신경망이나 나이브 베이스 분류기보다 우수한 성능을 보였으며, 인공 데이터 실험을 통하여 부스팅의 샘플링 경향을 분석하였다.

  • PDF

준지도 학습을 이용한 트윗 감정 분류 (Sentiment Classification for Korean Tweets via Semi-Supervised Learning)

  • 서형원;노경목;천민아;김재훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.123-125
    • /
    • 2012
  • 본 논문은 기계 학습을 이용한 감정 분류에 필요한 학습 말뭉치를 효율적으로 확장하는 방법에 대하여 기술한다. 학습 말뭉치는 일반적으로 그에 알맞은 레이블을 정해야 하는데, 그 양이 어마어마하기 때문에 이 과정을 일일이 사람이 할 수는 없다. 그에 대한 해결책으로써 이미 많은 준지도학습 방법이 연구되었고, 그것을 트윗이라는 짧은 문서를 감정 분류하는 것에 적용해도 감정 문서 분류기의 성능이 좋다는 결과를 확인하였다.

  • PDF