• 제목/요약/키워드: 자동 주제 분류

검색결과 108건 처리시간 0.024초

기계학습에 기초한 국내 학술지 논문의 자동분류에 관한 연구 (An Analytical Study on Automatic Classification of Domestic Journal articles Based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.37-62
    • /
    • 2018
  • 문헌정보학 분야의 국내 학술지 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히, "정보관리학회지"에 수록된 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 용어 가중치부여 기법, 학습집합 크기, 분류 알고리즘, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 각 요소를 적절하게 적용하는 것이 효과적이며, 보다 단순한 모델의 사용으로 상당히 좋은 수준의 성능을 도출할 수 있었다. 또한, 국내 학술지 논문의 분류는 특정 논문에 하나 이상의 범주를 할당하는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있다. 따라서 이러한 환경을 고려하여 단순하고 빠른 분류 알고리즘과 소규모의 학습집합을 사용하는 최적의 분류 모델을 제안하였다.

문서 주제에 따른 문장 생성을 위한 LSTM 기반 언어 학습 모델 (LSTM based Language Model for Topic-focused Sentence Generation)

  • 김다해;이지형
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2016년도 제54차 하계학술대회논문집 24권2호
    • /
    • pp.17-20
    • /
    • 2016
  • 딥러닝 기법이 발달함에 따라 텍스트에 내재된 의미 및 구문을 어떠한 벡터 공간 상에 표현하기 위한 언어 모델이 활발히 연구되어 왔다. 이를 통해 자연어 처리를 기반으로 하는 감성 분석 및 문서 분류, 기계 번역 등의 분야가 진보되었다. 그러나 대부분의 언어 모델들은 텍스트에 나타나는 단어들의 일반적인 패턴을 학습하는 것을 기반으로 하기 때문에, 문서 요약이나 스토리텔링, 의역된 문장 판별 등과 같이 보다 고도화된 자연어의 이해를 필요로 하는 연구들의 경우 주어진 텍스트의 주제 및 의미를 고려하기에 한계점이 있다. 이와 같은 한계점을 고려하기 위하여, 본 연구에서는 기존의 LSTM 모델을 변형하여 문서 주제와 해당 주제에서 단어가 가지는 문맥적인 의미를 단어 벡터 표현에 반영할 수 있는 새로운 언어 학습 모델을 제안하고, 본 제안 모델이 문서의 주제를 고려하여 문장을 자동으로 생성할 수 있음을 보이고자 한다.

  • PDF

기계학습에 기초한 자동분류의 성능 요소에 관한 연구 (An Analytical Study on Performance Factors of Automatic Classification based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제33권2호
    • /
    • pp.33-59
    • /
    • 2016
  • 국내 학술회의 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히 구현이 쉽고 컴퓨터 처리 속도가 빠른 로치오 알고리즘을 사용하여 "한국정보관리학회 학술대회 논문집"의 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 분류기 생성 방법, 학습집합 규모, 가중치부여 기법, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 파라미터(${\beta}$, ${\lambda}$)와 학습집합의 크기(5년 이상)를 적절하게 적용하는 것이 효과적이며, 동등한 성능 수준이라면 보다 단순한 단일 가중치부여 기법을 사용하여 분류의 효율성을 높일 수 있음을 발견하였다. 또한 국내 학술회의 논문의 분류는 특정 논문에 하나 이상의 범주가 부여되는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있으므로, 이러한 환경을 고려하여 주요 성능 요소들의 특성에 기초한 최적의 분류 모델을 개발할 필요가 있다.

자질선정을 통한 국내 학술지 논문의 자동분류에 관한 연구 (An Experimental Study on the Automatic Classification of Korean Journal Articles through Feature Selection)

  • 김판준
    • 정보관리학회지
    • /
    • 제39권1호
    • /
    • pp.69-90
    • /
    • 2022
  • 국내 학술연구의 동향을 구체적으로 파악하여 연구개발 활동의 체계적인 지원 및 평가는 물론 현재와 미래의 연구 방향을 설정할 수 있는 기초 데이터로서, 개별 학술지 논문에 표준화된 주제 범주(통제키워드)를 부여할 수 있는 효율적인 방안을 모색하였다. 이를 위해 한국연구재단 「학술연구분야분류표」 상의 분류 범주를 국내학술지 논문에 자동 할당하는 과정에서, 자질선정 기법을 중심으로 자동분류의 성능에 영향을 미치는 주요 요소들에 대한 다각적인 실험을 수행하였다. 그 결과, 실제 환경의 불균형 데이터세트(imbalanced dataset)인 국내 학술지 논문의 자동분류에서는 보다 단순한 분류기와 자질선정 기법, 그리고 비교적 소규모의 학습집합을 사용하여 상당히 좋은 수준의 성능을 기대할 수 있는 것으로 나타났다.

단어 임베딩 및 벡터 유사도 기반 게임 리뷰 자동 분류 시스템 개발 (Development of An Automatic Classification System for Game Reviews Based on Word Embedding and Vector Similarity)

  • 양유정;이보현;김진실;이기용
    • 한국전자거래학회지
    • /
    • 제24권2호
    • /
    • pp.1-14
    • /
    • 2019
  • 게임은 소프트웨어 특성상 출시 후 사용자들의 반응을 빠르게 파악하여 개선하는 것이 중요하다. 하지만 구글 플레이 앱 스토어 등 사용자들이 게임을 다운로드하고 리뷰를 올릴 수 있는 대부분의 사이트들은 게임 리뷰에 대한 매우 제한적이고 모호한 분류 기능만을 제공한다. 따라서 본 논문에서는 사용자들이 사이트에 올린 게임 리뷰를 보다 명확하고 운영에 유용한 주제들로 자동 분류하는 시스템을 개발한다. 본 논문에서 개발한 시스템은 리뷰에 포함된 단어들을 대표적인 단어 임베딩 모델인 word2vec을 사용하여 벡터들로 변환하고, 이 벡터들과 각 주제 간 유사도를 측정하여 해당 리뷰를 관련된 주제로 분류한다. 특히 분류 성능에 직접적인 영향을 미치는 벡터 간 유사도 측정 방법을 선택하기 위해 본 연구에서는 대표적인 벡터 간 유사도 측정 방법인 유클리디안 유사도, 코사인 유사도, 확장된 자카드 유사도의 성능을 실제 데이터를 사용하여 비교하였다. 또한 어떤 리뷰가 둘 이상의 주제에 해당하는 경우를 위해 임계값에 기반한 다중 분류 방법을 사용하였다. 구글 플레이 앱스토어의 실제 데이터를 사용한 실험 결과 본 시스템은 95%까지의 정확도를 보임을 확인하였다.

이기종 데이터 간 상호운용적 분류체계 관리를 위한 분류체계 자동화 방안 (The Automatic Management of Classification Scheme with Interoperability on Heterogeneous Data)

  • 이원구;황명권;이민호;신성호;김광영;윤화묵;성원경;정도헌
    • 한국정보통신학회논문지
    • /
    • 제15권12호
    • /
    • pp.2609-2618
    • /
    • 2011
  • 과학기술의 융 복합현상은 21세기 지식 기반 경제하에서 더욱 활발하게 진행됨에 따라 과학기술 분야를 적절히 분류해내고, 미래의 신성장 분야까지 포용할 수 있는 체계를 만드는 것이 결코 쉽지 않다. 특히, 이기종 도메인간 상호운용성 확보는 정보표준화, 정보서비스 분야와 같이 복잡하고 다양하게 구성된 시스템과 콘텐츠를 운영하는 영역에서 매우 중요한 사항이다. 이에, 본 연구에서는 각 콘텐츠 관리 서비스 기관이 분류체계 간 상호운용성을 갖을 수 있도록 분류체계를 유연적으로 수용 확장하기 위한 시스템적 해결방안을 제시하고자 한다. 특히 두 개 이상의 상이한 학술정보 자원의 주제분류간에 자동화된 매칭기법을 적용하여 상호운용을 가능케 하는 방법을 제시하였다.

디스크립터 자동 할당을 위한 저자키워드의 재분류에 관한 실험적 연구 (A Study on the Reclassification of Author Keywords for Automatic Assignment of Descriptors)

  • 김판준;이재윤
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.225-246
    • /
    • 2012
  • 본 연구는 국내 주요 학술 DB의 검색서비스에서 제공되고 있는 저자키워드(비통제키워드)의 재분류를 통하여 디스크립터(통제키워드)를 자동 할당할 수 있는 가능성을 모색하였다. 먼저 기계학습에 기반한 주요 분류기들의 특성을 비교하는 실험을 수행하여 재분류를 위한 최적 분류기와 파라미터를 선정하였다. 다음으로, 국내 독서 분야 학술지 논문들에 부여된 저자키워드를 학습한 결과에 따라 해당 논문들을 재분류함으로써 키워드를 추가로 할당하는 실험을 수행하였다. 또한 이러한 재분류 결과에 따라 새롭게 추가된 문헌들에 대하여 통제키워드인 디스크립터와 마찬가지로 동일 주제의 논문들을 모아주는 어휘통제 효과가 있는지를 살펴보았다. 그 결과, 저자키워드의 재분류를 통하여 디스크립터를 자동 할당하는 효과를 얻을 수 있음을 확인하였다.

Doc2Vec 문서 임베딩을 이용한 질의문과 판례 자동 연결 방안 연구 (A Study on the Connecting Method of Query and Legal Cases Using Doc2Vec Document Embedding)

  • 강예지;강혜린;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.76-81
    • /
    • 2020
  • 법률 전문 지식이 없는 사람들이 법률 정보 검색을 성공적으로 하기 위해서는 일반 용어를 검색하더라도 전문 용어가 사용된 법령정보가 검색되어야 한다. 하지만 현 판례 검색 시스템은 사용자 선호도 검색이 불가능하며, 일반 용어를 사용하여 검색하면 사용자가 원하는 전문 자료를 도출하는 데 어려움이 있다. 이에 본 논문에서는 일반용어가 사용된 질의문과 전문용어가 사용된 판례를 자동으로 연결해 주고자 하였다. 질의문과 연관된 판례를 자동으로 연결해 주기 위해 전문용어가 사용된 전문가 답변을 바탕으로 문서분류에 높은 성능을 보이는 Doc2Vec을 이용한다. Doc2Vec 문서 임베딩 기법을 이용하여 전문용어가 사용된 전문가 답변과 유사한 답변을 제안하여 비슷한 주제의 답변들끼리 분류하였다. 또한 전문가 답변과 유사도가 높은 판례를 제안하여 질의문에 해당하는 판례를 자동으로 연결하였다.

  • PDF

대체자료 선정을 위한 이용자 참여형 도서 추천 큐레이션 플랫폼 설계 (Design of the Curation Platform for User-participated Book Recommendation System of Selecting on Alternative Material for the Disabled)

  • 조현양
    • 한국문헌정보학회지
    • /
    • 제54권3호
    • /
    • pp.41-69
    • /
    • 2020
  • 이 연구의 목적은 이용자 선호도 및 관심분야 정보 수집을 위한 웹 기반의 프로파일링 모델을 활용하여 이용자 선호도 기반의 대체자료 추천 시스템의 개발과 정보 추천 모델의 핵심이 되는 도서자동분류엔진을 설계하고 시범 구축하는 것이다. 이용자 선호도 기반의 대체자료 선정 방법론을 개발하기 위해 국가대체자료공유시스템인 DREAM의 이용자 대체자료 이용 내역을 분석하여 KDC의 10개 주제 분야별 대체자료에 대한 이용자 선호도를 조사하였다. 이용 내역 데이터의 표제 정보를 분석하여 주제 분야별로 그리고 조사대상 기간별로 관심 키워드를 도출하였으며, 도출된 키워드를 주제 분야별로 순위화하였다. 주제별과 기간별로 순위화된 키워드는 이용자 선호도를 나타내는 것으로 출판된 도서 가운데 대체자료 제작 대상을 선정하는데 활용할 수 있다. 또한 이용자 선호도 기반의 대체자료 선정을 위하여 국립장애인도서관의 내부 데이터뿐만 아니라 타 도서관이나 다양한 유관 기관의 서비스 및 이용 내역을 반영하기 위한 연계방안을 제안하였다.

Reference Map을 이용한 시계열 image data의 자동분류법 (Automatic Classification Method for Time-Series Image Data using Reference Map)

  • 홍선표
    • 한국음향학회지
    • /
    • 제16권2호
    • /
    • pp.58-65
    • /
    • 1997
  • 본 논문에서는 시계열 image data를 안정되고 높은 정확도로 분류할 수 있는 자동분류법을 제안하였다. 제안한 방법은 대상 영역에 관한 분류도가 기존재하던 가, 아니면 최소한 시계열 image data 중 어느 한 image data가 분류되어 있다고 하는 전제조건에 그 기초를 두고 있다. 분류도는 training area를 선정하기 위라여 사용하는 기준주제도로 사용되어진다. 제안한 방법은 1)기준주제도를 사용한 training data의 추출, 2)taining data의 균질성에 의거한 변화화소의 검출, 3)검출된 변화화소에 대한 clustering, 4)training data의 재구성, 5)maximum likelihood classifier와 같은 판별법에 의한 분류 등 5개의 단계로 구성된다. 제안한 방법의 성능을 정량적으로 평가하기 위하여 4개의 시계열 Landsat TM image data를 제안한 방법과 숙련된 operator가 필요한 기존의 방법으로 각각 분류하여 비교 검토하였다. 그 결과, 기존의 방법으로는 숙련된 operator가 필요하고, 분류도를 얻기까지 수일이 소요되는 데 반하여, 제안한 방법으로는 숙련된 operator 없이, 신뢰성 있는 분류도를 수 시간 내에 자동으로 얻을 수 있었다.

  • PDF