• 제목/요약/키워드: Automated Subject Classification

검색결과 4건 처리시간 0.016초

BERT 모형을 이용한 주제명 자동 분류 연구 (A Study on Automatic Classification of Subject Headings Using BERT Model)

  • 이용구
    • 한국문헌정보학회지
    • /
    • 제57권2호
    • /
    • pp.435-452
    • /
    • 2023
  • 이 연구는 딥러닝 기법의 전이학습 모형인 BERT를 이용하여 주제명의 자동 분류를 실험하고 그 성능을 평가하였으며, 더 나아가 주제명이 부여된 KDC 분류체계와 주제명의 범주 유형에 따른 성능을 분석하였다. 실험 데이터는 국가서지를 이용하여 주제명의 부여 횟수에 따라 6개의 데이터셋을 구축하고 분류 자질로 서명을 이용하였다. 그 결과, 분류 성능으로 3,506개의 주제명이 포함된 데이터셋(레코드 1,539,076건)에서 마이크로 F1과 매크로 F1 척도가 각각 0.6059와 0.5626 값을 보였다. 또한 KDC 분류체계에 따른 분류 성능은 총류, 자연과학, 기술과학, 그리고 언어 분야에서 좋은 성능을 보이며 종교와 예술 분야는 낮은 성능을 보였다. 주제명의 범주 유형에 따른 성능은 '식물', '법률명', '상품명'이 높은 성능을 보인 반면, '국보/보물' 유형의 주제명에서 낮은 성능을 보였다. 다수의 주제명을 포함하는 데이터셋으로 갈수록 분류기가 주제명을 제대로 부여하지 못하는 비율이 늘어나 최종 성능의 하락을 가져오기 때문에, 저빈도 주제명에 대한 분류 성능을 높이기 위한 개선방안이 필요하다.

SVM의 다중결정템플릿을 이용한 지문분류 (Fingerprint Classification using Multiple Decision Templates with SVM)

  • 민준기;홍진혁;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권11호
    • /
    • pp.1136-1146
    • /
    • 2005
  • 지문분류는 대규모 자동지문식별시스템에서 지문을 카테고리별로 나누어 매칭시간을 줄이는데 유용하다. 지문을 5가지 클래스로 분류하는 헨리시스템을 기반으로 신경망이나 SYM(Support Vector Machines) 등과 같은 다양한 패턴분류 기법들이 지문분류에 널리 사용되고 있다. 특히 최근에는 높은 분류 성능을 보이는 SVM 분류기를 이용한 연구가 활발하다. 이진분류기인 SVM을 지문분류문제에 적용하기 위해서 본 논문에서는 새로운 분류기 결합모델인 다중결정템플릿(Multiple Decision Templates, MuDTs)을 제안한다. 이 방법은 클래스 구분이 모호한 지문영상들의 분류에서 단일 결합모델들의 한계를 극복하기 위해, 하나의 지문클래스로부터 서로 다른 특성을 갖는 클러스터들을 추출하여 각 클러스터에 적합한 결합모델을 생성한다. NIST Database4 데이타로부터 추출한 핑거코드에 대해 실험한 결과, 5클래스와 4클래스 분류문제에 대하여 각각 $90.4\%$$94.9\%$의 분류성능(거부율 $1.8\%$)을 획득하였다.

Prediction of Student's Interest on Sports for Classification using Bi-Directional Long Short Term Memory Model

  • Ahamed, A. Basheer;Surputheen, M. Mohamed
    • International Journal of Computer Science & Network Security
    • /
    • 제22권10호
    • /
    • pp.246-256
    • /
    • 2022
  • Recently, parents and teachers consider physical education as a minor subject for students in elementary and secondary schools. Physical education performance has become increasingly significant as parents and schools pay more attention to physical schooling. The sports mining with distribution analysis model considers different factors, including the games, comments, conversations, and connection made on numerous sports interests. Using different machine learning/deep learning approach, children's athletic and academic interests can be tracked over the course of their academic lives. There have been a number of studies that have focused on predicting the success of students in higher education. Sports interest prediction research at the secondary level is uncommon, but the secondary level is often used as a benchmark to describe students' educational development at higher levels. An Automated Student Interest Prediction on Sports Mining using DL Based Bi-directional Long Short-Term Memory model (BiLSTM) is presented in this article. Pre-processing of data, interest classification, and parameter tweaking are all the essential operations of the proposed model. Initially, data augmentation is used to expand the dataset's size. Secondly, a BiLSTM model is used to predict and classify user interests. Adagrad optimizer is employed for hyperparameter optimization. In order to test the model's performance, a dataset is used and the results are analysed using precision, recall, accuracy and F-measure. The proposed model achieved 95% accuracy on 400th instances, where the existing techniques achieved 93.20% accuracy for the same. The proposed model achieved 95% of accuracy and precision for 60%-40% data, where the existing models achieved 93% for accuracy and precision.

한국문헌정보학 교과과정 운영모형 및 표준교과목 개발에 관한 연구 (A Study of the Curriculum Operating Model and Standard Courses for Library & Information Science in Korea)

  • 노영희;안인자;최상기
    • 한국문헌정보학회지
    • /
    • 제46권2호
    • /
    • pp.55-82
    • /
    • 2012
  • 본 연구에서는 국내외 문헌정보학과의 교과과정 운영모형을 조사하여 국내 현실에 맞는 운영모형을 제안하고자 하며, 운영모형에 기반하여 한국문헌정보학 표준교과목도 제안하고자 한다. 이를 위해 국외 교과과정 분석결과, 국내 교과과정 분석결과, 국내 현장사서를 대상으로 한 설문조사 결과, 그리고 현장사서를 대상으로 한 관종별 직무분석결과를 종합적으로 분석하여 문헌정보학 필수교과목, 핵심교과목, 그리고 선택교과목을 선정하여 제시하였다. 최종 제안된 문헌정보학 필수과목은 6개 과목으로서, 문헌정보학개론, 정보조직학, 정보서비스론, 도서관경영론, 정보검색론, 사서실습이다. 핵심과목은 6개 과목으로서, 정보자료분류목록실습, 주제별정보원(참고정보원), 장서개발론, 디지털도서관론, 서지학개론, 기록관리학개론이다. 선택과목은 총 20개 과목으로서, 문헌정보학 영역 4개 과목(도서및도서관사, 지식정보사회와 도서관, 도서관과저작권, 문헌정보학연구방법론), 정보조직학 영역 2개 과목(메타데이터의 이해, 한국문헌자동화목록실습), 정보조사제공학 영역 3개 과목(정보활용교육론, 독서지도론, 정보이용자연구), 도서관 정보센터경영학 영역 4개 과목(도서관협력론, 관종별도서관운영론, 도서관마케팅, 비도서자료관리론), 정보학 영역 6개 과목(데이터베이스운영론, 색인초록론, 정보학개론, 정보시스템론, 도서관시스템자동화, 도서관정보네트워크), 기록관리학 영역 1개 과목(기록보존론)이다.