• 제목/요약/키워드: Machine Learning Library

검색결과 81건 처리시간 0.028초

공공도서관 도서 분류를 위한 머신러닝 적용 가능성 연구 - 사회과학과 예술분야를 중심으로 - (A Study on Applicability of Machine Learning for Book Classification of Public Libraries: Focusing on Social Science and Arts)

  • 곽철완
    • 한국비블리아학회지
    • /
    • 제32권1호
    • /
    • pp.133-150
    • /
    • 2021
  • 이 연구의 목적은 공공도서관의 도서 분류를 위해 표제를 대상으로 머신러닝 기법의 적용 가능성을 조사하는데 있다. 데이터 분석은 아나콘다 플랫폼의 쥬피터 노트북을 통하여 파이썬의 싸이킷런 라이브러리를 이용하였다. 한글 형태소 분석을 위해 KoNLPy 분석기와 Okt 클래스를 사용하였다. 분석 대상은 공공도서관의 KORMARC 레코드에서 추출된 2,000건의 표제 필드와 KDC 분류기호(300대와 600대)이었다. 6가지 머신러닝 모델을 이용하여 데이터를 분석한 결과, 도서 분류에 머신러닝 적용 가능성이 있다고 판단되었다. 사용된 모델 중 표제 분류의 정확도는 신경망 모델이 가장 높았다. 표제 분류의 정확도 향상을 위해 도서 표제에 대한 조사와 표제의 토큰화 및 불용어에 대한 연구 필요성을 제안하였다.

객체 탐지 기법과 기계학습 라이브러리를 활용한 단감 등급 선별 알고리즘 (A Sweet Persimmon Grading Algorithm using Object Detection Techniques and Machine Learning Libraries)

  • 노승희;강은영;박동규;강영민
    • 한국멀티미디어학회논문지
    • /
    • 제25권6호
    • /
    • pp.769-782
    • /
    • 2022
  • A study on agricultural automation became more important. In Korea, sweet persimmon farmers spend a lot of time and effort on classifying profitable persimmons. In this paper, we propose and implement an efficient grading algorithm for persimmons before shipment. We gathered more than 1,750 images of persimmons, and the images were graded and labeled for classifications purpose. Our main algorithm is based on EfficientDet object detection model but we implemented more exquisite method for better classification performance. In order to improve the precision of classification, we adopted a machine learning algorithm, which was proposed by PyCaret machine learning workflow generation library. Finally we acquired an improved classification model with the accuracy score of 81%.

국내 학술논문의 동명이인 저자명 식별을 위한 방법 (A Method for Same Author Name Disambiguation in Domestic Academic Papers)

  • 신다예;양기덕
    • 한국비블리아학회지
    • /
    • 제28권4호
    • /
    • pp.301-319
    • /
    • 2017
  • 저자명 식별이란 다른 이름으로 표기된 한 명의 개인을 식별하는 것과 같은 이름을 가진 서로 다른 저자들을 각기 구별된 개인으로 분류하는 것으로, 저자의 연구 목록 및 연구 업적 평가, 특정 분야의 전문가를 검색하거나, 인용색인과 같은 학술 정보 서비스의 원활한 운영을 위해 반드시 해결해야 할 문제이다. 본 연구는 단순 머신러닝만을 사용한 실험 결과와 휴리스틱 방식으로 데이터 셋의 오류 수정 및 정규화 작업을 이후 머신러닝의 처리 과정에 룰 베이스 기반의 규칙을 부여한 저자명 식별 실험의 결과의 비교를 통하여, 인간의 개입이 머신러닝의 단점을 보완하고 저자명 식별 성능을 향상시킬 수 있는지 알아보았다. 그 결과 F-measure 0.1 이상 향상시킨 정규화 된 email기반의 룰 베이스 저자식별 결과로 정규화 과정과 휴리스틱 설정에 필요한 인간의 패턴인식과 추론능력이 머신러닝의 단점을 보완해줄 수 있음에 대한 가능성을 나타내었다.

그래디언트 부스팅 모델을 활용한 상점 매출 예측 (Store Sales Prediction Using Gradient Boosting Model)

  • 최재영;양희윤;오하영
    • 한국정보통신학회논문지
    • /
    • 제25권2호
    • /
    • pp.171-177
    • /
    • 2021
  • 최근 머신러닝의 발전에 따라 일상생활과 산업에서 기술을 적용하는 사례들이 많아지고 있다. 금융 데이터와 머신러닝 기법을 활용한 연구 또한 활발하게 이루어지고 있다. 본 논문은 이러한 동향에 따라 상점 매출 데이터에 머신러닝 기법을 접목해 매출 예측 모델을 구축, 핀테크 산업에서의 활용 방안을 제시한다. 다양한 결측치 처리 기법을 적용하고 그래디언트 부스팅 기반의 머신러닝 기법인 XGBoost, LightGBM, CatBoost를 사용하여 각 모델의 상점 매출예측 성능을 비교한다. 연구 결과, 단일대체법 중 중앙값 대체법을 사용한 데이터셋에 XGBoost를 활용해 예측을 진행한 모델의 성능이 가장 우수했다. 연구를 통해 얻은 모델을 이용하여 상점의 매출 예측을 진행함으로서 핀테크 기업의 고객 상점들은 대출금을 상환하기 전 금융 보조를 받는 근거로, 핀테크 기업은 상환 가능성이 높은 우수 상점에 금융 상품을 제공하는 등 기업과 고객 모두에게 긍정적인 방향으로 활용할 수 있다.

CNN을 이용한 레이다 신호 자동 분류 (Automatic Classification of Radar Signals Using CNN)

  • 홍석준;이연규;조제일;이상길;서보석
    • 한국전자파학회논문지
    • /
    • 제30권2호
    • /
    • pp.132-140
    • /
    • 2019
  • 이 논문에서는 수신된 레이다 신호의 특징 파라미터 데이터에 기계학습 방법을 적용하여 위협 형태에 따라 레이다 신호를 분류하는 방법을 제시한다. 현재 군에서는 위협 신호를 파악하기 위해 특징 파라미터값들과 위협 형태의 대응관계를 나타내는 라이브러리를 이용한다. 라이브러리를 이용한 방법은 새로운 위협이나 기존 라이브러리에 존재하지 않는 위협 형태에 대해서 레이다 신호를 분류하기 어렵고 위협 형태를 파악하는데 문제가 있다. 이 논문에서는 라이브러리 없이 특징 파라미터 데이터만을 이용하여 위협 형태에 따라 레이다 신호를 분류하는 방법을 제안하고자 한다. 분류기로는 CNN(convolutional neural network)을 사용하며, 기계학습을 적용하여 훈련시킨다. 제안 방법은 라이브러리를 사용하지 않음으로써 새로운 위협 신호나 기존의 라이브러리에 존재하지 않는 위협 신호도 적응적으로 분류할 수 있다.

AttentionMesh를 활용한 국가과학기술표준분류체계 소분류 키워드 자동추천에 관한 연구 (A Study on Automatic Recommendation of Keywords for Sub-Classification of National Science and Technology Standard Classification System Using AttentionMesh)

  • 박진호;송민선
    • 한국도서관정보학회지
    • /
    • 제53권2호
    • /
    • pp.95-115
    • /
    • 2022
  • 이 연구의 목적은 국가과학기술표준분류체계의 소분류 용어를 기계학습 알고리즘을 적용하여 기술키워드 변환하는 것이 목적이다. 이를 위해 본 연구에서는 주제어 추천에 적합한 학습 알고리즘으로 AttentionMeSH를 활용했다. 원천데이터는 한국과학기술기획평가원이 정제한 2017년부터 2020년까지 4개년 연구현황 파일을 사용하였다. 학습은 과제명, 연구목표, 연구내용, 기대효과와 같이 연구내용을 잘 표현하고 있는 4개 속성을 사용했다. 그 결과 임계치(threshold)가 0.5일 때 MiF 0.6377이라는 결과가 도출됨을 확인하였다. 향후 실제 업무에 기계학습을 활용하고, 기술키워드 확보를 위해서는 용어관리체계 구축과 다양한 속성들의 데이터 확보가 필요할 것으로 보인다.

기계 학습을 이용한 바이오 분야 학술 문헌에서의 관계 추출에 대한 실험적 연구 (An Experimental Study on the Relation Extraction from Biomedical Abstracts using Machine Learning)

  • 최성필
    • 한국문헌정보학회지
    • /
    • 제50권2호
    • /
    • pp.309-336
    • /
    • 2016
  • 본 논문에서는 지지벡터기계(Support Vector Machines, SVM) 기반의 기계 학습 모듈을 활용하여 특정 문장 내에서의 두 개체 간의 관계를 자동으로 식별하고 분류하는 바이오 분야 관계 추출 시스템을 제안한다. 제안된 시스템의 특징은 개체를 포함하고 있는 문장 내에서 풍부한 언어 자질을 추출하여 학습에 활용함으로써 그 성능을 극대화할 수 있는 다양한 기능들을 포함하고 있다는 점이다. 제안된 시스템의 성능 측정을 위해서 전 세계적으로 많이 활용되고 있는 바이오 분야 관계 추출 표준 컬렉션 3가지를 활용하여 심층적인 실험을 수행한 결과 모든 컬렉션에서 높은 성능을 획득하여 그 우수성을 입증하였다. 결론적으로, 본 논문에서 수행한 바이오 분야 관계 추출에 대한 광범위하고 심층적인 실험 연구가 향후 기계학습 기반의 바이오 분야 텍스트 분석 연구에 많은 시사점을 제공할 것으로 보인다.

머신러닝과 OpenCV를 이용한 교실용 자동 출결 관리 시스템 프로토타입 구현 (Implimentation of Automatic Attendance Management System for Classroom Using OpenCV and Machine Learning)

  • 유상엽;김재원;박현준;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.327-329
    • /
    • 2019
  • 본 논문에서는 OpenCV와 머신러닝 기술을 이용하여 교실용 자동 출결 관리 시스템을 제안한다. PC용 범용 카메라를 이용하여 교실 입구에서 얼굴사진을 입력하면 이미 저장된 학생의 얼굴과 유사도를 비교하여 출석이 체크되도록 하는 방식이다. 본 연구에서는 머신러닝 라이브러리 Dlib를 사용하여 사용하여 프로토타입을 구현하였으며 10명의 학생에 대하여 실험한 결과 약 70% 정도의 인식률을 보였다.

  • PDF

기계학습 방법을 이용한 레이더 신호 분류 (Classification of Radar Signals Using Machine Learning Techniques)

  • 홍석준;이연규;최종원;조제일;서보석
    • 전기전자학회논문지
    • /
    • 제22권1호
    • /
    • pp.162-167
    • /
    • 2018
  • 이 논문에서는 수신된 레이더 신호로부터 추출한 파라미터 데이터에 기계학습을 적용하여 그 레이더에 대응하기 위한 재밍기법에 따라 레이더 신호를 분류하는 방법을 제안한다. 현재 군에서는 대부분 사전 조사에 의해 구축된 레이더 신호 파라미터에 대한 라이브러리를 기반으로 위협 형태에 따라 레이더 신호를 분류한다. 그러나 레이더 기술은 계속적으로 발전되고 다양해지고 있기 때문에 새로운 위협이나 기존의 라이브러리에 존재하지 않는 위협형태에 대해서 이 방법을 적용하는 경우 적절하게 신호를 분류할 수 없고 따라서 적합한 재밍기법을 선택하는데 제한이 따른다. 따라서 기존의 위협 라이브러리를 이용한 방식과 다르게 추정한 레이더 신호의 파라미터 데이터만을 이용하여 최적의 재밍기법을 선택할 수 있도록 신호를 분류하는 기술이 필요하다. 이 연구에서는 새로운 위협 신호의 형태에 대응하기 위한 방법으로 기계학습을 기반으로 한 방법을 제시한다. 제안한 방법은 기존에 축적된 라이브러리 데이터를 이용하여 은닉 마르코프(Markov) 모델과 신경망으로 구성된 분류기를 학습시킴으로써 새로운 위협 신호에 대해 적절한 재밍기법을 대응시킬 수 있도록 신호를 분류한다.

Prediction of the DO concentration using the machine learning algorithm: case study in Oncheoncheon, Republic of Korea

  • Lim, Heesung;An, Hyunuk;Choi, Eunhyuk;Kim, Yeonsu
    • 농업과학연구
    • /
    • 제47권4호
    • /
    • pp.1029-1037
    • /
    • 2020
  • The machine learning algorithm has been widely used in water-related fields such as water resources, water management, hydrology, atmospheric science, water quality, water level prediction, weather forecasting, water discharge prediction, water quality forecasting, etc. However, water quality prediction studies based on the machine learning algorithm are limited compared to other water-related applications because of the limited water quality data. Most of the previous water quality prediction studies have predicted monthly water quality, which is useful information but not enough from a practical aspect. In this study, we predicted the dissolved oxygen (DO) using recurrent neural network with long short-term memory model recurrent neural network long-short term memory (RNN-LSTM) algorithms with hourly- and daily-datasets. Bugok Bridge in Oncheoncheon, located in Busan, where the data was collected in real time, was selected as the target for the DO prediction. The 10-month (temperature, wind speed, and relative humidity) data were used as time prediction inputs, and the 5-year (temperature, wind speed, relative humidity, and rainfall) data were used as the daily forecast inputs. Missing data were filled by linear interpolation. The prediction model was coded based on TensorFlow, an open-source library developed by Google. The performance of the RNN-LSTM algorithm for the hourly- or daily-based water quality prediction was tested and analyzed. Research results showed that the hourly data for the water quality is useful for machine learning, and the RNN-LSTM algorithm has potential to be used for hourly- or daily-based water quality forecasting.