• Title/Summary/Keyword: 자동 기계학습

Search Result 384, Processing Time 0.03 seconds

A Study on automatic assignment of descriptors using machine learning (기계학습을 통한 디스크립터 자동부여에 관한 연구)

  • Kim, Pan-Jun
    • Journal of the Korean Society for information Management
    • /
    • v.23 no.1 s.59
    • /
    • pp.279-299
    • /
    • 2006
  • This study utilizes various approaches of machine learning in the process of automatically assigning descriptors to journal articles. The effectiveness of feature selection and the size of training set were examined, after selecting core journals in the field of information science and organizing test collection from the articles of the past 11 years. Regarding feature selection, after reducing the feature set using $x^2$ statistics(CHI) and criteria that prefer high-frequency features(COS, GSS, JAC), the trained Support Vector Machines(SVM) performed the best. With respect to the size of the training set, it significantly influenced the performance of Support Vector Machines(SVM) and Voted Perceptron(VTP). However, it had little effect on Naive Bayes(NB).

Machine Learning Technique for Automatic Precedent Categorization (자동 판례분류를 위한 기계학습기법)

  • Jang, Gyun-Tak
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.574-576
    • /
    • 2007
  • 판례 자동분류 시스템은 일반적인 문서 자동분류 시스템과 기본적인 동작방법은 동일하다. 본 논문에서는 노동법에 관련된 판례를 대상으로 지지벡터기계(SVM), 단일 의사결정나무, 복수 의사결정나무, 신경망 기법 등을 사용하여 문서의 자동 분류 실험을 수행하고, 판례분류에 가장 적합한 기계학습기법이 무엇인지를 실험해 보았다. 실험 결과 복수 의사결정나무가 93%로 가장 높은 정확도를 나타내었다.

An Automated Production System Design for Natural Language Processing Models Using Korean Pre-trained Model (한국어 사전학습 모델을 활용한 자연어 처리 모델 자동 산출 시스템 설계)

  • Jihyoung Jang;Hoyoon Choi;Gun-woo Lee;Myung-seok Choi;Charmgil Hong
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.613-618
    • /
    • 2022
  • 효과적인 자연어 처리를 위해 제안된 Transformer 구조의 등장 이후, 이를 활용한 대규모 언어 모델이자 사전학습 모델인 BERT, GPT, OPT 등이 공개되었고, 이들을 한국어에 보다 특화한 KoBERT, KoGPT 등의 사전학습 모델이 공개되었다. 자연어 처리 모델의 확보를 위한 학습 자원이 늘어나고 있지만, 사전학습 모델을 각종 응용작업에 적용하기 위해서는 데이터 준비, 코드 작성, 파인 튜닝 및 저장과 같은 복잡한 절차를 수행해야 하며, 이는 다수의 응용 사용자에게 여전히 도전적인 과정으로, 올바른 결과를 도출하는 것은 쉽지 않다. 이러한 어려움을 완화시키고, 다양한 기계 학습 모델을 사용자 데이터에 보다 쉽게 적용할 수 있도록 AutoML으로 통칭되는 자동 하이퍼파라미터 탐색, 모델 구조 탐색 등의 기법이 고안되고 있다. 본 연구에서는 한국어 사전학습 모델과 한국어 텍스트 데이터를 사용한 자연어 처리 모델 산출 과정을 정형화 및 절차화하여, 궁극적으로 목표로 하는 예측 모델을 자동으로 산출하는 시스템의 설계를 소개한다.

  • PDF

Automated infographic recommendation system based on machine learning (기계학습 기반의 인포그래픽 자동 추천 시스템)

  • Kim, Hyeong-Gyun;Lee, Sang-hee
    • Journal of Digital Convergence
    • /
    • v.19 no.11
    • /
    • pp.17-22
    • /
    • 2021
  • In this paper, a machine learning-based automatic infographic recommendation system is proposed to improve the existing infographic production method. This system consists of a part that machine learning multiple infographic images and a part that automatically recommends infographics with artificial intelligence only by inputting basic data from the user. The recommended infographics are provided in the form of a library, and additional data can be input by drag & drop method. In addition, the infographic image is designed to be dynamically adjusted according to the size of the input data. As a result of analyzing the machine learning-based automatic infographic recommendation process, the matching success rate for layout and keyword was very high, and the matching success rate for type was rather low. In the future, a study to improve the matching success rate for the image type for each part of the infographic will be needed.

Evaluation Category Selection For Automated Essay Evaluation of Korean Learner (한국어 학습자 작문 자동 평가를 위한 평가 항목 선정)

  • Kwak, Yong-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.270-271
    • /
    • 2017
  • 본 연구는 한국어 학습자 작문의 자동 평가 시스템 개발의 일환으로, 자동 평가 결과에 대한 설명과 근거가 될 수 있는 평기 기준 범주를 선정하기 위한 데이터 구축과 선정 방법을 제시한다. 작문의 평가 기준의 영역과 항목은 평가체계에 대한 이론적 연구에 따라 다양하다. 이러한 평가 기준은 자동 평가에서는 식별되기 어려운 경우도 있고, 각각의 평가 기준이 적용되는 작문 오류의 범위도 다양하다. 그러므로 본 연구에서는 자동 평가 기준 선정의 문제는 다양한 평가 기준에 중 하나를 선정하는 분류의 문제로 보고, 학습데이터를 구축, 기계학습을 통해 자동 작문 평가에 효과적인 평가 기준을 선정 가능성을 제시한다.

  • PDF

Automated Scoring of Scientific Argumentation Using Expert Morpheme Classification Approaches (전문가의 형태소 분류를 활용한 과학 논증 자동 채점)

  • Lee, Manhyoung;Ryu, Suna
    • Journal of The Korean Association For Science Education
    • /
    • v.40 no.3
    • /
    • pp.321-336
    • /
    • 2020
  • We explore automated scoring models of scientific argumentation. We consider how a new analytical approach using a machine learning technique may enhance the understanding of spoken argumentation in the classroom. We sampled 2,605 utterances that occurred during a high school student's science class on molecular structure and classified the utterances into five argumentative elements. Next, we performed Text Preprocessing for the classified utterances. As machine learning techniques, we applied support vector machines, decision tree, random forest, and artificial neural network. For enhancing the identification of rebuttal elements, we used a heuristic feature-engineering method that applies experts' classification of morphemes of scientific argumentation.

A Supplementary Learning Push System using Learning Heuristic of Leaners (학습자의 학습 휴리스틱을 이용한 보충학습 푸쉬 시스템)

  • 신창하;이종희;이근수
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.11b
    • /
    • pp.725-728
    • /
    • 2002
  • 현재, 웹기반 원격교육 시스템에서는 많은 학습자의 컨텐츠 및 서비스가 요구되고 있다. 기본 학습자료의 제공에 대한 많은 모형이 대두되고 있으나 기본 학습을 뒷받침해 줄 수 있는 보충학습 자료의 모형은 제시되지 않고 있다. 따라서, 본 논문에서는 학습자의 학습 휴리스틱에 의하여 기계학습된 보충학습 내용과 위치를 웹과 이메일로 자동 푸쉬해 줄 수 있는 시스템을 제안한다. 휴리스틱에 의하여 보충학습 데이터의 트리를 구성한 후 시멘틱 네트를 이용한 속성을 정의하고 기계학습된 학습자의 반복 학습 경로를 분석하여 보충학습을 원활히 진행할 수 있도록 시스템을 설계하는 것이 본 논문의 목적이다.

  • PDF

Study on the development of automatic translation service system for Korean astronomical classics by artificial intelligence - Focused on system analysis and design step (천문 고문헌 특화 인공지능 자동번역 서비스 시스템 개발 연구 - 시스템 요구사항 분석 및 설계 위주)

  • Seo, Yoon Kyung;Kim, Sang Hyuk;Ahn, Young Sook;Choi, Go-Eun;Choi, Young Sil;Baik, Hangi;Sun, Bo Min;Kim, Hyun Jin;Lee, Sahng Woon
    • The Bulletin of The Korean Astronomical Society
    • /
    • v.44 no.2
    • /
    • pp.62.2-62.2
    • /
    • 2019
  • 한국의 고천문 자료는 삼국시대 이후 근대 조선까지 다수가 존재하여 세계적으로 드문 기록 문화를 보유하고 있으나, 한문 번역이 많이 이루어지지 않아 학술적 활용이 활발하지 못한 상태이다. 고문헌의 한문 문장 번역은 전문인력의 수작업에 의존하는 만큼 소요 시간이 길기에 투자대비 효율성이 떨어지는 편이다. 이에 최근 여러 분야에서 응용되는 인공지능의 적용을 대안으로 삼을 수 있으며, 초벌 번역 수준일지라도 자동번역기의 개발은 유용한 학술도구가 될 수 있다. 한국천문연구원은 한국정보화진흥원이 주관하는 2019년도 Information and Communication Technology 기반 공공서비스 촉진사업에 한국고전번역원과 공동 참여하여 인공신경망 기계학습이 적용된 고문헌 자동번역모델을 개발하고자 한다. 이 연구는 고천문 도메인에 특화된 인공지능 기계학습 기법으로 자동번역모델을 개발하여 이를 서비스하는 것을 목적으로 한다. 연구 방법은 크게 4가지 개발을 진행하는 것으로 나누어 볼 수 있다. 첫째, 인공지능의 학습 데이터에 해당되는 '코퍼스'를 구축하는 것이다. 이는 고문헌의 한자 원문과 한글 번역문이 쌍을 이루도록 만들어 줌으로써 학습에 최적화한 데이터를 최소 6만 개 이상 추출하는 것이다. 둘째, 추출된 학습 데이터 코퍼스를 다양한 인공지능 기계학습 기법에 적용하여 천문 분야 특수고전 도메인에 특화된 자동번역 모델을 생성하는 것이다. 셋째, 클라우드 기반에서 참여 기관별로 소장한 고문헌을 자동 번역 모델에 기반하여 도메인 특화된 모델로 도출 및 활용할 수 있는 대기관 서비스 플랫폼 구축이다. 넷째, 개발된 자동 번역기의 대국민 개방을 위해 웹과 모바일 메신저를 통해 자동 번역 서비스를 클라우드 기반으로 구축하는 것이다. 이 연구는 시스템 요구사항 분석과 정의를 바탕으로 설계가 진행 또는 일부 완료되어 구현 중에 있다. 추후 이 연구의 성능 평가는 자동번역모델 평가와 응용시스템 시험으로 나누어 진행된다. 자동번역모델은 평가용 테스트셋에 의한 자동 평가와 전문가에 의한 휴먼 평가에 따라 모델의 품질을 수치로 측정할 수 있다. 또한 응용시스템 시험은 소프트웨어 방법론의 개발 단계별 테스트를 적용한다. 이 연구를 통해 고천문 분야가 인공지능 자동번역 확산 플랫폼 시범의 첫 케이스라는 점에서 의의가 있다. 즉, 클라우드 기반으로 시스템을 구축함으로써 상대적으로 적은 초기 비용을 투자하여 활용성이 높은 한문 문장 자동 번역기라는 연구 인프라를 확보하는 첫 적용 학문 분야이다. 향후 이를 활용한 고천문 분야 학술 활동이 더욱 활발해질 것을 기대해 볼 수 있다.

  • PDF

A Comparison of Machine Learning Techniques for Evaluating the Quality of Blog Posts (블로그 포스트 자동 품질 평가를 위한 기계학습 기법 비교 연구)

  • Han, Bum-Jun;Kim, Min-Jeong;Lee, Hyoung-Gyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.385-388
    • /
    • 2010
  • 블로그는 다양한 주제 분야에 대한 내용을 자유롭게 표현할 수 있는 일종의 개인 웹사이트로, 많은 양과 다양성으로 매우 중요한 정보원이 될 수 있다. 블로그는 생산속도가 매우 빠르므로 보다 고품질의 블로그를 선별하는 것이 중요하다. 본 논문에서는 블로그의 본문을 담고 있는 포스트를 대상으로 기계학습 기법을 이용하여 문서의 품질을 자동으로 평가하고자 하였다. 학습을 위한 자질로는 모든 블로그에 공통적으로 적용할 수 있도록 형태소 분석에서 추출한 동사, 부사, 형용사의 내용어만을 선택하였다. 성능 비교를 위해 수작업으로 약 4,600개의 정답 집합을 구축하고, 적합한 기계학습 기법을 찾기 위해 다양한 학습 기법을 사용하여 비교 실험하였다. 실험 결과 Bagging 기법의 성능이 79% F-measure로 가장 좋음을 보여주었다. 한정된 자질을 사용했을 때와 정답 집합의 문서 수 비율이 불균등할 경우 단순함, 유연성, 효율성의 특징을 지닌 Bagging 기법이 적합할 것으로 보인다.

Document Autoclustering for Web Agent (웹 에이전트를 위한 문서 자동 분류)

  • 양찬범;박영택
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.54-56
    • /
    • 1999
  • 웹 에이전트는 사용자가 웹을 브라우징하는 행위를 모니터하여 사용자의 관심정보를 학습하고 사용자가 필요로 한느 웹 상의 정보를 제공하는 시스템이다. 웹 에이전트는 사용자의 관심정보를 추출하기 위해서 귀납적 기계학습을 수행한다. 이때, 학습의 효율을 높이기 위해서는 관련이 있는 문서들을 그룹화하여 학습 시스템에 제공하여야 한다. 본 논문에서는 비감독 개념 학습 알고리즘인 COBWEB을 이용하여 사용자가 관심을 표시한 문서들의 분류트리를 생성한다. 분류트리는 귀납적 기계학습 시스템의 입력으로 사용될 수 있는 형태가 아니므로 분류 트리의 분석과 문서 분류 후처리 작업을 통해서 문서 집합을 생성해야 한다. 이를 위해서는 분류트리를 분석하여 초기 클러스터를 생성하고, 유사한 클러스터들의 병합을 수행한다. 본 논문에서 제안하는 문서 자동 분류 방식은 비감독 개념 학습 알고리즘이 생성한 문서 분류 트리의 분석을 통해서 충분한 유사도와 적절한 수의 문서를 포함하는 초기 클러스터를 생성할 수 있다. 그러므로 문서 분류의 후처리 작업인 클러스터의 병합 작업에서 불필요한 작업을 제거함으로서 보다 효과적이고 합리적인 문서 분류 작업을 수행한다.

  • PDF