• 제목/요약/키워드: 자동 기계학습

검색결과 384건 처리시간 0.027초

기계학습에 기초한 국내 학술지 논문의 자동분류에 관한 연구 (An Analytical Study on Automatic Classification of Domestic Journal articles Based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.37-62
    • /
    • 2018
  • 문헌정보학 분야의 국내 학술지 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히, "정보관리학회지"에 수록된 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 용어 가중치부여 기법, 학습집합 크기, 분류 알고리즘, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 각 요소를 적절하게 적용하는 것이 효과적이며, 보다 단순한 모델의 사용으로 상당히 좋은 수준의 성능을 도출할 수 있었다. 또한, 국내 학술지 논문의 분류는 특정 논문에 하나 이상의 범주를 할당하는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있다. 따라서 이러한 환경을 고려하여 단순하고 빠른 분류 알고리즘과 소규모의 학습집합을 사용하는 최적의 분류 모델을 제안하였다.

기계학습 기반의 파이썬 모듈을 이용한 밀양아리랑우주천문대 전천 영상의 운량 모니터링 프로그램 개발 (Development of the Cloud Monitoring Program using Machine Learning-based Python Module from the MAAO All-sky Camera Images)

  • 임구;김도형;김동현;박근홍
    • 한국지구과학회지
    • /
    • 제45권2호
    • /
    • pp.111-120
    • /
    • 2024
  • 운량은 천체 관측을 지속하는 데에 중요한 요소 중 하나이다. 과거에는 관측자가 날씨를 직접 판단할 수밖에 없었으나, 원격 및 자동 관측 시스템의 개발로 관측자의 역할이 상대적으로 줄어들었다. 또한 구름의 다양한 형태와 빠른 이동 때문에 자동으로 운량을 판단하는 것은 쉽지 않다. 이 연구에서는 기계학습 기반의 파이썬 모듈인 "cloudynight"을 밀양아리랑우주천문대의 전천 영상에 적용하여 운량을 모니터링하는 프로그램을 개발하였다. 전천 영상을 하위 영역으로 나누어 각 39,996개 영역의 16개의 특징을 학습하여 기계학습 모델을 생성하였다. 검증 표본에서 얻은 F1 점수는 0.97로, 기계학습 모델이 우수한 성능을 가짐을 보여준다. 운량("Cloudiness")은 전체 하위 영역 개수 중 구름으로 식별 된 하위 영역 개수의 비율로 계산하며, 운량이 지난 30분 동안 0.6을 초과할 때 관측을 중단하도록 자동 관측 프로그램 규칙을 정하였다. 이 규칙을 따를 때, 기계학습 모델이 운량을 오판하여 관측에 영향을 미치는 경우는 거의 발생하지 않았다. 본 기계학습 모델을 통하여, 밀양아리랑우주천문대 0.7 m 망원경의 성공적인 자동 관측을 기대한다.

온톨로지 자동 구축과 온톨로지를 위한 지속적 자기 개선 모델에 대한 연구

  • 김윤덕;김기범;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.166-167
    • /
    • 2015
  • 수동적 온톨로지 구축은 해당 도메인의 지식을 가진 전문가가 필요하고, 시간적인 소모가 크다. 또한 완성된 온톨로지의 수동적인 지속적 개선은 상당한 비용을 초래할 수 있다. 그래서 온톨로지의 자동 구축과 지속적 자기 개선 방법이 하나의 해결책이 될 수 있을 것이다. 따라서, 이 논문에서는 기계 학습을 통한 온톨로지 구축의 자동화 방법과 지속적 자기 개선 모델을 소개하고자 한다.

  • PDF

기계학습 분류기의 예측확률과 만장일치를 이용한 한국어 서답형 문항 자동채점 시스템 (Automated Scoring System for Korean Short-Answer Questions Using Predictability and Unanimity)

  • 천민아;김창현;김재훈;노은희;성경희;송미영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.527-534
    • /
    • 2016
  • 최근 정보화 사회에서는 단순 암기보다는 문제 해결 능력과 종합적인 사고력을 바탕으로 창의적인 생각을 할 수 있는 인재를 요구한다. 이에 따라 교육과정도 학생들의 종합적인 사고력을 판단할 수 있는 서답형 문항을 늘리는 방향으로 변하고 있다. 그러나 서답형 문항의 경우 채점자의 주관에 의존하여 채점이 진행되기 때문에, 채점 결과의 일관성을 확보하기 어렵다는 단점이 있다. 이런 점을 해결하기 위해 해외에서는 기계학습을 이용한 자동채점 시스템을 채점 도구로 사용하고 있다. 한국어는 영어와 언어학적으로 다른 분류에 속하므로 영어권에서 사용하는 자동채점 시스템을 한국어에 그대로 적용할 수 없다. 따라서 한국어 체계에 맞는 자동채점 시스템의 개발이 필요하다. 본 논문에서는 기계학습 분류기의 예측확률과 만장일치 방법을 사용한 한국어 서답형 문항 자동채점 시스템을 소개하고, 자동채점 시스템을 이용한 채점 결과와 교과 전문가의 채점 결과를 비교하여 자동채점 시스템의 실용성을 검증한다. 본 논문의 실험을 위해 2014년 국가수준 학업성취도 평가의 국어, 사회, 과학 교과의 서답형 문항을 사용했다. 평가 척도로 피어슨 상관계수와 카파계수를 사용했다. 채점자가 개입했을 때와 개입하지 않았을 때의 상관계수 모두 0.7 이상으로 강한 양의 상관관계를 보였다. 이는 자동채점 시스템이 교과 전문가가 채점한 결과와 유사한 방향으로 답안에 점수를 부여한 것이므로 자동채점 시스템을 채점 보조도구로서 충분히 사용할 수 있을 것이다.

고성능 자율 기계학습을 위한 인텔리전트 데이터베이스 플랫폼 설계 (Design of an Intelligent Database Platform for High-Performance Autonomic Machine Learning)

  • 임종태;김민수;최도진;복경수;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2018년도 춘계 종합학술대회 논문집
    • /
    • pp.27-28
    • /
    • 2018
  • 최근 기계학습에 대한 연구들이 사회적으로 이슈가 되고 있다. 하지만 기계학습은 기계학습 모델을 만들고 세밀히 조정해야하는 복잡한 작업을 수행할 수 있는 전문 지식을 가진 사용자가 필요하다. 따라서 기계학습 과정에서 사용자가 수행하여야 하는 다양한 작업을 자동으로 수행할 수 있는 자율 기계학습이 연구되고 있다. 본 논문에서는 고성능 자율 기계학습을 위한 인텔리전트 데이터베이스 플랫폼을 제안한다.

  • PDF

영어 논술 자동 평가를 위한 언어 유창성 측정 방법 (Assessment of Writing Fluency For Automated English Essay Scoring)

  • 양민철;김민정;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.25-29
    • /
    • 2011
  • 영어 논술 자동 평가 시스템은 수험자가 쓴 에세이에 대하여 전문 평가자가 직접 읽고 평가하는 방식에서 벗어나 웹상에서 자동으로 평가 받을 수 있는 실시간 시스템이다. 하지만 비영어권 수험자에게는 논리력 혹은 작문 능력보다 그것을 영어로 표현하는 유창성에서 더 큰 문제가 있을 수 있는데 기존 연구에서는 이런 측면에 대한 평가가 부족하였다. 본 연구에서는 보다 정확한 비영어권 수험자의 영어 논술 평가를 위해 어휘력, 문장 구조의 다양성, 문장의 혼잡도를 평가하여 언어 유창성에 집중된 기계학습 방법의 추가적인 자질을 제안한다. 실험 결과 전문 평가자의 점수와 1) 상관관계 2) 정확도 측면에서 제안하는 방법은 기존의 방법에 비해 더 나은 성능을 보였다.

  • PDF

기계학습에 기초한 자동분류의 성능 요소에 관한 연구 (An Analytical Study on Performance Factors of Automatic Classification based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제33권2호
    • /
    • pp.33-59
    • /
    • 2016
  • 국내 학술회의 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히 구현이 쉽고 컴퓨터 처리 속도가 빠른 로치오 알고리즘을 사용하여 "한국정보관리학회 학술대회 논문집"의 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 분류기 생성 방법, 학습집합 규모, 가중치부여 기법, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 파라미터(${\beta}$, ${\lambda}$)와 학습집합의 크기(5년 이상)를 적절하게 적용하는 것이 효과적이며, 동등한 성능 수준이라면 보다 단순한 단일 가중치부여 기법을 사용하여 분류의 효율성을 높일 수 있음을 발견하였다. 또한 국내 학술회의 논문의 분류는 특정 논문에 하나 이상의 범주가 부여되는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있으므로, 이러한 환경을 고려하여 주요 성능 요소들의 특성에 기초한 최적의 분류 모델을 개발할 필요가 있다.

정답 분리 인코더와 복사 메커니즘을 이용한 한국어 질문 생성 (Using Answer-Separated Encoder And Copying Mechanism)

  • 김건영;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.419-423
    • /
    • 2019
  • 질문과 그에 대한 근거가 있는 문서를 읽고 정답을 예측하는 기계 독해 연구가 최근 활발하게 연구되고 있다. 기계 독해 문제를 위해 주로 사용되는 방법은 다층의 신경망으로 구성된 딥러닝 모델로 좋은 성능을 위해서는 양질의 대용량 학습 데이터가 필요하다. 그러나 질과 양을 동시에 만족하는 학습 데이터를 구축하는 작업에는 많은 경제적 비용이 소모된다. 이러한 문제를 해결하기 위해, 본 논문에서는 정답 분리 인코더와 복사 메커니즘을 이용한 단답 기반 한국어 질문 자동 생성 모델을 제안한다.

  • PDF

기계학습 기법을 이용한 전자게시판 질문 자동 분류 (An Automatic Question Routing System using Machine Learning)

  • 최형림;류광렬;강재호;신종일;이창섭
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2003년도 춘계학술대회
    • /
    • pp.313-318
    • /
    • 2003
  • 인터넷의 급격한 발전과 광범위한 보급에 따라 과거 전화, 서신 또는 직접방문을 통하여 해결하던 고객상담의 상당부분은 인터넷을 이용한 전자우편 및 전자게시판을 이용하는 방향으로 꾸준히 대치되고 있다. 인터넷을 통한 고객과의 접촉방식의 대부분을 차지하는 전자우편과 전자게시판은, 기존의 방식 특히 전화에 비하여 즉각적인 응답을 기대하기가 어렵다는 측면이 고객에게는 가장 큰 불만사항이 되고 있다. 본 논문에서는 문서로 이루어진 전자우편 또는 전자게시판의 고객 상담 내용을 기계학습의 분류기법을 활용하여 담당자를 자동으로 선정함으로써 보다 신속히 고객의 요구에 반응할 수 있는 효과적인 방법을 제안한다. 실제 수집한 다년간의 데이터를 기반으로 다양한 분류기법의 성능을 비교 평가하였으며, 그 결과 k-NN을 이용한 기법이 성능 및 활용도 측면에서 유리함을 보였다 또한, 인터넷을 통한 질문의 경우 상당 수준의 오탈자 및 띄어쓰기 오류를 내포하고 있는데, 바이그램을 이용한 문서처리방법을 이용함으로써 이러한 상황에 효과적으로 대처할 수 있으며, 바이그램으로 문서 처리 시 발생할 수 있는 시스템의 부담을 큰 성능의 저하 없이 최소화하기 위하여 자주 등장한 단어만을 선정하는 방안이 실용성이 있음을 확인하였다.

  • PDF

기계학습과 언어처리에 기반한 문자메시지 분류 (Text Message Classification based on Machine Learning)

  • 선주오;지명근;최범휘;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.492-495
    • /
    • 2019
  • 휴대전화 메시지로는 결제, 인증번호, 택배, 광고 등의 다양한 문자들이 수신된다. 이 문자들은 서로 섞여 있어 이용자가 찾고자 하는 문자를 찾는 데 어려움이 있다. 본 논문에서는 기계학습과 단어 임베딩을 통해 메시지들을 카테고리로 분류하는 방법을 제안하고, 이를 구현한 안드로이드 앱을 소개한다. 앱에서는 택배, 카드, 인증, 공공기관, 통신사, 대화, 기타의 7개의 분류로 메시지를 분류하며, 자동 분류에서는 수동 태깅한 5802건의 문자메시지를 사용한다. 앱에서는 저장된 문자메시지간 유사도에 기반한 오프라인에 서의 자동 분류를 지원하여 개인정보 노출에 대한 거부감이 있는 사용자의 요구를 반영한다.

  • PDF