• 제목/요약/키워드: 기계적 학습

검색결과 1,714건 처리시간 0.029초

블로그 포스트 자동 품질 평가를 위한 기계학습 기법 비교 연구 (A Comparison of Machine Learning Techniques for Evaluating the Quality of Blog Posts)

  • 한범준;김민정;이형규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 춘계학술발표대회
    • /
    • pp.385-388
    • /
    • 2010
  • 블로그는 다양한 주제 분야에 대한 내용을 자유롭게 표현할 수 있는 일종의 개인 웹사이트로, 많은 양과 다양성으로 매우 중요한 정보원이 될 수 있다. 블로그는 생산속도가 매우 빠르므로 보다 고품질의 블로그를 선별하는 것이 중요하다. 본 논문에서는 블로그의 본문을 담고 있는 포스트를 대상으로 기계학습 기법을 이용하여 문서의 품질을 자동으로 평가하고자 하였다. 학습을 위한 자질로는 모든 블로그에 공통적으로 적용할 수 있도록 형태소 분석에서 추출한 동사, 부사, 형용사의 내용어만을 선택하였다. 성능 비교를 위해 수작업으로 약 4,600개의 정답 집합을 구축하고, 적합한 기계학습 기법을 찾기 위해 다양한 학습 기법을 사용하여 비교 실험하였다. 실험 결과 Bagging 기법의 성능이 79% F-measure로 가장 좋음을 보여주었다. 한정된 자질을 사용했을 때와 정답 집합의 문서 수 비율이 불균등할 경우 단순함, 유연성, 효율성의 특징을 지닌 Bagging 기법이 적합할 것으로 보인다.

데이터 분석 도구 성능 비교 연구 -기계 학습을 적용하여- (A Performance Comparison Study on Data Analysis Tool -Applying Machine Learning-)

  • 권태희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.34-37
    • /
    • 2016
  • 빅데이터 시대가 도래되면서 과거와 비교할 수 없을 만큼의 방대하고 다양한 데이터가 생산됨에 따라 기존의 데이터 분석 도구의 사용은 한계에 부딪히게 되었다. 따라서 기존의 분석 도구보다 효율적이고 정확성이 높은 데이터 분석 도구를 필요로 하게 되었고, 빅데이터를 처리할 수 있는 분석 도구들에 대한 많은 연구들이 진행되어 왔다. R과 Apache Spark는 대표적인 데이터 분석 도구로 기계 학습을 위한 기능을 제공하고 있다. 본 논문에서는 기계 학습을 활용하여 두 개의 널리 알려진 데이터 분석 도구인 R과 Apache Spark의 데이터 분석 성능을 비교함으로써 보다 효율적이고 정확성이 높은 도구를 모색하고자 한다.

기계학습 기법을 이용한 문장경계인식 (Sentence Boundary Detection Using Machine Learning Techniques)

  • 박수혁;임해창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 춘계학술발표대회
    • /
    • pp.69-72
    • /
    • 2008
  • 본 논문은 언어의 통계적 특징을 이용하여 범용의 문장경계 인식기를 제안한다. 제안하는 방법은 대량의 코퍼스 내에서 사용되고 있는 문장 경계를 기준으로 음절 및 어절 등의 자질을 이용하여 통계적 특징을 추출하고 다양한 기계학습 기법을 사용하여 문장경계를 인식하고자 하였다. 또한 특정 언어나 도메인에 제한적이지 않고 범용적인 자질만을 사용하려고 노력하였다. 언어의 특성상 문장의 구분이 애매한 경우 또는 잘못 사용 된 구두점 등의 경우에도 적용 가능하도록 다양한 자질을 사용하여 실험하였으며, 한국어와 영문 코퍼스에 대해서 동일한 자질을 적용하여 실험하여 본 논문에서 제시한 자질들이 한국어 및 다른 언어권의 언어에도 적용될 수 있는 범용적인 자질임을 확인할 수 있었다. 한국어 문장경계 인식을 위한 기계학습 및 실험을 위해서 세종계획 코퍼스를 사용하였으며, 성능척도로는 정확률과 재현율을 사용하였으며, 실험결과 제안한 방법으로 99%의 정확률과 99.2%의 재현율을 보였다. 영문의 경우는 Wall Street Journal 코퍼스를 사용하였으며, 동일한 자질을 적용하여 실험한 결과 98.9%의 정확률과 94.6%의 재현율을 보였다.

기계학습에 기반한 고분자 복합수지의 기계적 물성 거동 예측 (Prediction of Mechanical Properties and Behavior of Polymer Matrix Composites Based on Machine Learning)

  • 이나경;신용범;신동일
    • 한국가스학회지
    • /
    • 제25권2호
    • /
    • pp.64-71
    • /
    • 2021
  • 수소연료전지자동차를 비롯한 자동차 분야에서 성형 가공성과 기계적 특성이 우수한 고분자 복합수지에 대한 연구는 특정 기계적 특성을 갖춘 재료의 설계지원을 위한 Computer-Aided Engineering (CAE)으로 확대되고 있다. CAE 자동화는 소재의 기계적 특성 및 거동 예측이 선행되어야 하는데, 고분자 복합수지의 기계적 물성 예측은 단일물질과 달리, 바탕재와 보강재 간의 관계로만 설명하기에는 물성 거동이 복잡하기에, 수식으로 설명하기 어렵다. 본 연구에서는 큰 소성 구간과 조성에 예민하여 예측이 어려웠던 고분자 복합수지의 조성에 따른 응력-변형률 선도를 데이터의 기계학습을 기반으로 예측하였다. 개발모델은 바탕재, 보강재 종류 및 조성간의 복잡한 상관관계를 찾아, 학습한 시험 데이터가 없는 조건에서도 전체 응력-변형률 곡선을 의미있게 예측한다. 학습하지 않은 조성과 구성에 대해서도 고분자 복합수지의 기계적 특성을 예측하는 개발 모델을 기반으로 향후 소재 설계 AI 시스템을 완성할 수 있을 것으로 기대한다.

Nonstandard Machine Learning Algorithms for Microarray Data Mining

  • Zhang, Byoung-Tak
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2001년도 제2회 생물정보 워크샵 (DNA Chip Bioinformatics)
    • /
    • pp.165-196
    • /
    • 2001
  • DNA chip 또는 microarray는 다수의 유전자 또는 유전자 조각을 (보통 수천내지 수만 개)칩상에 고정시켜 놓고 DNA hybridization 반응을 이용하여 유전자들의 발현 양상을 분석할 수 있는 기술이다. 이러한 high-throughput기술은 예전에는 생각하지 못했던 여러가지 분자생물학의 문제에 대한 해답을 제시해 줄 수 있을 뿐 만 아니라, 분자수준에서의 질병 진단, 신약 개발, 환경 오염 문제의 해결 등 그 응용 가능성이 무한하다. 이 기술의 실용적인 적용을 위해서는 DNA chip을 제작하기 위한 하드웨어/웻웨어 기술 외에도 이러한 데이터로부터 최대한 유용하고 새로운 지식을 창출하기 위한 bioinformatics 기술이 핵심이라고 할 수 있다. 유전자 발현 패턴을 데이터마이닝하는 문제는 크게 clustering, classification, dependency analysis로 구분할 수 있으며 이러한 기술은 통계학과인공지능 기계학습에 기반을 두고 있다. 주로 사용된 기법으로는 principal component analysis, hierarchical clustering, k-means, self-organizing maps, decision trees, multilayer perceptron neural networks, association rules 등이다. 본 세미나에서는 이러한 기본적인 기계학습 기술 외에 최근에 연구되고 있는 새로운 학습 기술로서 probabilistic graphical model (PGM)을 소개하고 이를 DNA chip 데이터 분석에 응용하는 연구를 살펴본다. PGM은 인공신경망, 그래프 이론, 확률 이론이 결합되어 형성된 기계학습 모델로서 인간 두뇌의 기억과 학습 기작에 기반을 두고 있으며 다른 기계학습 모델과의 큰 차이점 중의 하나는 generative model이라는 것이다. 즉 일단 모델이 만들어지면 이것으로부터 새로운 데이터를 생성할 수 있는 능력이 있어서, 만들어진 모델을 검증하고 이로부터 새로운 사실을 추론해 낼 수 있어 biological data mining 문제에서와 같이 새로운 지식을 발견하는 exploratory analysis에 적합하다. 또한probabilistic graphical model은 기존의 신경망 모델과는 달리 deterministic한의사결정이 아니라 확률에 기반한 soft inference를 하고 학습된 모델로부터 관련된 요인들간의 인과관계(causal relationship) 또는 상호의존관계(dependency)를 분석하기에 적합한 장점이 있다. 군체적인 PGM 모델의 예로서, Bayesian network, nonnegative matrix factorization (NMF), generative topographic mapping (GTM)의 구조와 학습 및 추론알고리즘을소개하고 이를 DNA칩 데이터 분석 평가 대회인 CAMDA-2000과 CAMDA-2001에서 사용된cancer diagnosis 문제와 gene-drug dependency analysis 문제에 적용한 결과를 살펴본다.

  • PDF

기계학습을 이용한 가축 질병 조기 발견 방안 (Fast Detection of Disease in Livestock based on Machine Learning)

  • 이웅섭
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.294-297
    • /
    • 2015
  • 최근 기계학습에 기반을 둔 빅데이터 분석이 큰 관심을 받으면서 다양한 학문 분야에 기계 학습 방안들이 접목되고 있다. 그 대표적인 분야 중 하나로 농축산 분야를 들 수 있고 실제 다양한 기계학습 방안들이 농축산분야에 적용되고 있다. 하지만 농축산에서 활용되는 기계학습의 경우 대부분 농업분야의 기후예측 및 축산분야의 유전자 분석 쪽으로 연구가 집중되어있고, 가축의 생체 데이터를 활용한 기계학습 방안은 많은 연구가 이루어지지 않았다. 본 연구에서는 가축의 실시간 생체 데이터를 이용하여 문제가 발생한 개체를 조기에 발견하는 방안을 제안하였다. 제안 방안에서는 기댓값 최대화 알고리즘을 이용하여 단일 가축 개체들의 실시간 생체 데이터를 2개의 클러스터로 나누고 이 두 클러스터 사이즈의 변화를 통해서 이상 개체를 조기에 판단한다. 특히 단일 개체의 문제와 전염성 질병 여부를 나누어 판단하므로 구제역과 같은 전염성 질병의 경우 빠른 대응을 가능케 하여 국가적 손실을 줄일 수 있게 한다. 더불어 제안 방안은 측정 생체 데이터에 대한 통계적 정보 없이도 적응적으로 클러스터를 형성할 수 있으므로 축사 외부의 환경 요소에 의해서 생체 데이터의 통계적 특성이 변화는 상황에서도 적응적으로 동작할 수 있다.

  • PDF

Graphical Models for DNA Microarray Data Mining

  • 양진산;장병탁
    • 한국생물정보학회:학술대회논문집
    • /
    • 한국생물정보시스템생물학회 2002년도 제1차워크샵
    • /
    • pp.49-61
    • /
    • 2002
  • 현대적 실험방법 및 유전공학의 발전으로 최근 생물학적 자료는 비약적으로 늘어나고 있다. 이러한 자료의 기계학습을 이용한 분석방법은 많은 비용과 시간을 요구하는 전통적인 생물적 실험에 있어서 실험 시간을 단축시켜주고 실험비용을 줄여 주게 된다. 본 논문에서는 특별히 micro array data의 분석에 있어서 graphical model에 기반한 기계학습 방법들을 소개한다. 이중 GTM 은 특히 시각화 효과가 뛰어난 방법으로 Graphical model 에 기반한 GTM의 제반 특성을 소개하고 이를 yeast data의 분석에 적용시킨 결과를 자세히 알아보고자 한다. (**Presentation file을 수신 보관 중)

  • PDF

템플릿 기반 미세조정을 통한 토익 모델 훈련 (TOEIC Model Training Through Template-Based Fine-Tuning)

  • 이정우;문현석;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.324-328
    • /
    • 2022
  • 기계 독해란 주어진 문서를 이해하고 문서 내의 내용에 대한 질문에 답을 추론하는 연구 분야이며, 기계 독해 문제의 종류 중에는 여러 개의 선택지에서 질문에 대한 답을 선택하는 객관식 형태의 문제가 존재한다. 이러한 자연어 처리 문제를 해결하기 위해 기존 연구에서는 사전학습된 언어 모델을 미세조정하여 사용하는 방법이 널리 활용되고 있으나, 학습 데이터가 부족한 환경에서는 기존의 일반적인 미세조정 방법으로 모델의 성능을 높이는 것이 제한적이며 사전학습된 의미론적인 정보를 충분히 활용하지 못하여 성능 향상에 한계가 있다. 이에 본 연구에서는 기존의 일반적인 미세조정 방법에 템플릿을 적용한 템플릿 기반 미세조정 방법을 통해 사전학습된 의미론적인 정보를 더욱 활용할 수 있도록 한다. 객관식 형태의 기계 독해 문제 중 하나인 토익 문제에 대해 모델을 템플릿 기반 미세조정 방법으로 실험을 진행하여 템플릿이 모델 학습에 어떠한 영향을 주는지 확인하였다.

  • PDF

쿠버네티스에서 ML 워크로드를 위한 분산 인-메모리 캐싱 방법 (Distributed In-Memory Caching Method for ML Workload in Kubernetes)

  • 윤동현;송석일
    • Journal of Platform Technology
    • /
    • 제11권4호
    • /
    • pp.71-79
    • /
    • 2023
  • 이 논문에서는 기계학습 워크로드의 특징을 분석하고 이를 기반으로 기계학습 워크로드의 성능 향상을 위한 분산 인-메모리 캐싱 기법을 제안한다. 기계학습 워크로드의 핵심은 모델 학습이며 모델 학습은 컴퓨팅 집약적 (Computation Intensive)인 작업이다. 쿠버네티스 기반 클라우드 환경에서 컴퓨팅 프레임워크와 스토리지를 분리한 구조에서 기계학습 워크로드를 수행하는 것은 자원을 효과적으로 할당할 수 있지만, 네트워크 통신을 통해 IO가 수행되야 하므로 지연이 발생할 수 있다. 이 논문에서는 이런 환경에서 수행되는 머신러닝 워크로드의 성능을 향상하기 위한 분산 인-메모리 캐싱 기법을 제안한다. 특히, 제안하는 방법은 쿠버네티스 기반의 머신러닝 파이프라인 관리 도구인 쿠브플로우를 고려하여 머신러닝 워크로드에 필요한 데이터를 분산 인-메모리 캐시에 미리 로드하는 새로운 방법을 제안한다.

  • PDF

전이학습 기반 기계번역 사후교정 모델 검증 (The Verification of the Transfer Learning-based Automatic Post Editing Model)

  • 문현석;박찬준;어수경;서재형;임희석
    • 한국융합학회논문지
    • /
    • 제12권10호
    • /
    • pp.27-35
    • /
    • 2021
  • 기계번역 사후교정 (Automatic Post Editing, APE)이란 번역 시스템을 통해 생성한 번역문을 교정하는 연구 분야로, 영어-독일어와 같이 학습데이터가 풍부한 언어쌍을 중심으로 연구가 진행되고 있다. 최근 APE 연구는 전이학습 기반 연구가 주로 이루어지는데, 일반적으로 self supervised learning을 통해 생성된 사전학습 언어모델 혹은 번역모델이 주로 활용된다. 기존 연구에서는 번역모델에 전이학습 시킨 APE모델이 뛰어난 성과를 보였으나, 대용량 언어쌍에 대해서만 이루어진 해당 연구를 저 자원 언어쌍에 곧바로 적용하기는 어렵다. 이에 본 연구에서는 언어 혹은 번역모델의 두 가지 전이학습 전략을 대표적인 저 자원 언어쌍인 한국어-영어 APE 연구에 적용하여 심층적인 모델 검증을 진행하였다. 실험결과 저 자원 언어쌍에서도 APE 학습 이전에 번역을 한차례 학습시키는 것이 유의미하게 APE 성능을 향상시킨다는 것을 확인할 수 있었다.