• 제목/요약/키워드: Supervised learning

검색결과 752건 처리시간 0.028초

준지도학습 방법을 이용한 한국어 서답형 문항 자동채점 시스템 (Korean Automated Scoring System for Supply-Type Items using Semi-Supervised Learning)

  • 천민아;서형원;김재훈;노은희;성경희;임은영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.112-116
    • /
    • 2014
  • 서답형 문항은 학생들의 종합적인 사고능력을 판단하는데 매우 유용하지만 채점할 때, 시간과 비용이 매우 많이 소요되고 채점자의 공정성을 확보해야 하는 어려움이 있다. 이러한 문제를 개선하기 위해 본 논문에서는 서답형 문항에 대한 자동채점 시스템을 제안한다. 본 논문에서 제안하는 시스템은 크게 언어 처리 단계와 채점 단계로 나뉜다. 첫 번째로 언어 처리 단계에서는 형태소 분석과 같은 한국어 정보처리 시스템을 이용하여 학생들의 답안을 분석한다. 두 번째로 채점 단계를 진행하는데 이 단계는 아래와 같은 순서로 진행된다. 1) 첫 번째 단계에서 분석 결과가 완전히 일치하는 답안들을 하나의 유형으로 간주하여 각 유형에 속한 답안의 빈도수가 높은 순서대로 정렬하여 인간 채점자가 고빈도 학생 답안을 수동으로 채점한다. 2) 현재까지 채점된 결과와 모범답안을 학습말뭉치로 간주하여 자질 추출 및 자질 가중치 학습을 수행한다. 3) 2)의 학습 결과를 토대로 미채점 답안들을 군집화하여 분류한다. 4) 분류된 결과 중에서 신뢰성이 높은 채점 답안에 대해서 인간 채점자가 확인하고 학습말뭉치에 추가한다. 5) 이와 같은 방법으로 미채점 답안이 존재하지 않을 때까지 반복한다. 제안된 시스템을 평가하기 위해서 2013년 학업성취도 평가의 사회(중3) 및 국어(고2) 과목의 서답형 문항을 사용하였다. 각 과목에서 1000개의 학생 답안을 추출하여 채점시간과 정확률을 평가하였다. 채점시간을 전체적으로 약 80% 이상 줄일 수 있었고 채점 정확률은 사회 및 국어 과목에 대해 각각 98.7%와 97.2%로 나타났다. 앞으로 자동 채점 시스템의 성능을 개선하고 인간 채점자의 집중도를 높일 수 있도록 인터페이스를 개선한다면 국가수준의 대단위 평가에 충분히 활용할 수 있을 것으로 생각한다.

  • PDF

저널베어링의 이상상태 진단을 위한 데이텀 효용성 평가 (Evaluation of Datum Unit for Diagnostics of Journal-Bearing Systems)

  • 전병철;정준하;윤병동;김연환;배용채
    • 대한기계학회논문집A
    • /
    • 제39권8호
    • /
    • pp.801-806
    • /
    • 2015
  • 저널베어링은 회전하는 축과 베어링 지지부 사이에 유막을 형성하여 회전체를 지지하는 구조물이며, 고속 및 고하중 조건에서도 안정적이기 때문에 발전소와 같은 대형 시스템에 널리 사용되고 있다. 본 연구에서는 저널베어링 시스템의 신뢰성을 확보하기 위한 감독학습 기반의 상태진단 알고리즘을 연구하였다. 기존에는 진동신호 특성인자들의 정의에 대한 연구가 주로 진행되었으나, 본 연구에서는 정의된 특성인자의 추출단위인 데이텀의 적용 기준에 대한 연구가 수행되었다. 데이텀의 효용성 평가를 통해 저널베어링 회전체 특성인자의 추출기준은 시간영역에서 1 회전, 주파수영역에서 60 회전 기준이 타당하다는 결론을 도출하였다.

Impurity profiling and chemometric analysis of methamphetamine seizures in Korea

  • Shin, Dong Won;Ko, Beom Jun;Cheong, Jae Chul;Lee, Wonho;Kim, Suhkmann;Kim, Jin Young
    • 분석과학
    • /
    • 제33권2호
    • /
    • pp.98-107
    • /
    • 2020
  • Methamphetamine (MA) is currently the most abused illicit drug in Korea. MA is produced by chemical synthesis, and the final target drug that is produced contains small amounts of the precursor chemicals, intermediates, and by-products. To identify and quantify these trace compounds in MA seizures, a practical and feasible approach for conducting chromatographic fingerprinting with a suite of traditional chemometric methods and recently introduced machine learning approaches was examined. This was achieved using gas chromatography (GC) coupled with a flame ionization detector (FID) and mass spectrometry (MS). Following appropriate examination of all the peaks in 71 samples, 166 impurities were selected as the characteristic components. Unsupervised (principal component analysis (PCA), hierarchical cluster analysis (HCA), and K-means clustering) and supervised (partial least squares-discriminant analysis (PLS-DA), orthogonal partial least squares-discriminant analysis (OPLS-DA), support vector machines (SVM), and deep neural network (DNN) with Keras) chemometric techniques were employed for classifying the 71 MA seizures. The results of the PCA, HCA, K-means clustering, PLS-DA, OPLS-DA, SVM, and DNN methods for quality evaluation were in good agreement. However, the tested MA seizures possessed distinct features, such as chirality, cutting agents, and boiling points. The study indicated that the established qualitative and semi-quantitative methods will be practical and useful analytical tools for characterizing trace compounds in illicit MA seizures. Moreover, they will provide a statistical basis for identifying the synthesis route, sources of supply, trafficking routes, and connections between seizures, which will support drug law enforcement agencies in their effort to eliminate organized MA crime.

ART2 기반 자가 생성 지도 학습 알고리즘을 이용한 컨테이너 인식 시스템 (Container Image Recognition using ART2-based Self-Organizing Supervised Learning Algorithm)

  • 정병희;김재용;조재현;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2005년도 추계종합학술대회
    • /
    • pp.393-398
    • /
    • 2005
  • 본 논문에서는 ART2 기반 자가 생성 지도 학습 알고리즘을 이용한 운송 컨테이너 식별자 인식 시스템을 제안한다. 일반적으로 운송 컨테이너의 식별자들은 글자의 색이 검정색 또는 흰색으로 이루어져 있는 특징이 있다. 이러한 특성을 고려하여 원 컨테이너 영상에 대해 검은색과 흰색을 제외한 모든 부분을 잡음으로 처리하기 위해 퍼지를 이용한 잡은 판단 방법을 적용하여 식별자 영역과 잡음을 구별한다. 식별자 영역을 제외한 잡음 영역을 전체 영상의 평균 픽셀값으로 대체시킨다. 그리고 Sobel 마스크를 이용하여 에지를 검출하고, 추출된 에지를 이용하여 수직 블록과 수평 블록을 검출하여 컨테이너의 식별자 영역을 추출하고 이진화한다. 이진화된 식별자 영역에 대해 검정색의 빈도수를 이용하여 흰바탕과 민바탕을 구분하고 8방향 윤곽선 추적 알고리즘을 적용하여 개별 식별자를 추출한다. 개별 식별자 인식을 위해 ART2 기반 자가 생성 지도 학습 알고리즘은 입력층과 은닉층 사이에 ART2를 적용하여 은닉층의 노드를 생성하고, 은닉층과 출력층 사이에 일반화된 델타 학습 방법과 Delta-bar-Delta 알고리즘을 적용하여 학습 성능을 개선한다. 실제 컨테이너 영상을 대상으로 실험한 결과, 기존의 식별자 추출 방법보다 제안된 식별자 추출 방법이 개선되었다. 그리고 기존의 식별자 인식 알고리즘보다 제안된 ART2 기반 자가 생성 지도 학습 알고리즘이 식별자의 학습 및 인식에 있어서 우수한 성능이 있음을 확인하였다.

  • PDF

자기조직형 최적 가버필터에 의한 다중 텍스쳐 오브젝트 추출 (Multiple Texture Objects Extraction with Self-organizing Optimal Gabor-filter)

  • 이우범;김욱현
    • 정보처리학회논문지B
    • /
    • 제10B권3호
    • /
    • pp.311-320
    • /
    • 2003
  • 고유의 텍스쳐 성분에만 최적 반응을 하는 최적 필터(optimal filter)는 다중 텍스쳐 영상으로부터 원하는 텍스쳐 성분을 추출하기 위한 가장 뛰어난 기술이다. 그러나 기존의 최적필터 설계 방법들은 영상에 내재된 텍스쳐 정보가 사전에 주어지는 교사적 방법이 대부분이며, 내재된 텍스쳐 인식을 기반으로 하는 완전 비교사적인 방법에 관한 연구는 거의 이루어지고 있지 않은 실정이다. 따라서 본 논문에서는 효율적인 텍스쳐 분석을 위한 비교사 학습 방법과 가버필터의 주파수 대역 통과형 특징을 이용한 새로운 최적 필터 설계 방법을 제안한다. 제안한 방법은 자기조직형 신경회로망에 의해서 영상에 내재된 텍스쳐 영역을 블록 단위로 군화(clustering)하며, 가버필터의 최적 주파수는 인식된 텍스쳐 오브젝트(texture objects)의 공간 주파수를 분석한 최적 주파수에 동조(turning)한다. 그리고 설계된 최적 가버필터의 성능 평가를 위해서는 다양한 형태의 다중 텍스쳐 영상을 생성하여 내재된 텍스쳐 오브젝트를 추출함으로써 성공적인 결과를 보인다.

향상된 TextRank 알고리즘을 이용한 자동 회의록 생성 시스템 (Automatic Meeting Summary System using Enhanced TextRank Algorithm)

  • 배영준;장호택;홍태원;이해연
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권5호
    • /
    • pp.467-474
    • /
    • 2018
  • 다양한 업무 수행에 있어서 회의나 토론 등의 내용을 정리하여 문서화하는 것의 중요성은 매우 높다. 그러나 기존에는 사람이 직접 내용에 대한 정리를 수작업으로 수행하였다. 본 논문에서는 TextRank 알고리즘을 이용하여 자동으로 회의록을 생성하는 시스템의 개발에 대하여 설명한다. 제안한 시스템은 발언자의 모든 발언 내용을 실시간으로 기록하고, 문장들을 출현 빈도수에 기초하여 유사도를 계산한 후, 문서 데이터 안에서 문장들 간의 관계를 찾아내는 비지도 학습 알고리즘을 통해 중요 단어 혹은 문장을 추출함으로서 자동으로 회의록을 생성하도록 하였다. 특히, PageRank 알고리즘을 단어와 문장에 적합하도록 재구성한 TextRank 알고리즘에 대하여 핵심어의 가중치 조정 기법을 도입함으로서 성능 향상을 모색하였다.

악성코드 분류를 위한 중요 연산부호 선택 및 그 유용성에 관한 연구 (A Study on Selecting Key Opcodes for Malware Classification and Its Usefulness)

  • 박정빈;한경수;김태근;임을규
    • 정보과학회 논문지
    • /
    • 제42권5호
    • /
    • pp.558-565
    • /
    • 2015
  • 최근 새롭게 제작되는 악성코드 수의 증가와 악성코드 변종들의 다양성은 악성코드 분석가의 분석에 소요되는 시간과 노력에 많은 영향을 준다. 따라서 효과적인 악성코드 분류는 악성코드 분석가의 악성코드 분석에 소요되는 시간과 노력을 감소시키는 데 도움을 줄 뿐만 아니라, 악성코드 계보 연구 등 다양한 분야에 활용 가능하다. 본 논문에서는 악성코드 분류를 위해 중요 연산부호를 이용하는 방법을 제안한다. 중요 연산부호란 악성코드 분류에 높은 영향력을 가지는 연산부호들을 의미한다. 실험을 통해서 악성코드 분류에 높은 영향력을 가지는 상위 10개의 연산부호들을 중요 연산부호로 선정할 수 있음을 확인하였으며, 이를 이용할 경우 지도학습 알고리즘의 학습시간을 약 91% 단축시킬 수 있었다. 이는 향후 다량의 악성코드 분류 연구에 응용 가능할 것으로 기대된다.

Small Sample Face Recognition Algorithm Based on Novel Siamese Network

  • Zhang, Jianming;Jin, Xiaokang;Liu, Yukai;Sangaiah, Arun Kumar;Wang, Jin
    • Journal of Information Processing Systems
    • /
    • 제14권6호
    • /
    • pp.1464-1479
    • /
    • 2018
  • In face recognition, sometimes the number of available training samples for single category is insufficient. Therefore, the performances of models trained by convolutional neural network are not ideal. The small sample face recognition algorithm based on novel Siamese network is proposed in this paper, which doesn't need rich samples for training. The algorithm designs and realizes a new Siamese network model, SiameseFacel, which uses pairs of face images as inputs and maps them to target space so that the $L_2$ norm distance in target space can represent the semantic distance in input space. The mapping is represented by the neural network in supervised learning. Moreover, a more lightweight Siamese network model, SiameseFace2, is designed to reduce the network parameters without losing accuracy. We also present a new method to generate training data and expand the number of training samples for single category in AR and labeled faces in the wild (LFW) datasets, which improves the recognition accuracy of the models. Four loss functions are adopted to carry out experiments on AR and LFW datasets. The results show that the contrastive loss function combined with new Siamese network model in this paper can effectively improve the accuracy of face recognition.

폐암환자 생존분석에 대한 TNM 병기 군집분석 평가 (Accessing the Clustering of TNM Stages on Survival Analysis of Lung Cancer Patient)

  • 최철웅;김경백
    • 스마트미디어저널
    • /
    • 제9권4호
    • /
    • pp.126-133
    • /
    • 2020
  • 병원에서는 폐암 환자의 최종병기를 기준으로 치료방침 및 예후를 결정하고 있다. 폐암 환자의 최종병기는 미국 암 연합회(AJCC)에서 제공하는 TNM 분류방법을 바탕으로 7단계로 나누어 진단된다. 이런 접근 방법은 환자의 치료, 예후 및 생존일 예측 등 다양한 분야에서 사용하기에 한계가 있다. 이 논문에서는 데이터 과학적 접근을 통해 T, N, M병기를 사용하여 생존일수별 환자집단을 나눌 수 있는지 알아보기 위해 비지도 학습 중 하나인 군집분석(Clustering)을 진행한 후 군집분석의 결과를 Cox비례위험모형을 사용하여 비교 하였다. 환자들의 최종병기를 사용하지 않고, T, N, M병기 정보만 사용하였을 때 생존시간 예측정확도가 더 높은 것을 확인하였다. 특히, AJCC의 최종병기 7단계와 같이 군집의 개수를 7로 설정했을 때보다 군집의 수를 축소하거나 확장했을 때 T, N, M 병기 군집분석을 통한 생존시간 예측정확도가 향상하는 것을 확인하였다.

정적 드레이프를 이용한 니트 옷감의 시뮬레이션 파라미터 추정 (Estimating Simulation Parameters for Kint Fabrics from Static Drapes)

  • 주은정;최명걸
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제26권5호
    • /
    • pp.15-24
    • /
    • 2020
  • 본 연구에서는 주어진 옷감 시료의 정적 드레이프 모양으로부터 해당 옷감을 시뮬레이션하기 위해 필요한 시뮬레이션 파라미터를 추정하는 데이터 기반 학습법을 제시한다. 정적 드레이프의 모양을 형성하기 위해 의류 산업계에서 옷감을 물성에 따라 분류하기 위해 사용하는 쿠식 드레이프 (Cusick's drape)에서 착안한 방법을 사용한다. 학습 모델의 입력 벡터는 특정 옷감의 정적 드레이프 모양에서 추출한 특징 벡터와 옷감의 밀도 값으로 구성되고, 출력 벡터는 해당 드레이프 결과를 도출하는 여섯가지 시뮬레이션 파라미터로 구성된다. 실제에 가깝고 편향되지 않은 학습 데이터를 생성하고자 먼저 400가지의 실제 니트 옷감에 대한 시뮬레이션 파라미터를 수집하고 이로부터 GMM (Gaussian mixture model) 생성 모델을 만든다. 다음, GMM 확률분포에 따라 대량의 시뮬레이션 파라미터를 무작위 샘플링한다. 샘플링된 각각의 시뮬레이션 파라미터에 대해 옷감 시뮬레이션을 수행하여 가상의 정적 드레이프 결과를 만들고 이로부터 특징 벡터를 추출한다. 생성된 데이터를 로그선형회기(log-linear regression) 모델로 피팅한다. 학습의 수치적 정확도를 검증하고 시뮬레이션 결과의 시각적 유사도를 비교하여 제시된 방법의 유용성을 확인한다.