• 제목/요약/키워드: 기계적 학습

검색결과 1,718건 처리시간 0.032초

전문가의 형태소 분류를 활용한 과학 논증 자동 채점 (Automated Scoring of Scientific Argumentation Using Expert Morpheme Classification Approaches)

  • 이만형;유선아
    • 한국과학교육학회지
    • /
    • 제40권3호
    • /
    • pp.321-336
    • /
    • 2020
  • 본 연구는 실제 교실에서 이루어진 학생의 과학 논증과정을 기계학습을 활용한 자동 채점에 적용함으로써, 논증 자동 채점의 가능성 및 개선 방향을 탐색한다. 분자 구조에 대한 고등학생의 과학 논증수업 중 발생한 2,605개의 모든 발화를 대상으로 연구를 진행하였다. 지도 학습을 위해 5가지의 논증 요소로 발화를 분류하였고, 분류된 발화를 대상으로 텍스트 전처리를 수행하였다. 전처리된 학생 발화를 활용하여 서포트 벡터 머신, 의사결정나무, 랜덤 포레스트, 인공신경망의 기계 학습 방법으로 자동 채점 모델을 구성하였다. 불용어 처리가 되지 않은 학생 발화를 활용한 자동 채점의 결과 랜덤 포레스트의 정확도는 65.96%, kappa는 0.5298의 유미한 결과를 얻었다. 불용어 처리를 수행한 학생 발화를 활용한 새로운 채점 모델의 결과 채점의 정확도가 크게 변화하지 않음에도 논증 발화 중 과학 용어 및 논증 요소의 담화표지가 채점 모델의 분류 기준이 되는 결과를 얻었다. 또한 인간 전문가의 논증 채점 과정을 분석하여 얻어진 전문가 형태소를 자동 채점 모델에 생성 규칙 알고리즘으로 적용하였다. 그 결과 의사결정나무에서 반박에 대한 재현율(recall)이 21.74% 증가하였다. 이에 본 연구 결과는 과학 교육 연구에서 기계 학습 및 논증에 대한 자동 채점의 활용 가능성과 연구 방향성을 제안하였다.

기계학습에 기초한 국내 학술지 논문의 자동분류에 관한 연구 (An Analytical Study on Automatic Classification of Domestic Journal articles Based on Machine Learning)

  • 김판준
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.37-62
    • /
    • 2018
  • 문헌정보학 분야의 국내 학술지 논문으로 구성된 문헌집합을 대상으로 기계학습에 기초한 자동분류의 성능에 영향을 미치는 요소들을 검토하였다. 특히, "정보관리학회지"에 수록된 논문에 주제 범주를 자동 할당하는 분류 성능 측면에서 용어 가중치부여 기법, 학습집합 크기, 분류 알고리즘, 범주 할당 방법 등 주요 요소들의 특성을 다각적인 실험을 통해 살펴보았다. 결과적으로 분류 환경 및 문헌집합의 특성에 따라 각 요소를 적절하게 적용하는 것이 효과적이며, 보다 단순한 모델의 사용으로 상당히 좋은 수준의 성능을 도출할 수 있었다. 또한, 국내 학술지 논문의 분류는 특정 논문에 하나 이상의 범주를 할당하는 복수-범주 분류(multi-label classification)가 실제 환경에 부합한다고 할 수 있다. 따라서 이러한 환경을 고려하여 단순하고 빠른 분류 알고리즘과 소규모의 학습집합을 사용하는 최적의 분류 모델을 제안하였다.

놈(Norm)에 따른 k-최근접 이웃 학습의 성능 변화 (k-Nearest Neighbor Learning with Varying Norms)

  • 김두혁;김찬주;황규백
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.371-375
    • /
    • 2008
  • 예제 기반 학습(instance-based learning) 방법 중 하나인 k-최근접 이웃(k-nearest reighbor, k-NN) 학습은 간단하고 예측 정확도가 비교적 높아 분류 및 회귀 문제 해결을 위한 기반 방법론으로 널리 적용되고 있다. k-NN 학습을 위한 알고리즘은 기본적으로 유클리드 거리 혹은 2-놈(norm)에 기반하여 학습예제들 사이의 거리를 계산한다. 본 논문에서는 유클리드 거리를 일반화한 개념인 p-놈의 사용이 k-NN 학습의 성능에 어떠한 영향을 미치는지 연구하였다. 구체적으로 합성데이터와 다수의 기계학습 벤치마크 문제 및 실제 데이터에 다양한 p-놈을 적용하여 그 일반화 성능을 경험적으로 조사하였다. 실험 결과, 데이터에 잡음이 많이 존재하거나 문제가 어려운 경우에 p의 값을 작게 하는 것이 성능을 향상시킬 수 있었다.

  • PDF

設計工학의 내容과 方向

  • 성환태
    • 기계저널
    • /
    • 제19권2호
    • /
    • pp.76-78
    • /
    • 1979
  • 설계공학이라는 말이 공학상의 정식용어로서 널리 쓰여지고 있는 것 같지는 않으나 국내외의 공학을 하는 사람들 사이에는 이미 알려지고 있고 이러한 제목의 서적도 몇가지는 나와 있으며 가까운 장래에 일반으로 통용되는 술어로서 승인될 것이며 그 취급하는 내용도 점차 명확해질 것으로 생각한다. 단적으로 설계공학이란 무엇이냐 하면 다음과 같이 말하여도 될 줄 안다. [좋은 설계를 능률 좋게 행하는 방법을 창출하기 위하여 공학적설계의 본질에 대하여 연구하는 학문 이다.]라고. 종래 우수한 설계자는 기본적 공학을 채득한자가 체험으로 기능 교육적으로 양성되는 것이라고 알려져 왔다. 이것은 비단 설계뿐만 아니라 다른 학문의 경우에도 같으나 특히 설계는 그러한 면이 강한 것이 사실이다. 넓은 의미로의 설계공학은 공학의 모든 영역에 적용되는 것 이며 다시 공학뿐만 아니라 적어도 그 일부는 자연과학의 연구, 비지네스등 적어도 인간이 어떤 목적을 달성하기 위하여 계획하는 경우에도 적용할 수 있는 것이다. 이러한 광범한 영역중에서 본 고에서는 그 주영역을 기계공학으로 하였다. 기계공학중 종래의 기계설계라는 학과중에 기계 설계의 방침이라든지 기계설계상의 유의사항등의 표제하에 설계전반에 관한 문제가 다소는 취 급되어 왔다. 이 기계설계 과목의 학습의 주목적은 기계요소에 관한 지식의 습득이다. 기계기술 자에 요구되는 설계는 설계할 물건의 구체적인 공간적 모양. 치수와 재료를 선정하는 것이 아 니면 안되고 보통은 설계도면의 형태로 주어진다. 이 기계설계의 최종단계에서는 기계요소에 관한 지식은 없어서는 안되므로 기계요소에 관한 학습을 목적으로한 기계설계가 중요함은 말할 것도 없으나 종래의 기계설계만으로는 설계전체에 관한 연구가 부족되어 있음을 부정할 수 없고 Detail을 설계하는 설계자를 양성할 수는 있어도 더 큰 시야를 갖는 설계자의 양성에는 불충분 하였다. 설계공학에는 이점을 충분히 함으로써 종래의 기계설계를 보장하는 뜻도 있다. 설계공 학의 발생은 말할 것도 없이 공업전체의 최근의 경이적인 발달에 기인된 것이다. 즉 공학의 대 발전의 결과로서 공업과 공학에 대한 요청이 과도하게 되어 공업과 공학의 사회에 대한 책임이 증대하였기 때문에 공업. 공학에 종사하는 사람은 옛날보다 훨씬 복잡하게 상관하는 수많은 조 건을 고려하면서 보다 나은 설계를 도모하지 않으면 안되게 되었기 때문이다. 좋은 설계라 함은 무엇이냐, 능률 좋은 설계하려면 어떻게 하면 좋은가 등의 문제에 답하는 것이 설계공학이다. 또는 설계의 process 해석이 설계공학이라고 하여도 좋을 것이다.

  • PDF

탄성파 자료 잡음 제거를 위한 비지도 학습 연구 (The Use of Unsupervised Machine Learning for the Attenuation of Seismic Noise)

  • 김수정;전형구
    • 지구물리와물리탐사
    • /
    • 제25권2호
    • /
    • pp.71-84
    • /
    • 2022
  • 탄성파 자료 취득 시 신호와 함께 기록되는 다양한 형태의 잡음은 탄성파 자료의 정확한 해석을 방해하는 요인으로 작용한다. 따라서 탄성파 자료의 잡음 제거는 탄성파 자료 처리 과정 중 필수적인 절차이므로 기계 학습을 포함한 다양한 방식의 잡음 제거 연구가 수행되고 있다. 본 연구에서는 비지도 학습 기반의 탄성파 잡음 제거 모델을 이용하여 중합 전 탄성파 자료의 잡음 제거를 수행하고자 하였으며 총 세 가지의 비지도 학습 기반 기계 학습 모델을 비교하였다. 세 가지의 비지도 학습 모델은 N2NUNET, PATCHUNET, DDUL로 각각 서로 다른 신경망 구조를 통해 정답 자료 없이 탄성파 잡음을 제거한다. 세 가지 모델들을 인공 합성 및 현장 중합 전 탄성파 자료에 적용하여 잡음을 제거한 후 그 결과를 정성적·정량적으로 분석하였으며, 분석 결과 세 가지 비지도 학습 모델 모두 인공 합성 및 현장 자료의 탄성파 잡음을 적절히 제거하였음을 확인하였다. 그 중 N2NUNET 모델이 가장 낮은 잡음 제거 성능을 보여주었으며, PATCHUNET과 DDUL은 거의 유사한 결과를 도출하였지만, DDUL이 정량적으로 근소한 우위를 보였다.

대화 데이터셋의 클래스 불균형 문제 보정을 위한 적대적 학습 기법 (Adversarial Training Method for Handling Class Imbalance Problems in Dialog Datasets)

  • 조수필;최용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.434-439
    • /
    • 2019
  • 딥러닝 기반 분류 모델에 있어 데이터의 클래스 불균형 문제는 소수 클래스의 분류 성능을 크게 저하시킨다. 본 논문에서는 앞서 언급한 클래스 불균형 문제를 보완하기 위한 방안으로 적대적 학습 기법을 제안한다. 적대적 학습 기법의 성능 향상 여부를 확인하기 위해 총 4종의 딥러닝 기반 분류 모델을 정의하였으며, 해당 모델 간 분류 성능을 비교하였다. 실험 결과, 대화 데이터셋을 이용한 모델 학습 시 적대적 학습 기법을 적용할 경우 다수 클래스의 분류 성능은 유지하면서 동시에 소수 클래스의 분류 성능을 크게 향상시킬 수 있음을 확인하였다.

  • PDF

회전수가 변하는 기기의 고장진단에 있어서 특성 기반 분류와 합성곱 기반 알고리즘의 예측 정확도 비교 (Comparison of Prediction Accuracy Between Classification and Convolution Algorithm in Fault Diagnosis of Rotatory Machines at Varying Speed)

  • 문기영;김형진;황세윤;이장현
    • 한국항해항만학회지
    • /
    • 제46권3호
    • /
    • pp.280-288
    • /
    • 2022
  • 본 연구는 정상 가동 중에도 회전수가 변하는 기기의 이상 및 고장 진단 방안을 다루고 있다. 회전수가 변함에 따라 비정상적 시계열 특성을 내포한 센서 데이터에 기계학습을 적용할 수 있는 절차를 제시하고자 하였다. 기계학습으로는 k-Nearest Neighbor(k-NN), Support Vector Machine(SVM), Random Forest을 사용하여 이상 및 고장 진단을 수행하였다. 또한 진단 정확성을 비교할 목적으로 이상 감지에 오토인코더, 고장진단에는 합성곱 기반의 Conv1D도 추가로 이용하였다. 비정상적 시계열로부터 통계 및 주파수 속성으로 구성된 시계열 특징 벡터를 추출하고, 추출된 특징 벡터에 정규화 및 차원 축소 기법을 적용하였다. 특징 벡터의 선택과 정규화, 차원 축소 여부에 따라 달라지는 기계학습의 진단 정확도를 비교하였다. 또한, 적용된 학습 알고리즘 별로 초매개변수 최적화 과정과 적층 구조를 설명하였다. 최종적으로 기존의 심층학습과 비교하여, 기계학습도 가변 회전기기의 고장을 정확하게 진단할 수 있는 절차를 제시하였다.

Secure Training Support Vector Machine with Partial Sensitive Part

  • Park, Saerom
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.1-9
    • /
    • 2021
  • 본 연구에서는 민감 정보가 포함된 경우의 서포트 벡터 머신 (SVM) 학습 알고리즘을 제안한다. 기계 학습 모형들이 실세계의 자동화된 의사 결정을 가능하게 하였지만 규제들은 프라이버시 보호를 위해서 민감 정보들의 활용을 제한하고 있다. 특히 인종, 성별, 장애 여부와 같은 법적으로 보호되는 정보들의 프라이버시 보호는 필수이다. 본 연구에서는 완전 동형암호를 활용하여 부분적인 민감 정보가 포함된 경우에 최소 제곱 SVM (LSSVM) 모형을 효율적으로 학습할 수 있는 방법을 제안한다. 본 프레임워크에서는 데이터 소유주가 민감하지 않은 정보와 민감한 정보 모두를 가지고 있고, 이를 기계학습 서비스 제공자에게 제공할 때에 민감 정보만 암호화해서 제공하는 것을 가정한다. 결과적으로 데이터 소유자는 민감 정보를 노출시키지 않으면서도 암호화된 상태로 모형의 학습 정보를 얻을 수 있다. 모형을 실제 활용할 경우에는 모든 정보를 암호화하여 안전하게 예측 결과를 제공할 수 있도록 한다. 실제 데이터에 대한 실험을 통해 본 알고리즘이 동형암호로 구현될 경우에 원래의 LSSVM 모형과 비슷한 성능을 가질 수 있음을 확인해 볼 수 있었다. 또한, 개선된 효율적인 알고리즘에 대한 실험은 적은 성능 저하로 큰 연산 효율성을 달성할 가능성을 입증하였다.

기계학습 기법을 이용한 전자게시판 질문 자동 분류 (An Automatic Question Routing System using Machine Learning)

  • 최형림;류광렬;강재호;신종일;이창섭
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2003년도 춘계학술대회
    • /
    • pp.313-318
    • /
    • 2003
  • 인터넷의 급격한 발전과 광범위한 보급에 따라 과거 전화, 서신 또는 직접방문을 통하여 해결하던 고객상담의 상당부분은 인터넷을 이용한 전자우편 및 전자게시판을 이용하는 방향으로 꾸준히 대치되고 있다. 인터넷을 통한 고객과의 접촉방식의 대부분을 차지하는 전자우편과 전자게시판은, 기존의 방식 특히 전화에 비하여 즉각적인 응답을 기대하기가 어렵다는 측면이 고객에게는 가장 큰 불만사항이 되고 있다. 본 논문에서는 문서로 이루어진 전자우편 또는 전자게시판의 고객 상담 내용을 기계학습의 분류기법을 활용하여 담당자를 자동으로 선정함으로써 보다 신속히 고객의 요구에 반응할 수 있는 효과적인 방법을 제안한다. 실제 수집한 다년간의 데이터를 기반으로 다양한 분류기법의 성능을 비교 평가하였으며, 그 결과 k-NN을 이용한 기법이 성능 및 활용도 측면에서 유리함을 보였다 또한, 인터넷을 통한 질문의 경우 상당 수준의 오탈자 및 띄어쓰기 오류를 내포하고 있는데, 바이그램을 이용한 문서처리방법을 이용함으로써 이러한 상황에 효과적으로 대처할 수 있으며, 바이그램으로 문서 처리 시 발생할 수 있는 시스템의 부담을 큰 성능의 저하 없이 최소화하기 위하여 자주 등장한 단어만을 선정하는 방안이 실용성이 있음을 확인하였다.

  • PDF

기계학습을 이용한 택배 고객의 소리 분류 (Classification of V.O.C in The Door-to-Door Delivery Service Using Machine Learning Techniques)

  • 홍성윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.329-332
    • /
    • 2012
  • 국내 택배시장 규모는 매출 3조원 이상, 물량 13 억 상자 이상을 처리하고 있다. 2000년 6천억원에서 불과 10년 사이에 500% 이상 확대되었다. 그에 반해 소비자들의 불만 역시 증가하였다. 따라서 현재의 수작업 VOC 분류 방식으로는 적정한 대응에 한계가 있을 수 밖에 없다. 이 논문에서는 효율적인 택배불만 처리를 위해서 불만의 종류와 정도를 기계학습을 이용하여 자동분류 하는 과정 및 결과를 기술한다. 약 93,000건의 VOC(voice of customer)를 대상으로 학습 데이터를 구축하고 여러 자질 선택 기법을 비교하였으며, 기존의 다양한 문서 자동 분류 방법들을 적용해 보았다. 실험결과 지지벡터기계가 가장 좋은 성능을 보였고, 각각의 F-measure 값은 불만의 정도는 83.1%, 불만의 종류는 75.9% 로 측정되었다.