• 제목/요약/키워드: classification error

검색결과 823건 처리시간 0.03초

데이터마이닝 기법을 활용한 대학수학능력시험 영어영역 정답률 예측 및 주요 요인 분석 (Prediction of Correct Answer Rate and Identification of Significant Factors for CSAT English Test Based on Data Mining Techniques)

  • 박희진;장경애;이윤호;김우제;강필성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권11호
    • /
    • pp.509-520
    • /
    • 2015
  • 대학수학능력시험(수능)은 고등학교 3년간의 학업 성취도를 측정하는 대표적인 평가 도구로서 대한민국 대학 입시에 있어 매우 중요한 역할을 하는 시험이다. 응시생들의 학업 성취도를 효과적으로 평가하기 위해서는 수능의 난이도가 적절하게 조절되어야 하나 지금까지는 수능 난이도의 편차가 매우 크게 나타나 매 입시연도마다 여러 가지 문제점을 야기해왔다. 본 연구에서는 전문가의 판단에 의존한 기존 방식에서 벗어나 지금까지 시행된 모의고사 및 실제 시험을 통해 축적된 자료를 바탕으로 데이터마이닝 기법을 적용하여 영어영역 문제의 난이도를 예측하는 모델을 구축하고 난이도 예측에 영향을 미치는 요소를 판별하고자 한다. 이를 위해 각 문항의 특성을 판별할 수 있는 여러 지표와 함께 지문, 문제, 답안 등에 나타난 단어들의 특징을 토픽 모델링(topic modeling) 기법을 이용하여 정량화하고 이를 바탕으로 선형회귀분석 및 의사결정나무 기법을 이용하여 각 문항의 난이도를 예측하는 모델을 구축하였다. 구축된 예측 모델을 실제 문제에 적용한 결과 난이도의 상/하 구분에 대한 예측 정확도는 90% 수준으로 나타났으며, 실제 정답률 대비 오차 비율은 약 16% 이내인 것으로 나타났다. 또한 배점 및 문제 유형이 문제의 난이도에 큰 영향을 미치며 지문이 특정 주제에 관련된 경우에도 난이도에 영향을 미치는 것을 확인하였다. 본 연구에서 제시된 방법론을 이용하여 영어영역 각 문제들에 대한 기대 정답률의 범위를 추정할 수 있으며 이를 종합하여 영어영역 전체 문제에 대한 정답률 예측을 통해 적절한 난이도의 문제를 출제하는 데 기여할 수 있을 것으로 기대한다.

풍해 예측 결과 재분류를 통한 위험 감지확률의 개선 연구 (A Case Study: Improvement of Wind Risk Prediction by Reclassifying the Detection Results)

  • 김수옥;황규홍
    • 한국농림기상학회지
    • /
    • 제23권3호
    • /
    • pp.149-155
    • /
    • 2021
  • 농업기상재해 조기경보시스템에서는 일 최대순간 풍속에 과수의 낙과 피해 임계풍속을 대입하여 농작물의 풍해 위험을 예측, 자원농가에게 제공하고 있다. 강풍의 위험 예측확률을 높이기 위한 방법으로써, 기존 방식에서 '안전'으로 분류된 데이터들 중 실제로는 풍해위험이 있는 경우를 찾아내는 인공신경망 이항분류 기법을 도입하였다. 학습데이터는 전라남북도와 경북 및 경남 일부지역의 총 210개소 기상청 종관 및 방재기상관측지점에서 수집된 2019년 전체 일별 풍속자료이며, 최적 모델 도출을 위한 검증데이터는 동일지점의 2020년 1월 1일~12월 12일 자료를, 인공신경망 기법 사용 전/후의 풍해위험예측 성능 평가는 2020년 12월 13일~2021년 2월 18일까지의 자료를 사용하였다. 풍해위험 임계풍속은 과수의 낙과 피해기준으로 주로 사용되고 있는 11m/s를 설정하였다. 또한 2020년 동일 기간의 일 최대순간풍속 실측값으로 Weibull 분포를 작성한 후, 추정값과 임계풍속간의 편차를 이용하여 누적확률값을 계산, 풍해 경보에서 한 단계 낮은 주의보를 판단하고 인공신경망 기법 적용 결과와 비교하였다. 평가기간 중 기존의 풍해 위험 탐지확률은 65.36%였으나 인공신경망 기법으로 재분류 과정을 거친 후 93.62%로 크게 개선되었다. 반면, 오보율이 함께 증가되어(13.46% → 37.64%), 전반적인 정확도는 감소하였다. 한편 Weibull 분포를 이용하여 풍해주의보 구간을 두었을 때는 정확도 83.46%으로 인공신경망 기법에 비해 전반적인 예측 정확도는 더 높았던 반면 위험 탐지확률은 88.79%로 더 낮게 나타났다. 따라서, 상대적으로 위험예보의 미예측이 중대한 문제가 되는 사례에서 인공신경망 방식이 유용할 것으로 보인다.

의사결정트리 프로그램 개발 및 갑상선유두암에서 질량분석법을 이용한 단백질 패턴 분석 (Development of Decision Tree Software and Protein Profiling using Surface Enhanced laser Desorption/lonization - Time of Flight - Mass Spectrometry (SELDI-TOF-MS) in Papillary Thyroid Cancer)

  • 윤준기;이준;안영실;박복남;윤석남
    • Nuclear Medicine and Molecular Imaging
    • /
    • 제41권4호
    • /
    • pp.299-308
    • /
    • 2007
  • 본 연구의 목적은 의사결정트리를 생성하는 생물정보학 프로그램을 개발하고, 이를 갑상선유두암 혈청의 질량분석자료로 시험해 보는 것이다. 대상 및 방법: C4.5를 커스터마이징하여 의사결정트리 분석을 수행할 수 있는 'Protein analysis'라는 프로그램을 개발하였다 61개의 혈청시료(갑상선유두암 27, 자가면역성 갑상선염 17, 대조군 17)를 일정 기간 동안 순차적으로 냉동한 후 실온에서 일시에 해동하여 분석에 사용하였다. 모든 시료는 탈지질화 과정을 거쳐 준비한 후, 2종류의 단백질칩(CM10, IMAC3)에 각각 60개, 50개 시료를 적용하였다. 갑상선유두암의 특징적인 단백질 패턴을 찾기 위해 질량분석기를 이용하여 단백질칩을 분석했다. 'Protein analysis' 프로그램을 이용하여 단백질분포 자료로부터 의사결정트리를 작성하고, 생체표지자 후보물질을 검출하였다. CM10칩에서 발견된 생체표지자 후보물질을 무작위 표본추출 방법을 이용하여 검증하였다. 결과: 단백질분포 자료의 훈련과 검증이 가능한 의사결정트리 프로그램이 개발되었으며, 이 프로그램은 트리 구조와 노드 정보, 트리 구성 과정을 표시하는 3개의 창으로 구성되었다. CM10칩을 이용한 분석에서 총 113개의 단백질 피크 중 23개가 3그룹 간에 유의한 차이가 있었으며, IMAC3는 41개의 단백질 피크 중 8개가 3그룹 간에 유의한 차이가 있었다. 3그룹 분석에서 의사결정트리는 CM10칩과 IMAE3의 단백질분포 자료로부터 각각 60개와 50개의 시료를 높은 정확도로 분류하였으며(오차율 = 각각 3.3%, 2.0%), 각각 4개와 7개의 생체표지자 후보물질을 검출하였다. 암시료와 비암시료를 구분하는 2그룹 분석 에서, 의사결정트리는 모든 암시료를 정확히 구분하였으며(모두 오차율 = 0%), CM10칩을 이용한 분석에서는 단일 노드를 사용하고, IMAC3칩을 이용한 분석에서는 여러 개의 노드를 사용하였다. CM10칩의 단백질 분포자료를 5번의 무작위 추출에 의해 시행한 검증에서 암시료와 비암시료를 구분하는데 높은 정확도를 보였으나(정확도 = 98%, 54/55), 3그룹을 구분할 때는 중등도의 정확도를 보였다(정확도 = 65%, 36/55). 결론: 우리가 개발한 프로그램은 질량분석 자료로부터 성공적으로 의사결정트리를 생성하고, 생체표지자 후보물질을 검출할 수 있었다. 따라서 이 프로그램은 혈청 시료를 이용한 생체표지자 발굴 및 갑상선유두암의 추적관찰에 유용하게 사용될 수 있을 것이다.

Support Vector Regression에서 분리학습을 이용한 고객의 구매액 예측모형 (The Prediction of Purchase Amount of Customers Using Support Vector Regression with Separated Learning Method)

  • 홍태호;김은미
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.213-225
    • /
    • 2010
  • 본 연구에서는 기업의 마케팅 프로모션에 따른 반응고객의 구매액 예측을 위한 방법을 제시하고 SVR의 효과적인 학습방법을 제시하였다. 프로모션에 의한 고객의 구매액을 기반으로 고객을 5등급으로 등급화하고 각 등급 내에서 SVR을 적용하여 고객의 구매액을 예측하였다. 본 연구에서 제안하는 예측된 고객의 등급 내에서 고객 구매액을 예측하는 분리데이터 학습법이 프로모션에 반응한 모든 고객을 대상으로 구매액을 예측하는 전체데이터 학습법보다 높은 예측성과를 보여주었다. 일반적으로 세분화된 고객집단을 하나의 집단으로 보고 동일한 마케팅 전략을 제시하나 본 연구를 통해 구매액에 따라 등급화 된 고객의 등급 내에서 다시 고객의 거래 구매액을 예측하여 동일한 집단 내에서도 차별화된 마케팅 전략을 제시할 수 있는 기반을 제시하였다. 즉 동일한 등급에서도 고객 구매액에 따라 고객의 우선순위를 정할 수 있으며, 이는 마케팅 담당자가 프로모션을 제시할 고객을 선정할 때 유용한 정보로 활용될 수 있다.

暴雨의 時間的 分布에 關한 硏究 (Studies on the Time Distribution of Heavy Storms)

  • 이근후
    • 한국농공학회지
    • /
    • 제26권2호
    • /
    • pp.69-84
    • /
    • 1984
  • This study was carried out to investigate the time distribution of single storms and to establish the model of storm patterns in korea. Rainfall recording charts collected from 42 metheorological stations covering the Korean peninsula were analyzed. A single storm was defined as a rain period seperated from preceding and succeeding rainfall by 6 hours and more. Among the defined single storms, 1199 storms exceeding total rainfall of 80 mm were qualified for the study. Storm patterns were cklassified by quartile classification method and the relationship between cummulative percent of rainfalls and cummulative storm time was established for each quartile storm group. Time distribution models for each stations were prepared through the various analytical and inferential procedures. Obtained results are summarized as follows: 1. The percentile frequency of quartile storms for the first to the fourth quartile were 22.0%, 26.5%, 28.9% and 22.6%, respectively. The large variation of percentile frequency was show between the same quartile storms. The advanced type storm pattern was predominant in the west coastal type storm patterns predominantly when compared to the single storms with small total rainfalls. 3. The single storms with long storm durations tended to show delayed type storm patterns predominantly when compared to the single storms with short storm durations. 4. The percentile time distribution of quartile storms for 42 rin gaging stations was estimated. Large variations were observed between the percentiles of time distributions of different stations. 5. No significant differences were generally found between the time distribution of rainfalls with greater total rainfall and with less total rainfall. This fact suggests that the size of the total rainfall of single storms was not the main factor affecting the time distribution of heavy storms. 6. Also, no significant difference were found between the time distribution of rainfalls with long duration and with short duration. The fact indicates that the storm duration was no the main factor affecting the time distribution of heavy storms. 7. In Korea, among all single storms, 39.0% show 80 to 100mm of total rainfall which stands for the mode of the frequency distribution of total rainfalls. The median value of rainfalls for all single storms from the 42 stations was 108mm. The shape of the frequency distribution of total rainfalls showed right skewed features. No significant differences were shown in the shape of distribution histograms for total rainfall of quartile storms. The mode of rainfalls for the advanced type quartile storms was 80~100mm and their frequencies were 39~43% for respective quartiles. For the delayed type quartile storms, the mode was 80~100mm and their frequencies were 36!38%. 8. In Korea, 29% of all single storms show 720 to 1080 minutes of storm durations which was the highest frequency in the frequency distribution of storm durations. The median of the storm duration for all single storms form 42 stations was 1026 minutes. The shape of the frequency distribution was right skewed feature. For the advanced type storms, the higher frequency of occurrence was shown by the single storms with short durations, whereas for the delayed type quartile storms, the higher frequency was shown gy the long duration single storms. 9. The total rainfall of single storms was positively correlated to storm durations in all the stations throughout the nation. This fact was also true for most of the quartile storms. 10. The third order polynomial regression models were established for estimating the time distribution of quartile storms at different stations. The model test by relative error method resulted good agreements between estimated and observed values with the relative error of less than 0.10 in average.

  • PDF

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로 (The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction)

  • 천세학
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.239-251
    • /
    • 2019
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

BERT 기반 감성분석을 이용한 추천시스템 (Recommender system using BERT sentiment analysis)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.1-15
    • /
    • 2021
  • 추천시스템은 사용자의 기호를 파악하여 물품 구매 결정을 도와주는 역할을 할 뿐만 아니라, 비즈니스 전략의 관점에서도 중요한 역할을 하기에 많은 기업과 기관에서 관심을 갖고 있다. 최근에는 다양한 추천시스템 연구 중에서도 NLP와 딥러닝 등을 결합한 하이브리드 추천시스템 연구가 증가하고 있다. NLP를 이용한 감성분석은 사용자 리뷰 데이터가 증가함에 따라 2000년대 중반부터 활용되기 시작하였지만, 기계학습 기반 텍스트 분류를 통해서는 텍스트의 특성을 완전히 고려하기 어렵기 때문에 리뷰의 정보를 식별하기 어려운 단점을 갖고 있다. 본 연구에서는 기계학습의 단점을 보완하기 위하여 BERT 기반 감성분석을 활용한 추천시스템을 제안하고자 한다. 비교 모형은 Naive-CF(collaborative filtering), SVD(singular value decomposition)-CF, MF(matrix factorization)-CF, BPR-MF(Bayesian personalized ranking matrix factorization)-CF, LSTM, CNN-LSTM, GRU(Gated Recurrent Units)를 기반으로 하는 추천 모형이며, 실제 데이터에 대한 분석 결과, BERT를 기반으로 하는 추천시스템의 성과가 가장 우수한 것으로 나타났다.

북반구 해빙 지역에서 세 종류 위성관측 표면온도에 대한 오차분석 (Error Analysis of Three Types of Satellite-observed Surface Skin Temperatures in the Sea Ice Region of the Northern Hemisphere)

  • 강희정;유정문
    • 한국지구과학회지
    • /
    • 제36권2호
    • /
    • pp.139-157
    • /
    • 2015
  • 본 연구에서는 위성관측 표면온도 및 해당 온도경향의 불확실성을 조사하기 위하여 북반구($30-90^{\circ}N$) 해양 지역에서 2003-2014년 4월 16-24일 기간에 세 종류의 위성관측 자료(MODIS IST, AIRS/AMSU SST, AIRS only SST)를 상호 비교하였다. AIRS/AMSU 표면온도값에 비하여 MODIS는 해빙과 해수의 경계지역에서 계통적으로 최대 1.6 K 높은 반면에, 해빙 지역에서는 2 K 낮았다. 이러한 주요 원인은 표면온도 산출알고리즘의 해표 정보(e.g., 해빙 탐지)를 위하여 MODIS는 적외 채널만을 사용하는 반면에, AIRS/AMSU는 마이크로파 및 적외 채널을 함께 사용하는 데에 있다. 미국 항공우주국(NASA's Goddard Space Flight Center; NASA/GSFC)은 AMSU-A의 노후화를 대비하기 위하여 AIRS/AMSU 알고리즘을 일부 수정하여 AIRS only 알고리즘을 개발하였다. AIRS/AMSU와 AIRS only 표면온도 사이에 평균 제곱근 오차(RMSE)값은 $30-90^{\circ}N$ 해양 지역에서 0.55 K이며, 편차(bias)는 0.13 K이었으며, 해빙/해수 경계 지역에서는 이들 차이가 더 크게 나타났다. 해빙 경계지역에서 AIRS/AMSU와 AIRS only 간의 차이가 다른 지역에 비하여 큰 이유는 AIRS only 알고리즘이 AMSU 마이크로파 자료 대신에 GCM (NOAA Global Forecast System) 온도 산출물을 사용하는 데에 있다. 세 종류의 위성관측 표면온도 자료는 $70-80^{\circ}N$ 위도대에서 유의적인 온도증가($0.23-0.28Kyr^{-1}$)를 보였다. 위성관측 표면온도들 간에 계통적인 불일치는 같은 방향(온도증가 또는 온도감소)으로 해당 온도경향 값들 간의 차이에 영향을 줄 수 있다.

논산지역 마을상수도 수질의 수리지화학 및 통계 분석 (Hydrogeochemistry and Statistical Analysis of Water Quality for Small Potable Water Supply System in Nonsan Area)

  • 고경석;안주성;석희준;이진수;김형수
    • 한국지하수토양환경학회지:지하수토양환경
    • /
    • 제13권6호
    • /
    • pp.72-84
    • /
    • 2008
  • 본 연구는 논산지역 마을상수도를 대상으로 수질 모니터링, 수리지화학적 고찰 및 다변량 통계분석을 통하여 수질에 관한 문제점과 원인을 규명하고 타당한 관리 방안을 마련하고자 수행되었다. 논산지역은 마을상수도 이용이 많은 전형적인 농촌지역으로 지질은 화강암이 가장 넓은 면적을 차지하며 옥천대 변성퇴적암, 편마암과 화산암이 분포한다. 마을상수도의 수질 모니터링 결과 전국 평균인 2.5%보다 5-8배 높은 13-21% 정도가 수질기준을 초과하였으며 주요 오염성분은 질산성질소, 탁도, 총대장균, 일반세균, 불소 및 비소로 조사되었다. 연구지역 남쪽과 북쪽에서 높게 나타나는 질산성질소 오염의 주요 원인으로서 비닐하우스 같은 시설영농의 영향이 가장 큰 것으로 나타났다. 마을상수도 수질은 Ca와 $HCO_3$가 지배적이나 화강암 지역에서는 농경지와 주거지 등의 인위적인 오염의 영향으로 Na, Cl 및 $NO_3$가 증가되었다. 주성분분석 결과 주로 농경과 인위적 오염의 영향을 나타내는 주성분 2에 의하여 크게 두 개의 그룹인 화강암과 편마암 및 옥천대 지하수로 구분된다. 판별분석은 초기 지질분류와 판별분석 예측결과의 오차가 5.56%로서 주성분분석보다 더 명확하게 각 지질별 지하수 특징을 보여준다. 다변량 통계분석은 수리지화학적 특성의 종합적 분석을 가능하게 하여 지질특성에 의한 지하수 수질의 변화를 명확하게 구분할 수 있는 방법으로 사료되었다. 논산시 마을상수도 수질에 대한 연구결과는 지질에 의해 영향받는 토지이용, 토양 특성 및 지형 등이 복합적으로 작용하여 지하수 수리지화학적 특성을 결정하는 것임을 확인하였다. 따라서 향후 정부 및 지자체의 마을상수도관리는 지질, 토지이용, 지형 및 토양 특성 등에 대한 종합적 자료 구축 및 해석이 필요하다.

DISEASE DIAGNOSED AND DESCRIBED BY NIRS

  • Tsenkova, Roumiana N.
    • 한국근적외분광분석학회:학술대회논문집
    • /
    • 한국근적외분광분석학회 2001년도 NIR-2001
    • /
    • pp.1031-1031
    • /
    • 2001
  • The mammary gland is made up of remarkably sensitive tissue, which has the capability of producing a large volume of secretion, milk, under normal or healthy conditions. When bacteria enter the gland and establish an infection (mastitis), inflammation is initiated accompanied by an influx of white cells from the blood stream, by altered secretory function, and changes in the volume and composition of secretion. Cell numbers in milk are closely associated with inflammation and udder health. These somatic cell counts (SCC) are accepted as the international standard measurement of milk quality in dairy and for mastitis diagnosis. NIR Spectra of unhomogenized composite milk samples from 14 cows (healthy and mastitic), 7days after parturition and during the next 30 days of lactation were measured. Different multivariate analysis techniques were used to diagnose the disease at very early stage and determine how the spectral properties of milk vary with its composition and animal health. PLS model for prediction of somatic cell count (SCC) based on NIR milk spectra was made. The best accuracy of determination for the 1100-2500nm range was found using smoothed absorbance data and 10 PLS factors. The standard error of prediction for independent validation set of samples was 0.382, correlation coefficient 0.854 and the variation coefficient 7.63%. It has been found that SCC determination by NIR milk spectra was indirect and based on the related changes in milk composition. From the spectral changes, we learned that when mastitis occurred, the most significant factors that simultaneously influenced milk spectra were alteration of milk proteins and changes in ionic concentration of milk. It was consistent with the results we obtained further when applied 2DCOS. Two-dimensional correlation analysis of NIR milk spectra was done to assess the changes in milk composition, which occur when somatic cell count (SCC) levels vary. The synchronous correlation map revealed that when SCC increases, protein levels increase while water and lactose levels decrease. Results from the analysis of the asynchronous plot indicated that changes in water and fat absorptions occur before other milk components. In addition, the technique was used to assess the changes in milk during a period when SCC levels do not vary appreciably. Results indicated that milk components are in equilibrium and no appreciable change in a given component was seen with respect to another. This was found in both healthy and mastitic animals. However, milk components were found to vary with SCC content regardless of the range considered. This important finding demonstrates that 2-D correlation analysis may be used to track even subtle changes in milk composition in individual cows. To find out the right threshold for SCC when used for mastitis diagnosis at cow level, classification of milk samples was performed using soft independent modeling of class analogy (SIMCA) and different spectral data pretreatment. Two levels of SCC - 200 000 cells/$m\ell$ and 300 000 cells/$m\ell$, respectively, were set up and compared as thresholds to discriminate between healthy and mastitic cows. The best detection accuracy was found with 200 000 cells/$m\ell$ as threshold for mastitis and smoothed absorbance data: - 98% of the milk samples in the calibration set and 87% of the samples in the independent test set were correctly classified. When the spectral information was studied it was found that the successful mastitis diagnosis was based on reviling the spectral changes related to the corresponding changes in milk composition. NIRS combined with different ways of spectral data ruining can provide faster and nondestructive alternative to current methods for mastitis diagnosis and a new inside into disease understanding at molecular level.

  • PDF