• 제목/요약/키워드: Classification accuracy

검색결과 3,065건 처리시간 0.028초

효과적인 기업부도 예측모형을 위한 ROSE 표본추출기법의 적용 (Application of Random Over Sampling Examples(ROSE) for an Effective Bankruptcy Prediction Model)

  • 안철휘;안현철
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.525-535
    • /
    • 2018
  • 분류 문제에서 특정 범주의 빈도가 다른 범주에 비해 과도하게 높은 경우, 왜곡된 기계 학습을 유발할 수 있는 데이터 불균형(imbalanced data) 문제가 발생한다. 기업부도 예측 문제도 그 중 하나인데, 일반적으로 금융기관과 거래하는 기업들의 부도율은 대단히 낮아서, 부도 사례보다 정상 사례의 빈도가 월등히 높은 데이터 불균형 문제가 발생하고 있다. 이러한 데이터 불균형 문제를 해결하기 위해서는 적절한 표본추출 기법이 적용될 필요가 있으며, 지금껏 소수 범주 데이터를 복원 추출함으로써 다수 범주 데이터와 비율을 맞추어 데이터 불균형을 해결하는 오버 샘플링(oversampling) 기법이 주로 활용되어 왔다. 그러나 전통적인 오버 샘플링은 과적합화(overfitting)가 발생할 위험이 높아질 수 있는 단점이 있다. 이러한 배경에서 본 연구는 효과적인 기업부도 예측 모형 학습을 위한 표본추출 기법으로 2014년에 Menardi와 Torelli가 제안한 ROSE(random over sampling examples) 기법을 제안한다. ROSE 기법은 학습에 사용될 사례를 반복적으로 새롭게 합성하여 생성(synthetic generation)하는 기법으로, 과적합화 문제를 회피하면서도 분류 예측 정확도 개선에 도움을 줄 수 있다. 이에 본 연구에서는 ROSE 기법을 가장 성능이 우수한 이분류기로 알려진 SVM(support vector machine)과 결합하여 국내 한 대형 은행의 기업부도 예측에 적용해 보고, 다른 표본추출 기법들과의 비교연구를 수행하였다. 실험 결과, ROSE 기법이 다른 기법에 비해 통계적으로 유의한 수준으로 SVM의 예측정확도 개선에 기여할 수 있음을 확인하였다. 이러한 본 연구의 결과는 부도예측 외에 다른 사회과학 분야 예측문제의 데이터 불균형 문제 해결에도 ROSE가 우수한 대안이 될 수 있다는 사실을 시사한다.

3차원 안면자동인식기(3D-AFRA)의 Software 정밀도 검사 : 형상측정프로그램 오차분석 (A Software Error Examination of 3D Automatic Face Recognition Apparatus(3D-AFRA) : Measurement of Facial Figure Data)

  • 석재화;송정훈;김현진;유정희;곽창규;이준희;고병희;김종원;이의주
    • 사상체질의학회지
    • /
    • 제19권3호
    • /
    • pp.51-61
    • /
    • 2007
  • 1. Objectives The Face is an important standard for the classification of Sasang Constitutions. We are developing 3D Automatic Face Recognition Apparatus(3D-AFRA) to analyse the facial characteristics. This apparatus show us 3D image and data of man's face and measure facial figure data. So We should examine the Measurement of Facial Figure data error of 3D Automatic Face Recognition Apparatus(3D-AFRA) in Software Error Analysis. 2. Methods We scanned face status by using 3D Automatic Face Recognition Apparatus(3D-AFRA). And we measured lengths Between Facial Definition Parameters of facial figure data by Facial Measurement program. 2.1 Repeatability test We measured lengths Between Facial Definition Parameters of facial figure data restored by 3D-AFRA by Facial Measurement program 10 times. Then we compared 10 results each other for repeatability test. 2.2 Measurement error test We measured lengths Between Facial Definition Parameters of facial figure data by two different measurement program that are Facial Measurement program and Rapidform2006. At measuring lengths Between Facial Definition Parameters, we uses two measurement way. The one is straight line measurement, the other is curved line measurement. Then we compared results measured by Facial Measurement program with results measured by Rapidform2006. 3. Results and Conclusions In repeatability test, standard deviation of results is 0.084-0.450mm. And in straight line measurement error test, the average error 0.0582mm, and the maximum error was 0.28mm. In curved line measurement error test, the average error 0.413mm, and the maximum error was 1.53mm. In conclusion, we assessed that the accuracy and repeatability of Facial Measurement program is considerably good. From now on we complement accuracy of 3D-AFRA in Hardware and Software.

  • PDF

구강 악안면 영역의 암종 진단에 있어서 $[^{18}F]$-Fluorodeoxyglucose를 이용한 양전자방출 단층촬영의 임상적 연구 (CLINICAL STUDY OF POSITRON EMISSION TOMOGRAPHY WITH $[^{18}F]$-FLUORODEOXYGLUCOSE IN MAXILLOFACIAL TUMOR DIAGNOSIS)

  • 김재환;김경욱;김용각
    • Journal of the Korean Association of Oral and Maxillofacial Surgeons
    • /
    • 제26권5호
    • /
    • pp.462-469
    • /
    • 2000
  • Positron Emission Tomography(PET) is a new diagnostic method that can create functional images of the distribution of positron emitting radionuclides, which when administered intravenously in the body, makes possible anatomical and functional analysis by quantity of biochemical and physiological process. After genetic and biochemical changes in initial stage, malignant tumor undergoes functional changes before undergoing anatomical changes. So, early diagnosis of malignant tumors by functional analysis with PET can be achieved, replacing traditional anatomical analysis, such as computed tomography(CT) and magnetic resonance image(MRI), etc. Similarly, PET can identify malignant tumor without confusion with scar and fibrosis in follow up check. In the Korea Cancer Center Hospital(KCCH) from October 1997 to September 1999, clinical study was performed in 79 cases that underwent 89 times PET evaluation with [18F]-Fluorodeoxyglucose for diagnosis of oral and maxillofacial tumors, and the data was analysed by Bayesian $2{\times}2$ Classification Table. The results were as follows : Evaluation for initial diagnosis with FDG-PET (P<0.005) 1. Agreement rate or accuracy rate is 88.9%. 2. Sensitivity is 95.2%, and specificity 66.7%. 3. Positive predictive rate is 90.9%, and negative predictive rate 80.0%. 4. In consideration of tumor stage, diagnostic rate in less than stage II was 90% and in greater than stage III 100%. 5. In consideration of tumor size, diagnostic rate in less than T2 was 92.3% and in greater than T3 100%. After primary treatment, evaluation for follow up check with FDG-PET (P < 0.001) 1. Agreement rate or accuracy rate is 85.4%. 2. Sensitivity is 87.5%, and specificity 82.4%. 3. Positive predictive rate is 87.5%, and negative predictive rate 82.4%. 4. In 24 recurred cases, 6 had distant metastasis, and 5 of them were diagnosed with FDG-PET, resulting in diagnostic rate of FDG-PET of 83.3%. From the above results, Positron Emission Tomography with [18F]- Fluorodeoxyglucose appears to be more sensitive and accurate for detecting the presence of oral and maxillofacial tumors, and has various clinical applications such as early diagnosis of tumor in initial and follow up check and detection of distant metastasis.

  • PDF

작성자 분석과 CNN을 적용한 소스 코드 작성자 식별 프레임워크 (The Identification Framework for source code author using Authorship Analysis and CNN)

  • 신건윤;김동욱;홍성삼;한명묵
    • 인터넷정보학회논문지
    • /
    • 제19권5호
    • /
    • pp.33-41
    • /
    • 2018
  • 최근 인터넷 기술이 발전함에 따라 다양한 프로그램들이 만들어지고 있고 이에 따라 다양한 코드들이 많은 사람들을 통해 만들어진다. 이러한 측면을 이용하여 특정 작성자가 작성한 코드들 그대로 가져가 자신이 작성한 것처럼 보여주거나, 참고한 코드들에 대한 정확한 표기 없이 그대로 사용하여 이에 대한 보호가 점차 어려워지고 있다. 따라서 본 논문에서는 작성자 분석 이론과 합성곱 신경망 기반 자연어 처리 방법을 적용한 작성자 식별 프레임워크룰 제안한다. 작성자 분석 이론을 적용하여 소스 코드에서 작성자 식별에 적합한 특징들을 추출하고 이를 텍스트 마이닝에서 사용하고 있는 특징들과 결합하여 기계학습 기반의 작성자 식별을 수행한다. 그리고 합성곱 신경망 기반 자연어 처리 방법을 소스 코드에 적용하여 코드 작성자 분류를 수행한다. 본 논문에서는 작성자 분석이론과 합성곱 신경망을 적용한 작성자 식별 프레임워크를 통해 작성자를 식별하기 위해서는 작성자 식별만을 위한 특징들이 필요하다는 것과 합성곱 신경망 기반 자연어 처리 방법이 소스 코드등과 같은 특수한 체계를 갖추고 있는 언어에서도 적용이 가능하다. 실험 결과 작성자 분석 이론 기반 작성자 식별 정확도는 95.1%였으며 CNN을 적용한 결과 반복횟수가 90번 이상일 경우 98% 이상의 정확도를 보여줬다.

추론 및 비교사학습 기법 기반 레이블링을 적용한 탐지 모델 (A Detection Model using Labeling based on Inference and Unsupervised Learning Method)

  • 홍성삼;김동욱;김병익;한명묵
    • 인터넷정보학회논문지
    • /
    • 제18권1호
    • /
    • pp.65-75
    • /
    • 2017
  • 탐지 모델은 인공지능 기법들이나 데이터 마이닝 기법, 또는 지능형 알고리즘들을 이용하여 어떠한 목적에 맞는 결과를 찾고자 하는 모델들이다. 사이버 보안에서는 주로 침입탐지, 악성코드 탐지, 침해사고 탐지, 공격 탐지로 활용되고 있다. 보안데이터와 같은 실제 환경에 수집되는 데이터들을 레이블이 되지 않은 데이터들이 많다. 클래스 레이블이 정해지지 않아 유형을 알 수 없는 데이터가 많아 정확한 탐지 및 분석을 하기 위해서는 레이블 결정과정이 필요하다. 본 논문에서 제안하는 방법은 레이블 결정을 위해 D-S 추론 알고리즘과 비교사 방법인 k-means 알고리즘을 적용하여 각 데이터의 레이블을 융합하여 결정할 수 있는 KDFL(K-means and D-S Fusion based Labeling)제안하였으며 이를 적용한 탐지 모델 구조를 제안하였다. 제안하는 방법은 실험을 통해 기존의 방법에 비해 탐지율, 정확도, F1-measure 성능 지표에서 우수한 성능을 나타냈다. 또한 오류율도 크게 개선된 결과를 나타내어 제안하는 방법의 성능을 검증할 수 있었다.

CNN-LSTM 딥러닝 기반 캠퍼스 전력 예측 모델 최적화 단계 제시 (Proposal of a Step-by-Step Optimized Campus Power Forecast Model using CNN-LSTM Deep Learning)

  • 김예인;이세은;권용성
    • 한국산학기술학회논문지
    • /
    • 제21권10호
    • /
    • pp.8-15
    • /
    • 2020
  • 딥러닝을 사용한 예측 방법은 동일한 예측 모델과 파라미터를 사용한다 하더라도 데이터셋의 특성에 따라 결과가 일정하지 않다. 예를 들면, 데이터셋 A에 최적화된 예측 모델 X를 다른 특성을 가진 데이터셋 B에 적용하면 데이터셋 A와 같이 좋은 예측 결과를 기대하기 어렵다. 따라서 높은 정확도를 갖는 예측 모델을 구현하기 위해서는 데이터셋의 성격을 고려하여 예측 모델을 최적화하는 것이 필요하다. 본 논문에서는 하루 대학 캠퍼스 전력사용량을 1시간 단위로 예측하기 위해 데이터셋의 특성이 고려된 예측 모델이 도출되는 일련의 방법을 단계적으로 제시한다. 데이터 전처리 과정을 시작으로, 이상치 제거와 데이터셋 분류 과정 그리고 합성곱 신경망과 장기-단기 기억 신경망이 결합된 알고리즘(CNN-LSTM: Convolutional Neural Networks-Long Short-Term Memory Networks) 기반 하이퍼파라미터 튜닝 과정을 소개한다. 본 논문에서 제안하는 예측 모델은, 각 시간별 24개 포인트에서 2%의 평균 절대비율 오차(MAPE: Mean Absolute Percentage Error)를 보인다. 단순히 예측 알고리즘만을 적용한 모델과는 달리, 단계적 방법을 통해 최적화된 예측 모델을 사용하여 단일 전력 입력 변수만을 사용해서 높은 예측 정확도를 도출한다. 이 예측 모델은 모바일 에너지관리시스템(Energy Management System: EMS) 어플리케이션에 적용되어 관리자나 소비자에게 최적의 전력사용 방안을 제시할 수 있으며 전력 사용 효율 개선에 크게 기여할 것으로 기대된다.

항공 라이다 데이터를 이용한 건물 모델링의 자동화 (Automation of Building Extraction and Modeling Using Airborne LiDAR Data)

  • 임새봄;김정현;이동천
    • 한국측량학회지
    • /
    • 제27권5호
    • /
    • pp.619-628
    • /
    • 2009
  • LiDAR는 광범위한 지역의 지형 지물 및 지표면에 대한 3차원 좌표를 신속하게 획득할 수 있는 장비로 고정밀의 3차원 공간데이터를 제공하는 장점이 있다. 그러나 LiDAR 데이터는 불규칙한 3차원 점 데이터로 구성되어 있으므로, 의미적이고 시각적인 정보를 제공하지 않으며, LiDAR 데이터만을 사용하여 정보를 추출하는 것은 어렵다. 본 연구에서는 항공 LiDAR 데이터로부터 건물의 외곽선 자동 추출 및 3차원 상세 모델링을 위한 방법을 제안하였다. 전처리 과정으로 반복적 평면 fiitting을 통하여 노이즈 및 불필요한 데이터를 제거하고, 히스토그램 분석을 수행하여 지면과 비지면 데이터를 효과적으로 분리하였다. 건물 외곽선을 추출하기 위해서 객체추적 기법을 이용하여 건물의 외곽에 해당하는 LiDAR 점들을 분류하였으며, 선행과정을 통해 LiDAR 데이터로부터 최종적으로 건물의 외곽선을 추출하였다. 정확도 검증을 위해 추출된 건물의 외곽선을 1:1,000 수치지도와 비교한 결과, 실험지역의 평면 RMSE가 약 0.56m였다. 또한, 건물의 상부구조물의 형태를 재현하기 위한 특성정보 추출 방법을 제안하였다. 지붕면을 세부적으로 분할하고 모델링하기 위하여 통계적 및 기하적 특성정보를 이용하였으며, 각각의 상부구조물에 적합한 수학적 함수를 최소제곱법에 의해 결정함으로써 3차원 모델링이 가능하도록 하였다. 상부구조물 모델링 결과 각 형태에 따른 RMSE가 사각형 상부구조물은 0.91m, 삼각형 상부구조물은 1.43m, 아치형 상부구조물은 1.85m, 돔형 상부구조물이 1.97m였다. 이는 원시 LiDAR 데이터로부터 지붕면 분할 및 3차원 자동 모델링이 효과적으로 수행되었음을 보여주고 있다.

전자눈을 이용한 햅쌀, 묵은쌀 및 이의 혼합쌀 판별 분석 (Discrimination analysis of new rice, stale rice, and their mixture using an electronic eye)

  • 홍지화;이재훤;조영호;최경후;이민휘;박영준;김현태
    • 한국식품과학회지
    • /
    • 제49권5호
    • /
    • pp.469-473
    • /
    • 2017
  • 본 연구는 햅쌀과 묵은쌀 및 이의 혼합곡 판별을 위하여 전자 눈 분석을 이용한 쌀 신곡과 구곡 판별법 개발 연구를 수행하였다. 국내에서 수집된 신구곡을 대상으로 GOP 시약처리를 통해 효소 활성에 따른 정색 반응을 확인한 후 전자눈 장비를 이용하여 신곡과 구곡의 판별에 적합한 색깔 코드의 선별과 이를 이용한 쌀 신곡과 구곡의 판별법을 개발하였다. 미지시료를 이용하여 판별 정확도를 분석한 결과 신곡과 구곡인 단일곡은 100%의 정확도로 판별이 되었으나 혼합곡의 경우 혼합된 비율에 따라 판별 정확도가 달라졌다. 혼합곡은 신곡과 구곡의 혼합 비율에서 구곡이 비율이 높아질수록 판별 정확도가 높아지는 것으로 나타났다. 이러한 결과를 통해 전자눈 분석을 통하여 햅쌀과 묵은쌀을 판별할 수 있는 실용적인 판별 체계를 구축하였으므로 본 연구를 통해 개발된 판별식은 쌀 신구곡 판별을 위한 과학적인 근거자료로서 활용이 가능할 것으로 판단된다.

청소년정서행동발달검사 표준화 연구 자료를 활용한 교사의 학교폭력 피해자 인지도 (Teachers' Recognition of Victims of School Bullying Using Data from the Adolescents' Mental Health and Problem Behavior Screening Questionnaire-II Standardization Study in Korea)

  • 황준원;방수영;유한익;김지훈;김봉석;안동현;서동수;조수철;반건호;이영식
    • Journal of the Korean Academy of Child and Adolescent Psychiatry
    • /
    • 제23권2호
    • /
    • pp.69-75
    • /
    • 2012
  • Objectives : The current study was conducted in order to investigate teachers' recognition of school bullying using a nationwide database of adolescents in middle and high school in Korea. Methods : Students in the 7th to 12th grades at 23 secondary schools participated in the current study during the fall of 2009. Subjects completed the self-report form of the Adolescent Mental Health and Problem Behavior Screening Questionnaire-II (AMPQ-II) and Symptom Checklist-90 Revised (SCL-90-R). In addition, relevant teachers used the teachers' rating scale of the AMPQ-II to report their students' status. Differences in the number of bullied students between teachers' recognition and students' report were explored. Results : A total of 2270 subjects provided relevant responses to the questionnaire. While the one-month prevalence of victimization according to students' self-reports was 28.9%, the recognized prevalence by teachers was only 10.6%. For prediction of the presence of school bullying according to students' self reports on the AMPQ-II, item 7 of the teachers' report on the AMPQ-II showed a sensitivity of 16%, a specificity of 92%, a positive predictability of 44%, a negative predictability of 72%, a false positive rate of 8%, a false negative rate of 84%, and an accuracy of 69%, respectively. No significant differences in subscores of students' self reports of the AMPQ-II and SCL-90-R were observed between bullied students who were recognized by teachers and those who were not recognized. In stepwise discriminant analysis, classification of teachers' item 2 and item 7 on the AMPQ-II with respect to school bullying according to students' reports showed an accuracy of 63.4%. Using this model, 75.2% of non-victimized subjects were classified correctly, while only 35.2% of victimized subjects were classified correctly. Conclusion : Despite the high prevalence in Korea, teachers' recognition of school violence among their students remains low. Pre-professional and continuing education to improve teachers' understanding of school bullying and knowledge of effective classroom-based prevention activities should be encouraged.

HTTP 응용들의 식별을 위한 패턴 기반의 시그니쳐 생성 (Pattern-based Signature Generation for Identification of HTTP Applications)

  • 진창규;최미정
    • 정보화연구
    • /
    • 제10권1호
    • /
    • pp.101-111
    • /
    • 2013
  • 오늘날 인터넷의 발달과 더불어 다양한 스마트 기기들의 증가로 인하여 많은 양의 트래픽이 발생하고 있다. 특히 기존의 데스크탑 이외의 다양한 모바일 기기와 스마트 디바이스에서는 HTTP 기반의 응용 트래픽이 많이 증가하고 있다. 이렇게 증가하는 모바일 트래픽은 인터넷에 망 과부하, 웹보안과 같은 다양한 문제들을 발생시키고 있다. 인터넷 망의 과부하 및 보안 문제를 해결하기 위해서는 우선적으로 응용의 정확한 탐지가 필요하다. 이를 위하여 전통적으로는 잘 알려진 포트 기반의 분석 방법이 사용되었다. 그러나 과도한 트래픽을 발생시켜 방화벽이나 IDS 장비에서 포트를 제한한 P2P 응용 프로그램들이 포트를 변경하여 사용하기 때문에 포트 기반의 분석은 정확성이 떨어진다. 이를 보안하기 위하여 제안된 시그니쳐 기반의 분석 방법의 경우 잘 알려진 포트 기반 분석 방법에 비해 비교적 높은 분석률과 정확성을 가지지만 분석에 필요한 시그니쳐를 생성해야 하는 오버헤드를 가지고 있다. 또한 기존의 시그니쳐에 생성에 관한 연구는 각각의 응용에 대해 분류하고 분석하지만 HTTP를 이용하는 트래픽에 대해서는 프로토콜 레벨의 분석만 가능할 뿐 HTTP를 전송 프로토콜로 사용하는 응용 프로그램의 분류와 같은 깊이 있는 분석이 이루어지지 않고 있다. 본 논문에서는 HTTP 헤더의 반정형적인 특성을 바탕으로 HTTP 기반 응용을 정확히 탐지하기 위한 시그니쳐 생성 방법에 대하여 제시하고 있다. 이를 학내망 트래픽에 실제 적용함으로써 본 논문의 타당성을 보인다.