• 제목/요약/키워드: 판별모델

검색결과 623건 처리시간 0.023초

A Classification Model for Illegal Debt Collection Using Rule and Machine Learning Based Methods

  • Kim, Tae-Ho;Lim, Jong-In
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.93-103
    • /
    • 2021
  • 금융당국의 채권추심 가이드라인, 추심업자에 대한 직접적인 관리 감독 수행 등의 노력에도 불구하고 채무자에 대한 불법, 부당한 채권 추심은 지속되고 있다. 이러한 불법, 부당한 채권추심행위를 효과적으로 예방하기 위해서는 비정형데이터 기계학습 등 기술을 활용하여 적은 인력으로도 불법 추심행위에 대한 점검 등에 대한 모니터링을 강화 할 수 있는 방법이 필요하다. 본 연구에서는 대부업체의 추심 녹취 파일을 입수하여 이를 텍스트 데이터로 변환하고 위법, 위규 행위를 판별하는 규칙기반 검출과 SVM(Support Vector Machine) 등 기계학습을 결합한 불법채권추심 분류 모델을 제안하고 기계학습 알고리즘에 따라 얼마나 정확한 식별을 하였는지를 비교해 보았다. 본 연구는 규칙기반 불법 검출과 기계학습을 결합하여 분류에 활용할 경우 기존에 연구된 기계학습만을 적용한 분류모델 보다 정확도가 우수하다는 것을 보여 주었다. 본 연구는 규칙기반 불법검출과 기계학습을 결합하여 불법여부를 분류한 최초의 시도이며 후행연구를 진행하여 모델의 완성도를 높인다면 불법채권 추심행위에 대한 소비자 피해 예방에 크게 기여할 수 있을 것이다.

An Experimental Comparison of CNN-based Deep Learning Algorithms for Recognition of Beauty-related Skin Disease

  • Bae, Chang-Hui;Cho, Won-Young;Kim, Hyeong-Jun;Ha, Ok-Kyoon
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권12호
    • /
    • pp.25-34
    • /
    • 2020
  • 본 논문에서는 딥러닝 지도학습 알고리즘을 사용한 학습 모델을 대상으로 미용 관련 피부질환 인식의 효과성을 실험적으로 비교한다. 최근 딥러닝 기술을 산업, 교육, 의료 등 다양한 분야에 적용하고 있으며, 의료 분야에서는 중요 피부질환 중 하나인 피부암 식별의 수준을 전문가 수준으로 높인 성과를 보이고 있다. 그러나 아직 피부미용과 관련된 질환에 적용한 사례가 다양하지 못하다. 따라서 딥러닝 기반 이미지 분류에 활용도가 높은 CNN 알고리즘을 비롯하여 ResNet, SE-ResNet을 적용하여 실험적으로 정확도를 비교함으로써 미용 관련 피부질환을 판단하는 효과성을 평가한다. 각 알고리즘을 적용한 학습 모델을 실험한 결과에서 CNN의 경우 평균 71.5%, ResNet은 평균 90.6%, SE-ResNet은 평균 95.3%의 정확도를 보였다. 특히 학습 깊이를 다르게하여 비교한 결과 50개의 계층 구조를 갖는 SE-ResNet-50 모델이 평균 96.2%의 정확도로 미용 관련 피부질환 식별을 위해 가장 효과적인 결과를 보였다. 본 논문의 목적은 피부 미용과 관련된 질환의 판별을 고려하여 효과적인 딥러닝 알고리즘의 학습과 방법을 연구하기 위한 것으로 이를 통해 미용 관련 피부질환 개선을 위한 서비스 개발로 확장할 수 있을 것이다.

합성곱 신경망을 이용한 '미황' 복숭아 과실의 성숙도 분류 (Grading of Harvested 'Mihwang' Peach Maturity with Convolutional Neural Network)

  • 신미희;장경은;이슬기;조정건;송상준;김진국
    • 생물환경조절학회지
    • /
    • 제31권4호
    • /
    • pp.270-278
    • /
    • 2022
  • 본 연구는 무대재배 복숭아 '미황'을 대상으로 성숙기간 중 RGB 영상을 취득한 후 다양한 품질 지표를 측정하고 이를 딥러닝 기술에 적용하여 복숭아 과실 숙도 분류의 가능성을 탐색하고자 실시하였다. 취득 영상 730개의 데이터를 training과 validation에 사용하였고, 170개는 최종테스트 이미지로 사용하였다. 본 연구에서는 딥러닝을 활용한 성숙도 자동 분류를 위하여 조사된 품질 지표 중 경도, Hue 값, a*값을 최종 선발하여 이미지를 수동으로 미성숙(immature), 성숙(mature), 과숙(over mature)으로 분류하였다. 이미지 자동 분류는 CNN(Convolutional Neural Networks, 컨볼루션 신경망) 모델 중에서 이미지 분류 및 탐지에서 우수한 성능을 보이고 있는 VGG16, GoogLeNet의 InceptionV3 두종류의 모델을 사용하여 복숭아 품질 지표 값의 분류 이미지별 성능을 측정하였다. 딥러닝을 통한 성숙도 이미지 분석 결과, VGG16과 InceptionV3 모델에서 Hue_left 특성이 각각 87.1%, 83.6%의 성능(F1 기준)을 나타냈고, 그에 비해 Firmness 특성이 각각 72.2%, 76.9%를 나타냈고, Loss율이 각각 54.3%, 62.1%로 Firmness를 기준으로 한 성숙도 분류는 적용성이 낮음을 확인하였다. 추후에 더 많은 종류의 이미지와 다양한 품질 지표를 가지고 학습이 진행된다면 이전 연구보다 향상된 정확도와 세밀한 성숙도 판별이 가능할 것으로 판단되었다.

센서드리프트 판별을 위한 통계적 탐지기술 고찰 (Statistical Techniques to Detect Sensor Drifts)

  • 서인용;신호철;박문규;김성준
    • 한국시뮬레이션학회논문지
    • /
    • 제18권3호
    • /
    • pp.103-112
    • /
    • 2009
  • 원자력발전소에서 센서의 주기적 교정은 안전운전을 위해 꼭 필요하다. 그러나 실제 드리프트가 발생하여 교정을 요하는 센서는 약 2% 미만이다. 또한, 센서의 작동 상태를 매 핵연료 주기마다 수행하는 것은 고장 혹은 드리프트가 발생한 센서를 최대 18개월까지 감지하지 못한 채 운전할 위험이 있다. 원전의 안전운전 및 불필요한 교정을 줄이기 위해 센서의 상시 교정 감시가 필요하다. 이를 위해 주성분 분석과 Support Vector Regression(SVR)을 이용한 PCSVR 알고리즘을 개발하였고, 고리원전 3호기의 출력증발 데이터를 이용하여 검증하였다. 주성분분석은 선형변환을 통한 입력공간의 축소 및 노이즈 제거 효과를 나타내며, AASVR은 해석학적 및 기계학적 모델로 모델링하기 힘든 복잡계를 쉽게 나타낼 수 있는 장점이 있다. SVR의 세가지 파라미터는 반응표면분석법에 의해 최적화하였다. 센서의 고장탐지를 위해 모델 출력의 잔차를 슈하르트 관리도, EWMA, CUSUM 및 일반화우도비검정(GLRT)을 통해 그 결과를 비교하였다. 미세한 드리프트에 대해 CUSUM과 GLRT가 우수한 결과를 보였다. 개발된 알고리즘은 수출형 원전 APR1000 설계시 적용가능 할 것으로 판단된다.

A Study on the Domain Discrimination Model of CSV Format Public Open Data

  • Ha-Na Jeong;Jae-Woong Kim;Young-Suk Chung
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.129-136
    • /
    • 2023
  • 정부는 공공데이터 품질관리 수준평가를 진행하여 공공 개방데이터의 품질관리를 진행하고 있다. 공공 개방데이터는 XML, JSON, CSV 등 여러 오픈포맷 형태로 제공되며 CSV 형식이 대다수를 차지한다. 이러한 CSV 형식의 공공 개방데이터 품질진단 시 품질진단 담당자가 공공 개방데이터 파일의 필드명과 필드 내 데이터에 의존하여 필드 별 도메인을 판단하여 진단한다. 그러나 대량의 개방 데이터 파일을 대상으로 품질진단을 수행하기 때문에 많은 시간이 소요된다. 또한 의미 파악이 어려운 필드의 경우 품질진단의 정확성이 품질진단 담당자의 데이터 이해도 역량의 영향을 받는다. 본 논문은 필드명과 데이터 분포 통계를 이용한 CSV 형식 공공 개방데이터의 도메인 판별 모델을 제안하여 품질진단 결과가 품질진단 담당자의 역량에 좌지우지 되지 않도록 일관성과 정확성을 보장하고 진단 소요 시간 단축을 지원한다. 본 논문의 모델 적용 결과 행정안전부에서 제공하는 파일형식 개방데이터 진단도구보다 2.8% 높은 약 77%의 정답률을 보였다. 이를 통해 공공데이터 품질관리 수준진단·평가에 제안 모델 적용 시 정확성을 향상시킬 수 있을 것으로 기대한다.

딥 러닝 분류 모델을 이용한 직하방과 경사각 영상 기반의 벼 출수기 판별 (Estimation of Rice Heading Date of Paddy Rice from Slanted and Top-view Images Using Deep Learning Classification Model)

  • 박혁진;상완규;장성율;권동원;임우진;이지현;정남진;조정일
    • 한국농림기상학회지
    • /
    • 제25권4호
    • /
    • pp.337-345
    • /
    • 2023
  • 벼의 출수기를 추정하는 것은 농업생산성과 관련된 중요한 과정 중 하나이지만 세계적인 이상기후의 증가로 벼의 출수기를 추정하는 것이 어려워지고 있다. 본 연구에서는 CNN 분류모델을 사용하여 다양한 영상데이터에서 벼의 출수기를 추정하려고 시도하였다. 드론과 타워형 영상관측장치 그리고 일반 RGB 카메라로 촬영된 직하방과 경사각 영상을 수집하였다. 수집한 영상은 CNN 모델의 입력데이터로 사용하기 위해서 전처리를 진행하였고, 사용된 CNN 아키텍처는 이미지 분류 모델에서 일반적으로 사용되는 ResNet50, InceptionV3 그리고 VGG19 를 사용하였다. 각각의 아키텍처는 모델의 종류, 영상의 유형과 관계없이 0.98 이상의 정확도를 나타내었다. 또한 CNN 분류 모델이 영상의 어떤 특징을 보고 분류하였는지 시각적으로 확인하기 위해서 Grad-CAM 을 사용하였다. Grad-CAM 결과 CNN 분류 모델은 벼의 출수를 이삭의 형태에 높은 가중치를 두어 분류 하는 것을 확인하였다. 다음으로 작성된 모델이 실제 논 포장 모니터링 이미지에서 벼의 출수기를 정확하게 추정하는지 확인하였다. 각각 다른 지역 4 개의 벼 포장에서 벼의 출수기를 약 하루정도의 차이로 추정하는 것을 확인하였다. 이 방법을 통해서 다양한 논 포장의 모니터링 이미지를 활용하여 자동적이고 정량적으로 벼의 출수기를 추정 할 수 있다고 판단된다.

불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델 (A Hybrid SVM Classifier for Imbalanced Data Sets)

  • 이재식;권종구
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.125-140
    • /
    • 2013
  • 어떤 클래스에 속한 레코드의 개수가 다른 클래스들에 속한 레코드의 개수보다 매우 많은 경우에, 이 데이터 집합을 '불균형 데이터 집합'이라고 한다. 데이터 분류에 사용되는 많은 기법들은 이러한 불균형 데이터에 대해서 저조한 성능을 보인다. 어떤 기법의 성능을 평가할 때에 적중률뿐만 아니라, 민감도와 특이도도 함께 측정하여야 한다. 고객의 이탈을 예측하는 문제에서 '유지' 레코드가 다수 클래스를 차지하고, '이탈' 레코드는 소수 클래스를 차지한다. 민감도는 실제로 '유지'인 레코드를 '유지'로 예측하는 비율이고, 특이도는 실제로 '이탈'인 레코드를 '이탈'로 예측하는 비율이다. 많은 데이터 마이닝 기법들이 불균형 데이터에 대해서 저조한 성능을 보이는 것은 바로 소수 클래스의 적중률인 특이도가 낮기 때문이다. 불균형 데이터 집합에 대처하는 과거 연구 중에는 소수 클래스를 Oversampling하여 균형 데이터 집합을 생성한 후에 데이터 마이닝 기법을 적용한 연구들이 있다. 이렇게 균형 데이터 집합을 생성하여 예측을 수행하면, 특이도는 다소 향상시킬 수 있으나 그 대신 민감도가 하락하게 된다. 본 연구에서는 민감도는 유지하면서 특이도를 향상시키는 모델을 개발하였다. 개발된 모델은 Support Vector Machine (SVM), 인공신경망(ANN) 그리고 의사결정나무 기법 등으로 구성된 하이브리드 모델로서, Hybrid SVM Model이라고 명명하였다. 구축과정 및 예측과정은 다음과 같다. 원래의 불균형 데이터 집합으로 SVM_I Model과 ANN_I Model을 구축한다. 불균형 데이터 집합으로부터 Oversampling을 하여 균형 데이터 집합을 생성하고, 이것으로 SVM_B Model을 구축한다. SVM_I Model은 민감도에서 우수하고, SVM_B Model은 특이도에서 우수하다. 입력 레코드에 대해서 SVM_I와 SVM_B가 동일한 예측치를 도출하면 그것을 최종 해로 결정한다. SVM_I와 SVM_B가 상이한 예측치를 도출한 레코드에 대해서는 ANN과 의사결정나무의 도움으로 판별 과정을 거쳐서 최종 해를 결정한다. 상이한 예측치를 도출한 레코드에 대해서는, ANN_I의 출력값을 입력속성으로, 실제 이탈 여부를 목표 속성으로 설정하여 의사결정나무 모델을 구축한다. 그 결과 다음과 같은 2개의 판별규칙을 얻었다. 'IF ANN_I output value < 0.285, THEN Final Solution = Retention' 그리고 'IF ANN_I output value ${\geq}0.285$, THEN Final Solution = Churn'이다. 제시되어 있는 규칙의 Threshold 값인 0.285는 본 연구에서 사용한 데이터에 최적화되어 도출된 값이다. 본 연구에서 제시하는 것은 Hybrid SVM Model의 구조이지 특정한 Threshold 값이 아니기 때문에 이 Threshold 값은 대상 데이터에 따라서 얼마든지 변할 수 있다. Hybrid SVM Model의 성능을 UCI Machine Learning Repository에서 제공하는 Churn 데이터 집합을 사용하여 평가하였다. Hybrid SVM Model의 적중률은 91.08%로서 SVM_I Model이나 SVM_B Model의 적중률보다 높았다. Hybrid SVM Model의 민감도는 95.02%이었고, 특이도는 69.24%이었다. SVM_I Model의 민감도는 94.65%이었고, SVM_B Model의 특이도는 67.00%이었다. 그러므로 본 연구에서 개발한 Hybrid SVM Model이 SVM_I Model의 민감도 수준은 유지하면서 SVM_B Model의 특이도보다는 향상된 성능을 보였다.

역량 중심의 과학 영재 교육을 위한 과학자의 핵심 역량 모델 개발 및 타당화 (The Development on Core Competency Model of Scientist and Its Verification for Competency-Based Science Gifted Education)

  • 박재진;윤지현;강성주
    • 영재교육연구
    • /
    • 제24권4호
    • /
    • pp.509-541
    • /
    • 2014
  • 21세기 지식 기반 사회가 추구하는 가치나 비전에 따른 과학 영재 교육의 새로운 방향으로서 핵심 역량 중심의 교육을 고려해 볼 필요가 있다. 따라서 이 연구에서는 향후 핵심 역량 중심의 과학 영재 교육을 위한 선결 요건으로서 과학자의 핵심 역량 모델을 개발하고, 타당성을 검토하였다. 이를 위하여 논문, 도서, 신문 기사, 행동사건면접에 대한 분석을 바탕으로 설문 문항을 개발한 후 설문 조사를 실시하였다. 그리고 설문 조사 결과를 바탕으로, 탐색적 요인분석을 실시하였다. 그 결과, 5개의 역량군, 15개의 하위 역량으로 구성된 잠재적인 핵심 역량 모델을 구성할 수 있었고, 확인적 요인분석을 통해 탐색된 핵심 역량 모델의 신뢰도와 수렴타당도, 판별타당도 등을 확보할 수 있었다. 과학자의 핵심 역량 모델에서 '인지' 역량군은 '창의적 사고', '종합적 사고', '탐색적 사고', '분석적 사고', '개념적 사고'의 5개 하위 역량으로 구성되었다. '성취지향' 역량군은 '주도성', '준비 및 문제해결력', '전략적 영향력'의 3개 하위 역량으로 구성되었고, '과학적 태도' 역량군은 '유연한 사고와 태도', '연구 열정', '과학에 대한 견해'의 3개 하위 역량으로 구성되었다. '개인 효과성' 역량군은 '풍부한 경험과 체험', '글로벌 자세'의 2개 하위 역량으로 구성되었으며, 마지막으로, '네트워킹' 역량군은 '대인이해', '의사소통'의 2개 하위 역량으로 구성되었다. 이 연구 결과는 과학자의 핵심 역량 모델을 과학 영재 교육에 소개하고, 핵심 역량 중심의 과학 영재 교육을 위한 프로그램 개발이나 전략 마련 등을 위한 기초 자료를 제공해 줄 수 있을 것으로 기대된다.

GM 파파야 개발 및 생물안전성 평가 연구 동향 (Research status of the development of genetically modified papaya (Carica papaya L.) and its biosafety assessment)

  • 김호방;이이;김창기
    • Journal of Plant Biotechnology
    • /
    • 제45권3호
    • /
    • pp.171-182
    • /
    • 2018
  • 파파야는 열대와 아열대 지역에서 광범위하게 재배되고 있는 주요 작물 중의 하나이다. 파파야 열매는 칼로리가 낮고 비타민 A와 C, 미네랄이 풍부하며, 미숙과에는 단백질 분해 효소인 파파인이 풍부하여 의약품, 화장품, 식품 가공 산업 등에 널리 활용되고 있다. 전세계 파파야 산업에서 가장 중요한 제한 요인 중의 하나가 potyvirus에 속하는 papaya ringspot virus (PRSV)에 의해 야기되는 식물병이다. 1992년에 미국 연구자들에 의해 PRSV의 coat protein (cp) 유전자를 발현하는 최초의 PRSV-저항성 GM 파파야 이벤트($R_0$ '55-1')가 만들어졌으며, 1997년에는 이로부터 유래한 GM 품종('SunUp', 'Rainbow')에 대해 미국 정부가 상업적 재배를 승인하였다. 현재까지 GM 파파야 개발은 해충 저항성, 병 저항성(곰팡이, 바이러스), 수확 후 저장성 증대, 알루미늄과 제초제 저항성 등의 형질에 초점을 맞추어 왔다. 아울러 파파야를 동물단백질(백신 등) 생산을 위한 식물공장으로 활용하기 위한 시도도 이루어졌다. 현재, 미국과 중국을 비롯한 약 17개 국가에서 GM 파파야 개발과 포장 실험 또는 상업적 재배가 이루어지고 있다. GM 파파야의 개발과 더불어 생물안전성 평가 및 GM 판별 기술 개발에 관한 연구도 이루어지고 있다. 생물안전성 평가와 관련하여 주로 인체 위해성과 환경 위해성에 관한 분석이 수행되고 있다. 인체 위해성의 경우, 동물 모델을 대상으로 장기간 식이섭취를 통해 일반 및 유전 독성, 알레르기항원성, 면역 반응, GM 유래 단백질의 안정성에 관한 연구가 수행되었다. 환경 위해성의 경우, GM 재배가 토양 미생물 다양성에 미치는 영향, GM 유래 유전물질의 토양 잔류 및 토양 미생물로의 전이 여부에 관한 연구가 이루어졌다. 우리나라, 유럽 및 일본을 비롯한 많은 나라에서는 상업적 재배를 위한 GM 품종 도입이나, 파파야 가공 식품 제조에 비승인 GM 파파야의 사용을 규제하고 있다. 도입 유전자 특이적 또는 이벤트 특이적인 분자표지를 개발하고, PCR(일반, real-time) 또는 loop-mediated isothermal amplification 방법을 통해 GM 여부를 판별하고 있다. 파파야에 대한 초안 수준의 유전체 정보가 2008년에 해독되었으며, 최근에는 차세대 유전체 분석 기술로 확보된 유전체와 전사체 정보를 활용하여 GM 여부를 판별하는 기술도 확립되었다.

웹사이트의 구조를 고려한 개인정보 노출 위험도 계산 기법 (A Method for Calculating Exposure Risks of Privacy Information based on Website Structures)

  • 이수경;손진식;김관호
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.1-14
    • /
    • 2016
  • 본 연구에서는 개인정보가 웹사이트에 노출될 시 위험 정도를 수치화할 수 있는 웹사이트 구조기반의 개인정보 노출 위험도 모델을 정의하기 위해 아래와 같은 두 가지 측면을 고려한다. 첫 번째는 개인정보가 노출되었을 경우 얼마나 민감한 정보인가에 따라 위험수준을 정의한다. 두 번째는 개인정보의 실제 노출 가능성을 측정하기 위해 웹페이지의 예상 방문 확률을 계산하여 어느 웹페이지에 노출된 개인정보가 더 위험한지 판별한다. 이를 바탕으로 대학교, 은행, 중앙 행정 기관, 시 도 교육청 4개의 분류를 선정하여 웹사이트 위험도를 측정하였다. 실험 결과, 은행은 다른 분류에 비해 상대적으로 잘 관리되고 있었으며 시 도 교육청, 중앙행정 기관, 대학교의 경우 웹사이트 위험도가 높게 측정되었다. 마지막으로, 본 연구는 개인정보 노출 문제의 완화를 위한 우선순위 기반 대처방안 수립에 도움을 줄 것으로 기대한다.