• 제목/요약/키워드: Classification accuracy

검색결과 3,065건 처리시간 0.03초

MLOps를 위한 효율적인 AI 모델 드리프트 탐지방안 연구 (A Study on Efficient AI Model Drift Detection Methods for MLOps)

  • 이예은;이태진
    • 인터넷정보학회논문지
    • /
    • 제24권5호
    • /
    • pp.17-27
    • /
    • 2023
  • 오늘날 AI(Artificial Intelligence) 기술이 발전하면서 실용성이 증가함에 따라 실생활 속 다양한 응용 분야에서 널리 활용되고 있다. 이때 AI Model은 기본적으로 학습 데이터의 다양한 통계적 속성을 기반으로 학습된 후 시스템에 배포되지만, 급변하는 데이터의 상황 속 예상치 못한 데이터의 변화는 모델의 성능저하를 유발한다. 특히 보안 분야에서 끊임없이 생성되는 새로운 공격과 알려지지 않은 공격에 대응하기 위해서는 배포된 모델의 Drift Signal을 찾는 것이 중요해짐에 따라 모델 전체의 Lifecycle 관리 필요성이 점차 대두되고 있다. 일반적으로 모델의 정확도 및 오류율(Loss)의 성능변화를 통해 탐지할 수 있지만, 모델 예측 결과에 대한 실제 라벨이 필요한 점에서 사용 환경의 제약이 존재하며, 실제 드리프트가 발생한 지점의 탐지가 불확실한 단점이 있다. 그 이유는 모델의 오류율의 경우 다양한 외부 환경적 요인, 모델의 선택과 그에 따른 파라미터 설정, 그리고 새로운 입력데이터에 따라 크게 영향을 받기에 해당 값만을 기반으로 데이터의 실질적인 드리프트 발생 시점을 정밀하게 판단하는 것은 한계가 존재하게 된다. 따라서 본 논문에서는 XAI(eXplainable Artificial Intelligence) 기반 Anomaly 분석기법을 통해 실질적인 드리프트가 발생한 시점을 탐지하는 방안을 제안한다. DGA(Domain Generation Algorithm)를 탐지하는 분류모델을 대상으로 시험한 결과, 배포된 이후 데이터의 SHAP(Shapley Additive exPlanations) Value를 통해 Anomaly score를 추출하였고, 그 결과 효율적인 드리프트 시점탐지가 가능함을 확인하였다.

중증 장애우용 음성구동 휠체어를 위한 강인한 음성인식 알고리즘 (Robust Speech Recognition Algorithm of Voice Activated Powered Wheelchair for Severely Disabled Person)

  • 석수영;정현열
    • 한국음향학회지
    • /
    • 제26권6호
    • /
    • pp.250-258
    • /
    • 2007
  • 현재의 음성인식 기술은 하드웨어 기술의 발전과 더불어 여러 분야에 응용되고 있지만 음성구동 휠체어와 같은 고신뢰성이 요구되는 응용분야에서는 아직도 그 성능이 불충분하다. 실 환경에서 음성을 통해 안전하게 휠체어를 제어하기 위해서는 도로의 소음 등과 같은 주변잡음의 영향에 의한 음성인식 성능의 저하, 사용자의 기침소리나 숨소리 등과 같은 비음성 입력시의 오동작, 명령어의 불명확한 발성과 일반인과는 다른 발성 속도 및 발성 주파수 등을 고려한 인식시스템이 필요하다. 이를 위하여 본 논문에서는 비음성 입력시의 오동작을 방지하기 위해 인식기의 전처리 단에서 YIN 기본주파수 추출방법을 적용한 후 프레임 별 신뢰도에 기반한 고정도로 음성/비음성을 판별할 수 있는 방법을 제안하고, 불명확한발성에 대한 인식 성능 향상을 위해 화자 적응화 방법 및 개인적인 발성 변이를 표현할 수 있는 다중 후보 단어사전을 구성하여 인식성능 제고를 도모하였다. 잡음이 포함된 실 환경하에서 수집한 데이터를 대상으로 인식실험을 수행한 결과 기존의 켑스트럼 방법에서는 오류 없이 비음성을 찾아내는 재현율은 62%로 나타났으나 본 논문에서 제안한 YIN방법에 기반을 둔 신뢰도 측정방법에서는 95.1%를 나타나 우수한 성능을 나타내었다. 실 환경에서 수집된 2211개의 불명확한 발성을 대상으로 인식실험을 수행한 결과 2000상태 16 혼합수 HMnet 모델을 이용한 경우 인식률이 78.6%로 나타났으나 MAP적응화 방법 및 다중 후보 인식사전을 적용한 결과 99.5%의 인식 성능을 나타내어 제안한 방법의 유효성을 확인할 수 있었다.

중고령 노인의 개인적 가치에 따른 라이프스타일 분류: 머신러닝을 활용한 상대적 중요도 분석 (Identifying Personal Values Influencing the Lifestyle of Older Adults: Insights From Relative Importance Analysis Using Machine Learning)

  • 임승주;박지혁
    • 재활치료과학
    • /
    • 제13권2호
    • /
    • pp.69-84
    • /
    • 2024
  • 목적 : 노인의 건강한 삶의 방식으로서 라이프스타일에 대한 연구가 증가하고 있다. 라이프스타일이 개개인의 가치와 삶의 태도를 반영하는 개념임에도 불구하고, 아직까지 개인의 어떠한 가치가 라이프스타일을 건강하게 유도하는지 파악한 연구는 부족한 실정이다. 이에 본 연구는 노인의 라이프스타일 유형을 두 가지로 분류하고, 머신러닝을 활용하여 어떠한 개인적 가치가 건강한 라이프스타일에 우선적으로 작용하는지 파악하고자 한다. 연구방법 : 본 연구는 지역사회에 거주하는 55세 이상 중고령 노인 300명을 대상으로 횡단 연구를 수행하였다. 라이프스타일은 Yonsei Lifestyle Profile-Active, Balanced, Connected, Diverse (YLP-ABCD) 응답을 사용하여 잠재프로파일 분석을 통해 유형화하였다. 라이프스타일 유형을 예측하는 개인적 가치는 YLP-V (Values) 응답을 수집하여, 예측성능이 가장 높은 머신러닝 알고리즘을 선정한 후 상대적 중요도를 파악하였다. 결과 : 잠재프로파일 분석 결과, 라이프스타일은 건강한 라이프스타일 실천형(48.87%), 비실천형(51.13%)으로 분류되었다. 실천형에 속한 중고령 노인은 비실천형에 비해 사회관계가 활발한 특성을 나타내었다. 본 연구에 포함된 머신러닝 알고리즘 중 가장 우수한 성능을 보인 모델은 서포트 벡터 머신으로, 정확도 96%, Receiver Operating Characteristic (ROC) 영역 95%로 나타났다. 본 알고리즘을 바탕으로 개인적 가치의 상대적 중요도를 분석한 결과, 건강한 식단, 건강 매체, 여가활동, 건강 제품 및 머신러닝에 주의를 기울일수록, 해당 가치에 따라 중고령 노인은 건강한 라이프스타일을 실천하는 그룹에 속할 가능성이 큰 것으로 나타났다. 결론 : 본 연구는 중고령 노인의 사회적 관계망을 포함한 건강한 라이프스타일을 유도하기 위해, 건강 식단, 매체, 여가, 제품 및 습관에 대한 가치 향상을 중점적으로 다루는 종합적인 프로그램 및 서비스의 필요성을 시사한다.

국내 연체경험자의 정상변제 요인에 관한 연구 (A Study on the Factors of Normal Repayment of Financial Debt Delinquents)

  • 최성민;김호영
    • 경영정보학연구
    • /
    • 제23권1호
    • /
    • pp.69-91
    • /
    • 2021
  • 국내 개인신용평가회사들은 과거와 현재 시점의 다양한 금융거래 정보를 활용하여 개인의 신용을 평가하고 있는데, 이 중 과거에 대출을 실행하여 이를 상환 또는 연체한 이력에 대한 정보를 의미하는 '상환이력정보'는 신용평가에 활용되는 다른 항목들에 비해 상대적으로 활용 비중이 높은 항목이다. 그러나 개인이 연체된 채무를 모두 변제하여 현재 연체중인 상태가 아닌 경우에도 과거의 연체 이력이 부정적인 요인으로 최장 5년간 평가에 반영되고 있어 금융소비자에게 과도한 불이익을 준다는 지적이 지속적으로 있어 왔다. 실제로 연체 이력이 있는 개인의 경우, 연체된 채무를 성실하게 변제한 개인(정상변제)과 그렇지 않은 개인(비정상변제)으로 구분할 수 있는데, 이들 간에는 신용도의 차이가 존재하므로 '정상변제'하는 개인의 특징을 확인하여 이들에게 '상환이력정보'의 활용기간을 단축시켜 주는 등의 혜택을 제공하는 것이 바람직하다고 판단된다. 본 연구는 이러한 문제의식에서 출발하여 한국신용정보원에서 보유하고 있는 2019년 12월 말 기준, 개인의 대출·연체·변제 정보에 기반하여 국내 연체경험자의 정상변제 요인을 분석하였다. 방법론은 개인신용평가모형에서 주로 사용하는 로지스틱 회귀모형을 기본으로 하여 의사결정나무, 신경망 모형 등의 머신러닝 방법론을 추가로 활용하였으며, 각 방법론별 성능을 비교해보았다. 실증분석 결과, 연체건수, 대출·연체유형 등이 정상변제 여부에 영향을 미치는 유의한 변수들로 확인되었으며 방법론 중에는 신경망 모형의 성능이 가장 높은 것으로 나타났다. 이러한 연구결과는 연체된 개인 차주의 정상변제 여부에 영향을 미치는 요인을 확인하여 개인신용평가모형을 고도화하는데 도움이 될 수 있을 것으로 보이며 연체 후 성실하게 변제하는 개인을 정책적으로 지원하기 위한 기초자료로도 활용될 수 있을 것으로 보인다. 향후에는 정상변제 요인을 추가 발굴하여 금융업권별 정상변제 요인의 세부적인 차이를 확인하고 이를 실제 모형에 반영하는 연구가 필요할 것이다.

기술력 평가항목을 이용한 고안정성 중소기업 판별력 검증 (Verification Test of High-Stability SMEs Using Technology Appraisal Items)

  • 이준원
    • 경영정보학연구
    • /
    • 제20권4호
    • /
    • pp.79-96
    • /
    • 2018
  • 본 연구는 기술력 평가항목 중 기업의 재무안정성과 관련된 항목을 신용평가모형에 반영하여 중소기업뿐만이 아닌 전체 기업을 대상으로 한 신용평가모형의 부도변별력을 높이기 위한 기술력 평가모형의 신용평가모형 내 내재화에 착안하여 시작되었다. 따라서 기술력 평가모형이 부채비율 기준의 고안정성 중소기업을 사전에 판별하는 데 적용될 수 있는지 검증하는 것을 목표로 한다. 대상 기업을 업종(제조업 vs. 비(非)제조업)과 업력(창업기업 vs. 비(非)창업기업)으로 구분하고, 3개년 동안 해당 군집의 평균 부채비율 1/2 이하를 달성한 기업에 대해 고안정성 중소기업으로 정의한 후, C5.0 기법을 적용하여 모형의 판별력을 검증하였다. 분석결과 소항목 수준에서는 업종과 업력에 따라 중요도 간 차이가 있지만, 중항목 수준에서는 기술개발역량이 고안정성 중소기업을 판별하는 중요변수로 도출되었으며, 기업의 업력에 따라 창업 초기에는 자금조달능력(수익창출능력을 고려한 자본구조, 자본비용 및 자금조달 방법의 다양성)이 미래 고안정성 중소기업 여부를 결정하는 중요변수이지만, 업력이 증가함에 따라 지속적인 성과를 가능하게 하는 기술개발 인프라가 재무안정성에 영향을 미치는 중요 변수로 변화한다는 결론을 도출하였다. 업종과 업력에 따른 모형의 분류 정확도는 71~91% 수준이며, 기술력 평가항목을 이용하여 고안정성 중소기업을 판별할 수 있다는 가능성을 확인하였다.

Fully Automatic Coronary Calcium Score Software Empowered by Artificial Intelligence Technology: Validation Study Using Three CT Cohorts

  • June-Goo Lee;HeeSoo Kim;Heejun Kang;Hyun Jung Koo;Joon-Won Kang;Young-Hak Kim;Dong Hyun Yang
    • Korean Journal of Radiology
    • /
    • 제22권11호
    • /
    • pp.1764-1776
    • /
    • 2021
  • Objective: This study aimed to validate a deep learning-based fully automatic calcium scoring (coronary artery calcium [CAC]_auto) system using previously published cardiac computed tomography (CT) cohort data with the manually segmented coronary calcium scoring (CAC_hand) system as the reference standard. Materials and Methods: We developed the CAC_auto system using 100 co-registered, non-enhanced and contrast-enhanced CT scans. For the validation of the CAC_auto system, three previously published CT cohorts (n = 2985) were chosen to represent different clinical scenarios (i.e., 2647 asymptomatic, 220 symptomatic, 118 valve disease) and four CT models. The performance of the CAC_auto system in detecting coronary calcium was determined. The reliability of the system in measuring the Agatston score as compared with CAC_hand was also evaluated per vessel and per patient using intraclass correlation coefficients (ICCs) and Bland-Altman analysis. The agreement between CAC_auto and CAC_hand based on the cardiovascular risk stratification categories (Agatston score: 0, 1-10, 11-100, 101-400, > 400) was evaluated. Results: In 2985 patients, 6218 coronary calcium lesions were identified using CAC_hand. The per-lesion sensitivity and false-positive rate of the CAC_auto system in detecting coronary calcium were 93.3% (5800 of 6218) and 0.11 false-positive lesions per patient, respectively. The CAC_auto system, in measuring the Agatston score, yielded ICCs of 0.99 for all the vessels (left main 0.91, left anterior descending 0.99, left circumflex 0.96, right coronary 0.99). The limits of agreement between CAC_auto and CAC_hand were 1.6 ± 52.2. The linearly weighted kappa value for the Agatston score categorization was 0.94. The main causes of false-positive results were image noise (29.1%, 97/333 lesions), aortic wall calcification (25.5%, 85/333 lesions), and pericardial calcification (24.3%, 81/333 lesions). Conclusion: The atlas-based CAC_auto empowered by deep learning provided accurate calcium score measurement as compared with manual method and risk category classification, which could potentially streamline CAC imaging workflows.

지역난방 열배관망 운영데이터 기반의 파손확률 모델 개발 (Development of a Failure Probability Model based on Operation Data of Thermal Piping Network in District Heating System)

  • 김형석;김계범;김래현
    • Korean Chemical Engineering Research
    • /
    • 제55권3호
    • /
    • pp.322-331
    • /
    • 2017
  • 지역난방은 국내에 1985년 처음 도입되었다. 지하 열배관망의 사용연한이 30년 이상 증가함에 따라, 지하에 매설된 열수송 배관 특성상 유지관리가 중요한 문제로 대두되고 있다. 노후화가 진행된 열배관망 유지보수를 위한 정기적인 점검, 운영관리 시 다양한 복합 기술이 필요하다. 특히 현장에서 경제적 관점에서 최적 유지보수 및 교체시점을 도출하기 위하여 의사결정에 활용될 수 있는 모형개발이 요구되고 있다. 본 연구에서는 한국지역난방공사 수도권 5개 지사열 배관망 운영 시 보수이력과 사고성 데이터를 바탕으로 분석하였다. 정성적 분석과 이항 로지스틱 회귀분석의 통계적 기법을 도입하여 파손확률 모델을 개발하였다. 보수이력 및 사고성 자료의 정성적 분석 결과, 파이프라인 손상의 가장 중요한 원인으로 건설 시공불량, 배관의 부식과 자재 불량이 전체의 약 82%를 차지했다. 통계 모델 분석에서는 분류의 분리 점을 0.25로 설정함으로써 열배관 파손 및 비 파손 분류의 정확도가 73.5%로 향상 되었다. 파손확률 모델 수립을 위해 Hosmer와 Lemeshow 검정과 독립변수의 유의성 검정, 모델의 Chi-Square 검정을 통해 모델의 적합성을 검증 하였다. 열배관망 파손의 위험순위 분석결과에 따르면 파손확률을 가장 높이는 경우는 겨울철 서울지역 자동차 도로에 있는 10년 이상 된 250mm이하 배관 Reducer에서 F 건설회사가 시공했던 열배관망으로 분석되었다. 본 연구결과는 열배관망 시스템의 유지관리 및 예방점검, 교체 사업 우선순위를 정할 때 활용 가능하다. 또한 이를 통하여 점검 유지보수 등 사전에 사고예방 계획을 수립하여 대처함으로써 열배관 파손의 빈도를 감소시키고 보다 적극적인 열배관망 관리에 이용할 수 있을 것으로 사료된다.

데이터마이닝 기법을 활용한 대학수학능력시험 영어영역 정답률 예측 및 주요 요인 분석 (Prediction of Correct Answer Rate and Identification of Significant Factors for CSAT English Test Based on Data Mining Techniques)

  • 박희진;장경애;이윤호;김우제;강필성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권11호
    • /
    • pp.509-520
    • /
    • 2015
  • 대학수학능력시험(수능)은 고등학교 3년간의 학업 성취도를 측정하는 대표적인 평가 도구로서 대한민국 대학 입시에 있어 매우 중요한 역할을 하는 시험이다. 응시생들의 학업 성취도를 효과적으로 평가하기 위해서는 수능의 난이도가 적절하게 조절되어야 하나 지금까지는 수능 난이도의 편차가 매우 크게 나타나 매 입시연도마다 여러 가지 문제점을 야기해왔다. 본 연구에서는 전문가의 판단에 의존한 기존 방식에서 벗어나 지금까지 시행된 모의고사 및 실제 시험을 통해 축적된 자료를 바탕으로 데이터마이닝 기법을 적용하여 영어영역 문제의 난이도를 예측하는 모델을 구축하고 난이도 예측에 영향을 미치는 요소를 판별하고자 한다. 이를 위해 각 문항의 특성을 판별할 수 있는 여러 지표와 함께 지문, 문제, 답안 등에 나타난 단어들의 특징을 토픽 모델링(topic modeling) 기법을 이용하여 정량화하고 이를 바탕으로 선형회귀분석 및 의사결정나무 기법을 이용하여 각 문항의 난이도를 예측하는 모델을 구축하였다. 구축된 예측 모델을 실제 문제에 적용한 결과 난이도의 상/하 구분에 대한 예측 정확도는 90% 수준으로 나타났으며, 실제 정답률 대비 오차 비율은 약 16% 이내인 것으로 나타났다. 또한 배점 및 문제 유형이 문제의 난이도에 큰 영향을 미치며 지문이 특정 주제에 관련된 경우에도 난이도에 영향을 미치는 것을 확인하였다. 본 연구에서 제시된 방법론을 이용하여 영어영역 각 문제들에 대한 기대 정답률의 범위를 추정할 수 있으며 이를 종합하여 영어영역 전체 문제에 대한 정답률 예측을 통해 적절한 난이도의 문제를 출제하는 데 기여할 수 있을 것으로 기대한다.

휴리스틱 함수를 이용한 feature selection에 관한 연구 (Research about feature selection that use heuristic function)

  • 홍석미;정경숙;정태충
    • 정보처리학회논문지B
    • /
    • 제10B권3호
    • /
    • pp.281-286
    • /
    • 2003
  • 실생활에서 해결하고자 하는 문제에 대해 수많은 feature들이 수집되어지나 그 feature들을 모두 문제 해결에 활용하는 것은 어렵다. 모든 feature들에 대한 정확한 자료의 수집이 어려우며 관련된 feature들을 모두 학습에 이용할 경우 복잡한 학습 모델이 생성되어지며 좋은 수행 결과도 얻을 수 없다. 또한 수집된 자료들 간에는 상호 관계나 계층적 관계가 존재하는데, 경험적 지식이나 통계적 방법을 이용하여 feature들간의 관계를 분석함으로써 feature의 수를 줄일 수 있다. 휴리스틱 기법은 반복적인 시행 착오와 경험을 통한 학습으로써 미래가 불확실하고 완전한 정보를 갖고 있지 못할 때, 인간의 사고 기능을 통하여 기억이나 경험을 살려, 스스로 해결방안을 모색하면서 점차로 해에 접근해 가는 방법이다. 전문가들은 경험에 의한 의견 수렴 과정을 거쳐 해당 문제 영역에 접근 가능하며, 이러한 특성을 학습에 사용될 feature의 수를 줄이는데 활용할 수 있다. 전문가들은 원시 자료들을 이용하여 새로운 feature들을 생성할 수 있다 새로이 산출된 feature들과 원시 데이터 내의 feature들을 혼합하여 학습 모델 생성에 이용한다. 본 논문에서는 휴리스틱 함수를 이용하여 학습에 사용될 feature의 수를 줄이고, 추출된 feature들을 신경망의 입력값으로 사용하는 기계 학습 모델을 제시한다. 모델의 성능 평가를 위해 프로야구 경기의 승패 예측 문제를 이용하였다. 실험 결과는 신경 회로망과 휴리스틱 모델을 단독으로 사용했을 때 보다 두 기법을 혼합한 모델이 신경 회로망의 복잡성을 감소시킬 뿐 아니라 분류(classification)의 정확성이 향상되었다.아니라 Hep G2 세포에서도 명백히 단백질의 발현을 관찰할 수 있었다. 또한, Hep G2와 COS세포 모두에서 endogenous RXR의 발현이 일어남을 확인하였고 RXR expression plasmid를 transfection시켰을 때 두 세포 모두에서 단백질의 발현이 현저하게 증가되었다. Constitutive Androstane Receptor (CAR)에 의한 CYP2B의 PBRU 활성효과를 다르게 분화된 세포에서 차이가 일어나는지를 비교하기 위하여 CAR에 의해 매개되는 PBRU의 transactivation효과를 Hep G2와 COS세포에서 조사하였다. Hep G2 세포에서는 transfection된 CAR의 발현에 의해 firefly luciferase 보고단백질의 활성이 약 12배 증가하였다. CAR 발현유전자를 15 ng transfection하였을 때 주어진 보고유전자의 양에 대하여 최대반응을 나타내었고 CYP2B1PBRU가 제거된 CYP2C1 promotor/firefly luciferase를 보고유전자로 사용하였을 때는 CAR에 의한 luciferase의 활성이 나타나지 않았다. Hep G2와는 달리, COS세포에서는 transfection된 CAR의 발현이 PBRU에 의한 firefly luciferase보고단백질의 발현에 영향을 주지 못하였다. 이러한 결과들은 분화된 세포의 종류에 따라서 constitutive androstane receptor의 CYP2BPBRU 활성효과가 다르게 나타날 수 있음을 제시할 뿐만 아니라, 간세포에서 Phenobarbital에 의한 PBRU의 활성유도에 영향을 주는 endogenous 매개 인자들 중 CAR와 RXR과는 다

데이터마이닝을 이용한 허위거래 예측 모형: 농산물 도매시장 사례 (Detection of Phantom Transaction using Data Mining: The Case of Agricultural Product Wholesale Market)

  • 이선아;장남식
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.161-177
    • /
    • 2015
  • 정보기술의 빠른 진화, 빅데이터의 등장, 분석기법의 고도화 등으로 인해 다량의 데이터로부터 의미있는 정보를 추출하는 데이터마이닝을 다양한 영역에 활용하고자 하는 시도들이 활발히 진행되고 있다. 그 중의 한 분야가 농산물 유통영역인데, 농산물에 대한 지속적인 수요 증가와 전자경매의 활성화 등으로 수도권 농산물 도매시장에서만도 연간 수천만건 이상의 거래가 이루어 진다. 그러나 급속한 거래량 증가와 더불어 과거로부터 관행적으로 이루어지고 있는 부정거래도 함께 증가하고 있는데 거래참가자들 사이의 결탁에 의해 발생하는 농산물 도매시장의 부정거래는 점차 지능화되는 추세이며, 이들을 감지하고 적발하기가 매우 어려운 실정이다. 이로 인해 농산물 유통환경의 공정거래 질서는 침해되고 시장에 대한 신뢰는 훼손되곤 한다. 따라서 거래투명성을 제고하고 유통비리를 구조적으로 개선하기 위한 과학적이고 자동화된 부정탐지시스템의 필요성이 어느 때보다도 절실히 요구되는 상황이다. 본 연구에서는 데이터마이닝의 의사결정나무를 이용하여 실제 발생하지 않은 거래를 실물 없이 거래한 것처럼 조작하여 대금을 정산하는 행위인 허위거래를 탐지하는 모형을 제시하였다. 이를 위해 실제 농산물 도매시장의 데이터를 수집하였고, 데이터의 정제 및 표준화 등의 선행작업을 수행하였다. 또한 변수 간의 상관관계 및 분포도 분석 등을 통해 데이터의 특성을 파악한 후 예측모형을 구축하여 허위거래와 정상거래를 분류하는 패턴을 도출하였으며, 최종적으로 시험용 데이터를 이용하여 모형을 평가하는 단계를 거쳐 결과의 적합성을 확인하였다. 향후 데이터마이닝을 이용한 부정탐지 모형을 허위거래뿐만 아니라 낙찰부정, 경매조작 등과 같이 다양화되는 부정거래에 적용하게 되면 보다 지대한 효과를 거둘 수 있으리라 사료된다.