• 제목/요약/키워드: 오분류 비용

검색결과 36건 처리시간 0.031초

산재보험 부정수급 식별모형에 관한 연구 (A Study on the Fraud Detection of Industrial Accident Compensation Insurance)

  • 함승오;홍정식
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회 2008년도 추계학술대회 및 정기총회
    • /
    • pp.342-345
    • /
    • 2008
  • 산재 발생 시 산재근로자는 근로복지공단을 통해서 각종 급여를 받게 된다. 본 논문은 심사 과정과 급여지급 후에 부정수급으로 판명된 산재 청구 건을 데이터 마이닝을 통해서 분석하여 부정수급의 유형을 발견하고자 한다. 이 연구에서는 서울관내 4개 지사에서 8년 동안(2000년$\sim$2007년)의 총 61,536명의 최초요양 신청을 한 산재근로자 자료를 대상으로 하였고, 종속변수에 영향을 미치는 8개의 독립변수를 선택해서 사용한다. 데이터 마이닝을 적용함에 있어서 가장 효율적인 허위 부정 탐지 모델을 만들기 위해 의사결정나무분석(Decision Tree)과 로지스틱 회귀분석(Logistic Regresion)등의 다양한 기법을 적용하여 결과를 비교분석 하고, 오분류 비용을 적용하여, 최적의 분류결정 값을 가지는 모델을 도출한다. 분석결과, 로지스틱 회귀분석이 산재보험 부정수급 유형 발견에 보다 효과적인 모델로 판명되었다. 또한 판별점(Cut-Off) 0.01로 했을 때 4개변수(요양기간, 업종형태, 의료기관, 재해발생형태)가 부정수급에 탐지하는데 영향력이 큰 변수로 선정되었다.

  • PDF

클래스 불균형 문제에서 베이지안 알고리즘의 학습 행위 분석 (Learning Behavior Analysis of Bayesian Algorithm Under Class Imbalance Problems)

  • 황두성
    • 전자공학회논문지CI
    • /
    • 제45권6호
    • /
    • pp.179-186
    • /
    • 2008
  • 본 논문에서는 베이지안 알고리즘이 불균형 데이터의 학습 시 나타나는 현상을 분석하고 성능 평가 방법을 비교하였다. 사전 데이터 분포를 가정하고 불균형 데이터 비율과 분류 복잡도에 따라 발생된 분류 문제에 대해 베이지안 학습을 수행하였다. 실험 결과는 ROC(Receiver Operator Characteristic)와 PR(Precision-Recall) 평가 방법의 AUC(Area Under the Curve)를 계사하여 불균형 데이터 비율과 분류 복잡도에 따라 분석되었다. 비교 분석에서 불균형 비율은 기 수행된 연구 결과와 같이 베이지안 학습에 영향을 주었으며, 높은 분류 복잡도로부터 나타나는 데이터 중복은 학습 성능을 방해하는 요인으로 확인되었다. PR 평가의 AUC는 높은 분류 복잡도와 높은 불균형 데이터 비율에서 ROC 평가의 AUC보다 학습 성능의 차이가 크게 나타났다. 그러나 낮은 분류 복잡도와 낮은 불균형 데이터 비율의 문제에서 두 측정 방법의 학습 성능의 차이는 미비하거나 비슷하였다. 이러한 결과로부터 PR 평가의 AUC는 클래스 불균형 문제의 학습 모델의 설계와 오분류 비용을 고려한 최적의 학습기를 결정하는데 도움을 줄 수 있다.

전자상거래 주요성공요인 경영기술분류 프레임웤 개발 (An Empirical Study on Electronic Commerce Critical Success Factors and Electronic Commerce Management Skill Classification Framework Development)

  • 오상영;김영렬
    • 한국콘텐츠학회논문지
    • /
    • 제1권1호
    • /
    • pp.32-40
    • /
    • 2001
  • 전자상거래는 비즈니스 절차의 중간 단계를 축소시키고 공급자와 소비자의 관계를 보다 가깝게 만들어 새로운 제품 및 서비스의 제공, 비용절감 및 고객만족의 증대와 산업의 구조를 재구성하는 역할을 수행하고 있다. 그러므로 전자상거래 연구는 기술적 측면뿐만 아니라 경영적 측면의 요인에 관한 연구가 매우 중요하다. 이에 본 연구에서는 전자상거래에 직접적으로 영향을 미칠 수 있는 경영기술 요인들을 체계적으로 분류하되 단순히 경영기술 요인을 나열하는 것이 아니라 상호 영향을 미칠 수 있는 요인들의 관계를 자세히 분석할 수 있는 경영기술분류 프레임웤(Framework)을 개발하였다.

  • PDF

사용자 맞춤형 스팸 문자 필터링 시스템 (Personalized Mobile Junk Message Filtering System)

  • 이승재;최덕재
    • 한국콘텐츠학회논문지
    • /
    • 제11권12호
    • /
    • pp.122-135
    • /
    • 2011
  • 스팸 문자 메시지는 모바일 이용자에게 불쾌감을 줄 뿐만 아니라 불필요한 사회비용을 유발하는 유해 요소이다. 특히 스마트워크 시스템에서 핵심 단말인 스마트폰으로 유입되는 스팸 문자는 업무능률 향상이라는 스마트워크의 취지를 무색하게 만들 수 있어 이에 대한 연구가 필요하다. 본 논문에서는 스팸 자동분류기로 스팸 메시지를 차단함에 있어서, 오분류 결과를 학습군에 재반영하여 연산량을 줄이고 인식 성능을 개선할 수 있는 방법을 제안하였다. 스팸 분류기는 스마트폰에서 독립적으로 동작하고, 사용자의 수신 메시지만으로 학습하므로 사용자의 분류 판단 성향을 반영할 수 있다. 많은 컴퓨팅 자원을 소비해야 하는 전처리, 특징 선정, 훈련 과정은 사용자의 인증 컴퓨터가 담당하고 필터링 과정만을 스마트폰에서 처리한다. 실험 결과 95%이상의 양호한 결과를 보였고 스팸 분류기는 스마트폰의 일정 자원만을 점유하면서 동작하였다.

그룹변수를 포함하는 불균형 자료의 분류분석을 위한 서포트 벡터 머신 (Hierarchically penalized support vector machine for the classication of imbalanced data with grouped variables)

  • 김은경;전명식;방성완
    • 응용통계연구
    • /
    • 제29권5호
    • /
    • pp.961-975
    • /
    • 2016
  • H-SVM은 입력변수들이 그룹화 되어 있는 경우 분류함수의 추정에서 그룹 및 그룹 내의 변수선택을 동시에 할 수 있는 방법론이다. 그러나 H-SVM은 입력변수들의 중요도에 상관없이 모든 변수들을 동일하게 축소 추정하기 때문에 추정의 효율성이 감소될 수 있다. 또한, 집단별 개체수가 상이한 불균형 자료의 분류분석에서는 분류함수가 편향되어 추정되므로 소수집단의 예측력이 하락할 수 있다. 이러한 문제점들을 보완하기 위해 본 논문에서는 적응적 조율모수를 사용하여 변수선택의 성능을 개선하고 집단별 오분류 비용을 차등적으로 부여하는 WAH-SVM을 제안하였다. 또한, 모의실험과 실제자료 분석을 통하여 제안한 모형과 기존 방법론들의 성능 비교하였으며, 제안한 모형의 유용성과 활용 가능성 확인하였다.

의사결정나무 분석에서 불균형 자료의 분석 연구 : 종합병원의 건강보험료 청구 심사 사례 (An Study on Decision Tree Analysis with Imbalanced Data Set : A Case of Health Insurance Bill Audit in General Hospital)

  • 허준;김종우
    • 한국경영과학회:학술대회논문집
    • /
    • 대한산업공학회/한국경영과학회 2006년도 춘계공동학술대회 논문집
    • /
    • pp.1667-1676
    • /
    • 2006
  • 다른 산업과 달리 병원/의료 산업에서는 건강 보험료 심사 평가라는 독특한 검증 과정이 필수적으로 있게 된다. 건강 보험료 심사 평가는 병원의 수익 문제 뿐 아니라 적정한 진료행위를 하는 병원이라는 이미지와도 맞물려 매우 중요한 분야이며, 특히 대형 종합병원일수록 이 부분에 많은 심사관련 인력들을 투입하여, 병원의 수익과 명예를 위해서 업무를 수행하고 있다. 본 논문은 이러한 건강보험료 청구 심사 과정에서, 사전에 수많은 진료 청구 건 중 심사 평가에서 삭감이 될 수 있는 진료 청구 건을 데이터 마이닝을 통해서 발견하여, 사전의 대비를 철저히 하고자 하는 한 국내의 대형 종합병원의 사례를 소개하고자 한다. 데이터 마이닝을 적용함에 있어, 주요한 문제점 중의 하나는 바로 지도학습 기법을 적용하기에 곤란한 데이터 불균형 문제가 발생하는 것이다. 이런 불균형 문제를 해소하고, 비교 조건 중에 가장 효율적인 삭감 예상 진료 건 탐지 모형을 만들어 내기 위하여 데이터 불균형 문제의 기본 해법인 과, Sampling 오분류 비용의 다양하고 혼합적인 적용을 통하여, 적합한 조건을 가지는 의사결정 나무 모형을 도출하였다.

  • PDF

초분광 영상정보를 활용한 하천환경 분류 및 평가 (Classification and evaluation of river environment using Hyperspectral images)

  • 한형준;이창훈;강준구;김종태
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2019년도 학술발표회
    • /
    • pp.423-423
    • /
    • 2019
  • RGB나 다중분광영상은 높은 공간 해상도로 인해 크기가 작은 물질의 클래스를 부여하는데 있어서는 효과적이지만 분광해상도가 낮아 다양한 종류의 지표물 분류 및 분광적으로 미세한 차이를 보이는 대상 체간의 분류에는 한계를 가지고 있다. 그러나 초분광 영상(Hyperspectral Image)은 대상 객체의 분광 반사곡선을 수백개의 연속적인 분광 파장대 영역으로 상세하게 해당 물체의 정보를 취득할 수 있는 기능을 가지고 있다. 최근 국내에서도 초분광 영상을 이용한 토지피복도 작성 및 환경 모니터링 등 다양한 분야에 적용하기 위한 연구가 시도되고 있다. 최근에는 드론과 같은 소형 UAV를 활용하여 경제적인 비용으로 시공간해상도가 높은 영상을 획득하는 것이 가능하게 되었으며 분광정보를 수집하는 영상 장비의 발전으로 드론에 탑재가 가능한 경량의 소형 초분광센서가 개발됨으로써 보다 높은 분광해상도의 영상을 취득할 수 있게 되었다. 본 연구에서는 효율적인 하천환경조사를 위해 UAV를 활용하여 고해상도 초분광 영상을 취득하였으며, 차원축소법과 분류기 적용에 따른 공간 분류 정확도 분석을 통해 하천환경에 대한 분류 및 평가를 실시하였다. 연구지역에서 획득한 초분광 영상은 노이즈로 인한 영향을 줄이고자 MNF와 PCA 기법으로 차원축소를 수행하였으며, MLC(Maximum Likelihood Classification)와 SVM(Support Vector Machine), SAM(Spectral Angle Mapping) 감독분류기법을 적용하여 하천환경특성에 따른 공간분류를 수행하였다. 연구 결과 MNF기법으로 차원 축소한 영상을 적용하여 MLC 감독분류를 수행하였을 때 가장 높은 분류정확도를 얻을 수 있었으나, 일부 클래스 및 수역의 경계와 그림자 공간에서 주로 오분류가 나타나는 것을 확인할 수 있었다.

  • PDF

불균형 데이터 집합에서의 의사결정나무 추론: 종합 병원의 건강 보험료 청구 심사 사례 (Decision Tree Induction with Imbalanced Data Set: A Case of Health Insurance Bill Audit in a General Hospital)

  • 허준;김종우
    • 경영정보학연구
    • /
    • 제9권1호
    • /
    • pp.45-65
    • /
    • 2007
  • 다른 산업과 달리 병원/의료 산업에서는 건강 보험료 심사 평가라는 독특한 검증 과정이 필수적으로 있게 된다. 건강 보험료 심사 평가는 병원의 수익 문제 뿐 아니라 적정한 진료행위를 하는 병원이라는 이미지와도 맞물려 매우 중요한 분야이며, 특히 대형 종합병원일수록 이 부분에 많은 심사관련 인력들을 투입하여, 병원의 수익과 명예를 위해서 업무를 수행하고 있다. 본 논문은 이러한 건강보험료 청구 심사 과정에서, 사전에 수많은 진료 청구 건 중 심사 평가에서 삭감이 될 수 있는 진료 청구 건을 데이터 마이닝을 통해서 발견하여, 사전의 대비를 철저히 하고자 하는 한 국내 대형 종합병원의 사례를 소개하고자 한다. 데이터 마이닝을 적용함에 있어, 주요한 문제점 중 하나는 바로 지도학습 기법을 적용하기에 곤란한 데이터 불균형 문제가 발생하는 것이다. 이런 불균형 문제를 해소하고, 비교 조건 중에 가장 효율적인 삭감 예상 진료 건 탐지 모델을 만들어 내기 위하여, 데이터 불균형 문제의 기본 해법인 Sampling과 오분류 비용의 다양한 혼합적인 적용을 통하여, 적합한 조건을 가지는 의사결정 나무 모델을 도출하였다.

수자원과 관련된 분쟁 및 갈등의 조정을 위한 거버넌스 (Governance for the negotiation and Management of Water Resources related Conflicts)

  • 이주헌;김형수;홍일표;강부식;김광훈
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2008년도 학술발표회 논문집
    • /
    • pp.1530-1535
    • /
    • 2008
  • 수자원과 관련된 많은 분쟁 및 갈등들은 국내뿐만 아니라 전 세계적으로 발생하고 있다. 따라서 분쟁 및 갈등해결을 위한 많은 연구들이 진행되고 있지만 수자원과 관련된 분쟁들은 대부분 원활한 해결을 이루지 못하고 있으며, 특히 국내의 경우에는 더욱 심각하다 할 수 있다. 따라서 제한된 자원인 수자원을 둘러싸고 수자원분쟁이 일어나는 것은 당연한 일이라 할 수 있으며, 분쟁의 양상도 다양하다. 댐 건설로 인한 상류지역과 하류지역의 갈등, 수로의 건설로 인해 수자원을 빼앗기는 지역과 수자원을 얻게 되는 지역 간의 갈등, 새로운 공단이나 개발로 인하여 하류지역에서 수질악화를 우려하여 반대하는 경우 등 여러 종류의 수자원으로 인한 분쟁이 있다. 수자원을 둘러싼 갈등이 쉽게 해결이 되지 않고, 또한 갈등 및 분쟁이 쉽게 발생되는 이유도 주체자들간 입장 차이에서 오는 성격이라 할 수 있겠다. 수자원과 관련된 분쟁에서 오는 여러 가지 갈등들은 사회적으로 많은 문제들을 발생시켜 수자원의 원활한 공급이 저해될 수 있다. 이로 인해 사회적으로 수자원과 관련된 분쟁 해결에 들어가는 많은 시간과 노력, 비용을 생각해 볼 때, 효과적인 갈등 및 분쟁의 해결은 국가적 발전에 있어서 영향을 줄 수 있다. 그러므로 갈등 및 분쟁의 원활한 해결이 국가적 발전에 많은 비중을 차지 한다고 할 수 있다는 것은 이런 이유들 때문이라 할 수 있다. 본 연구에서는 국내 수자원과 관련된 분쟁사례들을 하천의 기능에 따른 분류, 발생 원인에 따른 분류, 분쟁주체에 따른 분류 등을 유형별로 구분하여 수자원분쟁의 여러 가지 사례들을 조사하였다. 또한 분쟁 및 갈등을 해결하기 위한 방안으로 거버넌스 시스템을 적용하였고 분쟁의 원활한 합의 조정방안 및 문제점을 제시하기 위한 외국의 시민참여 모델을 특징 및 특성을 분석하였다. 또한, 공영시각모형, 게임이론, 제도설계이론의 공학적 모형을 바탕으로 물분쟁의 해결을 위한 대안을 모색할 수 있는 과학적 접근 방안을 제시하여 향후 여러 가지형태의 국책사업 시행 시 발생 할 수 있는 분쟁의 해결 및 조정을 위한 방안으로 활용할 수 있는 토대를 마련하고자 한다.

  • PDF

웨어러블 가속도 기기 측정에 의한 수면/비수면 동적 분류 (Sleep/Wake Dynamic Classifier based on Wearable Accelerometer Device Measurement)

  • 박재현;김대훈;구본화;고한석
    • 전자공학회논문지
    • /
    • 제52권6호
    • /
    • pp.126-134
    • /
    • 2015
  • 최근 현대인들의 스트레스 증가로 인하여 수면 장애에 대한 문제가 부각되면서 수면의 질에 대한 관심이 급증하고 있다. 이러한 수면 장애는 정밀한 진단을 위해서 긴 시간과 높은 비용을 요구하는 수면다원검사를 수행하여야 한다. 따라서 실생활에서 낮은 비용으로 손쉽게 수면의 효율을 측정하는 가속도 센서가 내장된 손목 착용형 장비가 활용 가능한 방안으로 부각되고 있다. 하지만 가속도 데이터를 이용한 기존의 수면/비수면 구간 분류 방식은 개별 시점의 가속도 값만을 이용해 수면/비수면 상태를 구분하기 때문에 수면 중 간헐적 움직임과 비수면 중 미세한 움직임이 발생한 구간에서 오분류율이 높은 약점이 있다. 본 논문에서는 분류과정에서 인근 시점간의 SVM 분류기 스코어의 유사성을 고려하는 동적 분류기를 이용함으로써 앞에서 언급한 문제에 효과적으로 대처할 수 있음을 보인다. 제안하는 알고리즘의 실생활 적용가능 여부 판단을 위하여 50개 데이터 세트에 대해 구간 구분을 수행하여 정확도 88.9%, 민감도 88.9%, 특이도 88.5%의 결과를 얻었다.