• 제목/요약/키워드: binomial classification

검색결과 8건 처리시간 0.023초

불균형 자료에서 불순도 지수를 활용한 분류 임계값 선택 (Selecting the optimal threshold based on impurity index in imbalanced classification)

  • 장서인;여인권
    • 응용통계연구
    • /
    • 제34권5호
    • /
    • pp.711-721
    • /
    • 2021
  • 이 논문에서는 불균형 자료에 대한 분류 분석에서 불순도지수를 이용하여 임계값을 조정하는 방법에 대해 알아본다. 이항자료에 대한 분류에서는 소수범주를 Positive, 다수범주를 Negative라고 하면, 일반적으로 사용하는 0.5 기준으로 범주를 정하면 불균형 자료에서는 특이도는 높은 반면 민감도는 상대적으로 낮게 나오는 경향이 있다. 소수범주에 속한 개체를 제대로 분류하는 것이 상대적으로 중요한 문제에서는 민감도를 높이는 것이 중요한데 이를 분류기준이 되는 임계값을 조정을 통해 높이는 방법에 대해 알아본다. 기존연구에서는 G-mean이나 F1-score와 같은 측도를 기준으로 임계값을 조정했으나 이 논문에서는 CHAID의 카이제곱통계량, CART의 지니지수, C4.5의 엔트로피를 이용하여 최적임계값을 선택하는 방법을 제안한다. 최적임계값이 여러 개 나올 수 있는 경우 해결방법을 소개하고 불균형 분류 예제로 사용되는 데이터 분석을 통해 0.5를 기준으로 ?(무엇?)을 때와 비교하여 어떤 개선이 이루어졌는지 등을 분류성능측도로 알아본다.

질감 기반 이미지 검색을 위한 질감 서술자 및 컴퓨터 조력 진단 시스템의 적용 (Texture Descriptor for Texture-Based Image Retrieval and Its Application in Computer-Aided Diagnosis System)

  • 뮤잠멜;팽소호;김덕환
    • 전자공학회논문지CI
    • /
    • 제47권4호
    • /
    • pp.34-43
    • /
    • 2010
  • 질감 정보는 객체 인식과 분류에서 중요한 역할을 하고 있다. 정확한 질환 판별을 위해 분류에서 사용되는 질감 특징은 식별성이 높아야 한다. 본 논문에서는 질감-기반 영상 검색 및 폐기종 진단을 위해 컴퓨터 조력진단(Computer-Aided Diagnosis) 시스템을 위한 새로운 질감 기술자를 제안한다. 제안한 질감 기술자는 이웃화소간의 차이값과 중심화소와 이웃화소간의 차이 값의 결합에 기반을 두고 있어 결합된 주변화소 차이(Combined Neighborhood Difference; CND)라고 한다. 화소들간의 CND는 비교후 이진 코드워드로 변환된다. 그다음에, 식별성이 높은 값을 생성하기 위하여 이진 계수가 코드워드에 할당된다. 이와 같은 값들의 분포가 계산되어 질감 특징 벡터를 구성한다. Outex와 Brodatz 데이터집합을 이용한 질감 특징 분류에 관련하여 CND는 92.5%의 정확성을 보이는 데 비해, LBP, LND와 Gabor 픽터는 89.3%, 90.7%와 83.6%의 정확성을 각각 보여준다. 본 논문에서는 CND를 이용한 폐기종의 진단 기능을 CAD 시스템에서 구현하였다.

1D 통합된 근접차이에 기반한 자율적인 다중분광 영상 분할 (Unsupervised Multispectral Image Segmentation Based on 1D Combined Neighborhood Differences)

  • 뮤잠멜;윤병춘;김덕환
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.625-628
    • /
    • 2010
  • This paper proposes a novel feature extraction method for unsupervised multispectral image segmentation based in one dimensional combined neighborhood differences (1D CND). In contrast with the original CND, which is applied with traditional image, 1D CND is computed on a single pixel with various bands. The proposed algorithm utilizes the sign of differences between bands of the pixel. The difference values are thresholded to form a binary codeword. A binomial factor is assigned to these codeword to form another unique value. These values are then grouped to construct the 1D CND feature image where is used in the unsupervised image segmentation. Various experiments using two LANDSAT multispectral images have been performed to evaluate the segmentation and classification accuracy of the proposed method. The result shows that 1D CND feature outperforms the spectral feature, with average classification accuracy of 87.55% whereas that of spectral feature is 55.81%.

산업군별 고용형태에 따른 근로자 흡연율 변화 추이: 1992-2006 (Smoking Rate of Workers according to Employment Status and Industry: 1992-2006)

  • 김일호;박기수;천희란
    • 보건교육건강증진학회지
    • /
    • 제28권4호
    • /
    • pp.15-25
    • /
    • 2011
  • Objectives: The present study examined whether smoking rate has declined in 1992-2006 and who the high risk groups were on industry classification and employment type. Methods: Data from 91,263 persons aged 25-64 years were analyzed from three rounds of the Social Statistical Surveys of Korea between 1992 and 2006. Industry indicators were divided by the 9th Korean Standard Industrial Classification. Age-adjusted prevalence of smoking was calculated. Prevalence ratios(PR) and differences(PD) were estimated using log-binomial regression analysis. Results: Age-adjusted prevalence of smoking decreased between 1992 and 2006, specially the smoking prevalence of regular employees decreased most. PD in age-adjusted prevalence of smoking were the biggest between regular and daily employees. PR of the temporary employees', daily employees', self-employed persons' in order was wider than that of regular employees. PR increased significantly increased between 1999 and 2006 for those in manufacturing, construction, wholesale & retail trade, service industries. Increases in PR(regular/irregular) for women in service industry were statistically significant. Conclusions: Despite reducing overall cigarette smoking rates in males, the smoking rate was not reduced equally by industry classification and employment type in both genders. More adjustable antismoking policies and consideration of employment type are requested to reduce inequalities in smoking.

선형유형 구분을 통한 고속도로 사고빈도모형 개발 연구 (Freeway Crash Frequency Model Development Based on the Classification of Geometric Alignment Type)

  • 김상엽;최재성;이수범;김성민;조원범;김용석
    • 한국도로학회논문집
    • /
    • 제13권1호
    • /
    • pp.97-105
    • /
    • 2011
  • 본 연구에서는 고속도로를 대상으로 각각의 구간에 대한 선형유형을 구분하여 사고빈도모형을 개발하였다. 현재 사고빈도모형 부문의 연구는 주로 고속도로 구간 전체를 대상으로 한 연구가 대부분이기 때문에 거시적인 측면에서 사고빈도모형이 개발되었다고 할 수 있으며, 이에 따라 각각의 구간특성이 정확히 반영되지 않은 상태에서의 사고빈도를 예측하였다고 볼 수 있다. 본 연구에서는 이러한 문제점을 인식하여, 동질구간 분할법을 사용하여 고속도로의 평면선형을 직선부, 곡선부, 연속곡선부로 구분하였고, 이를 군집분석을 통하여 직선부와 곡선부의 유형을 구분하여 고속도로의 각각의 구간별 특성을 반영한 사고빈도모형을 구축하였다. 본 연구 결과는 고속도로 각 구간의 사고빈도를 예측하는데 있어 더 정확하고 합리적인 결과를 도출해 낼 것이라 판단한다.

노인환자의 항정신병 약물 원외처방 내역에 미친 영향 요인 분석 (Analysis of Influencing Factors on the Outpatient Prescription of Antipsychotic Drugs in the Elderly Patients)

  • 동재용;이현지;이태훈;김유정
    • 한국임상약학회지
    • /
    • 제31권4호
    • /
    • pp.268-277
    • /
    • 2021
  • Background: Most antipsychotic drugs studies have been mainly conducted on side effects, randomized clinical trials, utilization rates, and trends. But there have been few studies on the influencing factors in elderly patients. The purpose of this study was to analyze the influencing factors on the outpatient prescription of antipsychotic drugs in the elderly patients. Methods: Active ingredients of antipsychotic drugs in Korea were selected according to the Korean Pharmaceutical Information Center (KPIC)'s classification. Data source was Korean Health Insurance Review and Assessment Service (HIRA) claims data in 2020 and target patient group was the elderly patient group. We extracted patients who have been prescribed one or more antipsychotic drugs and visited only one medical institution. Data were analyzed using descriptive statistics, chi-square, t-test, negative binomial regression. Results: A number of outpatients were 245,197 and prescriptions were 1,379,092. Most characteristics of patients were 75-85 year's old, female, health insurance type, no disease (dementia, schizophrenia), atypical drugs, cci score (>2) and characteristics of medical institution were neurology in specialty, rural region, general hospitals. Results of regression showed that patient's characteristics and medical center characteristics had significant effect on the outpatient prescription of antipsychotic drugs in the elderly patients. Conclusion: This study suggests that national policy of antipsychotic drugs in the elderly patients, with the consideration of the patients' and medical institutions' characteristics, is needed.

건축공사 안전사고에 대한 현장 요인별 영향력 분석 (Empirical Examination of Determinants Affecting Safety Incidents in Building Construction)

  • 허윤경;이승우;유위성;송태근
    • 한국건축시공학회지
    • /
    • 제23권5호
    • /
    • pp.583-593
    • /
    • 2023
  • 건축 프로젝트의 안전 성과를 효과적으로 평가하기 위해서는 당해 사업의 공사특성과 현장 실행을 분리하여 검토할 필요가 있다. 본 연구는 실제 사고사례 데이터를 활용하여 건축공사 안전사고에 유의미한 영향을 미치는 공사특성 요인과 현장 실행 요인을 분석하였다. 안전사고의 유형을 사망사고와 다인 부상사고로 설정하고, 독립변수로 공사특성 변수, 현장 실행 변수, 외부환경 변수를 투입하여 이항로짓 모형을 구축하여 유의미한 변수와 그 영향력을 파악하였다. 분석 결과, 사망사고 발생 확률에 영향을 미치는 공사특성 요인은 공사비가 절대적이었다. 반면, 사망사고 및 다인 부상사고에서 현장의 안전 실행 변수들이 영향력이 컸다. 이는 건설 프로젝트의 안전 성과를 측정할 때 공사비에 따라 프로젝트를 분류하고 보정하는 것만으로도 충분한 설명력을 가지며, 사업의 안전 성과를 평가할 때는 현장의 다양한 노력과 조치를 성과지표에 반영하기 위한 노력을 필요하다는 점을 시사한다.

지역난방 열배관망 운영데이터 기반의 파손확률 모델 개발 (Development of a Failure Probability Model based on Operation Data of Thermal Piping Network in District Heating System)

  • 김형석;김계범;김래현
    • Korean Chemical Engineering Research
    • /
    • 제55권3호
    • /
    • pp.322-331
    • /
    • 2017
  • 지역난방은 국내에 1985년 처음 도입되었다. 지하 열배관망의 사용연한이 30년 이상 증가함에 따라, 지하에 매설된 열수송 배관 특성상 유지관리가 중요한 문제로 대두되고 있다. 노후화가 진행된 열배관망 유지보수를 위한 정기적인 점검, 운영관리 시 다양한 복합 기술이 필요하다. 특히 현장에서 경제적 관점에서 최적 유지보수 및 교체시점을 도출하기 위하여 의사결정에 활용될 수 있는 모형개발이 요구되고 있다. 본 연구에서는 한국지역난방공사 수도권 5개 지사열 배관망 운영 시 보수이력과 사고성 데이터를 바탕으로 분석하였다. 정성적 분석과 이항 로지스틱 회귀분석의 통계적 기법을 도입하여 파손확률 모델을 개발하였다. 보수이력 및 사고성 자료의 정성적 분석 결과, 파이프라인 손상의 가장 중요한 원인으로 건설 시공불량, 배관의 부식과 자재 불량이 전체의 약 82%를 차지했다. 통계 모델 분석에서는 분류의 분리 점을 0.25로 설정함으로써 열배관 파손 및 비 파손 분류의 정확도가 73.5%로 향상 되었다. 파손확률 모델 수립을 위해 Hosmer와 Lemeshow 검정과 독립변수의 유의성 검정, 모델의 Chi-Square 검정을 통해 모델의 적합성을 검증 하였다. 열배관망 파손의 위험순위 분석결과에 따르면 파손확률을 가장 높이는 경우는 겨울철 서울지역 자동차 도로에 있는 10년 이상 된 250mm이하 배관 Reducer에서 F 건설회사가 시공했던 열배관망으로 분석되었다. 본 연구결과는 열배관망 시스템의 유지관리 및 예방점검, 교체 사업 우선순위를 정할 때 활용 가능하다. 또한 이를 통하여 점검 유지보수 등 사전에 사고예방 계획을 수립하여 대처함으로써 열배관 파손의 빈도를 감소시키고 보다 적극적인 열배관망 관리에 이용할 수 있을 것으로 사료된다.