• Title/Summary/Keyword: Complexity-Weighted

검색결과 154건 처리시간 0.024초

데이터의 공간적 분포를 고려한 퍼지 이산화와 특징선택에의 응용 (Fuzzy discretization with spatial distribution of data and Its application to feature selection)

  • 손창식;신아미;이인희;박희준;박형섭;김윤년
    • 한국지능시스템학회논문지
    • /
    • 제20권2호
    • /
    • pp.165-172
    • /
    • 2010
  • 임상 데이터마이닝에서 최적의 특징 집합을 선택하는 것은 주어진 데이터로부터 생성된 모델의 복잡성을 줄일 뿐만 아니라 유용성을 향상시키는 데에 매우 중요하고, 선택된 특징들의 임계값은 질병의 감별진단을 위해 임상 전문가의 결정기준으로 사용된다. 본 논문에서는 데이터의 공간적인 분포, 즉 중첩영역에서 중복 속성값을 포함하는 데이터의 분리성 정도를 평가함으로써 연속형 속성을 가진 데이터에 대한 퍼지 이산화기법을 제안한다. 제안된 방법에서 중복 속성값의 가중치 평균값은 각 특징의 임계값(즉 경계값)을 결정하기 위해서 사용되었고, 러프집합은 전체 특징들 중에서 중요특징들의 집합을 선택하기 위해서 이용하였다. 제안된 방법의 타당성을 검증하기 위해 호흡곤란을 주호소로 내원한 668명의 환자 데이터를 근거로 3가지 이산화방법과 제안된 이산화방법에 대한 실험을 수행하였다. 실험결과, 퍼지분할을 기반으로 한 이산화방법이 하드분할을 기반으로 한 이산화방법에 비해서 평균 분류정확도와 G-mean 성능에서 보다 좋은 결과를 제공함을 확인하였다.

웨이블릿 기저의 영상신호에서 단조변환으로 추정된 잡음편차를 사용한 VisuShrink 기법의 잡음제거 (Denoising on Image Signal in Wavelet Basis with the VisuShrink Technique Using the Estimated Noise Deviation by the Monotonic Transform)

  • 우창용;박남천
    • 융합신호처리학회논문지
    • /
    • 제5권2호
    • /
    • pp.111-118
    • /
    • 2004
  • 웨이블릿 변환 영역에서 계수 축소 방법의 잡음제거는 알고리즘의 단순함과 잡음제거 효과의 우수함으로 많이 사용되는 방법이다. 계수 축소 방법 중 VisuShrink는 데이터의 수와 잡음편차에 비례하는 universal 경계값을 사용하여 잡음을 제거하는 방법이다. 일반적으로 잡음편차가 알려져 있지 않으므로 universal 경계값 결정을 위해 잡음편차 추정이 필요하다. 그러나 잡음편차 추정 방법은 고주파 대역에서는 알려져 있으나 저주파 대역에 대해서는 알려져 있지 않으므로 기존의 VisuShrink 방법은 저주파 대역의 잡음을 제거할 수 없다. 본 논문에서는 단조변환에 의한 각 대역의 잡음편차를 추정하고, 추정된 편차에 가중값을 곱한 가중편차를 universal 경계값에 적용하여 최저주파 대역을 제외한 모든 대역의 잡음을 Soft-Threshold 기법으로 제거하였다. 그리고 잡음제거 특성을 비교하기 위해 기존의 VisuShrink방법 및 SureShrink방법과의 잡음제거 특성을 비교하였다. 비교 결과 본 논문에서 제시된 잡음제거 방법은 가우시안 잡음과 고압축 양자화 잡음에서 좋은 잡음 제거효과를 보였다.

  • PDF

Variation of Hospital Costs and Product Heterogeneity

  • Shin, Young-Soo
    • Journal of Preventive Medicine and Public Health
    • /
    • 제11권1호
    • /
    • pp.123-127
    • /
    • 1978
  • The major objective of this research is to identify those hospital characteristics that best explain cost variation among hospitals and to formulate linear models that can predict hospital costs. Specific emphasis is placed on hospital output, that is, the identification of diagnosis related patient groups (DRGs) which are medically meaningful and demonstrate similar patterns of hospital resource consumption. A casemix index is developed based on the DRGs identified. Considering the common problems encountered in previous hospital cost research, the following study requirements are estab-lished for fulfilling the objectives of this research: 1. Selection of hospitals that exercise similar medical and fiscal practices. 2. Identification of an appropriate data collection mechanism in which demographic and medical characteristics of individual patients as well as accurate and comparable cost information can be derived. 3. Development of a patient classification system in which all the patients treated in hospitals are able to be split into mutually exclusive categories with consistent and stable patterns of resource consumption. 4. Development of a cost finding mechanism through which patient groups' costs can be made comparable across hospitals. A data set of Medicare patients prepared by the Social Security Administration was selected for the study analysis. The data set contained 27,229 record abstracts of Medicare patients discharged from all but one short-term general hospital in Connecticut during the period from January 1, 1971, to December 31, 1972. Each record abstract contained demographic and diagnostic information, as well as charges for specific medical services received. The 'AUT-OGRP System' was used to generate 198 DRGs in which the entire range of Medicare patients were split into mutually exclusive categories, each of which shows a consistent and stable pattern of resource consumption. The 'Departmental Method' was used to generate cost information for the groups of Medicare patients that would be comparable across hospitals. To fulfill the study objectives, an extensive analysis was conducted in the following areas: 1. Analysis of DRGs: in which the level of resource use of each DRG was determined, the length of stay or death rate of each DRG in relation to resource use was characterized, and underlying patterns of the relationships among DRG costs were explained. 2. Exploration of resource use profiles of hospitals; in which the magnitude of differences in the resource uses or death rates incurred in the treatment of Medicare patients among the study hospitals was explored. 3. Casemix analysis; in which four types of casemix-related indices were generated, and the significance of these indices in the explanation of hospital costs was examined. 4. Formulation of linear models to predict hospital costs of Medicare patients; in which nine independent variables (i. e., casemix index, hospital size, complexity of service, teaching activity, location, casemix-adjusted death. rate index, occupancy rate, and casemix-adjusted length of stay index) were used for determining factors in hospital costs. Results from the study analysis indicated that: 1. The system of 198 DRGs for Medicare patient classification was demonstrated not only as a strong tool for determining the pattern of hospital resource utilization of Medicare patients, but also for categorizing patients by their severity of illness. 2. The wei틴fed mean total case cost (TOTC) of the study hospitals for Medicare patients during the study years was $11,27.02 with a standard deviation of $117.20. The hospital with the highest average TOTC ($1538.15) was 2.08 times more expensive than the hospital with the lowest average TOTC ($743.45). The weighted mean per diem total cost (DTOC) of the study hospitals for Medicare patients during the sutdy years was $107.98 with a standard deviation of $15.18. The hospital with the highest average DTOC ($147.23) was 1.87 times more expensive than the hospital with the lowest average DTOC ($78.49). 3. The linear models for each of the six types of hospital costs were formulated using the casemix index and the eight other hospital variables as the determinants. These models explained variance to the extent of 68.7 percent of total case cost (TOTC), 63.5 percent of room and board cost (RMC), 66.2 percent of total ancillary service cost (TANC), 66.3 percent of per diem total cost (DTOC), 56.9 percent of per diem room and board cost (DRMC), and 65.5 percent of per diem ancillary service cost (DTANC). The casemix index alone explained approximately one half of interhospital cost variation: 59.1 percent for TOTC and 44.3 percent for DTOC. Thsee results demonstrate that the casemix index is the most importand determinant of interhospital cost variation Future research and policy implications in regard to the results of this study is envisioned in the following three areas: 1. Utilization of casemix related indices in the Medicare data systems. 2. Refinement of data for hospital cost evaluation. 3. Development of a system for reimbursement and cost control in hospitals.

  • PDF

EPC 프로젝트의 위험 관리를 위한 ITB 문서 조항 분류 모델 연구: 딥러닝 기반 PLM 앙상블 기법 활용 (Research on ITB Contract Terms Classification Model for Risk Management in EPC Projects: Deep Learning-Based PLM Ensemble Techniques)

  • 이현상;이원석;조보근;이희준;오상진;유상우;남마루;이현식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.471-480
    • /
    • 2023
  • 국내 건설수주 규모는 2013년 91.3조원에서 2021년 총 212조원으로 특히 민간부문에서 크게 성장하였다. 국내외 시장 규모가 성장하면서, EPC(Engineering, Procurement, Construction) 프로젝트의 규모와 복잡성이 더욱 증가되고, 이에 프로젝트 관리 및 ITB(Invitation to Bid) 문서의 위험 관리가 중요한 이슈가 되고 있다. EPC 프로젝트 발주 이후 입찰 절차에서 실제 건설 회사에게 부여되는 대응 시간은 한정적일 뿐만 아니라, 인력 및 비용의 문제로 ITB 문서 계약 조항의 모든 리스크를 검토하는데 매우 어려움이 있다. 기존 연구에서는 이와 같은 문제를 해결하고자 EPC 계약 문서의 위험 조항을 범주화하고, 이를 AI 기반으로 탐지하려는 시도가 있었으나, 이는 레이블링 데이터 활용의 한계와 클래스 불균형과 같은 데이터 측면의 문제로 실무에서 활용할 수 있는 수준의 지원 시스템으로 활용하기 어려운 상황이다. 따라서 본 연구는 기존 연구와 같이 위험 조항 자체를 정의하고 분류하는 것이 아니라, FIDIC Yellow 2017(국제 컨설팅엔지니어링 연맹 표준 계약 조건) 기준 계약 조항을 세부적으로 분류할 수 있는 AI 모델을 개발하고자 한다. 프로젝트의 규모, 유형에 따라서 세부적으로 검토해야 하는 계약 조항이 다를 수 있기 때문에 이와 같은 다중 텍스트 분류 기능이 필요하다. 본 연구는 다중 텍스트 분류 모델의 성능 고도화를 위해서 최근 텍스트 데이터의 컨텍스트를 효율적으로 학습할 수 있는 ELECTRA PLM(Pre-trained Language Model)을 사전학습 단계부터 개발하고, 해당 모델의 성능을 검증하기 위해서 총 4단계 실험을 진행했다. 실험 결과, 자체 개발한 ITB-ELECTRA 모델 및 Legal-BERT의 앙상블 버전이 57개 계약 조항 분류에서 가중 평균 F1-Score 기준 76%로 가장 우수한 성능을 달성했다.