• 제목/요약/키워드: Record Selection

검색결과 150건 처리시간 0.031초

데이터마이닝을 활용한 한국프로야구 승패예측모형 수립에 관한 연구 (Using Data Mining Techniques to Predict Win-Loss in Korean Professional Baseball Games)

  • 오윤학;김한;윤재섭;이종석
    • 대한산업공학회지
    • /
    • 제40권1호
    • /
    • pp.8-17
    • /
    • 2014
  • In this research, we employed various data mining techniques to build predictive models for win-loss prediction in Korean professional baseball games. The historical data containing information about players and teams was obtained from the official materials that are provided by the KBO website. Using the collected raw data, we additionally prepared two more types of dataset, which are in ratio and binary format respectively. Dividing away-team's records by the records of the corresponding home-team generated the ratio dataset, while the binary dataset was obtained by comparing the record values. We applied seven classification techniques to three (raw, ratio, and binary) datasets. The employed data mining techniques are decision tree, random forest, logistic regression, neural network, support vector machine, linear discriminant analysis, and quadratic discriminant analysis. Among 21(= 3 datasets${\times}$7 techniques) prediction scenarios, the most accurate model was obtained from the random forest technique based on the binary dataset, which prediction accuracy was 84.14%. It was also observed that using the ratio and the binary dataset helped to build better prediction models than using the raw data. From the capability of variable selection in decision tree, random forest, and stepwise logistic regression, we found that annual salary, earned run, strikeout, pitcher's winning percentage, and four balls are important winning factors of a game. This research is distinct from existing studies in that we used three different types of data and various data mining techniques for win-loss prediction in Korean professional baseball games.

불균형 데이터 집합에 대한 스마트 분류방법과 특허 평가에의 응용 (Smarter Classification for Imbalanced Data Set and Its Application to Patent Evaluation)

  • 권오병;이상연
    • 지능정보연구
    • /
    • 제20권1호
    • /
    • pp.15-34
    • /
    • 2014
  • 성과 지표로서의 전방적 정확도는 정답인 경우 1, 오답인 경우 0으로 계사하는 이른바 모듈화된 정확도를 충분히 고려하지 못한다. 이에 문제의 특징에 따라 모듈화 정확도에 맞는 판별 규칙을 최적화 하는 보다 스마트한 판별 알고리즘이 필요하다고 볼 수 있다. 이에 따라, 스마트한 알고리즘은 문제 유형에 따라 보다 일반화되고 실제 성능의 왜곡을 야기할 수 있는 이산화에 제약되지 않아야 한다. 따라서 본 논문의 목적인 모듈화 정확도를 개선하는 새로운 부스팅 알고리즘을 제안하는 것이다. 이에 일반화를 도모하고 문제 영역의 특성에 맞게 판별화 모형을 선정하기 위해 스마트함을 고려한 모형 선정 알고리즘을 개발하였다. 제안된 방법의 성능을 검증하기 위해 실제로 47,000여건의 특허건을 가지고 실제 실용화 가능성을 판별하는 실험을 수행하였다.

지난 반세기 동안 남한에서 관측된 1월 최저기온의 연차변이 (The Observed Change in Interannual Variations of January Minimum Temperature between 1951-1980 and 1971-2000 in South Korea)

  • 정재은;정유란;윤진일;최동근
    • 한국농림기상학회지
    • /
    • 제6권4호
    • /
    • pp.235-241
    • /
    • 2004
  • 1월의 최저기온을 대상으로 1951년부터 2000년까지 14개 지점의 관측자료를 분석한 결과 11개 지점에서 전반기(1951-1980)에 비해 후반기(1971-2000)의 연차 변이가 오히려 감소한 것으로 나타났다 표준편차로 표현할 경우 제주, 전주, 울릉도를 제외한 나머지 11개 지점에서 많게는 0.35(서울)에서 적게는 0.03(강릉)까지 고르게 연차변이가 감소하였다. 이는 최근의 난동화 경향과 함께 겨울철 최저기온의 연차변이가 더 심해지고 있다는 당초의 예상과 다른 결과이다 연차변이의 공간분포양상은 최저기온의 절대값과 정의 상관을, 관측점의 해발고도와는 부의 상관을 보였다. 이 관계를 이용하여 남한전역의 1월 최저기온 30년 표준 편차 분포도를 작성하였으며, 이를 토대로 재현기간별로 기대되는 전국의 극최저기온 분포도를 제작하여 지역별 동해위험 평가에 이용토록 하였다.

병원급식의 미생물적 품질보증을 위한 HACCP 전산프로그램의 개발 (The Development of a Computer-Assisted HACCP Program for the Microbiological Quality Assurance in Hospital Foodservice Operations)

  • 곽동경;류경;최성경
    • 한국식생활문화학회지
    • /
    • 제11권1호
    • /
    • pp.107-121
    • /
    • 1996
  • This study was carried out to develop the computer-assisted Hazard Analysis and Critical Control Point (HACCP) program for a systematic approach to the identification, assessment and control of hazards for foodservice manager to assure the microbiological quality of food in hospital foodservice operations. Sanitation practices were surveyed and analyzed in the dietetic department of 4 hospitals. Among them, one 762-bed general hospital was selected as standard model to develop computer-assisted HACCP program. All data base files and processing programs were created by using Foxpro package for easy access of HACCP concept. HACCP program was developed based on the methods suggested by NACMCF, IAMFES and Bryan. This program consisted of two parts: the pre-stage for HACCP study and the implementation stage of the HACCP system. 1. Pre-stage for HACCP study includes the selection of menu item, the development of the HACCP recipe, the construction of a product flow diagram, and printing the HACCP recipe and a product flow diagram. A menu item for HACCP study can be selected from the menu item lists classified by cooking methods. HACCP recipe includes ingredients, their amount and cooking procedure. A flow diagram is constructed based on the HACCP recipe. The HACCP recipe and a product flow diagram are printed out. 2. Implementation of HACCP study includes the identification of microbiological hazards, the determination of critical control points, the establishment of control methods of each hazard, and the complementation of data base file. Potentially hazardous ingredients are determined and microbiological hazards are identified in each phase of the product flow. Critical control points (CCPs) are identified by applying CCP decision trees for ingredients and each process stage. After hazards and CCPs are identified, criteria, monitoring system, corrective action plan, record-keeping system and verification methods are established. When the HACCP study is complemented, HACCP study result forms are printed out. HACCP data base file can be either added, corrected or deleted.

  • PDF

웹 생태박물관을 활용한 문화유산의 기록과 보존 : 무등산을 중심으로 (A Record and Conservation of Cultural Heritages through Web Ecomuseum : the Case of Mountain Mudeung)

  • 노시훈
    • 기록학연구
    • /
    • 제27호
    • /
    • pp.209-238
    • /
    • 2011
  • 1968년 프랑스에서 출현하여 전 세계로 널리 확산된 생태박물관은 유물의 소장 전시보다 어떤 지역의 자연 문화유산 전체를 '본래의 장소에서' 보존 해석하여 그 지역의 장소적 의미를 찾고 주민의 참여와 지역 공동체의 발전을 도모하는 것을 목적으로 하는 새로운 유형의 박물관이다. 이 박물관이 갖는 의의는 사라져가는 지역의 집단 기억을 회복하여 주민의 문화적 정체성을 되찾고 낙후된 지역을 활성화하는 데 있다. 그런데 이 박물관은 분산형 야외박물관인 경우가 많기 때문에 흩어져있는 지역 유산 전반에 대한 원격 정보 제공과 종합적 해석이 가능하도록 유산을 디지털화하여 기록 보존 해석 활용하는 '웹 생태박물관'이 필요하다. 본고에서는 무등산이라는 지역을 예로 들어 웹 생태박물관의 가능성과 그 구성 내용 방법에 대해 고찰하였다. 특히 후자에 대해서는 지역 고유의 주제를 선정하여 관련 유산을 토대로 디지털 아카이브를 구축(기록 보존)하고, 웹 전시를 개최(해석)하고, 전자문화지도를 제작(활용)하는 방안을 제시하였다.

직무능력평가사의 직무분석에 관한 연구 (A Study on the Job Analysis of Job Competency Assessor)

  • 이진구;정일찬;김지영
    • 실천공학교육논문지
    • /
    • 제14권2호
    • /
    • pp.413-423
    • /
    • 2022
  • 본 연구의 목적은 NCS에 기반한 직무수행능력 성취도(교육훈련, 자격, 현장경험 등)를 역량평가를 통해 평가하는 직무능력평가사의 역할을 분석하는 것이다. 이를 위해 직무능력평가사의 직무모형을 개발 및 검증하고, 핵심작업을 도출하는 직무분석을 실시하였다. 연구결과, 직무능력평가사의 책무는 NCS 기반 평가원리 확인, 평가계획 수립, 평가도구 설계 및 개발, 평가 실행, 피드백 제공 및 재평가, 평가 기록 및 관리, 내부평가 타당성 검토, 선행학습인정 계획수립, 선행학습인정 평가 실행, 선행학습인정 타당성 검토로 나타났고, 48개의 작업이 도출되었다. 또한, 책무별로 작업의 중요도와 난이도를 곱한 임계도 값을 바탕으로 총 21개의 핵심작업을 도출하였다. 이를 바탕으로 직무능력평가사 직무분석에 대한 시사점을 제시하였다.

미술 아카이브의 미술기록관리 방안 연구 (A Study on Management of Records of Art Archives)

  • 정혜린;김익한
    • 기록학연구
    • /
    • 제20호
    • /
    • pp.151-212
    • /
    • 2009
  • 세계화의 과정이 미술관의 활동에 반영되면서 미술관은 새로운 가치를 생산하고 맥락을 재현하는 장소로 재정의 되었다. 급속히 변하는 사회 환경과 상호작용하며 성장하는 유기적인 존재로서의 미술관은 주체적으로 변화를 맞이하고, 변화의 속도와 방향 내용을 결정해야 한다. 대중은 미술작품이라는 물리적 대상의 관람을 통해 작품의 진본성, 아우라와 대면해 왔다. 그러나 새롭게 디지털 객체의 등장에 따라 관람의 주도권은 미술작품에서 대중의 손으로 넘어갔다. 이제 대중은 작품을 보기위해 미술관에 가는 것이 아니라 작품을 화면 앞으로 작품을 끌어오는 역발상의 패러다임에 적응하기 시작했다. 이에 따라 더 이상 작품만을 보는 것에 만족하지 않고, 작품에 대한 더 많은 정보를 요구하면서 이를 지식으로 재생산하고 있다. 이러한 디지털 환경으로의 진입은 미술관에도 또 다른 방식의 공공성 실현을 요구하고 있다. 미술관의 공공성이란 우리 미술의 정체성을 지켜나가고 미술사에 대한 올바른 역사적 인식을 확립하기 위해서 가장 먼저 실현되어야할 공통의 목표이다. 이 모든 것을 실현하고 또 지켜나가기 위해서는 우리 미술사 전반에 걸쳐 생산되었지만 지금까지 작품의 아우라에 가려 소홀히 관리되었던 미술기록의 가치에 대한 재조명이 필요하다. 이에 본 연구에서는 미술기록의 가치가 고양되고 체계적인 관리가 요구되는 지금 시점에서 미술기록에 대한 정의와 범주를 설정을 통하여 유형 및 특성을 도출하고, 미술아카이브의 조직과 조직의 수행 기능에 따른 기록 관리 방안을 제안하는 것을 목적으로 하였다. 특히 기록 관리 전반 체제의 기조가 '보존'보다 '접근'의 패러다임에 있음을 강조하여 디지털화된 미술기록의 다양한 활용방안에 대하여 구상하였다. 그 중에서 미술작품의 디지털 객체를 작품 실물의 제1의 재현물로서 인정하며, 실질적으로는 디지털 원본의 개념으로 제안함으로서 이를 미술기록의 핵심기록으로 설정하였다. 물리적 지적 통제 하에 관리된 미술기록은 디지털 환경에서 핵심기록인 미술작품의 디지털 원본을 중심으로 유기적으로 재구성됨으로서 이용자들의 요구에 맞춘 다양한 서비스의 형태로 제공될 수 있다. 이러한 미술기록의 체계적인 관리의 시작은 기록자체의 사회적, 역사적 가치를 고양하고 넓게는 미술문화의 정체성 확립과 미술문화를 진정으로 향유할 수 있는 단초가 될 것이다.

Variation of Hospital Costs and Product Heterogeneity

  • Shin, Young-Soo
    • Journal of Preventive Medicine and Public Health
    • /
    • 제11권1호
    • /
    • pp.123-127
    • /
    • 1978
  • The major objective of this research is to identify those hospital characteristics that best explain cost variation among hospitals and to formulate linear models that can predict hospital costs. Specific emphasis is placed on hospital output, that is, the identification of diagnosis related patient groups (DRGs) which are medically meaningful and demonstrate similar patterns of hospital resource consumption. A casemix index is developed based on the DRGs identified. Considering the common problems encountered in previous hospital cost research, the following study requirements are estab-lished for fulfilling the objectives of this research: 1. Selection of hospitals that exercise similar medical and fiscal practices. 2. Identification of an appropriate data collection mechanism in which demographic and medical characteristics of individual patients as well as accurate and comparable cost information can be derived. 3. Development of a patient classification system in which all the patients treated in hospitals are able to be split into mutually exclusive categories with consistent and stable patterns of resource consumption. 4. Development of a cost finding mechanism through which patient groups' costs can be made comparable across hospitals. A data set of Medicare patients prepared by the Social Security Administration was selected for the study analysis. The data set contained 27,229 record abstracts of Medicare patients discharged from all but one short-term general hospital in Connecticut during the period from January 1, 1971, to December 31, 1972. Each record abstract contained demographic and diagnostic information, as well as charges for specific medical services received. The 'AUT-OGRP System' was used to generate 198 DRGs in which the entire range of Medicare patients were split into mutually exclusive categories, each of which shows a consistent and stable pattern of resource consumption. The 'Departmental Method' was used to generate cost information for the groups of Medicare patients that would be comparable across hospitals. To fulfill the study objectives, an extensive analysis was conducted in the following areas: 1. Analysis of DRGs: in which the level of resource use of each DRG was determined, the length of stay or death rate of each DRG in relation to resource use was characterized, and underlying patterns of the relationships among DRG costs were explained. 2. Exploration of resource use profiles of hospitals; in which the magnitude of differences in the resource uses or death rates incurred in the treatment of Medicare patients among the study hospitals was explored. 3. Casemix analysis; in which four types of casemix-related indices were generated, and the significance of these indices in the explanation of hospital costs was examined. 4. Formulation of linear models to predict hospital costs of Medicare patients; in which nine independent variables (i. e., casemix index, hospital size, complexity of service, teaching activity, location, casemix-adjusted death. rate index, occupancy rate, and casemix-adjusted length of stay index) were used for determining factors in hospital costs. Results from the study analysis indicated that: 1. The system of 198 DRGs for Medicare patient classification was demonstrated not only as a strong tool for determining the pattern of hospital resource utilization of Medicare patients, but also for categorizing patients by their severity of illness. 2. The wei틴fed mean total case cost (TOTC) of the study hospitals for Medicare patients during the study years was $11,27.02 with a standard deviation of $117.20. The hospital with the highest average TOTC ($1538.15) was 2.08 times more expensive than the hospital with the lowest average TOTC ($743.45). The weighted mean per diem total cost (DTOC) of the study hospitals for Medicare patients during the sutdy years was $107.98 with a standard deviation of $15.18. The hospital with the highest average DTOC ($147.23) was 1.87 times more expensive than the hospital with the lowest average DTOC ($78.49). 3. The linear models for each of the six types of hospital costs were formulated using the casemix index and the eight other hospital variables as the determinants. These models explained variance to the extent of 68.7 percent of total case cost (TOTC), 63.5 percent of room and board cost (RMC), 66.2 percent of total ancillary service cost (TANC), 66.3 percent of per diem total cost (DTOC), 56.9 percent of per diem room and board cost (DRMC), and 65.5 percent of per diem ancillary service cost (DTANC). The casemix index alone explained approximately one half of interhospital cost variation: 59.1 percent for TOTC and 44.3 percent for DTOC. Thsee results demonstrate that the casemix index is the most importand determinant of interhospital cost variation Future research and policy implications in regard to the results of this study is envisioned in the following three areas: 1. Utilization of casemix related indices in the Medicare data systems. 2. Refinement of data for hospital cost evaluation. 3. Development of a system for reimbursement and cost control in hospitals.

  • PDF

개인의료정보보안인식이 편의성에 미치는 영향 (Impact of Personal Health Information Security Awareness on Convenience)

  • 박정홍
    • 한국콘텐츠학회논문지
    • /
    • 제17권6호
    • /
    • pp.600-612
    • /
    • 2017
  • 본 연구의 목적은 병원이용 경험이 있는 일반인과 의료종사자 사이의 개인의료정보의 중요성, 개인의료 정보 관련 법규, 의료정보시스템에 관한 인식차이와 이를 토대로 병원이용 편의성에 어떠한 영향을 미치는지 알아보기 위함이다. 이를 위해 선행연구 고찰 이후 연구모형을 설정하였고, 일반인 150부, 의료종사자 150부 총 300부의 설문을 회수 후 분석을 실시하였다. 먼저 집단 간의 차이분석에서 일반인과 의료종사자 간의 인식의 차이가 있음이 밝혀졌다. 그리고 성별, 연령별, 거주지별 집단 간에도 인식의 차이가 있음을 확인할 수 있었다. 또한 병원이용편의성에 있어서도 의료종사자들은 개인의료정보보안에 대한 인식이 강화되면 병원 이용 편의성이 향상된다는 인식이 일반인에 비해 높은 것으로 밝혀졌다. 가설 검정 결과에서는 개인의료정보의 노출 및 의료정보시스템에 관한 인식이 높을수록 의료기관 활용에 있어서 의사결정 편의성이 높아짐을 확인할 수 있었다. 반면 개인의료정보보안 관련 법규에 관하여는 인식이 높아질수록 병원 이용의 의사결정 편의성과 거래 편의성에 영향을 주지 않음을 확인할 수 있다. 본 연구의 결과는 개인의료정보보안에 대한 인식의 강화는 의료서비스를 제공받고 선택함에 있어서의 의사결정과 거래편의성을 향상시킨다는 것을 실증분석 했다는 것이다.

기업의 전자증거개시 대응을 위한 예측 부호화(Predictive Coding) 도구 적용 방안 (A Study on Application of Predictive Coding Tool for Enterprise E-Discovery)

  • 유준상;임진희
    • 정보관리학회지
    • /
    • 제33권4호
    • /
    • pp.125-157
    • /
    • 2016
  • 해외에 진출한 국내기업의 소송 사례가 증가하면서 기업들의 전자증거개시제도의 대응에 대한 요구가 증가하고 있다. 영미법에서 유래된 제도인 전자증거개시제도는 절차 진행과정에서 여러 곳에 산재해 있는 전자적 정보들을 중 제한된 시간 내에 소송과 관련된 전자적 정보들을 찾아 증거자료로 검토하여 제출하는 제도이다. 이는 하루에도 수많은 전자기록이 생산되는 국내기업들의 기록관리가 잘 이루어지지 않고 있는 현실에서 제한된 시간 이내에 증거자료를 추리고 검토하여 제출하는 것은 쉽지 않은 일이다. 검토대상을 줄이고 검토과정을 효율적으로 진행하는 것은 소송에서 승소를 위한 가장 중요한 과제 중 하나이다. Predictive Coding은 전자증거개시 검토 과정에서 사용되는 도구로써 기계학습을 이용하여 기업들이 보유하고 있는 전자적 정보들의 검토를 도와주는 도구이다. Predictive Coding이 기존의 검색도구보다 효율성이 높고 잠재적으로 소송과 관련된 전자적 정보를 추려내는데 강점이 있다고 판단된다. 기업의 효율적인 검색도구의 선택과 지속적인 기록관리를 통해 검토비용의 시간적, 비용적 절감을 꾀할 수 있을 것으로 예상된다. 따라서 기업은 전자증거개시 제도에 대응하기 위해서 시간과 비용적 측면을 고려한 전문적인 Predictive Coding 솔루션의 도입과 기업 기록관리를 통해 가장 효과적인 방법을 모색해야 할 것이다.