• 제목/요약/키워드: Missing data patterns

검색결과 62건 처리시간 0.03초

풍력 데이터를 이용한 발전 패턴 예측 (Predicting Power Generation Patterns Using the Wind Power Data)

  • 서동혁;김규익;김광득;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권11호
    • /
    • pp.245-253
    • /
    • 2011
  • 화석 연료의 무분별한 사용으로 환경이 심각하게 오염되고, 화석 연료의 고갈에 대한 문제가 대두됨에 따라서 화석 연료에 대한 문제를 해결 할 수 있는 대체 에너지원에 대해 관심이 집중되기 시작하였다. 현재 신재생 에너지 중에서 가장 각광을 받고 있는 에너지는 중에 하나가 풍력에너지이다. 풍력에너지 발전단지와 기존의 전력 발전소는 소비되는 전력에 대한 생산의 균형을 맞춰야하며, 풍력에너지단지에서 균형적인 생산을 하기 위해서는 풍력에너지에 대한 분석 및 예측이 필요하다. 이를 위해서 데이터마이닝 분야의 예측 기법이 활용 될 수 있다. 본 논문에서는 풍력 데이터를 이용하여 발전 패턴을 예측하기 위해 SOM(Self-Organizing Feature Map) Clustering 기법과 의사결정나무(decision tree)를 이용한 연구를 진행하였다. 즉, 1) 풍력 데이터의 누락된 데이터와 이상치 데이터를 처리하기 위하여, 전처리 과정을 수행하였고, 이 과정에서 특징 벡터를 추출하였다. 2) 전처리 단계를 거쳐 정제되고 정규화된 데이터 집합을 MIA(Mean Index Adequacy) 척도와 SOM Clustering 기법에 적용하여 대표 발전 패턴을 찾아내고 각각의 데이터에 해당하는 대표 패턴을 클래스 레이블로 할당하도록 하였다. 3) 의사결정나무 기반의 분류 기법에 데이터 집합을 적용시켜 새로운 풍력에너지에 대한 분석 및 예측 모델을 생성하였다. 실험 결과, 의사결정나무를 통한 풍력에너지 발전 패턴을 예측하기 위한 모델을 구축하였다.

병원간호사의 행복지수 영향요인 (Factors Influencing Happiness Index of Hospital Nurses)

  • 남문희;권영채
    • 간호행정학회지
    • /
    • 제19권3호
    • /
    • pp.329-339
    • /
    • 2013
  • Purpose: This study was conducted to provide basic data on the nursing Happiness Index and identify factors influencing nurses by describing their perception of lifestyle, health behavior, nursing professionalism, Happiness Index, and turnover intention. Methods: On July 2012, 700 nurses from 10 general hospitals were surveyed, but 23 were omitted due to missing or incomplete data. The focus of this study was the Organization for Economic Co-operation and Development (OECD) Happiness Index, consisting of 11 OECD identified topics concerning living conditions and quality of life. Data were analyzed using $x^2$-tests, t-test, ANOVA, Pearson correlation coefficients and multiple regression with SPSS/WINdow 14.0. Results: Mean score for nurses' Happiness Index was 3.03 on a scale of 5. There were significant differences on the Happiness Index for the following: age, marriage, children, education, position, work experience, wages, number of beds, medical institution, health behavior, weight, and meal patterns. There was a positive correlation between the happiness index and nursing professionalism but a negative correlation between the happiness index and turnover intention. Conclusion: Results indicate that factors influencing happiness are autonomy, sense of calling and turnover intention suggesting the need to improve nursing professionalism for a life of happiness among hospital nurses.

교통이력 데이터의 품질 개선과 What-If 분석을 위한 자료처리 기법의 구현 (Implementation of a Data Processing Method to Enhance the Quality and Support the What-If Analysis for Traffic History Data)

  • 이민수;정수정;최옥주;맹보연
    • 정보처리학회논문지D
    • /
    • 제17D권2호
    • /
    • pp.87-102
    • /
    • 2010
  • 현재 우리나라에서는 매일 막대한 양의 교통 데이터가 측정장치들로부터 수집되고 있으나 오류 데이터와 누락된 데이터들이 상당히 많은 실정이다. 더구나 이러한 데이터는 중요한 분석의 대상이 될 수 있음에도 불구하고 일정 시간이 지나면 삭제되고 있다. 그리하여 본 논문에서는 이러한 교통 데이터를 지속적으로 누적하여 다차원 모델로 저장하면서 데이터의 품질을 결정하는 유효성과 완전성을 높이면서 what-if 분석 기능을 지원하는 일련의 자료처리 과정을 제공하는 통합 교통이력 데이터베이스 시스템의 구현을 설명한다. 구현된 시스템에서는 다양한 오류 및 누락 데이터 패턴들을 보정하는 기법들을 제공하며, what-if 분석 기능은 다양한 데이터 정제 및 가공 과정들에 관련된 환경변수와 일련의 처리 과정들의 조합을 융통성 있게 정의하도록 함으로써 다양한 상황들을 가정하고 실험하여 결과를 분석할 수 있게 해준다. 이러한 what-if 분석 기능은 교통 데이터의 활용도를 획기적으로 높여주며 외국의 교통데이터 시스템들에서도 제공하지 못하고 있다. 교통이력데이터를 정제한 실험결과 매우 우수한 유효성 및 완전성을 가진 교통 데이터를 생성함을 확인하였다.

중등도 갱년기 증상을 가진 폐경 후 여성에서 식품군별 섭취패턴에 따른 영양소 섭취상태, 식사의 질 및 삶의 질에 관한 연구 (Nutritional Status, Quality of Diet and Quality of Life in Postmenopausal Women with Mild Climacteric Symptoms Based on Food Group Intake Patterns)

  • 이옥화;김진경;이한송이;조여원
    • 대한지역사회영양학회지
    • /
    • 제17권1호
    • /
    • pp.69-80
    • /
    • 2012
  • This study was conducted to examine the nutritional status, quality of diet and quality of life in postmenopausal women with mild climacteric symptoms based on their food group intake patterns. The data for nutritional status were obtained using 3-day records. Quality of diet was assessed by INQ, NAR, MAR, DDS, DVS, DQI-I. Climacteric symptoms were analyzed by the questionnaire of Kupperman's index and MENoL. The subjects were classified into the five groups, GMVDF, GMVdF, GMVDf, GMVdf, GmVDF according to their food group intake patterns. Analysis of nutrient intakes showed that the GMVDF group took significantly higher levels of kcal, carbohydrate, protein, fat, vitamin A, thiamin, riboflavin, folate, vitamin C, vitamin E, calcium, phosphorous, sodium, iron, zinc and fiber than GMVdf group did (p < 0.05). INQ of Ca and Fe appeared to be higher in GMVDF than in GMVdf groups (p < 0.05). Analysis of NARs showed that missing milk groups took lower riboflavin, Ca and P than other groups did as the same result with MAR (p < 0.05). Analysis of DDS and DQI showed that GMVdf group had the lowest quality of diet (p < 0.05); however, no difference was found on DVS. The GMVdf group showed the worst climacteric symptoms compared with those of the other groups (p < 0.05). However, we couldn't observe any differences in menopause-specific quality of life among the groups. In conclusion, it would be beneficial to meet all five food groups to increase the quality of diet and to reduce the climacteric symptoms in postmenopausal women.

에센셜 그래프를 바탕으로 한 격자 조건부 독립 모델 (Lattice Conditional Independence Models Based on the Essential Graph)

  • Ju Sung, Kim;Myoong Young, Yoon
    • 한국산업정보학회논문지
    • /
    • 제9권2호
    • /
    • pp.9-16
    • /
    • 2004
  • 결측치가 존재하는 비 단조형 데이터에 대한 패턴 분석과 비 내포형 종속 회귀 모형 분석에 격자 조건부 독립 모델이 최근 도입되고 있다. 이러한 접근 방법은 데이터 패턴 분석에 성공적으로 적용되고 있지만 격자 조건부 독립 모델을 찾는 계산적 부담이 따른다. 본 논문에서는 이러한 단점을 극복하기 위하여 에센셜 그래프를 바탕으로 격자 조건부 독립 모델(LCIM)을 찾는 새로운 방법을 제안한다. 또한, LCIM 클래스가 특정한 비 순환 방향 그래프 모델과 마르코프 동등한 모든 추이적 비 순환 방향 그래프의 모델 클래스와 일치함을 밝혔다.

  • PDF

통행사슬 구조를 이용한 교통카드 이용자의 대중교통 통행종점 추정 (Inferring the Transit Trip Destination Zone of Smart Card User Using Trip Chain Structure)

  • 신강원
    • 대한교통학회지
    • /
    • 제34권5호
    • /
    • pp.437-448
    • /
    • 2016
  • 본 연구는 선행연구에서 제시하고 있는 통행기점 정보만을 제공하고 있는 불완전한 대중교통카드 자료로부터 대중교통 통행의 종점을 통행사슬 구조를 이용하여 추정할 수 있는 모형의 국내 자료 적용 가능성을 살펴보고 모형 적용 결과를 제시하였다. 이를 위해 본 연구는 부산에서 2014년 10월 주중에 수집된 선불 교통카드 승 하차 태그 원시자료 1,846,252건을 대상으로 하루 동안 한 대중교통 이용자가 발생시킨 일련의 통행들을 시 공간적으로 연계시켜 통행사슬을 형성하고, 대중교통 이용자의 결측 종점을 연속된 다음 통행의 승차지점 또는 최초 승차지점이 속한 교통존으로 추정하였다. 모형 검증을 위해 대중교통 통행종점이 관측된 자료에 모형을 적용한 결과 실제 통행종점과 추정 통행종점의 일치도는 82.4%로 나타났으며 이 때 통행종점으로 추정된 정류장과 실제 하차 정류장간 거리의 오차는 최소가 되는 것으로 나타나 제안모형의 유용성은 높은 것으로 분석되었다. 통행사슬 구조를 이용한 통행종점 추정 모형을 종점결측 통행에 적용했을 때 종점결측 통행의 비율은 적용 전 71.40%(718,915통행)에서 21.74%(218,907통행)로 감소하였으며 종점추정이 불가한 218,907통행의 대부분은 모형 적용이 불가한 일일 통행횟수 '1회'인 통행(169,359통행, 77.37%)인 것으로 나타났고, 일일 통행횟수가 '2회 이상'인 통행의 종점결측 비율은 69.56%에서 모형 적용 후 6.27%로 크게 감소하였다. 한편 통행종점 추정 모형 적용에 따른 존간 통행 및 존내 통행분포의 변화를 비교하기 위해 순위상관계수 및 카이제곱 적합도 검정을 수행하였으며, 분석 결과 통행종점 추정 모형 적용에 따라 각 중존별 통행량의 순위는 변화하지 않으나 통행량 분포는 유의한 변화를 보였다. 따라서 통행사슬 구조를 이용한 교통카드 이용자의 통행종점 추정 모형 적용은 통행종점이 결측된 불완전 대중교통카드 자료가 수집되고 있는 도시의 대중교통 통행패턴을 보다 현실적으로 반영할 수 있게 도움을 줄 것으로 판단된다.

인간 지식을 이용한 경험적 의사결정트리의 설계 (Design of Heuristic Decision Tree (HDT) Using Human Knowledge)

  • 윤태복;이지형
    • 한국지능시스템학회논문지
    • /
    • 제19권4호
    • /
    • pp.525-531
    • /
    • 2009
  • 데이터 마이닝(Data Mining)은 수집된 데이터로 부터 감춰진 패턴을 찾는 작업이다. 여기에서 수집된 데이터는 예측 및 추천을 위한 기반 정보로 중요한 역할을 하며, 분석 결과의 성능을 향상시키기 위해 잘못된(Missing value) 데이터를 선별하는 과정을 필요로 한다. 수집한 데이터에서 의도하지 못한 데이터를 선별하기 위한 기존의 방법은 주로 통계적이거나 단순 거리(Distance)에 기반을 둔 방법을 이용하였다. 하지만 환경 및 데이터의 특성을 고려하지 못하여, 의미 있는 데이터도 함께 분석에서 제외 될 수 있는 문제점을 가지고 있다. 본 논문은 인간의 경험적 지식을 수집된 데이터와 비교하여 가중치로 변환하고, 의사결정트리(Decision Tree)의 생성에 이용한다. 생성된 트리는 인간의 지식이 반영되어 기존의 분석 방법보다 신뢰성이 높다고 할 수 있으며, 실험을 통하여 제안하는 방법의 유효성을 확인하였다.

Assessment of Epidemiological Data and Surveillance in Korea Substance Use Research: Insights and Future Directions

  • Meekang Sung;Vaughan W. Rees;Hannah Lee;Mohammad S. Jalali
    • Journal of Preventive Medicine and Public Health
    • /
    • 제57권4호
    • /
    • pp.307-318
    • /
    • 2024
  • Objectives: Effective data collection and surveillance of epidemiological trends are essential in confronting the growing challenges associated with substance use (SU), especially in light of emerging trends and underreporting of cases. However, research and data are scarce regarding SU and substance use disorder (SUD) in Korea. Methods: We conducted a scoping review to identify data sources and surveillance methods used in SU research in Korea up to December 2023. This review was complemented by semi-structured consultations with experts in this area in Korea, whose feedback led to revisions of previously identified data sources and assessments. Results: Our review identified 32 publications conducting secondary analyses on existing data to examine the epidemiology of SU and SUD in Korea. Of these, 14 studies utilized clinical databases to explore the prescription patterns of addictive substances, particularly opioids. Eleven data sources showed promise for advancing SU research; however, they face substantial limitations, including a lack of available data, missing data, the absence of key variables, the exclusion of marginalized populations not captured within the clinical system, and complexities in matching individual-level data across time points and datasets. Conclusions: Current surveillance methods for SU in Korea face considerable challenges in accessibility, usability, and standardization. Moreover, existing data repositories may fail to capture information on populations not served by clinical or judicial systems. To systematically improve surveillance approaches, it is necessary to develop a robust and nationally representative survey, refine the use of existing clinical data, and ensure the availability of data on treatment facilities.

모바일 사용자의 개인 및 소셜 정보 추정 (Estimating Personal and Social Information for Mobile User)

  • 손정우;한용진;송현제;박성배;이상조
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권9호
    • /
    • pp.603-614
    • /
    • 2013
  • 모바일 디바이스의 발달은 사용자가 언제 어디서나 원하는 서비스에 접근하고, 정보를 소비할 수 있는 환경을 마련했다. 이에 맞춰 다양한 연구들이 모바일 사용자의 정보 접근성을 향상 시키기 위한 개인화 방법을 제안해 왔다. 하지만, 이와 같은 개인화는 사용자 개인과 관련된 정보를 요구하기에, 사용자 정보에 대한 보안과 관련된 우려를 낳고 있다. 이를 해결할 수 있는 효과적인 방법 중 하나로 사용자 정보를 사용자의 온라인 혹은 오프라인 상의 행동 패턴으로부터 추정하는 것을 들 수 있다. 본 논문에서는 SNS(Social Network Service) 상에서의 사용자 패턴과 사용자 간 물리적인 근접성 패턴을 분석하여 사용자 개인의 정보와 타 사용자와의 사회 관계정보를 식별하는 사용자 정보 식별 시스템을 제안하고자 한다. 제안한 시스템은 SNS 텍스트와 GPS 데이터에 기반한 POI(Point of Interest) 패턴으로부터 사용자의 나이, 성별 등 개인정보를 식별하고, 사용자 GPS 데이터를 이용하여 얻어진 사용자 간 근접성 패턴을 이용하여 두 사용자 간의 가족, 동료 등 관계 정보를 추정한다. 각각의 사용자 식별 모듈은 해당 데이터의 특성을 고려하여 SNS 데이터의 노이즈와 사용자 GPS 데이터의 손실을 감안함으로써 더 정확한 사용자 식별 성능을 보이도록 설계되었다. 이를 검증하기 위한 실험에서 제안한 시스템은 기존의 방법에 비해 더 나은 성능을 보였으며, 이는 본 논문에서 제안하는 방법이 사용자 데이터의 특성을 효과적으로 반영하고 있음을 의미한다.

『각사등록』에 의한 조선시대 경상도지역 측우기 강우량자료 복원 및 분석 (Restoration and Analysis of Chugugi Rainfall Data in 『Gaksadeungnok』 for the Gyeongsang-do during the Joseon Dynasty)

  • 조하만;김상원;박진;전영신
    • 대기
    • /
    • 제24권4호
    • /
    • pp.481-489
    • /
    • 2014
  • The Chugugi and Wootaek data of Gyeongsang-do (Dagu, Jinju, Goseong) were restored from "Gaksadeungnok", the governmental documents reported by the local government to the central during the Joseon Dynasty, and analyzed. The duration of the restored data represents 6 years for Daegu (1863, 1872, 1890, 1897, 1898, and 1902), 3 years for Jinju (1897, 1898, and 1900), and 2 years for Goseong (1871 and 1873). Total number of the restored data was 134, including 83 in Daegu, 25 in Jinju, and 26 in Goseong with the period ranging from March to September. The summer data from June to August accounts for approximately 50% (73 data), while the April data also shows relatively high number of 22, followed by September and March. Most data was collected from March to October, while this time winter data was not found even in October. The rainfall patterns using Chugugi data were investigated. First, the number of days with rainfall by annual mean showed 41 days in Daegu, 39 in Jinju, 33 in Goseong, respectively. In terms of the time series distribution of daily rainfall, the ratio between the number of occurrences with over 40 mm of heavy rainfall and the number of rainy days showed 14 times (8%) in Daegu, 24 (39%) in Jinju, and 4 (6%) in Goseong, respectively. The maximum daily rainfall during the period was recorded with 80mm in Jinju on August 24, 1900. The result of analyzing monthly amount of rainfall clearly indicated more precipitation in summer (June, July and August) with the relatively high records of 284 mm and 422 mm in April, 1872 and July, 1902, respectively, in Daegu, while Jinju recorded the highest value of 506 mm in June, 1898. When comparing the data with those observed by Chugugi in Seoul during the same period from "Seungjeongwonilgi", the monthly rainfall patterns in Daegu and Seoul were quite similar except for the year of 1890 and 1897 in which many data were missing. In particular, in June 1898 the rainfall amount of Jinju recorded as much as 506 mm, almost 4 times of that of Seoul (134 mm). Based on this, it is possible to presume that there was a large amount of the precipitation in the southern region during 1898. According to the calculated result of Wootaek data based on Chugugi observations, the unit of 1 'Ri' and 1 'Seo' in Daegu can be interpreted into 18.6 mm and 7.8 mm. When taking into consideration with the previous result found in Gyeonggi-do (Cho et al., 2013), 1 'Ri' and 1 'Seo' may be close to 20.5 mm and 8.1 mm, however, more future investigations and studies will be essential to verify the exact values.