• 제목/요약/키워드: dataset records

검색결과 99건 처리시간 0.025초

Association measure of doubly interval censored data using a Kendall's 𝜏 estimator

  • Kang, Seo-Hyun;Kim, Yang-Jin
    • Communications for Statistical Applications and Methods
    • /
    • 제28권2호
    • /
    • pp.151-159
    • /
    • 2021
  • In this article, our interest is to estimate the association between consecutive gap times which are subject to interval censoring. Such data are referred as doubly interval censored data (Sun, 2006). In a context of serial event, an induced dependent censoring frequently occurs, resulting in biased estimates. In this study, our goal is to propose a Kendall's 𝜏 based association measure for doubly interval censored data. For adjusting the impact of induced dependent censoring, the inverse probability censoring weighting (IPCW) technique is implemented. Furthermore, a multiple imputation technique is applied to recover unknown failure times owing to interval censoring. Simulation studies demonstrate that the suggested association estimator performs well with moderate sample sizes. The proposed method is applied to a dataset of children's dental records.

Iowa Liquor Sales Data Predictive Analysis Using Spark

  • Ankita Paul;Shuvadeep Kundu;Jongwook Woo
    • Asia pacific journal of information systems
    • /
    • 제31권2호
    • /
    • pp.185-196
    • /
    • 2021
  • The paper aims to analyze and predict sales of liquor in the state of Iowa by applying machine learning algorithms to models built for prediction. We have taken recourse of Azure ML and Spark ML for our predictive analysis, which is legacy machine learning (ML) systems and Big Data ML, respectively. We have worked on the Iowa liquor sales dataset comprising of records from 2012 to 2019 in 24 columns and approximately 1.8 million rows. We have concluded by comparing the models with different algorithms applied and their accuracy in predicting the sales using both Azure ML and Spark ML. We find that the Linear Regression model has the highest precision and Decision Forest Regression has the fastest computing time with the sample data set using the legacy Azure ML systems. Decision Tree Regression model in Spark ML has the highest accuracy with the quickest computing time for the entire data set using the Big Data Spark systems.

Effect of Experience, Education, Record Keeping, Labor and Decision Making on Monthly Milk Yield and Revenue of Dairy Farms Supported by a Private Organization in Central Thailand

  • Yeamkong, S.;Koonawootrittriron, S.;Elzo, M.A.;Suwanasopee, T.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제23권6호
    • /
    • pp.814-824
    • /
    • 2010
  • The objective of this research was to assess the effect of experience, education, record keeping, labor, and decision making on monthly milk yield per farm (MYF), monthly milk yield per cow (MYC), monthly milk revenue per farm (MRF), and monthly revenue per cow (MRC) of dairy farms supported by a private organization in Central Thailand. The dataset contained 34,082 monthly milk yield and revenue records collected from January 2004 to December 2008 on 497 farms, and information on individual farmer experience and education, record keeping, and decision making obtained with a questionnaire. Farmer experience categories were i) no experience, ii) one year, iii) two to five years, iv) six to ten years, v) eleven to fifteen years, vi) sixteen to twenty years, and vii) more than twenty years. Farmer education categories were i) no education or primary school, ii) high school, and iii) bachelor or higher degree. Record keeping categories were: i) no records and ii) kept records. Labor categories were: i) family, ii) hired people, and iii) family and hired people. Decision making categories were: i) decisions made by farmers themselves, ii) decisions made with help from government officials, and iii) decisions made with help from organization staff. The mixed linear model contained the fixed effects of year-season, farm location-farm size subclass, experience, education, record keeping, labor, and decision making on sire selection, and the random effects of farm and residual. Results showed that longer experience increased (p<0.05) monthly milk yield (MYF and MYC) and revenue (MRF and MRC). Farms that hired people produced the highest (p<0.05) monthly milk yield (MYF and MYC) and revenue (MRF and MRC), followed by farms that used family, and the lowest values were for farms that used both family and hired people. Better educated farmers produced more MYC and MRC (p<0.05) than lower educated farmers. Farms that kept records had higher MYF and MRF (p<0.05) than those without records. Although differences among farms were non-significant, farms that received help from the organization staff had higher monthly milk yield (MYF and MYC) and revenue (MRF and MRC) than those that decided by themselves or with help from government officials. These findings suggested that dairy farmers needed systematic training and continuous support to improve farm milk production and revenues in a sustainable manner.

더러브렛 경주마의 주파기록에 대한 유전적 개량량의 추정 (Estimation of Genetic Trend on Racing Time of Thoroughbred Racehorses)

  • 박경도;손삼규;노수현;조광현;이준호;조병욱
    • Journal of Animal Science and Technology
    • /
    • 제50권1호
    • /
    • pp.27-32
    • /
    • 2008
  • 본 연구의 목적은 1990년 1월부터 2006년 12월사이에 경주한 9,934두의 주파기록, 총 209,725개를 이용하여 국내 더러브렛 경주마의 유전적 개량량을 추정하는데 있다. 주파기록에 대한 연간 표현형 개량량은 1,000m, 1,400m 이하, 1,700m 이상의 경주거리와 전체 자료에서 각각 -0.148초, -0.137초, -0.137초와 -0.139초였으며, 모든 경주거리에서 감소 추세를 나타내었다. 경주년도별 환경효과의 추세는 모든 경주거리에서 표현형 추세와 거의 일치하였으며, 영구환경효과와 기수효과의 추세는 거의 나타나지 않았다. 연간 유전적 개량량은 1,000 m와 전체 자료에서 각각 -0.037과 -0.030초로 다소 낮은 수치였으나 일괄적인 감소 추세를 나타내었다. 따라서 경주마의 질적 향상을 위한 개량계획을 설정하는 것이 시급한 과제라 생각된다.

자아 중심 네트워크 분석과 동적 인용 네트워크를 활용한 토픽모델링 기반 연구동향 분석에 관한 연구 (Combining Ego-centric Network Analysis and Dynamic Citation Network Analysis to Topic Modeling for Characterizing Research Trends)

  • 유소영
    • 정보관리학회지
    • /
    • 제32권1호
    • /
    • pp.153-169
    • /
    • 2015
  • 이 연구에서는 토픽 모델링 결과 해석의 용이성을 위하여, 동적 인용 네트워크를 활용하여 LDA 기반 토픽 모델링의 토픽 수를 설정하고 중복 배치된 주요 키워드를 자아 중심 네트워크 분석을 통해 재배치하여 제시하는 방법을 제안하였다. 'White LED' 두 분야의 논문 데이터를 이용하여 분석한 결과, 동적 인용 네트워크 분석을 통해 형성된 분석대상 문헌집단에 혼잡도에 따른 토픽수를 사용하고 중복 분류된 토픽 내 주요 키워드를 자아중심 네트워크 분석 기법을 적용하여 재배치한 결과가 토픽 간의 중복도가 가장 낮은 것으로 나타났다. 따라서 동적 인용 네트워크 및 자아 중심 네트워크 분석을 적용함으로써 토픽모델링에 의한 분석 결과를 보완하는 다면적인 연구 동향 분석이 가능할 것으로 보인다.

인공지능형 스마트공장 데이터셋 구축 방법에 관한 연구 (A Study on Establishment Method of Smart Factory Dataset for Artificial Intelligence)

  • 박윤수;이상덕;최정훈
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권5호
    • /
    • pp.203-208
    • /
    • 2021
  • 제조현장에서 작업자는 작업 지시서에 따라 제조 공정에 소재를 투입하고 투입 기록을 남기는 방식으로 운영해왔으나, 누락하는 경우가 많아 제품 LOT 추적이 안되는 경우가 발생하고 있었으며, 최근 스마트공장 구축으로 RFID-Tag를 활용하여 소재 투입 정보를 자동입력 하는 시스템으로 진행되고 있다. 특히, 생산라인에 투입되는 RACK에 부착된 TAG 정보를 수신하여 RACK(TAG) ID와 RACK 투입시간 데이터 분석을 통한 투입정보를 자동으로 생성토록 하여 초기 자동인식률이 97%로 양호하였으나 멀티소재 사용 RACK, TAG분실, 신규 제품 투입 이슈 등이 발생하면서 자동인식률이 계속 낮아지는 상황이다. 인공지능형 스마트공장 데이터셋 구축 방법은 자동인식률 향상과 실시간 모니터링이 가능해지므로 생산 공정의 전반에 있어 속도와 수율(정상제품 비율)을 높이는데 기여할 것으로 기대한다.

CNN based data anomaly detection using multi-channel imagery for structural health monitoring

  • Shajihan, Shaik Althaf V.;Wang, Shuo;Zhai, Guanghao;Spencer, Billie F. Jr.
    • Smart Structures and Systems
    • /
    • 제29권1호
    • /
    • pp.181-193
    • /
    • 2022
  • Data-driven structural health monitoring (SHM) of civil infrastructure can be used to continuously assess the state of a structure, allowing preemptive safety measures to be carried out. Long-term monitoring of large-scale civil infrastructure often involves data-collection using a network of numerous sensors of various types. Malfunctioning sensors in the network are common, which can disrupt the condition assessment and even lead to false-negative indications of damage. The overwhelming size of the data collected renders manual approaches to ensure data quality intractable. The task of detecting and classifying an anomaly in the raw data is non-trivial. We propose an approach to automate this task, improving upon the previously developed technique of image-based pre-processing on one-dimensional (1D) data by enriching the features of the neural network input data with multiple channels. In particular, feature engineering is employed to convert the measured time histories into a 3-channel image comprised of (i) the time history, (ii) the spectrogram, and (iii) the probability density function representation of the signal. To demonstrate this approach, a CNN model is designed and trained on a dataset consisting of acceleration records of sensors installed on a long-span bridge, with the goal of fault detection and classification. The effect of imbalance in anomaly patterns observed is studied to better account for unseen test cases. The proposed framework achieves high overall accuracy and recall even when tested on an unseen dataset that is much larger than the samples used for training, offering a viable solution for implementation on full-scale structures where limited labeled-training data is available.

Exploring indicators of genetic selection using the sniffer method to reduce methane emissions from Holstein cows

  • Yoshinobu Uemoto;Tomohisa Tomaru;Masahiro Masuda;Kota Uchisawa;Kenji Hashiba;Yuki Nishikawa;Kohei Suzuki;Takatoshi Kojima;Tomoyuki Suzuki;Fuminori Terada
    • Animal Bioscience
    • /
    • 제37권2호
    • /
    • pp.173-183
    • /
    • 2024
  • Objective: This study aimed to evaluate whether the methane (CH4) to carbon dioxide (CO2) ratio (CH4/CO2) and methane-related traits obtained by the sniffer method can be used as indicators for genetic selection of Holstein cows with lower CH4 emissions. Methods: The sniffer method was used to simultaneously measure the concentrations of CH4 and CO2 during milking in each milking box of the automatic milking system to obtain CH4/CO2. Methane-related traits, which included CH4 emissions, CH4 per energy-corrected milk, methane conversion factor (MCF), and residual CH4, were calculated. First, we investigated the impact of the model with and without body weight (BW) on the lactation stage and parity for predicting methane-related traits using a first on-farm dataset (Farm 1; 400 records for 74 Holstein cows). Second, we estimated the genetic parameters for CH4/CO2 and methane-related traits using a second on-farm dataset (Farm 2; 520 records for 182 Holstein cows). Third, we compared the repeatability and environmental effects on these traits in both farm datasets. Results: The data from Farm 1 revealed that MCF can be reliably evaluated during the lactation stage and parity, even when BW is excluded from the model. Farm 2 data revealed low heritability and moderate repeatability for CH4/CO2 (0.12 and 0.46, respectively) and MCF (0.13 and 0.38, respectively). In addition, the estimated genetic correlation of milk yield with CH4/CO2 was low (0.07) and that with MCF was moderate (-0.53). The on-farm data indicated that CH4/CO2 and MCF could be evaluated consistently during the lactation stage and parity with moderate repeatability on both farms. Conclusion: This study demonstrated the on-farm applicability of the sniffer method for selecting cows with low CH4 emissions.

인공지능 기반 임상의학 결정 지원 시스템 의료기기의 성능 및 안전성 검증을 위한 간 종양 표준 데이터셋 구축 (Construction of a Standard Dataset for Liver Tumors for Testing the Performance and Safety of Artificial Intelligence-Based Clinical Decision Support Systems)

  • 김승섭;이동호;이민우;김소연;신재승;최진영;최병욱
    • 대한영상의학회지
    • /
    • 제82권5호
    • /
    • pp.1196-1206
    • /
    • 2021
  • 목적 간 종양의 조영증강 컴퓨터단층촬영(이하 CT) 영상에 관한 인공지능 알고리즘의 성능과 안전성을 검증할 수 있는 표준 테스팅 데이터셋을 구축하고자 하였다. 대상과 방법 국내 4개 3차 의료기관의 복부 영상의학 전문가 4인이 모여 간 종양 진단 알고리즘의 성능과 안전성을 검증하기 위해 표준 데이터셋이 갖춰야 할 조건을 논의하였다. 각 기관마다 간세포암 75예, 전이암 75예, 그리고 양성 병변 30-50예씩 수집하여, 총 783명 환자의 CT 영상을 대상으로 하였다. 간세포암과 전이암의 경우 병리학적으로 확진된 경우만을 대상으로 하였다. 각 기관의 복부 영상의학 전문가들이 직접 환자의 임상정보를 추출하고 CT 영상에 관한 데이터 라벨링(labeling)을 수기로 시행하였다. CT 영상은 의료용 디지털 영상 및 통신(Digital Imaging and Communications in Medicine, DICOM) 파일로 저장하였다. 결과 복부 영상의학 전문가들이 수기 데이터 라벨링을 시행한 총 783 증례의 간 종양 조영증강 CT의 표준 데이터셋을 구축하였다. 알고리즘의 성능 및 안전성은 병변의 발견 여부 및 특성화의 정확도에 대해 민감도와 특이도를 계산하여 평가할 수 있다. 결론 본 연구에서 구축한 간 종양 조영증강 CT 영상의 표준 데이터셋은 임상의학 결정 지원시스템을 위한 기계학습 기반 인공지능 알고리즘을 평가하는 데에 활용될 수 있다.

시스템 식별기법을 활용한 파압과 해수면 모델링 (Modelling of Wind Wave Pressure and Free-surface Elevation using System Identification)

  • 위톨드 키에스키윅즈;요르단 바두르
    • 한국해안·해양공학회논문집
    • /
    • 제25권6호
    • /
    • pp.422-432
    • /
    • 2013
  • 해수면과 해저파압을 연계하는 모수 모형을 개발하기 위한 시스템 식별법을 제시하였다. 비선형 고정변수를 포함한 선형 시불변 모형 구조를 가정하고 추가적인 입력자료를 갖는 자기회귀모형 (ARX)을 이용하여 해저파압 시계열자료로부터 해수면 시계열자료를 또는 해수면 시계열자료로부터 해저파압 시계열자료를 추출하는 방법을 제시하였다. 임의로 선정된 해수면과 해저 파압 자료를 이용하여 모형을 검증하였으며, 유사한 해저수심의 파압자료와 다른 해상 기상조건으로 생성된 해수면 스펙트럼 자료를 통해 재검증하였다. 시스템 식별법을 이용한 방법이 전통적인 선형파 이론을 이용한 선형전송함수(LTF) 방법보다 전반적으로 더 정확하게 수행됨을 확인하였다. 또한 본 논문에서 제시된 방법으로 추정된 해저 파압 시계열모의는 수정 선형전송함수(corrected LTF)에 의한 결과와 유사함을 확인하였다.