• 제목/요약/키워드: regression algorithm

검색결과 1,054건 처리시간 0.028초

데이터마이닝을 활용한 소프트웨어 개발인력의 업무 지속수행의도 결정요인 분석 (A Study of Factors Associated with Software Developers Job Turnover)

  • 전인호;박선웅;박윤주
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.191-204
    • /
    • 2015
  • 국내 소프트웨어(SW) 개발인력의 미충원율은 매우 높으며, 특히 2년 이상의 현장경력이 있는 고급 개발자의 부족문제는 심각하다. 최근 정부도 이를 인식하고, 정책적으로 SW개발 신규인력 양성에 힘을 기울이고 있다. 그러나, 이러한 노력은 초급개발자의 수급문제를 해결하는데 효과적일 수 있지만, 업계에서 요구하는 고급 개발자의 부족현상을 해결하는 근본적인 대책으로 인식되지는 못하고 있다. SW 전문개발자를 양성하기 위해서는 초급개발자들이 지속적으로 직무를 수행하여 풍부한 업무경험을 갖춘 고급 개발자로 성장해야 하기 때문이다. 이에, 본 연구는 국내 SW업체에서 근무하고 있는 개발관련 인력들의 업무 지속수행 의도를 조사하고, 이에 영향을 주는 주요요인들을 분석하였다. 이를 위해, 2014년 9월부터 10월까지 국내 SW업체에 근무하고 있는 현직 개발자 총 130명을 대상으로 설문조사를 수행하였으며, 이를 기반으로 SW개발업무 지속수행의도 및 이에 영향을 주는 요인들을 개발자의 특성, 직무환경, 그리고 SW개발자에 대한 사회적 인식 및 산업전망 등의 측면에서 분석하였다. 분석에는 데이터마이닝 기법들 중에서, 분석과정에서의 설명능력이 있는 회귀분석과 의사결정나무가 사용되었다. 회귀분석 결과, SW개발자가 스스로 인식하는 근무 가능한 연령이 높을수록, 내성적인 성향을 가질수록, 또한 적성에 맞아서 직무를 선택한 경우, 지속적 직무 수행 의도가 높은 것으로 나타났다. 이와 더불어, 선형회귀분석에서는 유의하지 않았으나, 규칙기반의 의사결정나무 분석에서 파악된 추가적 요인으로, 새로운 기술에 대한 학습능력 및 SW산업에 대한 전망이 직무 지속수행의도에 영향을 미치는 것으로 나타났다. 이러한 연구결과는 기업의 인적자원관리 및 고급 SW인력 양성정책에 활용될 수 있을 것으로 생각되며, 궁극적으로 SW개발인력의 직무 지속성을 증진시키는 데 기여할 수 있을 것으로 기대된다.

산업용 무선 센서 네트워크에서의 기계학습 기반 이동성 지원 방안 (Mobility Support Scheme Based on Machine Learning in Industrial Wireless Sensor Network)

  • 김상대;김천용;조현종;정관수;오승민
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제9권11호
    • /
    • pp.256-264
    • /
    • 2020
  • 산업용 무선 센서 네트워크는 여러 산업 분야에서의 생산성 향상, 비용 절감 등을 위해 사용되고 있으며, 저지연, 고신뢰 데이터 전송과 같은 성능을 요구한다. 이를 달성하기 위해서, 산업용 무선 센서 네트워크에서는 네트워크 매니저를 통해 네트워크 위상에 대한 그래프 생성 및 자원 할당을 수행하여, 각 장치의 전송 주기 및 경로를 미리 결정한다. 하지만, 이러한 네트워크 관리 방법은 네트워크 위상 변화 시에 그래프 재생성 및 자원 재할당을 수행해야 하므로, 잦은 위상 변화가 발생하는 네트워크 환경에서는 관리비용 증가와 요구성능의 일시적 저하와 같은 현상이 발생하므로 적합하지 않다. 즉, 최근에 다양한 이동 장치를 활용하는 산업용 무선 센서 네트워크에서는 이동 장치로 인한 경로 단절 및 경로 재구성 과정에서 발생하는 지연 전송과 전송 신뢰성 저하를 방지할 수 있는 네트워크 관리 방안에 관한 연구가 필요하다. 본 논문에서는 기계학습을 이용하여 이동 장치의 시간별 위치 및 이동 주기를 분석하고, 이에 기반한 이동 패턴을 추출한다. 또한, 추출된 이동 패턴 정보를 기반으로 예측되는 시간별 네트워크 위상에 대한 그래프 생성 및 자원 할당을 수행하는 네트워크 관리 기능을 제안함으로써, 이동 장치의 이동으로 인한 성능 저하의 문제를 방지한다. 성능평가 결과는 제안 방안이 추출한 이동 패턴과 실제 이동 패턴을 비교하였을 때 약 86%의 예측 정확도를 보이고, 기존의 방법에 비해 높은 전송 성공률 및 낮은 자원 점유율의 성능을 보여준다.

실시간 누락 교통자료의 대체기법에 관한 연구 (Study on Imputation Methods of Missing Real-Time Traffic Data)

  • 장진환;류승기;문학룡;변상철
    • 한국ITS학회 논문지
    • /
    • 제3권1호
    • /
    • pp.45-52
    • /
    • 2004
  • 현재 여러 지자체에서 혼잡한 도시교통의 이동성 및 안전성을 향상시키기 위해 첨단교통관리체계(ITS)를 구축 $\cdot$ 운영중인데 이러한 시스템에서 수집하는 교통상황에 대한 실시간 자료가 노면상황, 악천후, 통신 및 장비자체의 결함 등으로 인해 수많은 자료가 결측된다. 이러한 결측 자료로 인해 통행시간 예측 및 각종 연구가 불가능한 경우가 발생하며 또한 도로의 계획과 기하구조 설계시 기본 자료가 되는 AADT 및 DHV 등의 교통 파라메터들이 과소 또는 과대 추정될 수 있어서 심각한 손해를 끼칠수 있다. 따라서 본 연구에서는 부득이하게 누락되는 교통량 자료에 대해 전 $\cdot$ 후기간 평균, 회귀 모형, EM, 시계열 모형들을 활용한 대체기법들을 살펴보았고, 그 결과 시계열 모형을 이용한 대체의 경우 MAPE, 불균등계수, RMSE 가 각각 5.0$\%$, 0.030, 110으로 가장 좋은 결과를 보였고 나머지 대체기법들은 평가지표에 따라 조금씩 다른 결과를 보였으나 대체로 만족할 만한 수준의 결과를 낳았다

  • PDF

안개시 도시고속도로 통행속도 중장기 예측 알고리즘 개발 (Development of a Mid-/Long-term Prediction Algorithm for Traffic Speed Under Foggy Weather Conditions)

  • 정은비;오철;김영호
    • 대한교통학회지
    • /
    • 제33권3호
    • /
    • pp.256-267
    • /
    • 2015
  • 지능형 교통체계 시스템으로 인해 보다 신뢰성 있는 교통자료의 취득이 용이해졌으며, 실시간 통행시간 예측을 통한 경로정보 제공 및 중장기 통행시간 예측 등의 정보제공 서비스의 활용성이 높아짐에 따라 정확하고 신뢰성 있는 정보에 대한 요구가 증가하고 있다. 본 연구에서는 안개 발생 시 정확한 교통정보를 제공하기 위하여 안개 발생에 따른 속도패턴 변화를 분석하였으며, 분석결과를 기반으로 하여 안개 시 통행속도 중장기 예측전략을 개발하였다. 서울시 교통정보센터에서 수집된 2009-2013년 올림픽대로 링크 속도자료와 83건의 안개 발생 정보를 이용하여 분석을 수행하였다. 분석결과, 옅은 안개가 발생한 경우 맑은 기상 시의 속도보다 평균 약 2.92kph 감소하는 것으로 나타났으며, 짙은 안개의 경우 평균 5.36kph의 속도가 감소하는 것으로 나타났다. 통행속도 중장기 예측은 과거 패턴 개수를 다양한 범위로 적용하여 분석한 결과, 평균 절대적 백분율 오차(MAPE: Mean Absolute Percentage Error)는 14.11-16.31%로 나타났으며, 중장기 예측 전략수립을 위한 적정 과거 패턴 개수는 30-45개로 도출되었다. 본 연구에서 제시한 연구 결과는 교통정보 제공 시 보다 정확한 정보를 제공하여 사전 혼잡관리를 위한 교통관리전략을 수립하는 등 도로교통 운영 및 관리 에 효율적으로 활용 할 수 있을 것으로 기대된다.

다목적 다변량 자료분석을 위한 변수선택 (Variable Selection for Multi-Purpose Multivariate Data Analysis)

  • 허명회;임용빈;이용구
    • 응용통계연구
    • /
    • 제21권1호
    • /
    • pp.141-149
    • /
    • 2008
  • 다변량 자료분석에서 최근의 추세는 관측개체의 수 n이 커지는 외에 변수의 수 p가 큰사례들이 많아지고 있다는 것이다. n개 개체 각각에서 획득된 p개 변수들 $X_1$, $X_2$, $\ldots$, $X_p$ 가운데는 이름이나 개념적으로는 구분이 가능하지 만 실제로 거의 중복이 되는 변수들이 있을 수 있는데, 이들 변수들이 모두 분석에 포함되면 여러 문제가 유발될 수 있다. 예컨대 주성분 분석이나 인자분석에서는 중복 변수들이 주축(主軸, principal axis) 결정에, 관측개체 군집 화에서는 개체간 거리 산출에 왜곡된 영향을 줄 수 있다. 또한 목적변수가 지정된 지도학습(supervised learning)에서 설명변수들의 중복성은 추정모형의 안정성을 해치는 결과를 초래한다. 실제 자료 분석에서는 한 자료 세트가 여러 기법으로 탐색되고 다수의 모형이 추출되므로 변수세트를 최대한 절약적(parsimonious)으로 구성할 필요가 있다. 본 연구의 목적은 $X_1$, $X_2$, $\ldots$, $X_p$ 중에서 필요한 변수들은 선적하고 불필요한 변수들은 제거함으로써 주어진 변수세트를 보다 적은 크기의 변수세트로 대치하는 방법을 제시하는 데 있다. 제안 방법을 몇 개의 수치적 사례에 적용해 봄으로써 선적 변수와 제거변수간 관계의 시각화, 회귀모형에서의 유용성, 범주형 자료분석에서의 활용 등에 대해 논의 하고자 한다.

토픽모델링을 활용한 SIAM Journal on Applied Mathematics의 연구 동향 분석 (Analysis of Research Trends in SIAM Journal on Applied Mathematics Using Topic Modeling)

  • 김성연
    • 한국산학기술학회논문지
    • /
    • 제21권7호
    • /
    • pp.607-615
    • /
    • 2020
  • 본 연구는 텍스트 마이닝 기법을 이용하여 산업수학과 관련한 논문들의 연구 현황 및 동향을 파악하는데 목적이 있다. 이를 위해 R로 1970년부터 2019년까지 SIAM Journal on Applied Mathematics 총 4910편 논문의 제목, 초록, 주제어를 수집하였으며, LDA 알고리즘 기반의 토픽모델링 분석을 수행하였다. 수집된 자료에 대한 coherence score 분석 결과, 토픽의 최적 개수는 20개로 결정하였으며, 핵심 연구 주제들은 Gibbs 샘플링 방법을 기반으로 추출하였다. 주요 분석 결과는 다음과 같다. 첫째, 해석학과 대수학을 중심으로 계산수학, 기하학, 수학적 모델링, 위상수학, 이산수학, 확률 및 통계학 등 다양한 수학 분야에서 산업수학 관련 연구가 진행되었다. 둘째, 연대별 연구 주제의 동향을 분석한 결과, 상승하는 연구 주제는 수리생물학, 비선형편미분방정식, 이산수학, 통계학, 위상수학으로, 하강하는 연구 주제는 확률론만 나타났다. 셋째, 2015개정 수학교육과정에서 반영되지 않은 분야 중 고등학교 수학교육과정에서 다루어야 할 내용으로 기수법, 행렬, 공간벡터, 복소수가 도출되었다. 마지막으로 분석 결과를 바탕으로 우리나라의 산업수학 활성화 방안과 본 연구의 제한점 및 후속 연구를 제시하였다.

항공사진과 SPOT-5 위성영상을 이용한 낙동강 하구역 울타리섬들의 해안선 변화율 (Shoreline-change Rates of the Barrier Islands in Nakdong River Estuary Using Aerial Photography and SPOT-5 Image)

  • 정상훈;김부근;김백운;이상룡
    • Ocean and Polar Research
    • /
    • 제35권1호
    • /
    • pp.1-14
    • /
    • 2013
  • Shoreline data of the barrier islands in Nakdong River Estuary for the last three decades were assembled using six sets of aerial photographs and seven sets of satellite images. Canny Algorithm was applied to untreated data in order to obtain a wet-dry boundary as a proxy shoreline. Digital Shoreline Analysis System (DSAS 4.0) was used to estimate the rate of shoreline changes in terms of five statistical variables; SCE (Shoreline Change Envelope), NSM (Net Shoreline Movement), EPR(End Point Rate), LRR (Linear Regression Rate), and LMS (Least Median of Squares). The shoreline in Jinwoodo varied differently from one place to another during the last three decades; the west tail has advanced (i.e., seaward or southward), the west part has regressed, the south part has advanced, and the east part has regressed. After the 2000s, the rate of shoreline changes (-2.5~6.7 m/yr) increased and the east advanced. The shoreline in Shinjado shows a counterclockwise movement; the west part has advanced, but the east part has retreated. Since Shinjado was built in its present form, the west part became stable, but the east part has regressed faster. The rate of shoreline changes (-16.0~12.0 m/yr) in Shinjado is greater than that of Jinwoodo. The shoreline in Doyodeung has advanced at a rate of 31.5 m/yr. Since Doyodeung was built in its present form, the south part has regressed at the rate of -18.2 m/yr, but the east and west parts have advanced at the rate of 13.5~14.3 m/yr. Based on Digital Shoreline Analysis, shoreline changes in the barrier islands in the Nakdong River Estuary have varied both temporally and spatially, although the exact reason for the shoreline changes requires more investigation.

정수장 유입조류 전처리를 위한 천연조류제거제(W.H.)의 최적주입농도 결정 (Decision Algorithm of Natural Algae Coagulant Dose to Control Algae from the Influent of Water Works)

  • 장여주;정진홍;임현만;윤영한;안광호;장향연;김원재
    • 대한환경공학회지
    • /
    • 제38권9호
    • /
    • pp.482-496
    • /
    • 2016
  • 하천과 호수의 부영양화로 인하여 남조류가 대량으로 증식하게 되면 고유의 생물독소로 인한 위해뿐만 아니라 정수처리 과정에서 경제적 손실을 야기할 가능성이 있다. 현재 상용화되어있는 천연조류제거제인 M사의 W.H. 응집제(이하 W.H.)는 참나무 유래 성분의 살조 및 타감작용을 이용한 응집.부상공정을 통하여 조류를 사전에 제거함으로써 정수공정에 미치는 영향을 효과적으로 저감할 수 있다. 그러나, W.H.를 활용한 응집 부상공정은 정수처리의 전처리공정으로 적용된 사례가 없기 때문에 최적주입농도의 결정기법에 대한 보고 또한 전무한 실정이다. 본 연구에서는 (1) 한강에서 채취한 복합 조류와 (2) 남조류를 선택적으로 대량 배양하여 광조건 하에서 W.H. 투여량 및 조류농도 등의 여러 조건을 변화시키면서 Jar-test를 시행하여 응집 부상공정에서의 조류의 제거기작을 검토하였다. Jar-test 결과를 바탕으로 IBM-SPSS를 활용한 다중회귀분석을 실시하여 최적 W.H. 주입농도를 결정하기 위한 Chl-a 농도와 탁도를 변수로 하는 두 가지 선형식을 도출하였다. 또한 유입수질의 변동에 따라 W.H. 주입농도를 신속하게 결정하고 자동화할 수 있는 자동제어 로직의 프로토타입(Prototype)을 제시하였다.

Assessment of Relationship between Fyn-related Kinase Gene Polymorphisms and Overweight/Obesity in Korean Population

  • Jung, Mi-Young;Kim, Bum-Shik;Kim, Youn-Jung;Koh, In-Song;Chung, Joo-Ho
    • The Korean Journal of Physiology and Pharmacology
    • /
    • 제12권2호
    • /
    • pp.83-87
    • /
    • 2008
  • The fyn-related kinase (FRK) belongs to the tyrosine kinase family of protein kinases. Recent studies have shown that Frk affects pancreatic beta cell number during embryogenesis and promotes beta cell cytotoxic signals in response to streptozotocin. To investigate the genetic association between FRK polymorphisms and the risk of obesity in Korean population, single nucleotide polymorphisms (SNPs) in the FRK gene region were selected and analyzed. The body mass index (BMI) was calculated, and biochemical data (systolic blood pressure, diastolic blood pressure, hemoglobin A1C, triglyceride, total cholesterol, high density lipoprotein, and low density lipoprotein) of blood sample from each subject were also measured. One hundred fifty five healthy control and 204 overweight/obesity subjects were recruited. Genotype frequencies of six SNPs [rs6568920 (+8391G>A), rs3756772 (+56780A>G), rs3798234 (+75687C>T), rs9384970 (+68506G>A), rs1933739 (+72978G>A), and rs9400883 (+75809A>G)] in the FRK gene were determined by Affymetrix Targeted Genotyping Chip data. According to the classification of Korean Society for the Study of Obesity, control (BMI 18 to < 23) and overweight/obesity (BMI$\geq$23) subjects were recruited. For the analysis of genetic data, EM algorithm, SNPStats, Haploview, HapAnalyzer, SNPAnalyzer, and Helixtree programs were used. Multiple logistic regression analysis (codominant, dominant, and recessive models) was performed. Age and gender as covariates were adjusted. For biochemical data, Student's t test was used. The mean value of BMI in the control and overweigh/obesity groups was 21.1${\pm}$1.2 (mean${\pm}$SD) and 25.6${\pm}$2.0, respectively. All biochemical data of the overweight/obesity group were statistically significance, compared with the control group. Among six SNPs, two linkage disequilibrium (LD) blocks were discovered. One block consisted of rs1933739 and rs9400883, and the other comprised rs3756772 and rs3798234. One SNP (rs9384970, +68506G>A) showed an association with overweight/obesity in the codominant model (p=0.03). Interestingly, the AA genotype distribution in the overweight/obesity group (n=7, 3.5%) was higher than those in the control group (n=1, 0.6%), which is not found in either Japanese or Chinese subjects. Therefore, the AA genotype of rs9384970 may be a risk factor for development of obesity in Korean population. The results suggest that FRK may be associated with overweight/obesity in Korean population.

데이터마이닝 기법을 활용한 노인장기요양급여 권고모형 개발 (A Recommending System for Care Plan(Res-CP) in Long-Term Care Insurance System)

  • 한은정;이정석;김동건;강임옥
    • 응용통계연구
    • /
    • 제22권6호
    • /
    • pp.1229-1237
    • /
    • 2009
  • 노인장기요양보험에서 가장 중요한 이슈는 급여대상자의 희망, 건강 및 기능상태에 따라 어떤 급여를 제공할 것인가 이다. 이를 해결하고자 노인장기요양보험의 보험자인 국민건강보험 공단은 급여대상자에게 '표준장기요양이용계획서'를 제공하고 있다. 본 연구에서는 표준장기요양이용계획 작성의 효율화 방안을 마련하고자 노인장기요양보험 3차 시범사업 표준이용계획 자료를 활용하여 노인장기요양급여 권고모형을 개발하였다. 모형개발에는 데이터마이닝의 의사결정나무모형, 로지스틱회귀모형, 앙상블 모형의 배깅과 부스팅 기법을 사용하였고, 이 중 실무자가 이해하기 쉬운 의사결정나무를 채택하여 권고모형을 설명 하였다. 본 연구는 노인장기요양보험 제도의 이용계획 수립의 객관성 및 과학성을 확보하고 이용계획 업무를 효율화하는 데에 기여할 것으로 기대된다.