• 제목/요약/키워드: 현상파악 데이터

검색결과 275건 처리시간 0.027초

불균형 클래스에서 AutoML 기반 분류 모델의 성능 향상을 위한 데이터 처리 (Data Processing of AutoML-based Classification Models for Improving Performance in Unbalanced Classes)

  • 이동준;강지수;정경용
    • 융합정보논문지
    • /
    • 제11권6호
    • /
    • pp.49-54
    • /
    • 2021
  • 최근 스마트 헬스케어 기술의 발전에 따라 일상적인 질환에 대한 관심이 증가하고 있다. 이에 따라 헬스케어 데이터를 통해 예측 모델로 질병을 분석하거나 예측하는 연구들이 증가하고 있다. 그러나 헬스케어 데이터에는 양성 데이터와 음성 데이터의 불균형이 존재한다. 이는 특정 질환을 가진 환자에 비하여 상대적으로 환자가 아닌 사람이 많아 데이터 수집에 어려움이 있어 발생하는 현상이다. 데이터 불균형은 질병 예측 및 탐지 시 진행하는 모델의 성능에 영향을 끼치기 때문에 이를 제거할 필요가 있다. 따라서 본 연구에서는 오버샘플링과 결측값 대치를 통해서 데이터 불균형을 해소한다. AutoML을 기반으로 여러 모델의 성능을 파악하고 모델 중 상위 3개의 모델을 앙상블한다.

미륵사지석탑 정밀복원모형 제작을 중심으로 한 3차원 실측데이터의 활용 연구 (A Study on the 3D Measurement Data Application: The Detailed Restoration Modeling of Mireuksajiseoktap)

  • 문승현
    • 헤리티지:역사와 과학
    • /
    • 제44권2호
    • /
    • pp.76-95
    • /
    • 2011
  • 문화재를 수리 연구하기 위해 각 대상물의 현재 상태를 파악하고 실측하는 일은 가장 기초적이며 중요한 일이다. 지금까지 연구 목적에 따라 적절한 장비가 선택되었으며 이들을 이용한 실측이 이루어졌다. 최근에는 과학기술의 발달로 실측대상의 3차원적 형상정보를 취득할 수 있는 3차원 레이저 스캐너가 실측작업에 도입되어 활용되고 있다. 3차원 스캐너에 의해 생성된 결과물들은 종래의 2차원적 실측과는 다른 입체적 정보이며, 장비에 따라 대략적인 형상 정보에서부터 극히 세밀한 부분의 정보에 이르기까지 다양한 결과물을 얻어낼 수 있다. 따라서 실측대상의 특징에 따른 장비의 대입과 여기서 얻어진 결과물의 표현 및 활용방법에 있어서도 다양한 방법이 시도되고 있다. 미륵사지석탑의 경우, 문화재 현장에서는 최초로 3차원 기반 문화재 조사계획을 수립하고 해체의 전 과정에서 기존의 실측조사방법들과 더불어 3차원 스캐너를 이용한 각 부재의 위치 및 개별부재에 대한 3차원적인 조사가 상호보완적으로 이루어졌다. 따라서 석탑의 3차원적인 형상자료와 3차원 스캔 데이터의 활용을 위한 기초자료가 확보된 상태였다. 최근 이러한 기초자료를 이용하여 미륵사지석탑의 입체적 파악과, 복원설계 안의 확정에 활용하기 위한 미륵사지석탑의 정밀복원모형이 제작됨에 따라 "문화재 해체 복원현장에서의 3차원 기반 조사 및 활용"이란 측면에서 일련의 단계가 완성되었다. 본고에서는 3차원 스캔 데이터를 이용한 미륵사지석탑 정밀복원모형 제작과정과 이를 통해 파악할 수 있었던 내용을 중심으로 문화재 해체조사 과정에서의 3차원 스캔, 디지털 모델링, 데이터 베이스화, 복원모형 제작 등 3차원 기반 문화재조사의 단계적 과정과 생성된 데이터를 활용하는 방안을 제시하였다. 단계별 과정을 거친 미륵사지석탑 복원모형 제작을 통하여 다음과 같은 결과를 얻어낼 수 있었다. 첫째, 석탑의 해체 이후 단위 부재별로 파악되었던 석탑의 모습을 석탑의 내 외부가 전체로 구축된 보다 실제적이고 명확한 형태로 파악할 수 있었다. 둘째, 3차원 복원설계를 위한 기초자료를 취득함으로써 부재 결합성 등 현재 작성된 2차원적 설계 안에 대한 3차원적인 검토가 가능하였다. 셋째, 부재 상호 간의 비교 분석과 인접 부재와의 결구상태를 고려하여 부재의 위치 변경 등 각 부재의 개별적인 특징을 파악할 수 있었다. 넷째, 구조적인 관점에서 구조 취약부 및 석탑의 파괴양상을 파악하여 향후 구조보강 설계에 참고자료로 활용할 수 있게 되었다. 결과적으로 미륵사지석탑의 복원을 위한 실제적이고도 구체적인 다각도의 검토는 복원 안을 좀 더 정밀하고 정확하게 도출하는데 기여할 것으로 기대된다. 세심한 주의와 정확성이 요구되는 문화재의 해체보수 및 복원 공사에서 2차원적인 도면에 의한 보수 계획 및 복원 안의 수립과 검토는 어느 정도 시공상의 오류를 피할 수 없다. 특히 복잡하고 규모가 큰 대상일수록 현상에 대한 명확한 파악과 정확한 계획 수립에 상당한 어려움이 있다. 이 같은 상황에서 앞서 기술한 3차원 실측데이터에 기초한 일련의 사전 검토는 이러한 어려움을 해소하고 더욱 세밀한 계획을 수립하게 하여 시공상의 오류를 최대로 줄여줄 수 있는 효과적인 방법 중 하나로 제시될 수 있을 것이다.

데이터마이닝을 이용한 반도체 FAB공정의 수율개선 및 예측 (Application of Data mining for improving and predicting yield in wafer fabrication system)

  • 백동현;한창희
    • 지능정보연구
    • /
    • 제9권1호
    • /
    • pp.157-177
    • /
    • 2003
  • 본 논문은 반도체 FAB공정의 수율개선 및 예측을 위해 데이터마이닝 기법을 적용한 사례를 소개한다. FAB 공정의 복잡성과 생산현장에서 수집되는 방대한 기술데이터로 인해 기존의 통계적 방법이나 엔지니어의 경험적 분석 방법만으로는 미처 파악하지 못하는 수율 저하 요인이 상당 수 존재한다. 본 논문은 먼저, FAB공정을 마친 웨이퍼에 불량 칩(chip)이 지리적으로 특정 위치에 집중적으로 발생하는 현상을 육안검사 대신 군집분석을 이용하여 데이터로부터 자동 판별할 수 있는 방법을 제안한다. 다음으로 연속패턴분석, 분류분석, RBF(Radial Base Function) 기법을 적용하여 수율 저하의 원인이 되는 문제 장비나 문제 파라미터를 신속, 정확하게 파악할 수 있도록 해 줄 뿐만 아니라 공정 진행 중인 제품의 미래 수율을 예측할 수 있도록 지원하는 방법을 제안한다. 또한 위 기법들을 반도체 FAB공정을 대상으로 국내 모 반도체 회사에서 정보시스템으로 구현한 Y2R-PLUS (Yield Rapid Ramp-up, Prediction, analysis & Up Support) 시스템을 소개한다.

  • PDF

연령별 인구이동 특성에 대한 탐색적 공간 데이터 분석 (ESDA) : 대구시를 사례로 (Exploratory Spatial Data Analysis (ESDA) for Age-Specific Migration Characteristics : A Case Study on Daegu Metropolitan City)

  • 김감영
    • 한국지역지리학회지
    • /
    • 제16권5호
    • /
    • pp.590-609
    • /
    • 2010
  • 본 연구의 목적은 연령별 인구이동의 구조와 공간적 패턴에 대한 이해를 향상시킬 수 있는 다양한 탐색적 공간 데이터 분석(Exploratory Spatial Data Analysis: ESDA) 기법들을 제시하는데 있다. ESDA 기법의 하나로 지역의 연령별 이동성향과 이동구조를 파악하기 위한 도구로 인구이동 피라미드를 고안하였다. 인구이동 피라미드는 연령별 전입, 전출, 순이동 정보를 이용하여 작성되는 그래픽 도구이다. 또한 연령별 인구이동의 공간적 패턴을 파악하기 위하여 다양한 국지적 연관성 측정 지표인 Local Moran's $I_i$, Getis-Ord's ${G_i}^*$와 이를 응용한 AMOEBA 기법을 이용하였다. 사례 분석 결과, 제시한 ESDA 기법들을 이용하여 연령별 인구이동 구조, 연령별 이동의 연관성, 연령별 순이동률의 공간 군집 패턴 등을 확인할 수 있었으며, 연령별 공간 군집 사이의 상응관계를 탐색할 수 있었다. 이러한 정보는 인구이동 현상에 대한 상세한 이해뿐만 아니라 인구이동을 유발하는 지역의 특성을 유추하는데 도움을 준다.

  • PDF

협역 전리층의 일관성을 이용한 다중 기준국 기반 전리층 이상 현상 감시 기법 (Based on Multiple Reference Stations Ionospheric Anomaly Monitoring Algorithm on Consistency of Local Ionosphere)

  • 송충원;장진혁;성상경;이영재
    • 한국항공우주학회지
    • /
    • 제45권7호
    • /
    • pp.550-557
    • /
    • 2017
  • GNSS 측위 정확도에 영향을 주는 전리층 오차는 전리층에 존재하는 전자로 인해 위성의 전파가 굴절됨에 따라 발생하는데 태양활동 정도, 지역, 시간에 따라 그 값이 변한다. 정밀한 전리층 오차 추정이 가능한 이중주파수 수신기와 달리 단일 주파수 수신기의 경우에는 전리층 오차 모델이나 인근 고정기준국을 통해 제공 받는 의사거리 보정정보에 의존해야 한다. 하지만 일반적인 전리층 오차 경향과 달리, 국지적으로 전리층 총 전자수의 급격한 변화가 발생하는 경우 전리층 오차모델을 통한 오차 보정이 어려우며 만약 전리층의 변화가 고정기준국 상공의 전리층과 상이하다면, 의사거리 보정정보를 이용하여도 전리층 오차를 보정하지 못한다. 본 논문에서는, 이런 위험에 대처하기 위한 국지적 전리층 이상 현상에 대한 감시 기법에 대해 제안하고 실제 전리층 이상 현상이 발생한 데이터를 이용해 이를 검증하였다. 제시된 기법을 통해 전리층 이상 현상 발생 여부를 파악하고 단일 주파수 수신기 사용자의 항법해에 대한 신뢰도를 증가시킬 수 있을 것이다.

데이터 마이닝의 범죄수사 적용 가능성 (Usefulness of Data Mining in Criminal Investigation)

  • 김준우;손중권;이상한
    • 대한수사과학회지
    • /
    • 제1권2호
    • /
    • pp.5-19
    • /
    • 2006
  • 데이터 마이닝은 컴퓨터와 정보처리의 발전으로 각기 다른 차원에서 다량으로 수집되는 데이터 속에서 숨은 의미나 패턴을 발견하는 유용한 기법이다. 의사결정나무, 신경망 모형, 규칙 귀납, K-평균 군집화, 시각화 등의 데이터 마이닝 개별 기법들은 산재해 있는 데이터에서 연관성을 분석하고, 이를 분류함으로써 일반화된 개념을 정의하고, 새로운 지식을 추론함으로써 실제 생활에 적용 가능한 예측을 가능하게 한다. 따라서 현재 데이터 마이닝은 기업의 마케팅 분야, 금융기관의 고객 분석, 통신 회사의 고객 이탈 방지 등에서 유용하게 활용되고 있다. 우리가 접해야 하는 정보의 양이 늘어나는 것은 범죄 수사에 있어서도 마찬가지 현상이다. 범죄와 범죄자에 대한 데이터는 축적되어 가지만 정작 개별 사안에 있어서는 중요한 데이터가 접근조차 되지 않고 있으며, 많은 데이터 속에서 이것이 내포하고 있는 숨은 의미를 지나치게 되는 경우도 많다. 본 연구에서는 선행 연구와 사례 적용을 통해 데이터 마이닝의 범죄 수사 적용 가능성과 한계점을 살펴보고자 하였다. 미제 사건으로 남는 경우가 많은 절도나 사기 같은 습관적 상습 범죄의 경우 데이터 마이닝의 분류, 군집화 기능을 활용 한다면 향후 여죄 추적에 효율적으로 활용될 수 있음을 파악할 수 있었고, 특히 다양한 문제에 적용 가능하고, 잡음에 대한 견고성이 있음에도 예측의 정확성을 지니고 있는 신경망 모형의 경우 패턴 인식을 통하여 범죄자 프로파일링이나 화상 자료 대비 시스템 구축에 충분히 활용될 것으로 생각한다. 특히 보험 사기 사례 적용에서 살펴본 바와 같이 마약, 테러와 같은 조직적 범죄수사나 자금세탁과 같은 금융 추적 수사의 경우 해당 자료의 방대함과 모호성으로 인해 수사를 하는 데 많은 어려움이 있지만 이러한 데이터 마이닝 가시화 기법을 적절히 활용한다면 전체적인 윤곽을 파악하는 데 매우 유용하며, 효율적인 수사가 가능함을 확인할 수 있었다. 그러나 데이터 마이닝은 예측 모델이므로 오류를 내재하고 있다는 점에서 수사 기관의 데이터 마이닝 접근은 조심스러워야 하며, 정보 독점화 현상과 개인 사생활 보호라는 측면에서 각 수사기관은 해당 법률에 정한 범위 내에서 해당 사건별로 데이터를 수집하고 이를 통합, 재구성하여 활용하는 측면으로 적용되어야 할 것이다. 또한 각 수사기관별로는 자신의 보유하고 있는 데이터에 대해 다차원 처리가 가능하도록 데이터베이스 시스템을 구축하여 데이터 마이닝이 적용 가능한 환경을 구축하도록 하여야 할 것이다. 아직은 논의의 초기 단계이므로 효과가 크게 부각되지는 않았지만 지금까지 제시한 문제에 대한 연구가 계속 이루어진다면 인권중심, 증거중심의 수사 개념을 바탕으로 적법절차에 의한 수사 활동을 요구받는 시대에 새로운 대안으로 자리 잡을 것이며, 수사의 과학화에 기여할 것으로 전망한다.

  • PDF

YouTube 인기 급상승 동영상 데이터셋의 국가별-카테고리별 분석 (Analysis of YouTube Trending Video Dataset by Country and Category)

  • 정지민;김승진;정성욱;이동윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.209-211
    • /
    • 2022
  • 전세계적으로 수많은 사람들이 이용하는 동영상 플랫폼 YouTube는 인기 급상승 동영상 서비스를 제공하고 있다. 본 연구는 공개 데이터셋 중 하나인 Kaggle 데이터셋을 이용하여 국가별 특징과 문화적 차이를 이해하고 공개 데이터셋의 유용성을 보이는 것을 목적으로 한다. 이를 위해 11개국, 15개 카테고리, 약 110만개의 인기 급상승 동영상 데이터를 분석 대상으로 한다. 데이터 분석을 위해 파이썬을 이용하여 카테고리 별 동영상의 개수와 인기 급상승 동영상 선정 기간, Unique 동영상 비율 등을 구하였으며, 이를 통해 국가별, 카테고리별 특징을 파악하고, 그 현상에 대한 배경을 추가 자료 조사를 통해 확인하였다. 향후 머신 러닝에 기반을 둔 인기 급상승 동영상 선정 가능성 및 선정 기간 예측을 통해 개별 동영상 진단 및 채널 운영 방안과 전략 수립에 도움을 주는 연구를 수행할 예정이다.

  • PDF

서울시 공공자전거 공유시스템(PBSS)의 시공간적 이용 패턴 분석 - 서울시 여의도동을 중심으로 - (Spatio-Temporal Patterns of a Public Bike Sharing System in Seoul - Focusing on Yeouido District -)

  • 윤승용;민경훈;고하정
    • 한국조경학회지
    • /
    • 제48권1호
    • /
    • pp.1-14
    • /
    • 2020
  • 세계적으로 공공자전거 공유시스템(PBSS) 및 프로그램(PBSP)이 증가하면서 다양한 정책과 연구들이 진행되었다. 오늘날 PBSS가 일상생활에서 밀접하게 이용되면서 다양한 현상과 수요가 발생하고 있으나, 아직 국내에서는 통근통학에 초점을 맞춘 정책과 연구들이 주로 이루어지고 있다. 이에 본 연구는 다양한 PBSS 수요를 파악하기 위해서 서울시 여의도를 대상으로 2018년도 한 해 동안 발생한 PBSS 이용 데이터를 분석하여 이용 패턴을 유형화하고 특징을 분석하였다. 서울시에서 제공하는 PBSS 자료를 기반으로 주중/주말 이용률에 따라 대여소를 3개 유형으로 구분하여 각각의 특징을 분석하였다. 여의도의 PBSS는 이용량의 경우에는 서울시 전체에서 4.3%, 대여소 개소수의 경우에는 2%에 해당하는 것으로 나타났다. 주중 이용률이 높은 대여소는 다른 유형에 비하여 사계절 모두 높은 이용률을 보였으며, 업무 및 주거지역에 주로 분포하였다. 주말 이용률이 높은 대여소의 경우에는 봄(4~5월)과 가을(9~10월)에 집중된 이용 패턴이 나타났으며, 대여소에서 공원입구까지의 거리가 가까운 것으로 나타났다. 또한, 주중 이용률이 높은 패턴에 비해서 동일한 대여소를 통해 대여 및 반납이 이루어진 경우가 많고, 특정 대여소에 PBSS 이용이 집중된 쏠림현상이 나타나고 있는 것을 확인할 수 있었다. 따라서, 획일적인 PBSS 운영보다는 대여소별로 다양한 이용수요와 현상을 반영한 PBSS의 관리와 프로그램이 운영되어야 할 것이다. 본 연구결과는 PBSS 이용에 대한 수요를 유형에 따라 시공간적으로 파악함으로써 효과적인 PBSS 운영이 이루어질 수 있도록 기초자료를 제공하는 것에 의의가 있다.

지구온난화에 따른 인천 지역 기상환경과 해양환경 변화의 관계 분석 : 귀추적 탐구 방법을 중심으로

  • 이효녕;오희진;이인호;김민기;이경섭;이준호;김영근;조수호
    • 한국지구과학회:학술대회논문집
    • /
    • 한국지구과학회 2010년도 춘계학술발표회 논문집
    • /
    • pp.70-70
    • /
    • 2010
  • 이 연구의 목적은 귀추적 탐구 방법과 관련된 전략들을 적용하여 지구온난화에 관련되어 측정된 다양한 유형의 데이터를 관련된 사실, 원리, 법칙, 선행 연구 결과 등을 토대로 지구통합적인 관점과 지구계를 구성하는 요소들 간의 상호작용과 영향을 중심으로 재해석하고 이해하는 것이다. 지구과학(지구시스템과학)의 학문 성격, 최근 동향, 본성 및 탐구 대상의 특성에 대한 내용과 지구과학의 본질적 속성에 잘 부합하는 귀추적 탐구 방법에 대해 학습한 후, 학생들은 인천 및 다양한 지역의 기상과 해양 자료 분석을 통하여 관찰되는 현상(결과)의 원인과 영향을 파악하는 연구 활동을 하였다. 이 과정에서 귀추적 탐구를 충분히 이해할 수 있도록, 과학 탐구에서 귀추적 탐구 방법을 사용하는 과학자들의 예시와 모의 활동을 통하여, 귀추적 탐구 방법에 사용되는 다양한 사고 전략(예, 데이터의 재구성 전략, 유추 전략, 개념적 결합 전략 등)에 대한 예시를 경험하였다. 학생들은 지구온난화에 관련되어 나타나는 현상(조사된 사항 포함)과 영향에 대해 지구시스템적으로 이해하고 재해석하기 위해 지구시스템을 구성하는 요소(예, 수권, 대기권)와 관련된 데이터 정보를 검색하고 수집하였다. 1) 지구시스템과 지구온난화에 대한 조사하고, 2) 지구온난화 및 기후변화의 변동성 확인한 후, 3) 지구온난화와 관련된 선행 연구 결과 분석하였다. 또한, 지구과학의 본질적 속성에 잘 부합하는 귀추적 탐구 방법의 이해와 적용하는 과정에서 1) 지구 온난화 및 기후 변화의 실태 파악하고, 2) 인천 지역의 월별, 계절별 기온 변화 분석 및 경향 조사(탐색: 연구문제 규명)한 후, 3) 인천과 속초 지역의 기온, 수온의 변화 추이 및 분석 (조사: 원인 조사 과정)하였다. 4) 속초 지역의 평균해면기압변화 추이 및 분석한 후, 그 결과를 토대로 5) 문헌조사 및 선행연구 결과 분석을 통한 지구 온난화의 영향을 미치는 요인 재검토 및 확인(선택 및 설명)하여, 6) 인천지역과 속초지역의 지구온난화 원인 분석 및 문제점 보완(설명)하기 위해 7) 겨울철 지구온난화가 더 심각한지 부산지역과 포항지역의 자료 분석을 통하여 연구 결과 내용의 보완 (추가 조사 및 설명)한 후, 8) 분석 결과 및 해석 내용을 전문가와 상담 실시하였다. 이 연구는 연구를 진행하면서 얻은 결과를 교육적 측면에서 다시 정리해 보면 다음과 같다. 우선, 학생들의 지구환경적 문제 해결 과정에서 귀추적 탐구 방법을 활용한 문제 해결 능력을 향상시켰다. 아울러, 지구과학의 탐구 본성, 최근 동향, 탐구대상의 특성 등의 학습을 통해 지구과학도로서의 기본적인 소양과 자질 향상에 기여하였으며, 사회과학의 연구방법을 순수과학연구에 접목하여 과학자로서의 문제해결 능력과 시스템 사고력을 향상시켰다.

  • PDF

시계열데이터의 모델기반 클러스터 결정 (Determining on Model-based Clusters of Time Series Data)

  • 전진호;이계성
    • 한국콘텐츠학회논문지
    • /
    • 제7권6호
    • /
    • pp.22-30
    • /
    • 2007
  • 대부분의 실세계의 시스템들, 즉 경제, 주식시장, 의료분야 등의 많은 시스템들은 동적이며 복잡한 현상을 갖는다. 이러한 특징들의 시스템을 이해하는 전형적인 방법은 시스템행위에 대한 모델을 세우고 분석하는 것이다. 본 연구에서는 실세계의 동적 시스템에서 발생되는 시계열데이터들에 대하여 최적의 클러스터를 형성하기 위한 방법을 연구한다. 먼저 클러스터 수를 결정하는 기준으로 베이지안정보기준(BIC : Bayesian Information Criterion)근사법의 활용도를 검증하고 데이터 크기와 베이지안정보기준값의 상관관계를 파악함으로 탐색 효율을 높이는 방안을 제안하며 클러스터링 과정으로 모델기반과 유사기반의 방법론을 비교 확인하여 본다. 실제의 시계열데이터(주가)에 대해 실험을 시행하였고 베이지안정보기준 근사 측도는 데이터의 크기에 따라 파티션의 사이즈를 정확히 추정하는 것을 확인하였으며 또한 유사기반의 방식보다 모델기반의 방법론이 클러스터링에서 더 나은 결과를 갖는 것을 확인하였다.