• 제목/요약/키워드: 불균형 자료

검색결과 304건 처리시간 0.019초

링크 통행시간 추정을 위한 데이터 퓨젼 알고리즘의 개발 (A Data Fusion Algorithm for Link Travel Time Estimation)

  • 최기수;정연식
    • 대한교통학회지
    • /
    • 제16권2호
    • /
    • pp.177-195
    • /
    • 1998
  • 지능형교통체계(ITS:Intellegent Transport System)의 구현을 위한 가장 중요한 요소중의 하나는 교통정보의 생성이다. 교통정보의 생성은 루프 검지기, 폐쇄회로(CCTV), probe 차량, 경찰, 통신원 등을 수집된 제보자료들을 분석 및 가공함으로써 이루어진다. 그러나 이들 수집원은 주어진 시간에 있어 모든 네트웍을 통해서 자료가 완전히 수집되어지는 것은 아니다. 즉, 특정 지역에 수집원이 몰려 있는 경우가 있는 반면, 전혀 수집되어지지 않는 지역이 발생할 수도 있다. 이러한 공간적인 불균형적 특성은 동시에 발생한 다량의 자료를 처리하는 기술과 자료가 수집되지 않은 지역에 대한 처리기술을 요하게 된다. 본 논문은 전술한 바와 같은 사항에 대하여 ITS의 진행 단계별로 드러날 수 있는 문제점을 검토하고, 자료통합에 대한 일반적인 개념을 우선 설명한다. 다음에 특정시각에 주어진 자료의 통합을 위해 퍼지선형회귀모형(fuzzy linear regression model)과 데이터 퓨전(data fusion)기법의 내용을 소개하고, 신뢰성있는 단일 교통정보생성을 위한 테이터 퓨전 알고리즘을 제시한다. 또한 제시된 알고리즘을 토대로 가상의 자료를 이용하여 적용가능 봉? 타진해 보았다. 제시되어진 알고리즘은 향후 교통정보 수집환경이 어느 정도 형성된다고 볼 때, 예측치와 실측자료간의 자료검증을 통하여 신뢰도를 가질 경우 보다 광범위하게 사용되어질 수 있을 것으로 판단된다.

  • PDF

불균형 자료에 대한 분류분석 (Classification Analysis for Unbalanced Data)

  • 김동아;강수연;송종우
    • 응용통계연구
    • /
    • 제28권3호
    • /
    • pp.495-509
    • /
    • 2015
  • 일반적인 2집단 분류(2-class classification)의 경우, 두 집단의 비율이 크게 차이나지 않는 경우가 많다. 본 논문에서는 두 집단의 비율이 크게 차이나는 불균형 데이터(unbalanced data)의 분류 문제에 대해서 다루고자 한다. 불균형 데이터의 분류방법은 균형이 맞는 데이터(balanced data)의 경우보다 분류하기 어려운 경우가 많다. 이런 자료에서 보통의 분류모형을 적용하게 되면 많은 경우에 대부분의 관측치가 큰 집단으로 분류 되는 경우가 많은데 실질적인 어플리케이션에서는 이런 오분류가 손해가 더 큰 경우가 대부분이다. 우리는 sampling 기법을 이용하여 다양한 분류 방법론의 성능을 비교 분석 하였다. 또한 비대칭 손실(asymmetric loss)을 가정한 경우에 어떤 방법론이 가장 작은 loss를 생성하는 지를 비교하였다. 성능 비교를 위해서는 오분류율(misclassification rate), G-mean, ROC, 그리고 AUC(Area under the curve) 등을 이용하였다.

불균형 데이터 환경에서 로지스틱 회귀모형을 이용한 Cochlodinium polykrikoides 적조 탐지 기법 연구 (Study on Detection Technique for Cochlodinium polykrikoides Red tide using Logistic Regression Model under Imbalanced Data)

  • 박수호;김흥민;김범규;황도현;엥흐자리갈 운자야;윤홍주
    • 한국전자통신학회논문지
    • /
    • 제13권6호
    • /
    • pp.1353-1364
    • /
    • 2018
  • 본 연구에서는 불균형 데이터 환경에서 기계학습 기법의 한 갈래인 로지스틱 회귀모형을 이용하여 인공위성 영상에서 Cochlodinium polykrikoides 적조 픽셀을 탐지하는 방법을 제안한다. 학습자료로 적조, 청수, 탁수 해역에서 추출된 수출광량 분광 프로파일을 활용하였다. 전체 데이터셋의 70%를 추출하여 모형 학습에 활용하였으며, 나머지 30%를 이용하여 모형의 분류 정확도를 평가하였다. 이 때, 청수와 탁수에 비해 자료 수가 상대적으로 적은 적조의 분광 프로파일에 백색 잡음을 추가하여 오버샘플링을 하여 불균형 데이터 문제를 해결하였다. 정확도 평가 결과 본 연구에서 제안하는 알고리즘은 약 94%의 분류 정확도를 보였다.

이산형 형질에 대한 가족자료 연관성 검정법 FBAT와 형제 전달 불균형 연관성 검정법 S-TDT의 비교 (Comparison of the Family Based Association Test and Sib Transmission Disequilibrium Test for Dichotomous Trait)

  • 김한상;오영신;송혜향
    • 응용통계연구
    • /
    • 제23권6호
    • /
    • pp.1103-1113
    • /
    • 2010
  • 광범위하게 사용되는 가족자료에 근거한 연관성 검정법 FBAT를 형제 전달 불균형 연관성 검정법 S-TDT와 비교하였고, 특히 형제간의 공분산을 고려한 분산추정량을 사용한 수정 S-TDT로써 유전연관성의 정도가 다른 가족자료가 검정통계량값으로 구분될 수가 있다. 모의실험으로 세 검정법을 비교한 결과, 형제의 표현형 자료가 서로 독립이 아닌 경우에 세 검정법 모두의 제 1종 오류가 정해진 유의수준보다 커지며, 또한 FBAT의 검정력이 S-TDT와 수정 S-TDT의 검정력에 미치지 못한다. FBAT 검정법에서 가정하는 조건이 검정법의 효율성에 미치는 영향을 더욱 심도있게 평가하는 연구가 요구된다.

EM 알고리듬을 이용한 단일염기변이 (SNP;SINGLE NUCLEOTIDE POLYMORPHISM)군의 일배체형 (HAPLOTYPE) 비율 추정 (Estimation of Haplotype Proportions in Single Necleotide Polymorphism Group Using EM Algorithm)

  • 김선우;김종원;이경아
    • 응용통계연구
    • /
    • 제16권2호
    • /
    • pp.195-202
    • /
    • 2003
  • 복합성유전질환 연구에 있어서 단일염기변이를 이용한 일배체형 분석은 개별적인 단일염기변이 분석에 비하여 비용 및 효율 면에서 훨씬 유용하며, 생물학적으로도 기능적 중요성을 갖는 것으로 평가되고 있다. 그러나 일반적인 유전형분석방법을 이용한 단일염기변이군 자료는 이배체형(diploid)으로서 위상(phase)을 확인할 수 없으므로 일배체형 비율을 예측하기 어렵다. 본 연구에서는 고형종양 환자군과 정상군의 단일염기변이군 이배체형 자료가 주어졌을 때 단일염기변이군 일배체형 비율의 우도함수에 EM알고리듬을 적용하여 각 일배체형의 비율을 추정하였다. 이로부터 단일염기변이간의 연관불균형(linkage disequilibrium)을 분석하여 고형 종양과 연관 가능성이 있는 단일염기변이를 살펴보았다.

구급서비스의 지역 불균형: 부산시 119 구급활동일지 분석 (Local Imbalance of Emergency Medical Services(EMS): Analyses on 119 EMS Activity Reports of Busan)

  • 이달별
    • 한국지리정보학회지
    • /
    • 제23권3호
    • /
    • pp.161-173
    • /
    • 2020
  • 이 연구는 부산소방재난본부의 119 구급활동일지를 이용하여 부산의 구급서비스의 지역적 불균형을 조사하였다. 2017년 구급신고 자료를 집계구 단위로 취합하여 구급서비스의 수요(신고건수, 인구대비 신고건)와 공급(신고건수, 인구대비 신고건수, 현장도착시간의 평균·변동계수·이상치, 관할구역 외 출동건수)의 공간분포를 GIS 공간통계분석 중 핫스팟분석을 이용하여 분석하였다. 분석결과는 구급서비스의 수요와 공급 모두 집중적으로 나타나는 핫스팟지역과 콜드스팟지역이 명확하게 구분되었으며, 이는 부산 내 구급서비스의 수요 뿐 아니라 공급이 지역적으로 불균형함을 의미한다. 특히 원도심과 그 주변지역과 부산시 외곽지역에서의 구급수요 및 공급에서 극명한 차이를 보였다.

출하량 조절이 양식 넙치가격에 미치는 영향 (The Impact of the Supply Regulation on the Price in Farming Olive Flounder)

  • 강석규
    • 자원ㆍ환경경제연구
    • /
    • 제24권4호
    • /
    • pp.709-725
    • /
    • 2015
  • 본 연구에서는 벡터오차수정모형을 이용하여 양식 넙치 산지시장의 출하량 조절이 양식 넙치가격에 미치는 영향을 검토하고자 하였다. 이를 위하여 2007년 1월 1일부터 2013년 6월 30일까지의 1kg 크기에서 형성되고 있는 양식 넙치의 위판가격과 출하량 자료를 이용하였으며, 가격과 출하량 시계열의 정상성 검정, 공적분 검정, 벡터오차수정모형(VECM)의 추정결과를 포함하고 있다. 본 연구의 주요 실증결과는 다음과 같이 요약할 수 있다. 첫째, 가격과 출하량은 확률보행과정을 따르고 있으며, 1차 적분 시계열임을 확인하였다. 둘째, 가격과 출하량 간에 공적분관계가 성립하고 있음을 보여주며, 이들 변수가 밀접히 연계되어 있음을 보여주었다. 셋째, 가격과 출하량 간 일시적인 불균형이 발생했을 때, 장기적으로 출하량 조정을 통해 불균형 상황이 72.1% 정도 해소되며, 가격 변화를 통해 불균형상황이 0.5% 정도 해소되고 있음을 보여주고 있어 가격과 출하량 간 일시적인 불균형이 발생했을 때, 피드백효과가 존재하나 출하량 조정에 의해 해소되고 있음을 보여주었다. 마지막으로, 출하량 변화율이 단기적으로 가격 변화율을 선도하며, 출하량의 감소(증가)가 가격의 상승(하락)을 초래하고 있음을 확인할 수 있다.

플럭스 타워 관측 자료 및 통합수문모형을 이용한 순복사량 산정: 설마천, 청미천 유역을 대상으로 (Net Radiation Estimation Using Flux Tower Data and Integrated Hydrological Model: For the Seolmacheon and Chungmichen Watersheds)

  • 김다은;백종진;정성원;최민하
    • 한국수자원학회논문집
    • /
    • 제46권3호
    • /
    • pp.301-314
    • /
    • 2013
  • 기후변화로 야기될 수 있는 태양복사에너지의 공간적인 불균형은 수자원을 포함한 전반적인 생태 시스템에서의 에너지 불균형을 초래한다. 따라서 정확한 에너지의 흐름을 이해하기 위하여 정량적인 관측을 목적으로 하는 플럭스 타워가 세계 곳곳에 설치되어 운영되고 있다. 국내의 주역에서도 플럭스 타워를 통안 관측이 실시되고 있는 데, 본 연구에서는 이 중 설마천과 청미천 유역의 플럭스 타워의 자료를 대상으로 수문기상 및 생태학적으로 중요한 역할을 하는 에너지원인 하향 단파 및 장파 복사량과 순복사량을 기존의 연구에서 제안된 물리식을 기반으로 계산하고, 산정된 순복사량과 관측 자료를 비교 검증하였다. 이를 통하여 관측이 미흡한 수문기상인자에 대해 기존의 물리적인 방법의 사용 가능성 및 관측 자료의 활용 가능성을 확인하였다.

공간분석을 활용한 녹지의 불균형 평가 및 관리권역 설정 - 녹지의 이용적 측면을 중심으로 - (Evaluating the Imbalance of Green Space and Establishing its Management Zone Using Spatial Analysis - Focused on the Use of Green Space -)

  • 이우성;정성관
    • 한국지리정보학회지
    • /
    • 제15권2호
    • /
    • pp.126-138
    • /
    • 2012
  • 본 연구의 목적은 다양한 공간적 분석기법을 이용하여 이용적 측면에서 대구광역시의 녹지 불균형을 분석하고, 녹지의 서비스 공급량을 토대로 관리권역을 설정하는 것이다. 대구광역시의 녹지총량은 48,936.1ha(55.4%)로 분석되었으며, 녹지점유비율이 7대 광역시 중 2위로 평가되었다. 녹지의 불균형을 분석한 결과, 행정구 및 행정동별 면적대비 녹지의 지니계수는 각각 0.085 및 0.245로 낮게 나타나 불균형이 크지 않은 것으로 평가되었다. 그러나 인구대비 녹지의 지니계수는 행정구 및 행정동별 분석에서 모두 0.6 이상으로 산정되어 불균형이 심각한 것으로 나타났다. 불균형이 심각한 달서구를 대상으로 녹지의 서비스 공급량을 산정한 결과, 대규모 녹지지역의 약 100m 이내에서는 $25m^2$/인 이상의 많은 녹지가 공급되었으며, 약 100~200m의 지역에서는 $10m^2$/인 이상의 녹지가 공급되는 것으로 분석되었다. 그러나 상인동, 죽전동 및 용산동 일대에서는 $3m^2$/인 이하의 적은 녹지가 공급되고 있는 것으로 나타났다. 이러한 서비스 공급량의 평가 결과를 토대로 녹지의 관리방향 설정을 위해 도시공간을 녹지우수지역, 녹지양호지역, 녹지취약지역, 녹지단절지역으로 분류하였다. 이러한 녹지관리권역은 도시 및 녹지계획 시 녹지 우선조성지역의 설정을 위한 기초자료로 활용될 수 있을 것이다.

분류 알고리즘 기반 주문 불균형 정보의 단기 주가 예측 성과 (Classification Algorithm-based Prediction Performance of Order Imbalance Information on Short-Term Stock Price)

  • 김선웅
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.157-177
    • /
    • 2022
  • 투자자들은 증권회사가 제공하는 시세표인 Limit Order Book 정보를 통해 국내외 투자자들이 제출하는 주문 정보를 실시간으로 파악하면서 거래에 참여하고 있다. Limit Order Book에 실시간으로 공개되고 있는 주문 정보가 주가 예측에서 유용성이 있을까? 본 연구는 장 중 투자자들의 매수와 매도 주문이 어느 한쪽으로 쏠리면서 주문 불균형이 나타나는 경우 미래 주가 등락의 예측 변수로서 유의성이 있는지를 분석하는 것이다. 분류 알고리즘을 이용하여 주문 불균형 정보의 당일 종가 등락에 대한 예측 정확도를 높이고, 예측 결과를 이용한 데이트레이딩 전략을 제안하며 실증분석을 통해 투자 성과를 분석한다. 자료는 2004년 1월 19일부터 2022년 6월 30일까지의 4,564일 동안의 코스피200 주가지수선물 5 분 봉 주가를 분석하였다. 실증분석 결과는 다음과 같다. 첫째, 총매수 주문량과 총매도 주문량의 불균형 정도로 측정하는 주문 불균형지수와 주가는 유의적 상관성을 보인다. 둘째, 주문 불균형 정보는 당일 종가까지의 미래 주가 등락에 대해서도 유의적인 영향력이 나타났다. 셋째, 주문 불균형 정보를 이용한 당일 종가 등락의 예측 정확도는 Support Vector Machines 알고리즘이 54.1%로 가장 높게 나타났다. 넷째, 하루 중 이른 시점에서 측정한 주문 불균형지수가 늦은 시점에서 측정한 주문 불균형지수보다 예측 정확성이 더 높았다. 다섯째, 종가 등락 예측 결과를 이용한 데이트레이딩 전략의 투자 성과는 비교모형의 투자 성과보다 높게 나타났다. 여섯째, 분류 알고리즘을 이용한 투자 성과는 K-Nearest Neighbor 알고리즘을 제외하면 모두 비교모형보다 총수익 평균이 높게 나타났다. 일곱째, Logistic Regression, Random Forest, Support Vector Machines, XGBoost 알고리즘의 예측 결과를 이용한 데이트레이딩 전략의 투자 성과는 수익성과 위험성을 동시에 평가하는 샤프비율에서도 비교모형보다 높은 결과를 보여주었다. 본 연구는 Limit Order Book 정보 중 총매수 주문량과 총매도 주문량 정보의 경제적 가치가 존재함을 밝혔다는 점에서 기존의 연구와 학술적 차별점을 갖는다. 본 연구의 실증분석 결과는 시장 참여자들에게 투자 전략적 측면에서 함의가 있다고 판단된다. 향후 연구에서는 최근 활발히 연구가 진행되고 있는 딥러닝 모형 등으로의 확장을 통해 주가 예측의 정확도를 높임으로써 데이트레이딩 투자전략의 성과를 개선할 필요가 있다.