• 제목/요약/키워드: 시계열 데이터 예측

검색결과 535건 처리시간 0.026초

뉴스 텍스트 마이닝과 시계열 분석을 이용한 주가예측 (Stock Prediction Using News Text Mining and Time Series Analysis)

  • 안성원;조성배
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.364-369
    • /
    • 2010
  • 본 논문에서는 뉴스 텍스트 마이닝을 수행하여 2005년 1월부터 2008년 12월까지 4년 간의 뉴스 데이터에 대해 주가에 호재인지 악재인지 여부에 대해 학습을 하고, 이를 근거로 신규 발행된 뉴스가 주가 상승 또는 하락에 영향을 미치는지를 예측하는 알고리즘을 제안한다. 뉴스 텍스트 마이닝을 위해 변형된 Bag of Words 모델과 Naive Bayesian 분류기법을 사용하였으며, 특히 주가 예측에 있어서 뉴스 마이닝에만 의존하던 기존의 관련 연구와는 달리 예측의 정확성을 높이기 위해 주가의 시계열 데이터 분석기법인 RSI를 추가로 작용하였다. 2009년 11월부터 2010년 2월까지 4개월간 42,355건의 뉴스 데이터에 대해 실험한 결과, 기존 연구 대비 의미 있는 결과인 55.01%의 예측성공률을 얻었다.

  • PDF

대규모 외생 변수와 Deep Neural Network를 사용한 금융 시장 예측의 성능 향상에 관한 연구 (A Study on Improving the Performance of Financial Market Forecasting Using Large Exogenous Variables and Deep Neural Network)

  • 천성길;이주홍;최범기;송재원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 춘계학술발표대회
    • /
    • pp.435-438
    • /
    • 2020
  • 시장예측 문제를 해결하기 위하여 과거부터 꾸준한 연구가 진행되어왔다. 하지만 금융 시계열 데이터에는 분산이 일정하지 않으며 Non-stationarity 등 예측을 하는 것에 있어서 여러 가지 방해 요인이 존재한다. 또한 광범위한 데이터 변수는 기존에 사람이 직접 경험적으로 선택하는 것에 한계가 있기 때문에, 모델이 변수를 자동으로 추출할 수 있어야 한다. 본 논문에서는 여러 가지 금융 시계열 데이터의 문제를 고려하여 타임 스텝 정규화를 제안하며 자동 변수 추출을 위해 LSTM 형태의 오토 인코더 모델을 학습하였으며 LSTM 네트워크를 이용하여 시장 예측하는 모델을 제안한다. 해당 시스템은 실제 주식 거래나 시장 거래를 위하여 온라인 학습이 가능하며 긴 기간을 테스트 구간으로 실험한 결과 미래의 수익률을 예측하는 것에 있어서 우수한 성능을 보였다.

서열 정렬 알고리즘을 이용한 주가 패턴 탐색 시스템 개발 (Developing Stock Pattern Searching System using Sequence Alignment Algorithm)

  • 김형준;조환규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권6호
    • /
    • pp.354-367
    • /
    • 2010
  • 시계열 데이터에서 패턴을 분석하는 기법은 많은 발전이 이루어져 오고 있다. 그러나 주식시장의 경우 시계열 데이터임에도 불구하고 패턴 분석 및 예측은 많은 연구가 이루어지지 않고 있으며 예측도가 매우 낮다. 그 이유는 주가의 등락 자체가 본질적으로 무작위하다고 하면 어떠한 과학적 방법으로도 그 예측은 불가능하다. 본 연구에서는 주가의 등락이 보여주는 무작위성의 정도를 Kolmogorov 복잡도를 이용해 측정하여 그 무작위의 정도와 본 논문에서 제시한 반 전역정렬(semi-global alignment)로 예측할 수 있는 주가의 예측의 정확간의 깊은 상관관계가 있음을 보인다. 이를 위해서 주가지수의 등락을 양자화된 문자열로 변환하고 그 문자열의 Kolmogorov 복잡도를 이용해 주가 변동의 무작위성을 측정하였다. 우리는 KOSPI 주식 데이터 28년 690개의 데이터를 수집하여 이를 실험용 데이터로 사용하여 본 논문에서 제시한 방법의 의미를 평가하였다. 그 결과 Kolmogorov 복잡도가 높은 경우에는 변동 예측이 어려우며, Kolmogorov 복잡도가 낮은 경우에는 주식 변동 예측은 가능하나 3종류의 예측율에 대해서 투자자들이 관심이 많은 등락 예측율은 단기 예측은 12% 이상의 예측율을 보일 수 없으며, 장기 예측의 경우 54%의 예측율로 수렴함을 확인하였다.

궤도틀림 진전 예측을 위한 시계열 모델 적용 (Application of Time-Series Model to Forecast Track Irregularity Progress)

  • 정민철;김건우;김정훈;강윤석;공정식
    • 한국전산구조공학회논문집
    • /
    • 제25권4호
    • /
    • pp.331-338
    • /
    • 2012
  • 현재 국내에서 EM-120에 의해 검측된 틀림 데이터는 매우 불규칙적인 형태를 나타내며 데이터 분석 시 다양한 문제점을 가지고 있다. 본 연구에서는 궤도의 효율적인 유지관리를 위해 검측된 틀림데이터의 특징과 문제점을 분석하고, 이를 보완할 수 있는 효율적인 처리 기법을 개발하였으며, 정제된 데이터의 ARIMA 분석을 통해 검측데이터와 계절 변화의 상관관계 분석을 수행하였다. 또한 회귀모형, 지수평활법, ARIMA 모형 등 다양한 예측 모델의 적용을 통해 검측 데이터의 시계열 분석을 수행하고, 궤도 틀림 데이터의 예측 모델에 적합한 최적 모델 선정과 관련한 연구를 수행하였다.

점진적 주성분 분석을 이용한 시계열 유전자 발현 데이터의 효율적인 차원 축소 (Dimension Reduction in Time-series Gene Expression Data using incremental PCA)

  • 김선희;김만선;양형정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.733-736
    • /
    • 2007
  • 최근 생명 공학 기술의 발달로 마이크로 단위의 실험이 가능해지고 하나의 칩상에 수 만개의 유전자들의 발현 양상을 보다 쉽게 관찰할 수 있게 되었다. DNA 칩 기술에 의해 얻어지는 마이크로어레이(microarray) 데이터는 세포나 조직 내의 유전자 발현도(expression level)를 측정한 것으로 질병 진단이나 유전자 기능 예측 등에 이용되고 있다. 본 논문에서는 대량의 시계열 마이크로어레이 데이터 분석을 위해 효율적으로 데이터의 차원을 판단하는 점진적 주성분 분석을 이용하여 데이터의 차원을 축소 한다. 제안된 방법은 실제 시계열 마이크로어레이 데이터인 yeast cell cycle 데이터에 적용되었고, 데이터 차원 축소에 대한 효율성을 검증하기 위해 클러스터링을 수행하였다. 그 결과 데이터를 축소하여 클러스터링을 수행한 경우 학습 성능이 향상 된 결과를 보였다.

텐서 플로우 신경망 라이브러리를 이용한 시계열 데이터 예측 (A Time-Series Data Prediction Using TensorFlow Neural Network Libraries)

  • ;장성봉
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제8권4호
    • /
    • pp.79-86
    • /
    • 2019
  • 본 논문에서 인공 신경망을 이용한 시계열 데이터 예측 사례에 대해 서술한다. 본 연구에서는 텐서 플로우 라이브러리를 사용하여 배치 기반의 인공 신경망과 스타케스틱 기반의 인공신경망을 구현하였다. 실험을 통해, 구현된 각 신경망에 대해 훈련 에러와 시험에러를 측정하였다. 신경망 훈련과 시험을 위해서 미국의 인디아나주의 공식 웹사이트로부터 8개월간 수집된 세금 데이터를 사용하였다. 실험 결과, 배치 기반의 신경망 기법이 스타케스틱 기법보다 좋은 성능을 보였다. 또한, 좋은 성능을 보인 배치 기반의 신경망을 이용하여 약 7개월 간 종합 세수 예측을 수행하고 예측된 결과와 실제 데이터를 수집하여 비교 실험을 진행 하였다. 실험 결과, 예측된 종합 세수 금액 결과가 실제값과 거의 유사하게 측정되었다.

유동인구 예측을 위한 Global - Local 구조 기반의 시계열 Deep Learning 모델에 관한 연구 (A Study on Deep Learning Model Based on Global-Local Structure for Crowd Flow Prediction)

  • 고현모;박상현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.458-461
    • /
    • 2021
  • 유동인구 예측은 상권의 특성에 따른 점포의 입지 선정 및 고객 맞춤형 마케팅 등 민간 분야에서부터 교통망 등 사회 간접 자본 설계를 위한 공공 분야에 이르기까지 다양한 목적으로 연구되어 왔으며, 최근에는 Covid-19 의 확산에 따라 그 중요도가 더욱 높아지고 있다. 보다 정교한 예측을 위해서는 전체적인 유동 인구 뿐만 아니라 특성 별로 세분화된 하위 그룹에 대해서도 정확한 예측이 요구되나, 기존의 예측 모델들은 이러한 데이터의 계층 구조를 고려하지 않았다. 본 연구에서는 세분화된 하위 그룹 별 유동인구의 예측 정확도를 높이기 위해 전체 유동인구의 패턴을 동시에 활용하는 Global-Local 구조 기반의 Deep Learning 유동인구 분석 모델을 제안한다. 실험 결과 단일 시계열 데이터만을 사용하는 경우 대비 5.4%~52.6%의 예측 오류 감소 효과가 있음을 확인하였다.

시계열 분석을 이용한 실시간 네트워크 트래픽 예측 시스템의 설계 (Design a Realtime Network Traffic Prediction System based on Timeseries Analysis)

  • 정상준;권영헌;최혁수;김종근
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1323-1326
    • /
    • 2001
  • 서브네트워크에서 실시간으로 통신 트래픽을 감시하고, 트래픽 정보를 바탕으로 시계열 분석을 이용해 트래픽의 변화추이를 예측할 수 있는 시스템을 설계 및 구현한다. SNMP를 이용한 MIB-II 정보를 바탕으로 하는 분석 방법은 누적 데이터를 기본으로 하는 관리 방법으로 이상 징후의 판단이 실시간 감시에는 적합하지 않은 점이 있다. 따라서, 본 논문에서는 실시간 트래픽 감시를 위해 서브네트워크에 들어오거나 나가는 트래픽의 양을 측정하여 분석하고, 이 정보를 바탕으로 특정 시점 이후의 트래픽 추이를 시계열 분석 방법을 이용하여 미래의 트래픽 양을 예측하는 알고리즘을 시스템으로 구현한다. 예측 알고리즘으로는 AR, MA, ARMA, ARIMA 모델중에 평균 제곱 오차를 최소로 가지는 알고리즘을 선택하여 예측하도록 설계한다. 개발되는 시스템을 망 관리자가 전체 통신 네트워크의 부하 상태를 예상할 수 있게 하여 신속하고 예방적인 대응을 할 수 있다.

  • PDF

밀집 샘플링 기법을 이용한 네트워크 트래픽 예측 성능 향상 (Improving prediction performance of network traffic using dense sampling technique)

  • 이진선;오일석
    • 스마트미디어저널
    • /
    • 제13권6호
    • /
    • pp.24-34
    • /
    • 2024
  • 시계열인 네트워크 트래픽 데이터로부터 미래를 예측할 수 있다면 효율적인 자원 배분, 악성 공격에 대한 예방, 에너지 절감 등의 효과를 거둘 수 있다. 통계 기법과 딥러닝 기법에 기반한 많은 모델이 제안되었는데, 이들 연구 대부분은 모델 구조와 학습 알고리즘을 개선하는 일에 치중하였다. 모델의 예측 성능을 높이는 또 다른 접근방법은 우수한 데이터를 확보하는 것이다. 이 논문은 우수한 데이터를 확보할 목적으로, 시계열 데이터를 증강하는 밀집 샘플링 기법을 네트워크 트래픽 예측 응용에 적용하고 성능 향상을 분석한다. 데이터셋으로는 네트워크 트래픽 분석에 널리 사용되는 UNSW-NB15를 사용한다. RMSE와 MAE, MAPE를 사용하여 성능을 분석한다. 성능 측정의 객관성을 높이기 위해 10번 실험을 수행하고 기존 희소 샘플링과 밀집 샘플링의 성능을 박스플롯으로 비교한다. 윈도우 크기와 수평선 계수를 변화시키며 성능을 비교한 결과 밀집 샘플링이 일관적으로 우수한 성능을 보였다.

단변량 시계열 모형들의 단순 결합의 예측 성능 (Performance for simple combinations of univariate forecasting models)

  • 이선홍;성병찬
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.385-393
    • /
    • 2022
  • 본 논문에서는 시계열 예측 분야에서 잘 알려져 있는 단변량 시계열 모형들을 이용하여, 그들의 단순 조합이 어떤 예측력을 보여주는지 연구한다. 고려된 단변량 시계열 모형으로는, 지수평활 및 ARIMA(autoregressive integrated moving average) 모형들과 그들의 확장된 형태인 모형들 그리고 예측의 벤치마크 모형으로 자주 사용되는 비계절 및 계절 랜덤워크 모형이다. 단순 조합의 방법은 중앙값과 평균을 이용하였으며, 검증을 위하여 사용된 데이터셋은 3,003개의 시계열 자료로 구성된 M3-competition 자료이다. 예측 성능을 sMAPE(symmetric mean absolute percentage error)와 MASE(mean absolute scaled error)로 평가한 결과, 단변량 시계열 모형들의 단순 조합이 아주 우수한 예측력을 가지고 있음을 확인하였다.