Rule Discovery and Matching for Forecasting Stock Prices

주가 예측을 위한 규칙 탐사 및 매칭

  • 하유민 (연세대학교 컴퓨터과학과) ;
  • 김상욱 (한양대학교 정보통신학부) ;
  • 원정임 (한양대학교 정보통신학부) ;
  • 박상현 (연세대학교 컴퓨터과학과) ;
  • 윤지희 (한림대학교 정보통신학부)
  • Published : 2007.06.15

Abstract

This paper addresses an approach that recommends investment types for stock investors by discovering useful rules from past changing patterns of stock prices in databases. First, we define a new rule model for recommending stock investment types. For a frequent pattern of stock prices, if its subsequent stock prices are matched to a condition of an investor, the model recommends a corresponding investment type for this stock. The frequent pattern is regarded as a rule head, and the subsequent part a rule body. We observed that the conditions on rule bodies are quite different depending on dispositions of investors while rule heads are independent of characteristics of investors in most cases. With this observation, we propose a new method that discovers and stores only the rule heads rather than the whole rules in a rule discovery process. This allows investors to define various conditions on rule bodies flexibly, and also improves the performance of a rule discovery process by reducing the number of rules. For efficient discovery and matching of rules, we propose methods for discovering frequent patterns, constructing a frequent pattern base, and indexing them. We also suggest a method that finds the rules matched to a query issued by an investor from a frequent pattern base, and a method that recommends an investment type using the rules. Finally, we verify the superiority of our approach via various experiments using real-life stock data.

본 논문에서는 주식 데이타베이스로부터 과거 주가 변화 패턴에 대한 규칙을 탐사함으로써 투자자에게 주식 투자 유형을 추천해 주는 방안에 관하여 논의한다. 먼저, 본 논문에서는 주식 투자 유형의 추천을 위한 새로운 규칙 모델을 정의한다. 제안된 모델에서는 빈번하게 발생하는 주가 변화 패턴의 이후의 주가 변화 경향이 투자자의 투자 조건과 매치하는 경우, 이 종목에 대한 투자 유형을 추천하도록 하는 방식을 사용한다. 이때, 빈번하게 발생하는 패턴을 규칙의 헤드로 간주하며, 이후의 주가 변화 경향을 규칙의 바디로 간주한다. 본 연구에서는 규칙 헤드는 투자자의 특성에 별다른 영향을 받지 않는 반면, 규칙 바디에 대한 조건은 투자자마다 다르다는 점에 착안하여 규칙 탐사 과정에서 전체 규칙이 아닌 규칙 헤드들만을 탐사하여 저장해 두는 새로운 방식을 제안한다. 이 결과, 투자자 별로 달라질 수 있는 규칙 바디에 대한 조건을 유연하게 정의하는 것을 허용하며, 규칙의 수를 줄임으로써 전체 규칙 탐사 성능을 개선할 수 있다. 효율적인 규칙 탐사와 매칭을 위하여 빈번 패턴들을 효과적으로 탐사하는 방법, 빈번 패턴 베이스를 구축하는 방법, 그리고 이들을 인덱싱 하는 방법을 제안한다. 또한, 투자자의 질의가 발생하는 경우, 빈번 패턴 베이스로부터 이와 매치되는 규칙을 발견하고, 이 결과를 이용하여 투자자에게 투자 유형을 추천해 주는 방법을 제안한다. 실제 주식 데이타를 이용한 다양한 실험을 통하여 제안된 기법의 우수성을 규명한다.

Keywords

References

  1. R. Agrawal, C. Faloutsos, and A. Swami, 'Efficient Similarity Search in Sequence Databases,' In Proc. Int'l. Conf. on Foundations of Data Organization and Algorithms, FODO, pp. 69-84, Oct. 1993
  2. S. W. Kim, S. H. Park, and W. W. Chu, 'An Index-Based Approach for Similarity Search Supporting Time Warping in Large Sequence Databases,' In Proc. Int'l. Conf. on Data Engineering, IEEE ICDE, pp. 607-614, 2001 https://doi.org/10.1109/ICDE.2001.914875
  3. W. K. Loh, S. W. Kim, and K. Y. Whang, 'A Subsequence Matching Algorithm that Supports Normalization Transform in Time-Series Databases,' Data Mining and Knowledge Discovery Journal, Vol. 9, No. 1, pp. 5-28, Jul. 2004 https://doi.org/10.1023/B:DAMI.0000026902.89522.a3
  4. S. H. Park et al., 'Efficient Searches for Similar Subsequences of Difference Lengths in Sequence Databases,' In Proc. Int'l. Conf. on Data Engineering, IEEE ICDE, pp. 23-32, 2000 https://doi.org/10.1109/ICDE.2000.839384
  5. P. Bloomfield, 'Fourier Analysis of Time Series,' Wiley, 2000
  6. R. Agrawal et al., 'Fast Similarity Search in the Presence of Noise, Scaling, and Translation in Time-Series Databases,' In Proc. Int'l. Conf. on VLDB, pp. 490-501, Sept. 1995
  7. C. Faloutsos, M. Ranganathan, and Y. Manolopoulos, 'Fast Subsequence Matching in Time-series Databases,' In Proc. Int'l. Conf. on Management of Data, ACM SIGMOD, pp. 419-429, May 1994 https://doi.org/10.1145/191839.191925
  8. T. Anderson, 'The Statistical Analysis of Time Series,' Wiley, 1971
  9. H. White, 'Economic Prediction Using Neural Networks: The Case of IBM Daily Stock Returns,' In Proc. IEEE Int'l. Conf. on Neural Networks, pp. II451-II458, 1988 https://doi.org/10.1109/ICNN.1988.23959
  10. E. Saad, D. Prokhorov, and D. Wunsch II, 'Comparative Study of Stock Trend Prediction Using Time Delay, Recurrent and Probabilistic Neural Networks,' IEEE Trans. on Neural Networks, pp. 1456-1470, 1998 https://doi.org/10.1109/72.728395
  11. B. Wah and M. Qian, 'Constrained Formulations and Algorithms for Stock-Price Predictions Using Recurrent FIR Neural Networks,' AAAI/IAAI pp. 211-216, 2002
  12. G. Das, K.-I. Lin, H. Mannila, Gopal Renganathan, and Padhraic Smyth, 'Rule Discovery from Time Series,' In Proc. Int'l. Conf. on Knowledge Discovery and Datamining, pp. 16-22, 1998
  13. S. Park and W. W. Chu, 'Discovering and Matching Elastic Rules From Sequence Databases', in Fundamenta Informaticae, Vol, 47, No. 1-2, pp. 75-90, Aug-Sept, 2001
  14. S. Guha, R. Rastogi, and K. Shim, 'CURE: An Efficient Clustering Algorithm for Large Databases,' Information Systems Vol. 26, No. 1, pp. 35-58, 2001 https://doi.org/10.1016/S0306-4379(01)00008-4
  15. W. W. Chu and K. Chiang, 'Abstraction of High Level Concepts from Numerical Values in Databases,' In Proc. AAAI Workshop on Knowledge Discovery in Databases, pp. 133-144, 1994
  16. J. Han, M. Kamber, 'Data Mining: Concepts and Techniques,' Morgan Kaufmann, 2001
  17. R. Agrawal, R. Srikant, 'Fast Algorithms for mining Association Rules,' In Proc. Int'l. Conf. on VLDB, pp. 487-499, 1994
  18. R. Agrawal, R. Srikant, 'Mining Sequential Patterns,' In Proc. Int'l. Conf. on Data Engineering, pp. 3-14, 1995
  19. Koscom Data Mall, http://datamall.koscom.co.kr, 2005