DOI QR코드

DOI QR Code

Development of Text Mining-Based Accounting Terminology Analyzer for Financial Information Utilization

재정정보 활용을 위한 텍스트 마이닝 기반 회계용어 형태소 분석기 구축

  • 정건용 (아주대학교 e-business학과) ;
  • 윤승식 (아주대학교 e-business학과) ;
  • 강주영 (아주대학교 e-business학과)
  • Received : 2019.11.18
  • Accepted : 2019.11.29
  • Published : 2019.12.31

Abstract

Purpose Social interest in financial statement notes has recently increased. However, contrary to the keen interest in financial statement notes, there is no morphological analyzer for accounting terms, which is why researchers are having considerable difficulty in carrying out research. In this study, we build a morphological analyzer for accounting related text mining techniques. This morphological analyzer can handle accounting terms like financial statements and we expect it to serve as a springboard for growth in the text mining research field. Design/methodology/approach In this study, we build customized korean morphological analyzer to extract proper accounting terms. First, we collect Company's Financial Statement notes, financial information data published by KPFIS(Korea Public Finance Information Service), K-IFRS accounting terms data. Second, we cleaning and tokeninzing and removing stopwords. Third, we customize morphological analyzer using n-gram methodology. Findings Existing morphological analyzer cannot extract accounting terms because it split accounting terms to many nouns. In this study, the new customized morphological analyzer can detect more appropriate accounting terms comparing to the existing morphological analyzer. We found that accounting words that were not detected by existing morphological analyzers were detected in new customized morphological analyzers.

Keywords

References

  1. 강승식, "sms 영역에 대한 형태소 분석 사전의 구축," 언어정보, 9권, 2008, pp. 5-21.
  2. 권희준, 김선우, 임을규, "Multi N-Gram을 이용한 악성코드 분류 시스템," 보안공학연구논문지, 9권, 6호, 2012, pp. 531-542.
  3. 모예린, 서윤석, "주석 내용의 변동과 주식시장: 주석 내용의 변동이 자기자본비용과 주식거래량 및 이익반응계수에 미치는 영향," 회계학연구, 44권, 4호, 2019, pp. 215-249.
  4. 박경진, 김기영, 송문섭, "k-Ifrs하에서 오류수정으로 인한 재무제표 재작성의 문제점-사례분석을 중심으로," 회계저널, 23권, 2호, 2014, pp. 345-368.
  5. 박기영, 이영준, 김수현, "텍스트 마이닝을 활용한 금융통화위원회 의사록 분석" The Korean Economic Review, 35권, 2호, 2019, pp. 471-511. https://doi.org/10.22841/KERDOI.2019.35.2.008
  6. 송은지, "소셜 미디어 상 고객피드백을 위한 감성분석," 한국정보통신학회논문지, 19권, 4호, 2015, pp. 780-786. https://doi.org/10.6109/jkiice.2015.19.4.780
  7. 심광섭, "품사 태깅 말뭉치에서 추출한 n-gram을 이용한 음절 단위의 한국어 형태소 분석," 정보과학회논문지: 소프트웨어 및 응용, 40(12), 2013, pp. 869-876.
  8. 김정호, 김명규, 차명훈, 인주호, 채수환, "한국어 특성을 고려한 감성 분류," 감성과학, 13(3), 2010, pp. 449-458.
  9. 이정민, 전은자, 채정민, "텍스트 마이닝을 기반으로 한 무용학 자료의 빅데이터 분석," 무용역사기록학, 42권, 2016, pp. 191-212.
  10. 이현영, 이종석, 강병도, 양승원, "효율적인 한국어 파싱을 위한 최장일치 기반의 형태소 분석기 기능 확장," 한국디지털콘텐츠학회 논문지, 17권, 3호, 2016, pp. 203-210.
  11. 장진영, "회계 전문용어의 언어학적 분석," 언어과학연구, 60권, 2012, pp. 191-212.
  12. 황선필, 윤재원, 김경호, "K-IFRS 도입 전후의 주석공시사례분석과 전문가 평가," 상업교육연구, 31권, 2호, 2017, pp. 179-205. https://doi.org/10.34274/KRABE.2017.31.2.008
  13. 양낙영, 김성근, 강주영, "텍스트 마이닝 방법론과 메신저 UI 를 활용한 융합연구 촉진을 위한 연구자 및 연구 분야 추천 시스템의 제안," 정보시스템연구, 27(4), 2018, 71-96.
  14. 조혁준, 김성근, 강주영, "도플갱어 브랜드 이미지 효과에 대한 실증적 분석: 인터넷 커뮤니티를 중심으로," 정보시스템연구, 26(1), 2016, pp. 21-51.
  15. 한국회계기준원(KAI), 재무보고를 위한 개념체계, 2016
  16. 이원희, "4차 산업혁명과 5g 시대의 재정정보관리," 재정포럼, 274, 2019, pp. 2.
  17. 윤종욱, "기계학습 데이터세트 구축 공정 표준화에 관한 파일럿 연구," 인터넷전자상거래연구, 19권, 제5호, 2019, pp. 199-217.
  18. 김현종, 이태헌, 유승의, 김나랑, "민원 분석을 위한 텍스트 마이닝 기법 연구: 계층적 연관성 분석," 한국산업정보학회논문지, 23권, 제3호, 2018, pp. 13-24. https://doi.org/10.9723/JKSIIS.2018.23.3.013
  19. Beaver, William H, "Financial Ratios as Predictors of Failure," Journal of Accounting Research, 1966, pp. 71-111.
  20. Tripathy, A., Agrawal, A., Rath, S. K., "Classification of sentiment reviews using n-gram machine learning approach," Expert Systems with Applications, 57, 2016, pp. 117-126. https://doi.org/10.1016/j.eswa.2016.03.028
  21. DECHOW, PATRICIA M., WEILI GE, CHAD R. LARSON, and RICHARD G. SLOAN, "Predicting Material Accounting Misstatements," Contemporary Accounting Research, Vol.28, No.1, 2011, pp. 17-82. https://doi.org/10.1111/j.1911-3846.2010.01041.x
  22. Dutta, Shantanu, Ila Dutta, and Bijan Raahemi, "Detecting Financial Restatements using Data Mining Techniques," Expert Systems with Applications, Vol.90,,2017, 374-393. https://doi.org/10.1016/j.eswa.2017.08.030
  23. Kamaruddin, Siti Sakira, Azuraliza Abu Bakar, Abdul Razak Hamdan, Fauzias Mat Nor, Mohd Zakree Ahmad Nazri, Zulaiha Ali Othman, and Ghassan Saleh Hussein, "A Text Mining System for Deviation Detection in Financial Documents," Intelligent Data Analysis, Vol.19, No.s1, 2015, pp. S19-S44. https://doi.org/10.3233/IDA-150768
  24. Ravisankar, P., Ravi, V., Raghava Rao G., and Bose, I., "Detection of Financial Statement Fraud and Feature Selection using Da ta Mining Techniques," Decision Support Systems, Vol.50, No.2, 2011, pp. 491-500. https://doi.org/10.1016/j.dss.2010.11.006
  25. Perez, Carmen Caba, Antonio M. Lopez Hernandez, and Manuel Pedro Rodriguez Bolivar, "Citizens' Access to on-Line Governmental Financial Information: Practices in the European Union countries," Government Information Quarterly, Vol.22, No.2, 2005, pp. 258-276. https://doi.org/10.1016/j.giq.2005.02.002
  26. Perkins, Jacob. Python 3 text processing with NLTK 3 cookbook. Packt Publishing Ltd, 2014.
  27. Post, Matt, and Shane Bergsma. "Explicit and implicit syntactic features for text classification." Proceedings of the 51st Annual Meeting of the Association for Computational Linguistics (Volume 2: Short Papers). 2013.
  28. http://www.openfiscaldata.go.kr/portal/baeoom/baeoom01.do(2019.09.30.)
  29. https://www.samili.com/acc/kijun/Kifrs_tot_list.asp?op=1&op2=1(2019.09.30.)
  30. https://wikidocs.net/21692(2019.11.30.)
  31. https://web.stanford.edu/-jurafsky/slp3/3.pdf(2019.11.30.)