• 제목/요약/키워드: big data mining

검색결과 679건 처리시간 0.031초

데이터마이닝 기법을 활용한 비외감기업의 부실화 유형 분석 (The Pattern Analysis of Financial Distress for Non-audited Firms using Data Mining)

  • 이수현;박정민;이형용
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.111-131
    • /
    • 2015
  • 본 연구에서는 데이터마이닝 기법의 일종인 자기조직화지도(Self-Organizing Map, SOM)를 이용하여 비외감기업의 부실화 유형을 구분하고자 한다. 자기조직화지도는 인공 신경망을 기초로 자율학습을 통해 입력된 값을 유사한 군집끼리 묶어내는 방법으로, 기존의 통계적 군집 분류 방법보다 성능이 뛰어나고, 고차원의 입력데이터를 저차원으로 시각화할 수 있다는 장점 때문에 다양한 분야에서 각광받고 있다. 본 연구에서는 기존 연구의 주요 분석대상이었던 외감기업에 비해 부실화 빈도는 높지만 데이터 수집의 어려움으로 인해 분석대상에서 다소 제외되었던 비외감기업의 부실화 유형에 대해 알아보고, 유형별 구체적인 사례도 소개하고자 한다. 재무자료수집이 가능한 100개의 비외감 부실기업에 대해 분석한 결과, 비외감기업의 부실화 유형은 다섯 가지로 구분되었다. 유형 1은 전체 집단의 약 12%를 차지하며, 수익성, 성장성 등 재무지표가 다른 유형에 비해 열등하였다. 유형 2는 전체 집단의 약 14%로, 유형 1보다는 덜 심각하지만 재무지표가 대체로 열등하였다. 유형 3은 성장성 지표가 열등한 그룹으로 기업간 경쟁이 극심한 가운데 지속적으로 성장하지 못하고 부실화된 경우로 약 30%의 기업이 포함되었다. 유형 4는 성장성은 탁월하나 부채경영 등 과감한 경영으로 인해 유동성 부족이나 현금부족 등의 이유로 부실화된 그룹으로 약 25%의 기업이 포함되었다. 유형 5는 거의 모든 재무지표가 우수한 건전기업으로, 단기적인 경영전략의 실수 또는 중소기업의 특성상 경영자의 개인적 사정으로 부실화 되었을 가능성이 큰 그룹으로 약 18%의 기업이 포함되었다. 본 연구 결과는 부실화 유형을 구분하는데 기존의 통계적 방법이 아닌 자기조직화지도를 이용하였다는 점에서 학문적 의의가 있고, 비외감기업의 재무지표만으로도 1차적인 부실화 징후를 발견할 수 있다는 점에서 실무적 의의가 있다고 할 수 있다.

시스템적인 군집 확인과 뉴스를 이용한 주가 예측 (Predicting stock movements based on financial news with systematic group identification)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.1-17
    • /
    • 2019
  • 빅데이터 시대에 정보의 양이 급증하고, 그중 많은 부분을 차지하는 문자열 정보를 정량화하여 의미를 찾아 낼 수 있는 인공지능 방법론이 함께 발전하면서, 텍스트 마이닝을 통해 주가 예측에 적용해 온라인 뉴스로 주가를 예측하려는 시도가 다양해지고 있다. 이러한 주가 예측의 방법은 대개 예측하고자 하는 기업의 뉴스로 주가를 예측하는 방식이다. 하지만 특정 회사의 뉴스만이 그 회사의 주가에 영향을 주는 것이 아니라, 그 회사와 관련성이 높은 회사들의 뉴스 또한 주가에 영향을 줄 수 있다. 그러나 관련성이 높은 기업을 찾는 것은 시장 전반의 공통적인 영향과 무작위 신호 때문에 쉽지 않다. 따라서 기존 연구들은 주로 미리 정해진 국제 산업 분류 표준에 기반을 둬 관련성이 높은 기업을 찾았다. 하지만 최근 연구에 따르면, 국제 산업 분류 표준은 섹터에 따라 동질성이 다르며, 동질성이 낮은 섹터는 그들을 모두 함께 고려하여 주가를 예측하는 것이 성능에 악영향을 줄 수 있다는 한계점을 가진다. 이러한 한계점을 극복하기 위해, 본 논문에서는 주가 예측 연구에서 처음으로 경제물리학에서 주로 사용되는 무작위 행렬 이론을 사용하여 시장 전반 효과와 무작위 신호를 제거하고 군집 분석을 시행하여 관련성이 높은 회사를 찾는 방법을 제시하였다. 또한, 이를 기반으로 관련성이 높은 회사의 뉴스를 함께 고려하며 다중 커널 학습을 사용하는 인공지능 모형을 제시한다. 본 논문의 결과는 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여 준다는 것을 보여준다.

빅데이터환경에서 텍스트마이닝 기법을 활용한 한국의 석면 트렌드 (1918년~2027년) (Asbestos Trend in Korea from 1918 to 2027 Using Text Mining Techniques in a Big Data Environment)

  • 노열;정현이;박병노;김채원;김유미;서민아;신행수;김현욱;성예지
    • 자원환경지질
    • /
    • 제56권4호
    • /
    • pp.457-473
    • /
    • 2023
  • 석면은 악성중피종과 폐암 등 치명적인 질병을 유발하기 때문에 국내에서 2009년부터 그 사용이 전반적으로 금지되었다. 그러나 국내에서 지난 수십년 간 석면이 생산 및 수입되어 다양한 산업에서 사용되어 왔기 때문에 우리 주변에는 여전히 석면함유물질이 많이 존재하고 있어 안전한 관리가 절실하다. 이 연구는 지난 32년(1991년 ~ 2022년)동안의 빅데이터를 바탕으로 석면관련 주요키워드를 이용하여 석면관련 트렌드 변화를 살펴보고자 한다. 또한 국내 과거(1990년 이전)의 석면의 생산, 수입, 사용 실태와 더불어 현재(2023년~2027년)의 석면관련 정책 동향을 살펴보고자 하였다. 1991~2000년에는 국내 석면의 생산과 수입 그리고 이용으로 인하여 석면에 대한 발암성이 부각되는 시기로 연구, 근로자, 발암물질, 환경등과 관련된 키워드가 주를 이루었다. 2001~2010년에는 석면의 발암성과 관련하여 미국, 일본 등에서 소송이 시작되었던 시기로 폐암, 소송, 발암물질, 노출, 기업 등의 키워드가 주를 이루었다. 2011~2020년에는 국내에서도 석면문제의 심각성을 인지하는 키워드인 발암물질, 야구장, 학교, 슬레이트, 건축물, 폐석면광산 등이 지속적으로 상위권 키워드로 검색되었다. 2021년부터는 주로 검색되는 키워드는 학교, 슬레이트, 건축물 등과 조경석, 환경영향평가, 아파트, 시멘트 등의 키워드가 나타났다.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

UIPM 세계대회 기록을 통한 근대5종 사격 유형 및 특성 비교 (The analysis of game outcomes based on UIPM shooting match data in the modern pentathlon)

  • 박종철;이승훈
    • 디지털융복합연구
    • /
    • 제18권6호
    • /
    • pp.523-529
    • /
    • 2020
  • 본 연구는 근대5종 세계대회 데이터베이스에서 2015년부터 총 5년간의 공식 세계기록을 수집하여 사격 유형 및 특성이 기록에 미치는 영향을 밝혀내고자 했다. 이를 위해 UIPM Level 1 대회인 월드컵, 세계선수권대회 출전한 남녀 모든 선수에 대해 전체 사격 격발 경우를 분석하였다. 연구결과 왕복횟수와 차수가 늘어날수록 사격누적기록이 나빠지는 양상을 보였고, 1번째 왕복 3차 사격에서 가장 좋은 기록을, 4번째 왕복 5차 사격에서 가장 나쁜 기록이 나타났다. 또한, 첫발의 성공 유무에 따른 누적사격기록 편차 값은 왕복횟수가 늘어남에 따라 9%가량 편차가 증가하는 경향성이 나타났는데 이는 시간이 지남에 따라 첫발의 성공은 더욱 중요하며 근대5종 사격 시 첫발 명중만으로 기록단축에 큰 효과를 거둘 수 있다. 이러한 연구를 바탕으로 사격 정확성에 영향을 미치는 요인 및 특징을 밝히고, 복합경기 특성에 맞게 육상기록과 연계한 후속 연구가 필요하다고 사료된다.

MapReduce 환경에서 재그룹핑을 이용한 Locality Sensitive Hashing 기반의 K-Nearest Neighbor 그래프 생성 알고리즘의 개선 (An Improvement in K-NN Graph Construction using re-grouping with Locality Sensitive Hashing on MapReduce)

  • 이인희;오혜성;김형주
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제21권11호
    • /
    • pp.681-688
    • /
    • 2015
  • k-Nearest Neighbor(k-NN)그래프는 모든 노드에 대한 k-NN 정보를 나타내는 데이터 구조로써, 협업 필터링, 유사도 탐색과 여러 정보검색 및 추천 시스템에서 k-NN그래프를 활용하고 있다. 이러한 장점에도 불구하고 brute-force방법의 k-NN그래프 생성 방법은 $O(n^2)$의 시간복잡도를 갖기 때문에 빅데이터 셋에 대해서는 처리가 곤란하다. 따라서, 고차원, 희소 데이터에 효율적인 Locality Sensitive Hashing 기법을 (key, value)기반의 분산환경인 MapReduce환경에서 사용하여 k-NN그래프를 생성하는 알고리즘이 연구되고 있다. Locality Sensitive Hashing 기법을 사용하여 사용자를 이웃후보 그룹으로 만들고 후보내의 쌍에 대해서만 brute-force하게 유사도를 계산하는 two-stage 방법을 MapReduce환경에서 사용하였다. 특히, 그래프 생성과정 중 유사도 계산하는 부분이 가장 많은 시간이 소요되므로 후보 그룹을 어떻게 만드는 것인지가 중요하다. 기존의 방법은 사이즈가 큰 후보그룹을 방지하는데 한계점이 있다. 본 논문에서는 효율적인 k-NN 그래프 생성을 위하여 사이즈가 큰 후보그룹을 재구성하는 알고리즘을 제시하였다. 실험을 통해 본 논문에서 제안한 알고리즘이 그래프의 정확성, Scan Rate측면에서 좋은 성능을 보임을 확인하였다.

K-평균 군집분석을 활용한 중학생의 군집화 및 특성 분석 (Analysis of Characteristics of Clusters of Middle School Students Using K-Means Cluster Analysis)

  • 이재봉
    • 한국과학교육학회지
    • /
    • 제42권6호
    • /
    • pp.611-619
    • /
    • 2022
  • 최근 교육에서 교육 데이터마이닝에 관한 관심이 높아지고 있는 시점에 과학교육에서 평가 결과를 활용하여 학생들에게 적합한 피드백을 제공하기 위해 빅데이터 분석의 적용 가능성을 탐색해 보고자 하였다. 연구에서는 국가수준 학업성취도 평가의 24문항에 응시한 2,576명의 평가 자료를 활용하여 비지도 기계학습의 한 가지 방법인 K-평균 군집분석을 이용하여 학생들을 군집화하였다. 학업성취도 평가 자료를 활용한 군집화 결과, 학생들을 6개의 군집으로 나누어 볼수 있었다. 상위권이나 하위권에 비해 중위권 학생들이 다양하게 다른 군집으로 구분됨을 알 수 있다. 군집분석의 결과를 보면, 군집화에서 가장 중요하게 영향을 주는 요인은 학업 성취였으며, 군집별로는 교육과정의 내용 영역별, 교과 역량별, 정의적 특성 면에서 서로 다른 특성을 보이고 있었다. 하위 군집에서는 정의적 영역 중에서 학습의욕이 중요하게 영향을 주고, 교과 역량 면에서는 과학적 탐구 및 문제 해결력과 과학적 의사소통 능력이 중요하게 영향을 주고 있었다. 내용 영역 면에서는 운동과 에너지와 물질 영역에 대한 성취가 군집의 특성을 구분하는 중요한 요인으로 작용하고 있었다. 따라서 평가 자료를 활용해 학생을 군집화한 후, 이러한 군집별 특성을 바탕으로 학생들에게 학습을 위한 맞춤형 피드백을 제공할 수 있을 것으로 판단된다. 본 연구에서는 이러한 연구 결과를 바탕으로 군집분석 연구 결과 활용의 가능성, 내용 영역별 균형 있는 학습, 교과 역량 증진, 과학적 태도의 향상 등 과학교육의 시사점을 제안하였다.

미래신호 탐지 기법을 활용한 위성산업 시장의 진입 전략 수립 연구 (A Study on Establishing a Market Entry Strategy for the Satellite Industry Using Future Signal Detection Techniques)

  • 김세형;박재형;이한솔;강주영
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.249-265
    • /
    • 2023
  • 우주 산업은 세계적으로 잠재력이 높은 산업 분야로 여겨지지만, 국내에서는 아직 글로벌 시장에 비해 비교적 관심이 저조한 실정이다. 국내에서도 최근 위성산업은 전통적인 정부 주도의 산업에서 벗어난 민간 주도의 '뉴스페이스(New Space)' 패러다임에 관심을 기울이고 있다. 따라서, 본 연구의 목적은 국내 위성산업 관련 민간 기업의 시장 진입 전략을 결정하는 데 도움이 될 수 있는 미래의 신호를 탐색하는 것이다. 이를 위해 본 연구에서는 미래신호 이론과 Keyword Portfolio Map 등의 이론적 배경을 활용하여, 키워드 성장률과 키워드 등장 빈도 등을 바탕으로 특허 문서 데이터 내 키워드 잠재력을 분석한다. 또한, 뉴스 데이터를 추가로 수집하여 미래신호를 각각 first symptom, early information으로 구분하였다. 이는 해당 키워드가 특허문서 이외에 어떻게 실질적인 잠재력을 드러내는지에 대한 해석적 지표로 활용된다. 본 연구는 미래신호 탐색을 위한 데이터 수집과 분석 과정을 수록하였고, 키워드 맵의 시각화 자료를 통해 어떤 형태로 활용될 수 있는지 구체적으로 시각화함으로써 수집된 문서의 각각의 키워드가 약신호에서 강신호로 발전하는 과정을 추적하는 일련의 과정을 수록하였다. 본 연구의 과정은 기존 미래신호에 관한 연구의 방법론적인 기여와 활용 범위의 확장에 기여할 수 있고, 결과물은 위성 산업에서의 신산업 기획 및 연구 방향성 수립에 기여할 수 있다.

산업군 내 동질성을 고려한 온라인 뉴스 기반 주가예측 (Online news-based stock price forecasting considering homogeneity in the industrial sector)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제24권2호
    • /
    • pp.1-19
    • /
    • 2018
  • 주가 예측은 학문적으로나 실용적으로나 중요한 문제이기에, 주가 예측에 관련된 연구가 활발히 진행되었다. 빅 데이터 시대에 도입하면서, 빅 데이터를 결합한 주가 예측 연구도 활발히 진행되고 있다. 다수의 데이터를 기반으로 기계 학습을 이용한 연구가 주를 이룬다. 특히 언론의 효과를 접목한 연구 방법들이 주목을 받고 있는데, 그중 온라인 뉴스를 분석하여 주가 예측에 활용하는 연구가 주를 이루고 있다. 기존 연구들은 온라인 뉴스가 개별 회사에 대한 미치는 영향을 주로 살펴보았다. 또한, 관련성이 높은 기업끼리 서로 영향을 주는 것을 고려하는 방법도 최근에 연구되고 있다. 이는 동질성을 가지는 산업군에 대한 효과를 살펴본 것인데, 기존 연구에서 동질성을 가지는 산업군은 국제 산업 분류 표준에 따른다. 즉, 기존 연구들은 국제 산업 분류 표준으로 나뉜 산업군이 동질성을 가진다는 가정하에서 분석을 시행하였다. 하지만 기존 연구들은 영향력을 가지는 회사를 고려하지 못한 채 예측하였거나 산업군 내에서 이질성이 존재하는 점을 반영하지 못했다는 한계점을 가진다. 본 연구는 산업군 내에 이질성이 존재함을 밝히고, 이질성을 반영하지 못한 기존 연구의 한계점을 K-평균 군집 분석을 적용하여, 주가에 영향을 미치는 산업군의 동질적인 효과를 반영할 수 있는 방법론을 제안하였다. 방법론이 적합하다는 것을 증명하기 위해 3년간의 온라인 뉴스와 주가를 통해 실험한 결과, 다수의 경우에서 본 논문에서 제시한 방법이 좋은 결과를 나타냄을 확인할 수 있었으며, 국제 산업 분류 표준 산업군 내에서 이질성이 클수록 본 논문에서 제시한 방법이 좋은 효과를 보인다는 것을 확인할 수 있었다. 본 연구는 국제 산업 분류 표준으로 나누어진 기업들이 높은 동질성을 가지지 않는 다는것을 밝히고 이를 반영한 예측 모형의 효율성을 입증하였다는 점에서 의의를 가진다.

직원을 위한 내부마케팅이 기업의 시가 총액 변동률에 미치는 영향 분석: 잡플래닛 기업 리뷰를 중심으로 (An Analysis of the Internal Marketing Impact on the Market Capitalization Fluctuation Rate based on the Online Company Reviews from Jobplanet)

  • 최기철;이상용
    • 경영정보학연구
    • /
    • 제20권2호
    • /
    • pp.39-62
    • /
    • 2018
  • 컴퓨터 연산능력의 향상과 데이터를 수집하고 가공해 분석이 가능하도록 데이터를 정형화 시키는 기술이 발달함에 따라, 소셜미디어 및 인터넷 공간에서 생산되는 다양한 텍스트 데이터를 수집하고 그것을 분석하는 시도가 늘고 있다. 본 연구는 이와 같은 기술의 발전과 새롭게 시도되고 있는 분석법을 활용해 텍스트 데이터를 분석하여 과거에 설문조사 방법을 통해 확인했던 "내부마케팅"의 효과를 기존과는 다른 방식으로 확인해 보고자 하였다. 이와 같은 분석을 위해, 전/현직자들이 해당 기업의 구직자들에게 기업의 리뷰를 제공하는 플랫폼 잡플래닛(www.jobplanet.co.kr)의 리뷰 데이터를 웹크롤러를 생성하여 약 4만 건을 수집하였다. 또한 수집된 비정형 데이터를 정형화하기 위한 형태소 분석을 진행하여 명사만을 추출한 후, 미리 생성해 놓은 단어주머니에 들어있는 단어와 같을 경우 그 숫자를 세어 분류화를 진행하였다. 분류화된 내부마케팅 영역별 단어 수의 변화를 독립변수로, 시가총액 변동률을 종속변수로 활용하여, 내부마케팅과 시가총액간의 관계를 확인하고자 하였다. 그 결과, 대부분의 기존 연구와는 다르게 내부마케팅의 효과는 제한적인 영역에서만 기업의 성과에 긍정적인 영향을 미치며 대부분의 환경에서는 음의 영향을 미치는 것으로 나타났다. 산업군으로 나누었을 때, 제조업에서는 여성지원과 교육 훈련 부문에서 기업성과에 긍정의 영향을 미치는 것으로 나타났으나, 유통업에서는 직원 복지, 일-가정 양립 그리고 바이오/제약 업종에서는 직원 복지, 일-가정 양립, 사내 커뮤니케이션 그리고 보상 부문에서 모두 기업성과에 음의 영향을 미치는 것으로 나타났다. 또한 기업의 규모가 크고 역사가 오래된 기업에서는 직원 복지가 기업성과에 악영향을 미치는 것으로 나타났으나, 교육 훈련 부문에서는 종속변수에 긍정적 영향을 미치는 것을 확인할 수 있었으며, 기업의 규모가 작고 역사가 짧은 기업에서는 직원 복지, 사내 커뮤니케이션 그리고 일-가정 양립에서 종속변수와 음의 관계를, 여성지원 에서는 종속변수와 양의 관계를 갖는 것으로 나타났다. 본 연구는 이러한 결과들을 분석하여 이론적 의미뿐만 아니라, 실무적 함의를 제시하고자 하였다.