• 제목/요약/키워드: 데이타마이닝 시스템

검색결과 39건 처리시간 0.021초

자동문서분류를 위한 텐서공간모델 기반 심층 신경망 (A Tensor Space Model based Deep Neural Network for Automated Text Classification)

  • 임푸름;김한준
    • 데이타베이스연구회지:데이타베이스연구
    • /
    • 제34권3호
    • /
    • pp.3-13
    • /
    • 2018
  • 자동문서분류(Text Classification)는 주어진 텍스트 문서를 이에 적합한 카테고리로 분류하는 텍스트 마이닝 기술 중의 하나로서 스팸메일 탐지, 뉴스분류, 자동응답, 감성분석, 쳇봇 등 다양한 분야에 활용되고 있다. 일반적으로 자동문서분류 시스템은 기계학습 알고리즘을 활용하며, 이 중에서 텍스트 데이터에 적합한 알고리즘인 나이브베이즈(Naive Bayes), 지지벡터머신(Support Vector Machine) 등이 합리적 수준의 성능을 보이는 것으로 알려져 있다. 최근 딥러닝 기술의 발전에 따라 자동문서분류 시스템의 성능을 개선하기 위해 순환신경망(Recurrent Neural Network)과 콘볼루션 신경망(Convolutional Neural Network)을 적용하는 연구가 소개되고 있다. 그러나 이러한 최신 기법들이 아직 완벽한 수준의 문서분류에는 미치지 못하고 있다. 본 논문은 그 이유가 텍스트 데이터가 단어 차원 중심의 벡터로 표현되어 텍스트에 내재한 의미 정보를 훼손하는데 주목하고, 선행 연구에서 그 효능이 검증된 시멘틱 텐서공간모델에 기반하여 심층 신경망 아키텍처를 제안하고 이를 활용한 문서분류기의 성능이 대폭 상승함을 보인다.

사용자 로그 분석과 클러스터 내의 문서 유사도를 이용한 동적 추천 시스템 (A Dynamic Recommendation System Using User Log Analysis and Document Similarity in Clusters)

  • 김진수;김태용;최준혁;임기욱;이정현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.586-594
    • /
    • 2004
  • 웹 문서들은 빠른 생성과 소멸의 특징 때문에, 사용자는 찾고자하는 웹 문서를 신속하고 정확하게 추천해 줄 시스템을 요구하고 있다. 정제되지 않은 웹 데이타에는 사용자들의 축적된 경험들을 포함하는 유용한 정보들을 포함하고 있다. 현재, 이러한 유용한 정보를 마이닝 기법이나 통계학적 측정 방법 등을 가지고 정제하여 추천 시스템을 통해 사용자에게 제공하려는 노력이 시도되고 있다. 기존의 정보 필터링 방식은 사용자들의 프로파일을 반드시 이용해야 하는 문제점을 갖고 있으며, 협력적 필터링 방식은 First Rater 문제와 Sparsity 문제가 있다. 또한 사용자 브라우징 패턴을 이용하는 동적 추천 시스템은 연관성이 없는 웹 문서들을 결과로서 제공한다는 문제점이 있다. 본 논문에서는 웹 문서 형식에 따라 웹 문서 사이의 유사도를 이용하여 웹 문서를 분류하고, 웹 서버에 기록된 로그 파일을 이용하여 사용자 브라우징 순차 패턴 DB를 생성한다. 이렇게 생성된 정보들과 사용자들의 세션 정보를 이용하여, 사용자가 웹 문서에 접근했을 때 현재 웹 문서와 유사도가 높은 상위 N개의 연관 웹 문서 집합을 제공하고, 순차적인 특성을 갖는 웹 문서를 추천 문서로 제공하는 시스템을 제안한다.

대학도서관 이용조사를 통한 경영개선 연구 - C 대학도서관 이용자의 대출기록 분석을 중심으로- (A Management Improvement Study by the Use Survey of an Academic Library - Focused on the Analysis of Circulation Records of the C-Academic Library Users -)

  • 유경종;박일종
    • 정보관리학회지
    • /
    • 제24권3호
    • /
    • pp.93-117
    • /
    • 2007
  • 본 논문은 C대학도서관의 학술정보시스템(LAS)에 구축되어 있는 장서와 대출기록 및 고객관련 데이터를 수집하여 이를 분석하고 그 결과를 고객관계관리(CRM)에 적용할 수 있는 방안을 제시하였다. 수집된 자료는 C대학도서관에서 소장하고 있는 대출이 가능한 단행본 총 269,387책의 서지데이타와 고객 12,281명의 데이터, 이용자 대출기록 39,269건이었다. 대출기록 분석 데이터에서 관계변수로 이용자 신분, 대출빈도, 대출책수와 대출횟수, 출판년도를 추출하여 데이터 마이닝 기법으로 분석하고, 상관계수로 검증하였다.

웹 로그 분석을 위한 OLAP 시스템 및 성능 평가 (OLAP System and Performance Evaluation for Analyzing Web Log Data)

  • 김지현;용환승
    • 한국멀티미디어학회논문지
    • /
    • 제6권5호
    • /
    • pp.909-920
    • /
    • 2003
  • CRM을 위해서는 다차원 분석이 가능한 OLAP (On-Line Analysis Processing)기술을 적 용한 방법 그리고 데이타 마이닝을 이용한 방법들이 각광 받고 있다. 고객 데이터 중에서 웹 로그 데이터를 실시간에 다차원 분석을 하기 위해서는 OLAP을 사용해야 한다. 그러나 OLAP을 적용하게 되면 웹 로그 데이터 자체가 가지고 있는 특성에 의해 희박성이 발생되고, 사전 집계 연산을 수행 할 시 데이터의 폭발(Explosion)현상이 일어난다. 이는 저장공간의 낭비 뿐 아니라 다차원 질의 시 성능 저하를 발생 시킨다. 본 논문에서는 웹 로그 데이터의 희박성에 대한 체계적인 접근을 위해 희박성을 발생시키는 원인과 2,3 차원의 희박성 형태들에 대해 밝혀보고, 이러한 분석을 기반으로 성능 평가를 위한 테스트 데이터 모델과 질의 모델을 설계하였다. 그리고 희박성 처리를 위해 청크 방식을 사용한 MOLAP시스템을 구현해 보고, 이 시스템과 MS SQL 2000 Analysis Services, Oracle Express의 성능을 평가 및 분석 해보았다. 이는 웹 로그 데이터내의 희박성을 효율적으로 처리할 수 있는 저장구조와 인덱스 방식을 발견하는데 토대가 될 수 있다.

  • PDF

VRIFA: LRBF 커널과 Nomogram을 이용한 예측 및 비선형 SVM 시각화도구 (VRIFA: A Prediction and Nonlinear SVM Visualization Tool using LRBF kernel and Nomogram)

  • 김성철;유환조
    • 한국멀티미디어학회논문지
    • /
    • 제13권5호
    • /
    • pp.722-729
    • /
    • 2010
  • 예측 문제를 해결하기 위한 데이타마이닝 기법은 다양한 분야에서 주목받고 있다. 이것에 대한 한 예로 컴퓨터-기반의 질병의 예측 혹은 진단은 CDSS(Clinical Decision support System)에서 가장 중요한 요소이기도 하다. 이러한 예측 문제를 해결하기 위해서 RBF커널 같은 비선형 커널을 사용한 SVM이 가장 널리 사용되고 있는데, 이는 비선형 SVM이 어떠한 다른 분류기법보다 정확한 성능을 보이기 때문이다. 하지만 비선형 SVM을 사용한 경우에는 모델내부를 시각화하는 일이 어려워서 예측결과에 대한 직관적인 이해가 힘들고, 의학 전문가들은 이러한 비선형 SVM의 사용을 기피하고 있는 실정이다. Nomogram은 SVM을 시각화하기 위해 제안된 기법이다. 하지만 이는 선형 SVM의 경우에만 사용이 가능하고. 이 문제를 해결하기 위해서 LRBF 커널이 제안된 바 있다. LRBF 커널은 기존의 RBF 커널을 사용한 SVM과 대등한 결과를 보이면서도 예측결과의 선형적 분석도 가능하게 한다. 본 논문에서는 노모그램(Nomogram)과 LRBF 커널을 사용한 SVM이 통합되어 있는 예측 툴 VRIFA를 제안한다. 이 툴은 사용자와 상호작용하며 비선형 SVM 모델의 내부구조를 데이타의 각 속성별로 보여주는 방법으로 사용자가 예측결과를 직관적으로 이해하도록 도와준다. VRIFA는 Nomogram기반의 피쳐선택(feature selection) 기능도 포함하고 있는데, 이 기능은 예측결과에 부정적인 영향을 끼치거나 중복된 연관성을 보이는 속성을 제거함으로써 모델의 정확도를 높이는 데 기여한다. 그리고 데이터에 포함된 클래스의 비율이 한 쪽으로 치우쳐져 있는 경우에는 ROC 곡선 넓이(AUC)를 예측결과를 평가하기 위한 측도로 사용할 수 있다. 이 툴은 컴퓨터-기반의 질병 예측 혹은 질병의 위험 요소 분석에 대해 연구하는 연구자들에게 유용하게 사용될 것으로 전망하는 바이다.

반자동으로 구축된 의미 사전을 이용한 한국어 상품평 분석 시스템 (A Korean Product Review Analysis System Using a Semi-Automatically Constructed Semantic Dictionary)

  • 명재석;이동주;이상구
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권6호
    • /
    • pp.392-403
    • /
    • 2008
  • 사용자가 작성한 리뷰는 다양한 활용성을 갖는 가치 있는 데이타이다. 특히 온라인 쇼핑몰에서의 상품평은 사용자의 구매 결정에 직접적인 영향을 미치는 중요한 정보이다. 본 논문에서는 실제 쇼핑몰 사이트에 있는 상품평을 분석하여 각 상품의 특징과 이에 대한 사용자의 의견을 요약하고 상품의 순위를 산정하는 상품평 분석 시스템을 설계하고 구현하였다. 상품평을 분석하는 과정에서는 자연언어처리 기법과 의미 사전을 사용한다. 의미 사전에는 상품의 특징을 표현하는 어휘와 각 어휘들의 극성(Polarity) 정보들을 반자동화된 도구들을 활용하여 정의할 수 있도록 구현하였다. 이에 더하여 문맥에 따라 다른 의미를 갖는 어휘를 의미 사전에서 정의하고 활용하는 방법에 대해서도 논의하였다. 실험은 2개 상품 분류의 20개 상품, 1796개의 실제 상품평을 수집하여 상품의 순위를 측정하고 주요 요소를 분석하는 방식으로 진행하였다. 그 중 2개 상품에 대한 63개의 상품평에 대하여 분석의 정확률과 재현율을 측정하였으며, 평균 88.94%의 정확률, 47.92%의 재현율을 나타내었다.

타임스탬프를 갖는 이벤트 시퀀스의 인덱스 기반 검색 (Index-based Searching on Timestamped Event Sequences)

  • 박상현;원정임;윤지희;김상욱
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권5호
    • /
    • pp.468-478
    • /
    • 2004
  • 시퀀스 데이타베이스로부터 원하는 질의 패턴과 일치하는 모든 서브 시퀀스를 검색하는 것은 데이타 마이닝이나 바이오 인포매틱스 등 응용 분야에서 필수적인 연산이다. 예를 들어, 특정한 이벤트가 발생할 때마다 이벤트의 유형과 발생 시각을 기록하는 네트웍 이벤트 관리 시스템에서 네트웍 이벤트들의 연관 관계를 발견하기 위한 전형적인 질의 형태는 다음과 같다: 'CiscoDCDLinkUp이 발생한 후 MLMStatusUP과 TCPConnectionClose가 각각 20초 이내와 40초 이내에 순차적으로 발생하는 모든 경우를 검색하라.' 본 논문에서는 대규모 이벤트 시퀀스 데이타베이스를 대상으로 하여 위와 같은 질의를 효율적으로 처리할 수 있는 인덱싱 방법을 제안한다. 기존의 방법들이 비효율적인 순차적 검색이나 페이지화 하기 어려운 인덱스 구조에 의존하는데 반하여, 제안하는 방법은 저장 및 검색 효율이 입증된 다차원 공간 인덱스를 사용하여 질의를 만족하는 모든 서브 시퀀스를 착오 기각(false dismissal) 없이 신속하게 검색한다. 다차원 공간 인덱스의 입력은 이벤트 시퀀스 데이타베이스 상의 슬라이딩 윈도우 내에서 각 이벤트 유형이 최초로 발생한 시각을 기록한 n 차원 벡터가 된다. 여기서 n은 발생 가능한 이벤트 유형의 수이다. n이 큰 경우는 차원 저주(dimensionality curse) 문제가 발생할 수 있으므로 차원 선택이나 이벤트유형 그루핑을 이용하여 차원을 축소한다. 실험 결과에 의하면 제안된 방법은 순차적 검색이나 ISO-Depth 인덱스 기법에 비하여 몇 배에서 몇 십 배의 성능 향상 효과를 갖는 것으로 나타났다. 것으로 나타났다.예측치가 비교적 유사한 것으로 나타났으며, 평균 절도오차도 10% 수준이었다.HNP 처리구에서 가장 많았던 것으로 나타났다. 지상부 식생에 대한 총 양분함량은(N+P+K+Ca+Mg) 리기다소 나무가 703kg/ha 그리고 낙엽송이 869kg/ha였다.여 주었다.능성을 시도하였고, 그 결과는 다음과 같다. 1. Cholesterol을 제거한 cheese의 제조에서 최적조건은 균질압력 1200psi(70kg$cm^2$), 균질온도 $70^{\circ}$, $\beta$-cyclodextrin 첨가량 2%였으며, 이때 우유의 cholesterol의 제거율이 86.05%로 가장 높게 나타났다. 2. Cholesterol을 제거한 cheese들의 수율은 모두 12.53%(control 10.54%) 이상으로 균질 처리가 cheese의 수율을 18.88%이상 향상시키는 것으로 나타났다. 3. 유지방 함량 23.80%인 control 치즈의 cholesterol 함량은 81.47mg/100g이었고, 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 2%를 첨가한 cheese에서는 cholesterol 함량이 20.15mg/100g으로 cholesterol 제거율이 75.27%로 가장 높게 나타났다. 4. Meltability는 균질압력 1200psi(91kg/$cm^2$)에 $\beta$-cyclodextrin 1과 2%로 처리한 치즈에서 2.25cm(control 3.34cm)로 가장 낮았으며,

오피니언 마이닝을 위한 VOC 데이타의 신뢰성 분석 (Reliability Analysis of VOC Data for Opinion Mining)

  • 김동원;유성진
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.217-245
    • /
    • 2016
  • 이 연구의 목적은 소셜 미디어에서 추출된 7개의 감성 도메인이 기업의 성과에 대한 영향 분석실험을 위한 데이터로서 적합한 지에 대해 신뢰성을 확인하고, 실제 고객감성이 자동차 시장점유율에 어떠한 영향을 미치는 지에 대하여 확인하기 위한 것이다. 본 연구는 총 3단계 구성으로서, 단계 1은 감성사전 구축 단계로서 미국 내 26개의 자동차 제조 회사의 고객의 소리 (VOC: Voice of Customer) 총 45,447개를 자동차 커뮤니티로부터 crawling하여 POS 정보 추출 후 감성사전을 구축하였고, 7개의 감성도메인을 만들었다. 단계 2는 신뢰성분석의 단계로서 자기상관관계분석과 주성분 분석 (PCA)을 통해 데이터의 실험 적합성을 검증하였다. 단계 3에서는 PCA를 근거로 2개의 선형회귀분석 모델을 구축하였고 GM, FCA, VOLKSWAGEN 등 3개의 기업을 선정, 2013년부터 2015년까지 7개 감성영역의 자동차 시장점유율에 대한 영향을 실험하였다. 실험 결과, 자기상관관계분석에 의해서 감성 데이터에 자기상관성과 시계열적 패턴이 관찰되었다. PCA 결과, 감성영역이 부정성, 긍정성, 중립성을 주성분으로 연결되어 있음이 확인되었다. VOC 감성 데이터에 대한 신뢰성을 바탕으로 한 2개 Model의 선형회귀분석 결과, 기업마다 시장점유율에 유의미한 영향을 미치는 감성들이 존재하며 Model 1과, 2의 감성영향력이 차이가 있고 중립성의 영향을 발견하였다. 본 연구를 통해, 데이터 상에 나타난 정보를 가진 감성이 과거 값에 기초하여 자동차 시장에서 변화를 수반할 수 있다는 것을 나타내고 있음을 확인하였다. 또한, 우리가 시장 데이터의 가용성을 적용하려고 할 때, 자동차 시장 관련 정보나 감성의 자기상관성을 잘 활용할 수 있다면, 감정 분석에 대한 연구에 큰 기여를 할 수 있을 뿐만 아니라, 실제 시장에서의 비지니스 성과에도 다양한 방법으로 기여할 수 있을 것으로 기대된다.

인공신경망을 이용한 경제 위기 예측 (The Prediction of Currency Crises through Artificial Neural Network)

  • 이형용;박정민
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.19-43
    • /
    • 2016
  • 이 연구에서 Asia 금융 위기의 원인을 고찰하여 보고, European Monetary Systems의 금융 위기와 비교하여 본다. Asian 신흥 국가들은 1997년도에 금융 위기를 경험하였고, European Monetary Systems의 국가들도 1992년도에 동일한 경험을 하였다. 또한, 중남미의 신흥 경제국가인 Mexico 역시 1994년에 금융위기를 겪었다. 이 연구의 목적은 이들 금융위기의 내면을 고찰하고 그 결과로부터 일반화된 법칙을 추출하는 것이다. 이 연구에서는 금융위기를 경험한 한국과 영국과 멕시코를 각각 세가지 다른 모형으로 연구하고 비교하였다. 이 접근 방법은 체계적인 조사를 통하여 세 국가의 차이점을 보여주고 또한 공통적인 내재 요인을 관찰한다. 이전의 많은 연구 방법들은 대부분 선형 회귀식을 통한 causal model에 초점을 맞추고 있지만, 이러한 선형 회귀 모형의 약점을 보완하여서 현실에 산재하며 존재하는 비 선형의 문제를 해결하기 위하여 또 다른 방법을 제안하여 본다. 이 연구에서 사용한 구조 방정식(Structural Equation Model) 모형은 현실로부터 원인을 추출하고 분석하는 연구에 적합하며, 신경망(Artificial Neural Network) 모형은 선형모형의 단점을 보완하여서 비 선형 요인을 설명해 준다. 구조방정식 모형에 적용하기 위하여서 LISREL(LInear Structural RELationship)을 사용하였다. LISREL은 확인적 요인분석과 계량경제학에서 개발된 연립방정식모델에 토대를 둔 다중회귀분석 및 경로분석 등이 결합된 성격을 갖는 방법론으로 다양한 연구에 적용된다. 또한 인공지능(Artificial Intelligence) 기법 중의 하나인 신경망 모형은 선형회귀 분석과 다른 형태의 결과를 도출한다. 세가지 방법론의 우수성을 비교하기 위하여 Hit ratio를 각 국가/ 각 방법론 별로 구분하여서 비교한 결과 다른 방법론 보다 신경망이 더 좋은 성과를 나타내고 있는 것을 확인할 수 있었다. 세가지 방법론에 각각 일반적인 환율 예측에 사용되는 변수를 사용하였다. 소비자 물가지수(Consumer Price Index), 국내총생산(Gross Domestic Product), 이자율(Interest rate), 주가지수(Stock Index), 경상수지(Current Account), 외환보유고(Foreign Reserves)의 6가지 변수를 이용하여서 환율을 예측하여서 급격한 환율 변화로 초래되는 경제위기를 예측하려고 하였다. 각각의 국가의 데이터는 대한민국은 1991년부터 1999년까지, 영국은 1986년부터 1995년까지, 멕시코는 1988년부터 1998년까지의 기간을 정하여서 시계열자료를 분기별로 사용하였다. 각각의 데이터는 Data Stream과 한국은행(Bank of Korea)의 데이터를 이용하여서 분석하였다. 선형회귀방정식을 이용한 분석과 구조방정식인 LISREL을 이용한 분석은 각각 Hit ratio가 국가별로 순위가 변동되기도 하였으나, 인공지능 방법론인 인공신경망의 경우는 모든 국가에서 가장 좋은 예측 결과를 나타내고 있었다. 이 논문은 환율의 변동에 대한 다양한 예측 모형을 비교하고 평가하여서 연구에서 제시하는 개념을 검토하였다는 점에서 의의를 갖는다.