• 제목/요약/키워드: Network Mining

검색결과 1,053건 처리시간 0.03초

트위터를 활용한 감성 기반의 영화 유사도 측정 (Measuring Similarity Between Movies Based on Sentiment of Tweets)

  • 김경민;김동윤;이지형
    • 한국지능시스템학회논문지
    • /
    • 제24권3호
    • /
    • pp.292-297
    • /
    • 2014
  • 최근 소셜 네트워크 서비스가 보편화되면서, 이를 활용하여 사람들의 의견이나 감성 등을 파악하기 위한 감성분석 연구가 다양한 분야 진행되고 있다. 기존의 영화 관련 연구의 경우, 대부분이 영화평에 대해 단순 긍/부정으로 감성분석을 하여, 영화에 대한 선호도를 파악하는 데 그쳤다. 사람의 감성은 단순 긍/부정이 아닌 다양한 감성으로 분류될 수 있는데 반해, 이분법적 감성분석은 영화의 평점 정보에서 손쉽게 얻을 수 있는 선호도와 유사한 분석을 하는데 그친다. 따라서 영화의 평점보다 다양하고 유용한 정보를 얻기 위해서는, 영화 리뷰를 세분화된 감성으로 분석하여 영화에 대해 느낀 감성을 다양한 기준으로 분류할 필요가 있다. 본 논문에서는 Thayer 모델을 기반으로 감성 분류 기준을 세우고, 수집한 영화 관련 트윗을 이용하여 각 영화에 대해 대중이 느끼는 감성을 분석한다. 분석된 영화에 대한 감성 비율을 유클리드거리, 코사인유사도, 피어슨 상관계수를 이용하여 영화간의 유사도를 측정하였다. IMDB에서 제공하는 유사 영화 정보를 바탕으로 본 논문에서 제안하는 방식의 유용성을 검증하였다.

데이타마이닝을 이용(利用)한 CRM 사례연구(事例硏究) - A 패션기업(企業)을 중심(中心)으로 - (A CRM Study on the Using of Data Mining - Focusing on the "A" Fashion Company -)

  • 이유순
    • 패션비즈니스
    • /
    • 제6권5호
    • /
    • pp.136-150
    • /
    • 2002
  • In this study, we proposed a method to be standing customers as the supporting system for the improvement of fashion garment industry which was the marginal growth getting into full maturity of market. As for the customer creation method of Fashion garment company is developing a marketing program to be standing customer as customer scoring to estimate a existing customer‘s buying power, and figure out minimum fixed sales of company to use a future purchasing predict. This study was a result of data from total sixty thousands data to be created for the 11 months from september. 2000 to July. 2001. The data is part of which the company leading the Korean fashion garment industry has a lot of a customer purchasing history data. But this study used only 48,845 refined purchased data to discriminate from sixty thousands data and 21,496 customer case with the exception of overlapping purchased data among of those. The software used to handle sixty thousands data was SAS e-miner. As the analysis process is put in to operation the analysis of the purchasing customer’s profile firstly, and the second come into basket analysis to consider the buying associations for Association goods, the third estimate the customer grade of Customer loyalty by 3 ways of logit regression analysis, decision tree, Artificial Neural Network. The result suggested a method to be estimate the customer loyalty as 3 independent variables, 2 coefficients. The 3 independent variables are total purchasing amount, purchasing items per one purchase, payment amount by one purchasing item. The 2 coefficients are royal and normal for customer segmentation. The result was that this model use a logit regression analysis was valid as the method to be estimate the customer loyalty.

분산 테라스케일 텐서 생성기 (TeT: Distributed Tera-Scale Tensor Generator)

  • 전병수;이정우;강유
    • 정보과학회 논문지
    • /
    • 제43권8호
    • /
    • pp.910-918
    • /
    • 2016
  • 많은 종류의 데이터들은 텐서로 표현될 수 있다. 텐서란 다차원 배열을 의미하며, 그 예로 (사용자, 사용자, 시간)으로 이루어진 소셜 네트워크 데이터가 있다. 이러한 다차원 데이터 분석에 있어서 텐서 생성기는 시뮬레이션, 다차원 데이터 모델링 및 이해, 샘플링/외삽법 등 다양한 응용이 가능하다. 하지만, 존재하는 텐서 생성기들은 실제 세계의 텐서처럼 멱 법칙을 따르는 특성과 희박성을 갖는 텐서를 생성할 수 없다. 또한, 처리가능한 텐서 크기에 한계가 존재하고, 분산시스템에서 추가 분석을 하려면 텐서를 분산시스템에 업로드 하는 추가비용이 든다. 본 논문은 분산 테라스케일 텐서 생성기(TeT)를 제안함으로써 이러한 문제를 해결하고자 한다. TeT는 희박성을 갖는 랜덤 텐서와 희박성과 멱 법칙을 따르는 특성을 갖는 Recursive-MATrix 텐서, 크로네커 텐서를 크기 제한없이 생성할 수 있다. 또한, TeT에서 생성된 텐서는 같은 분산 시스템에서 추가적인 텐서분석이 가능하다. TeT는 효율적인 설계로 인해 거의 선형적인 머신확장성을 보인다.

공개출처정보의 정량화를 이용한 인공신경망 기반 사이버위협 예측 모델 (Cyber Threats Prediction model based on Artificial Neural Networks using Quantification of Open Source Intelligence (OSINT))

  • 이종관;문미남;신규용;강성록
    • 융합보안논문지
    • /
    • 제20권3호
    • /
    • pp.115-123
    • /
    • 2020
  • 사이버공격은 최근 몇 년간 더욱 더 진화하고 있다. 이렇게 고도화, 정교화된 사이버위협에 대응하기 위한 최선의 대책 중 하나는 사이버 공격을 사전에 예측하는 것이다. 사이버위협을 예측하기 위해서는 많은 정보와 노력이 요구되며 최근 정보획득의 핵심인 공개출처정보(Open Source Intelligence, OSINT)를 활용한다면 사이버위협을 보다 정확히 예측할 수 있을 것이다. 공개출처정보를 활용하여 사이버위협을 예측하기 위해서는 공개출처정보로부터 사이버위협 데이터베이스의 구축과 구축된 DB에서 사이버위협을 평가할 수 있는 요소를 선정하는 것이 선행되어야 한다. 이를 위해 데이터마이닝 기법을 활용하여 DB를 구축하고, 축적된 DB 요소 중 핵심요소에 대한 중요도를 AHP 기법으로 분석한 선행연구를 기초로 하였다. 본 연구에서는 공개출처정보로부터 축적된 사이버공격 DB를 활용하여 사이버위협을 정량화할 수 있는 방안을 제시하고 인공신경망을 기반으로 한 사이버위협 예측 모델을 제안한다.

제한적인 환경에서 현재 기온 데이터에 기반한 태양광 발전 예측 모델 개발 (The Development of the Predict Model for Solar Power Generation based on Current Temperature Data in Restricted Circumstances)

  • 이현진
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권3호
    • /
    • pp.157-164
    • /
    • 2016
  • 태양광 발전량은 날씨에 큰 영향을 받는다. 기상 예보를 사용할 수 있는 환경이라면, 기상 예보 정보를 사용하여 미래의 태양광 발전량을 단기예측 할 수 있다. 하지만, 섬이나 산과 같이 네트워크의 단절에 의해 기상예보 정보를 사용할 수 없는 제한된 환경에서는 기상예보를 사용한 태양광 발전량 예측 모델을 사용할 수 없다. 따라서 본 논문에서는 시스템 자체적으로 수집할 수 있는 정보만을 이용하여 태양광 발전량을 단기 예측할 수 있는 시스템을 제안하였다. 예측의 정확도를 높이기 위하여 이전 온도정보와 발전량 정보를 이용하여 단기 예측모델을 생성하였다. 실험을 통하여 실데이터에 제안한 예측 모델을 적용하여 유용한 결과를 보였다.

SoFA: 검색 지향 시스템을 위한 분산 파일 시스템 (SoFA: A Distributed File System for Search-Oriented Systems)

  • 최은미;쩐도안타인;비핀 우바디야;파흐릇딘 아지모프;루왕용;장옥향;김상범;김필성
    • 한국시뮬레이션학회논문지
    • /
    • 제17권4호
    • /
    • pp.229-239
    • /
    • 2008
  • 분산 파일 시스템(DFS)은 분산 환경에서 장애와 사본에 대한 투명성을 보장하며 파일을 다수의 물리적인 컴퓨터 노드들에게 저장할 수 있는 메카니즘을 제공한다. 검색엔진, 그리드 컴퓨팅, 데이터 마이닝 어플리케이션등과 같이 많은 양의 데이터를 처리하는 어플리케이션들은 데이터 저장을 위한 백엔드 인프라 구조를 제공할 필요가 있다. 분산 파일 시스템은 이러한 저장 데이터 기반을 위한 주요 구성요소가 된다. 많은 프로젝트의 관심사가 되는 네트워크 컴퓨팅은 이와 같이 설계 및 구현된 분산파일 시스템을 갖추고 있으며, 다양한 아키텍처와 기능들을 시스템의 특성에 따라서 제공하고 있다. 이 논문에서는 대용량의 검색 지향적인 시스템에서 사용되는 SOFA 분산 파일 시스템, 메카니즘들과 성능들을 소개한다.

  • PDF

빅데이터 분석을 이용한 문단 내의 감정 예측 (Emotion Prediction of Paragraph using Big Data Analysis)

  • 김진수
    • 디지털융복합연구
    • /
    • 제14권11호
    • /
    • pp.267-273
    • /
    • 2016
  • 모바일의 확산과 더불어 정형화된 자료뿐만 아니라 다양한 형태의 비정형화된 자료로부터 정보가 생성되고 정보 전달 및 공유가 활발히 이루어지고 있다. 최근에는 다양한 SNS 매체들로부터 생산 및 배포되는 많은 자료들 중에서 유의미한 정보를 추출하는 기술로 빅데이터 기술을 많이 사용하며, 빅데이터 분석 기법 중 하나인 데이터 마이닝 기법을 사용한다. 특히, SNS로부터 수집된 방대하고 다양한 자료들을 이용하여 대중의 집단지성에 표출된 일반적인 감정을 분석하여 다양한 분야에 활용한다. 본 논문에서는 SNS를 통해 작성된 짧은 문단 내 함축된 키워드와 키워드들 간의 연관성을 이용하여 문단에 나타난 감정을 예측하고 사용자별 감정에 따른 적절한 답변이나 예측된 감정과 유사한 상품이나 영화 등 다양한 추천시스템에 사용될 수 있도록 형태소 분석과 변형된 n-gram방법을 혼합하여 효율적인 감정 예측 시스템을 제안한다. 제안된 시스템은 평균 82.25%의 재현율을 보여 기존의 시스템에 비해 더욱 향상된 성능을 보여 주었고, 형태소분석을 통해 의미 있는 키워드 추출에 도움이 될 것으로 기대한다.

제4차 산업혁명에서 SNS 빅데이터의 외식산업 활용 방안에 대한 연구 (A Study on the Application of SNS Big Data to the Industry in the Fourth Industrial Revolution)

  • 한순임;김태호;이종호;김학선
    • 한국조리학회지
    • /
    • 제23권7호
    • /
    • pp.1-10
    • /
    • 2017
  • This study proposed SNS big data analysis method of food service industry in the 4th industrial revolution. This study analyzed the keyword of the fourth industrial revolution by using Google trend. Based on the data posted on the SNS from January 1, 2016 to September 5, 2017 (1 year and 8 months) utilizing the "Social Metrics". Through the social insights, the related words related to cooking were analyzed and visualized about attributes, products, hobbies and leisure. As a result of the analysis, keywords were found such as cooking, entrepreneurship, franchise, restaurant, job search, Twitter, family, friends, menu, reaction, video, etc. As a theoretical implication of this study, we proposed how to utilize big data produced from various online materials for research on restaurant business, interpret atypical data as meaningful data and suggest the basic direction of field application. In order to utilize positioning of customers of restaurant companies in the future, this study suggests more detailed and in-depth consumer sentiment as a basic resource for marketing data development through various menu development and customers' perception change. In addition, this study provides marketing implications for the foodservice industry and how to use big data for the cooking industry in preparation for the fourth industrial revolution.

빅데이터 연구영역의 지식창출 구조 (Knowledge Creation Structure of Big Data Research Domain)

  • 남수현
    • 디지털융복합연구
    • /
    • 제13권9호
    • /
    • pp.129-136
    • /
    • 2015
  • 본 논문은 학제간 연구의 대표적인 사례인 빅데이터 연구가 어떤 주제로 구성되어 있는지를 상향식 접근법을 이용하여 분석한다. 분석을 위해서 연구재단에서 제공하는 학술지 인용색인시스템을 이용하였다. 영문 키워드 "big data"로 모든 등재지와 등재후보지를 대상으로 검색을 하여 이것을 원천 데이터로 하였다. 논문 저자가 직접 제공하는 키워드를 본 연구에서 사용하기 위해서 정제작업을 거친 후, 주요 키워드 분포, 참여 저널의 성격 분포, 참여저자 수의 분포, 연도별 키워드 분포 등을 이용하여 빅데이터 연구주제의 구조를 설명하였다. 식별된 주요 키워드들은 사회네트워크 분석, 하둡, 맵리듀스, 개인정보/보호, 클라우드 컴퓨팅, 시각화, 데이터마이닝 등이다. 또한 빅데이터가 지속가능하고 융복합적인 경영혁신 도구로 사용되기 위해 향후 추가적으로 보완되어야 할 연구 키워드들을 제안한다.

시계열 자료의 데이터마이닝을 위한 패턴분류 모델설계 및 성능비교 (Pattern Classification Model Design and Performance Comparison for Data Mining of Time Series Data)

  • 이수용;이경중
    • 한국지능시스템학회논문지
    • /
    • 제21권6호
    • /
    • pp.730-736
    • /
    • 2011
  • 본 연구는 순차적인 시계열 자료들에서 가장 최근의 추세가 반영될 수 있는 패턴분류 모델을 설계하였다. 의사결정을 지원하는 데이터마이닝 패턴분류 모델을 설계할 때 통계 기법과 인공지능 기법을 융합한 모델들이 기존의 모델보다 우수함을 입증하였다. 특히 퍼지이론과 융합된 패턴분류 모델들의 적중률이 상대적으로 더 향상되었다. 예를 들어, 통계적 이론을 기반으로 한 SVM모델과 퍼지소속함수와의 결합, 혹은 신경망과 FCM을 결합한 모델들의 성능이 우수하였다. 실험에서 사용한 패턴분류 모델들은 BPN, PNN, FNN, FCM, SVM, FSVM, Decision Tree, Time Series Analysis, Regression Analysis 등이다. 그리고 데이터베이스는 시계열 속성을 지닌 금융시장의 경제지표 DB(한국, KOSPI200 데이터베이스)와 병원 응급실의 부정맥환자에 대한 심전도 DB(미국 MIT-BIH 데이터베이스)들을 사용하였다.