• 제목/요약/키워드: big data mining

검색결과 679건 처리시간 0.03초

위키피디어 기반 개념 공간을 가지는 시멘틱 텍스트 모델 (A Semantic Text Model with Wikipedia-based Concept Space)

  • 김한준;장재영
    • 한국전자거래학회지
    • /
    • 제19권3호
    • /
    • pp.107-123
    • /
    • 2014
  • 텍스트마이닝 연구의 기본적인 난제는 기존 텍스트 표현모델이 자연어 문장으로 기술된 텍스트 데이터로부터 의미 또는 개념 정보를 표현하지 않는데 기인한다. 기존 텍스트 표현모델인 벡터공간 모델(vector space model), 불리언 모델(Boolean model), 통계 모델(statistical model), 텐서공간 모델(tensor space model) 등은 'Bag-of-Words' 방식에 바탕을 두고 있다. 이러한 텍스트 모델들은 텍스트에 포함된 단어와 그것의 출현 횟수만으로 텍스트를 표현하므로, 단어의 함축 의미, 단어의 순서 및 텍스트의 구조를 전혀 표현하지 못한다. 대부분의 텍스트 마이닝 기술은 대상 문서를 'Bag-of-Words' 방식의 텍스트 모델로 표현함을 전제로 하여 발전하여 왔다. 하지만 오늘날 빅데이터 시대를 맞이하여 방대한 규모의 텍스트 데이터를 보다 정밀하게 분석할 수 있는 새로운 패러다임의 표현모델을 요구하고 있다. 본 논문에서 제안하는 텍스트 표현모델은 개념공간을 문서 및 단어와 동등한 매핑 공간으로 상정하여, 그 세 가지 공간에 대한 연관 관계를 모두 표현한다. 개념공간의 구성을 위해서 위키피디어 데이터를 활용하며, 하나의 개념은 하나의 위키피디어 페이지로부터 정의된다. 결과적으로 주어진 텍스트 문서집합을 의미적으로 해석이 가능한 3차 텐서(3-order tensor)로 표현하게 되며, 따라서 제안 모델을 텍스트 큐보이드 모델이라 명명한다. 20Newsgroup 문서집합을 사용하여 문서 및 개념 수준의 클러스터링 정확도를 평가함으로써, 제안 모델이 'Bag-of-Word' 방식의 대표적 모델인 벡터공간 모델에 비해 우수함을 보인다.

소셜 분석을 통한 사전제작 드라마의 가능성과 한계에 관한 연구 -jtbc <맨투맨>을 중심으로- (A Study on the Potential and Limitation of Pre-producing Dramas through Social Analysis -focusing on a jtbc drama -)

  • 김경애;구진희
    • 한국산학기술학회논문지
    • /
    • 제19권2호
    • /
    • pp.164-172
    • /
    • 2018
  • 본 논문은 드라마 사전제작과 스토리텔링의 관련성을 소셜 분석을 통해 살펴보고, 드라마의 스토리텔링이 어떤 점에 주안점을 두고 구조화되어야 할지를 jtbc의 <맨투맨>을 중심으로 살폈다. 사전제작 드라마에 대한 시청자들의 생각을 읽어내기 위해 뉴스를 배제하고 한 가지 주제에 집중하여 글을 올리는 블로그를 대상으로 하였으며, 사전제작과 드라마라는 단어를 포함한 2016. 12. 15~2017. 12. 15 사이의 블로그 67개를 선정하여 텍스트 마이닝을 수행하였다. 또한 사전제작 드라마이면서 작품의 스토리텔링에 문제를 지닌 것으로 판단되는 드라마 <맨투맨>에 대한 감성분석을 수행하였다. 블로그 텍스트 추출과 텍스트 마이닝은 OutWit Hub와 R을 이용하여 분석하였고, 좀 더 방대한 데이터를 대상으로 감성 분석을 하기 위해 소셜 메트릭스에서 제공하는 도구를 활용하였다. 감성분석 결과, <맨투맨>에서 시청자들은 김설우와 차도하의 로맨스에 공감하지 못했고 그것이 여성인물의 개연성 부족에서 비롯되었다는 해석이 도출되었다. 따라서 드라마의 성패는 사전제작 여부에 달려있는 것이라기보다 기획부터 제작에 이르는 스토리텔링의 과정이 얼마나 치밀하고 시청자의 공감을 얻도록 구조화되어 있느냐에 달려있다는 결론을 얻었다. 이러한 연구는 디지털 중심 스토리텔링 연구의 기반을 조성하고 문화 콘텐츠 산업의 전망과 이에 대한 교육을 수행하는 데 중요한 자료가 될 수 있으므로 앞으로도 지속적인 연구가 필요할 것이다.

외국인 관광객 리뷰데이터를 활용한 토픽모델링 기반의 공간분석: 대구광역시를 사례로 (Spatial analysis based on topic modeling using foreign tourist review data: Case of Daegu)

  • 정지우;김서윤;김현유;윤주혁;장원준;김건욱
    • 디지털융복합연구
    • /
    • 제19권8호
    • /
    • pp.33-42
    • /
    • 2021
  • 스마트폰 기반의 관광 플랫폼들이 활성화되면서 리뷰 데이터를 활용한 정책 수립 및 서비스 고도화가 다양한 분야에서 이루어지고 있다. 관광 리뷰 데이터를 활용한 선행연구들의 경우 국내 관광객 중심의 연구가 대다수 수행되었으며, 외국인 관광객 연구의 경우 일부 언어로 수집된 데이터와 텍스트 마이닝 기법에 한정하여 연구가 수행되었다. 이에 본 연구에서는 온라인 리뷰 사이트를 통해 '대구 명소' 키워드를 지정하여 외국인들이 작성한 리뷰 데이터 3,515건을 수집하였다. 그리고 LDA 기반의 토픽모델링을 수행하여 관광 토픽을 도출하였으며, 각 토픽별 전역 및 국지적 공간 분석을 수행한 점이 선행연구와 차별성이라 할 수 있다. 분석 결과 전역적 공간 자기상관이 존재하며, 외국인들이 주로 방문하는 관광지들이 국지적으로 결집되어 있음을 확인하였다. 또한 대다수 토픽에서 중구를 중심으로 핫스팟이 도출되었으며, 분석 결과를 바탕으로 지자체 외국인 관광정책 수립 및 토픽모델링 기반의 공간분석 연구의 기초연구로 활용되길 기대하며, 본 연구의 한계점 또한 제시하였다.

DSRC와 TCS 정보를 이용한 고속도로 경로통행시간 예측 (Forecasting of Motorway Path Travel Time by Using DSRC and TCS Information)

  • 장현호;윤병조
    • 대한토목학회논문집
    • /
    • 제37권6호
    • /
    • pp.1033-1041
    • /
    • 2017
  • 출발지 기준 고속도로 경로 통행시간(PTTDP)은 첨단여행자정보시스템(ATIS)의 핵심 정보이다. 이러한 필요성에도 불구하고, 지능형교통체계(ITS)의 예측분야에서 PTTDP에 대한 연구는 성공적으로 극복해야할 핵심 도전과제중 하나로 남아있는 상태이다. 이러한 문제점을 효과적으로 극복하기 위하여, 본 연구에서는 고속도로 IC간 경로통행시간을 동적으로 예측하는 방법론을 제시하고자 한다. 제안된 모형은 고속도로망에서 TG의 교통수요와 TG간 출발지기준 경로통행시간간의 관계를 기반으로 개발되었다. 모형의 입력 자료로(TCS로 수집되는) 통행수요와(DSRC로 수집되는) 경로통행시간 자료가 이용되었다. 개발 모형은 고속도로 정보시스템에 탑재/운영하기 위하여 Data Ming 기법중 연산속도가 빠른 k-최근린 이웃을 이용하였다. 실제 자료를 이용한 적용 실험에서, 제안된 모형은 예측의 신뢰성과 연산수행속도 측면에서 ATIS에 적용이 가능한 수준의 성능을 보였다.

위치기반 소셜 미디어 데이터의 텍스트 마이닝 기반 공간적 클러스터링 분석 연구 (Spatial Clustering Analysis based on Text Mining of Location-Based Social Media Data)

  • 박우진;유기윤
    • 대한공간정보학회지
    • /
    • 제23권2호
    • /
    • pp.89-96
    • /
    • 2015
  • 위치기반 소셜 미디어 데이터는 빅데이터, 위치기반서비스 등 다양한 분야에서 활용가능성이 매우 큰 데이터이다. 본 연구에서는 위치기반 소셜 미디어 데이터의 텍스트 정보를 분석하여 주요한 키워드들이 공간적으로 어떻게 분포하고 있는지를 파악할 수 있는 일련의 분석방법론을 적용해보았다. 이를 위해, 위치태그를 지닌 트윗 데이터를 서울시 강남지역과 그 주변지역에 대하여 2013년 8월 한달 간 수집하였으며, 이 데이터를 대상으로 하여 텍스트 마이닝을 통해 주요 키워드들을 도출하였다. 이러한 키워드들 중 음식, 엔터테인먼트, 업무 및 공부의 세 카테고리에 해당하는 키워드들만 추출, 분류하였으며 각 카테고리에 해당하는 트윗 데이터들에 대해서 공간적 클러스터링을 실시하였다. 도출된 각 카테고리별 클러스터들을 실제 그 지역의 건물 또는 벤치마크 POI들과 비교한 결과, 음식 카테고리 클러스터는 대규모 상업지역들과 일치도가 높았고 엔터테인먼트 카테고리의 클러스터는 공연장, 극장, 잠실운동장 등과 일치하였다. 업무 및 공부 카테고리 클러스터들은 학원 밀집지역 및 사무용 빌딩 밀집지역과 높은 일치도를 나타내었다.

기준 확인 측도와 연관성 평가기준과의 관계 탐색 (Exploration of relationship between confirmation measures and association thresholds)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권4호
    • /
    • pp.835-845
    • /
    • 2013
  • 데이터 마이닝닝 기법들 중에서 연관성 규칙 마이닝 (association rule mining)은 대용량의 사건 발생 기록 데이터로부터 항목 간의 연관성을 측정하는 기법이다. 이 기법은 매우 방대한 양의 상품 또는 서비스 거래 기록 데이터로부터 항목들 간의 연관성을 측정하는 기법으로 제조업, 유통업, 보험업, 의료 및 교육 분야 등 많은 분야에 적용되고 있다. 의미 있는 연관성 규칙을 탐색하기 위한 흥미도 측도는 크게 객관적 흥미도 측도와 주관적 흥미도 측도, 그리고 의미론적 흥미도 측도로 분류할 수 있다. 이와는 별개로 기준 확인 또는 증거 지원과 관련된 측도들을 개발하기 위해 많은 시도가 있었으나 기준 확인 측도에 대한 연관성 평가 기준 조건 충족 여부나 기본적인 연관성 평가 측도인 지지도, 신뢰도, 그리고 향상도 등과의 관계는 아직 규명되지 않았다. 이에 본 논문에서는 가장 많이 활용되고 있는 비대칭적 기준 확인 측도에 대해 흥미도 측도의 기준에 대한 조건 충족 여부를 검토하는 동시에 기본적인 연관성 평가 측도들과의 관계를 수식을 통해 유도한 후, 예제를 통해 연관성 규칙의 관점에서 기준 확인 측도의 유용성을 살펴보았다. 그 결과, 본 논문에서 고려한 모든 기준 확인 측도들이 흥미도 측도의 기준에 대한 조건들을 모두 만족하였다. 또한 이들을 기본적인 연관성 평가 기준인 지지도, 신뢰도, 그리고 향상도와의 관계를 식을 통해 규명한 동시에 방향성과 행태적 해석 가능성을 예제를 통해 확인할 수 있었다. 특히 이들 측도 중에서 Kemeny와 Oppenheim이 제안한 측도와 Rips가 제안한 측도가 가장 바람직한 연관성 평가 기준으로 활용할 수 있다는 사실을 확인할 수 있었다.

빅데이터 기반 소비자 유형별 농식품 추천시스템 구축 사례 (Case Study of Big Data-Based Agri-food Recommendation System According to Types of Customers)

  • 문정훈;장익훈;최영찬;김진교;박진
    • 한국통신학회논문지
    • /
    • 제40권5호
    • /
    • pp.903-913
    • /
    • 2015
  • 농림수산식품교육문화정보원에서는 2015년 1월부터 공공데이터 포털 서비스를 시작하였으며 포털 내에 구축된 빅데이터 기반 농식품 추천 시스템을 이용한 맞춤소비정보를 제공하고 있다. 추천시스템의 특징은 첫째, SNS오피니언마이닝, 소비자패널의 모든 구매내역 정보, 기후데이터, 도매가격 데이터와 같은 빅데이터의 성격을 가진 농식품분야의 다양한 데이터들을 이용하기 때문에 데이터 양의 관점에서 추천의 정확도를 높일 수 있다. 둘째, 추천시스템 구축 초기에는 사용자 정보 기반 추천이 어려운 한계를 극복할 수 있는 방법으로 식생활 라이프스타일과 메가트렌드 요인을 이용한 소비자 세분화방법을 사용한다. 이는 사용자 개인정보가 없는 상황에서도 다양한 식품 선호를 반영할 수 있도록 하여 추천실패율을 낯춘다. 셋째, 디리슐레-다항분포를 이용하는 추천 알고리즘을 적용하여 다양한 상황적 요인들의 선호가 반영된 농식품 추천이 가능하도록 하였다. 이 외에도 추천 농식품에 대한 SNS 맛집정보와 버즈량, 관련 식재료를 판매하는 주변 소매점 위치 및 가격정보 등 다양한 정보를 제공하여 농식품 분야 정보에 관심을 높일 수 있도록 시스템을 구현하였다.

The World as Seen from Venice (1205-1533) as a Case Study of Scalable Web-Based Automatic Narratives for Interactive Global Histories

  • NANETTI, Andrea;CHEONG, Siew Ann
    • Asian review of World Histories
    • /
    • 제4권1호
    • /
    • pp.3-34
    • /
    • 2016
  • This introduction is both a statement of a research problem and an account of the first research results for its solution. As more historical databases come online and overlap in coverage, we need to discuss the two main issues that prevent 'big' results from emerging so far. Firstly, historical data are seen by computer science people as unstructured, that is, historical records cannot be easily decomposed into unambiguous fields, like in population (birth and death records) and taxation data. Secondly, machine-learning tools developed for structured data cannot be applied as they are for historical research. We propose a complex network, narrative-driven approach to mining historical databases. In such a time-integrated network obtained by overlaying records from historical databases, the nodes are actors, while thelinks are actions. In the case study that we present (the world as seen from Venice, 1205-1533), the actors are governments, while the actions are limited to war, trade, and treaty to keep the case study tractable. We then identify key periods, key events, and hence key actors, key locations through a time-resolved examination of the actions. This tool allows historians to deal with historical data issues (e.g., source provenance identification, event validation, trade-conflict-diplomacy relationships, etc.). On a higher level, this automatic extraction of key narratives from a historical database allows historians to formulate hypotheses on the courses of history, and also allow them to test these hypotheses in other actions or in additional data sets. Our vision is that this narrative-driven analysis of historical data can lead to the development of multiple scale agent-based models, which can be simulated on a computer to generate ensembles of counterfactual histories that would deepen our understanding of how our actual history developed the way it did. The generation of such narratives, automatically and in a scalable way, will revolutionize the practice of history as a discipline, because historical knowledge, that is the treasure of human experiences (i.e. the heritage of the world), will become what might be inherited by machine learning algorithms and used in smart cities to highlight and explain present ties and illustrate potential future scenarios and visionarios.

분류모형을 이용한 여신회사 고객대출 분석에 관한 연구 (A study on the analysis of customer loan for the credit finance company using classification model)

  • 김태형;김영화
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권3호
    • /
    • pp.411-425
    • /
    • 2013
  • 데이터마이닝이란 대용량의 자료로부터 의미있는 패턴과 규칙을 찾기 위해서 자동화되거나 반자 동화된 도구를 이용하여 데이터를 탐색하고 분석하는 과정이다. 이러한 데이터마이닝 기법을 통해 정보의 연관성을 파악함으로써 가치 있는 정보를 만들어 합리적인 의사 결정이 가능하게 된다. 금융분야에서도 데이터베이스 마케팅, 신용평가, 서비스 품질개선, 부정행위 적발 등에 데이터마이닝 기법이 다양하게 사용되고 있다. 금융거래에서 대출의 중요도와 필요성이 시간이 지날수록 점점 높아지고 있으나, 대출을 이용하는 사람과 대출건수가 증가할수록 부실대출의 위험이 함께 증가하기 때문에 대출을 해주는 여신기관의 손실을 막기 위해서는 대출여부를 정확하게 예측할 필요성이 존재한다. 본 연구에서는 국내 A 여신기관의 실제 데이터를 사용하여 대출심사에 관한 연구를 진행하였으며, 모형 구축에 있어서 안정적이고 정확한 예측을 보이는 모형을 찾기 위하여 원 데이터에서의 샘플 정제와 여러가지 모형, 데이터마이닝 기법 등을 사용하여 다양한 모형을 구축하고 비교, 평가하였다.

공간정보와 통합 스마트카드 자료를 활용한 도시철도 역사 보행 기종점 분석 기법 개발 (A Comprehensive Framework for Estimating Pedestrian OD Matrix Using Spatial Information and Integrated Smart Card Data)

  • 정은비;유소영;이준;김경태
    • 대한교통학회지
    • /
    • 제35권5호
    • /
    • pp.409-422
    • /
    • 2017
  • TOD (Transit-Oriented Development)는 대중교통 중심의 복합기능을 가진 집약적인 도시구조이며, 미래지향형 지속가능한 도시를 유지하기 위해 제시되는 개념이다. 최근 도시철도 역사를 중심으로 복합 환승센터 개발이 활발히 추진되고 있으며, 사업의 규모와 복잡성으로 인해 보다 과학적이고 객관적인 분석을 통한 계획과 유지관리 등이 요구되고 있다. 이에 따라, 본 연구에서는 공간정보와 통합 스마트카드 자료를 활용하여 도시철도 역사 보행 기종점 추정을 위한, 표준화된 분석 절차를 개발하고자 하였으며, 삼성역 사례 분석을 통해 제시된 분석 절차 및 방법에 대한 검증을 수행하였다. 본 연구에서 제시된 분석 절차는 자료 수집 기술과 빅데이터 DB 분석 기법 발전에 따라 유기적 확장 가능한 분석 환경을 마련하였다는 데 큰 의의를 가진다.