• 제목/요약/키워드: Unstructured Data Analytics

검색결과 23건 처리시간 0.023초

고객의 소리(VOC) 데이터를 활용한 서비스 처리 시간 예측방법 (A Method of Predicting Service Time Based on Voice of Customer Data)

  • 김정훈;권오병
    • 한국IT서비스학회지
    • /
    • 제15권1호
    • /
    • pp.197-210
    • /
    • 2016
  • With the advent of text analytics, VOC (Voice of Customer) data become an important resource which provides the managers and marketing practitioners with consumer's veiled opinion and requirements. In other words, making relevant use of VOC data potentially improves the customer responsiveness and satisfaction, each of which eventually improves business performance. However, unstructured data set such as customers' complaints in VOC data have seldom used in marketing practices such as predicting service time as an index of service quality. Because the VOC data which contains unstructured data is too complicated form. Also that needs convert unstructured data from structure data which difficult process. Hence, this study aims to propose a prediction model to improve the estimation accuracy of the level of customer satisfaction by combining unstructured from textmining with structured data features in VOC. Also the relationship between the unstructured, structured data and service processing time through the regression analysis. Text mining techniques, sentiment analysis, keyword extraction, classification algorithms, decision tree and multiple regression are considered and compared. For the experiment, we used actual VOC data in a company.

스트리밍 빅데이터의 프라이버시 보호 동반 실용적 분석을 통한 지식 활용과 재사용 연구 (Research of Knowledge Management and Reusability in Streaming Big Data with Privacy Policy through Actionable Analytics)

  • 백주련;이영숙
    • 디지털산업정보학회논문지
    • /
    • 제12권3호
    • /
    • pp.1-9
    • /
    • 2016
  • The current meaning of "Big Data" refers to all the techniques for value eduction and actionable analytics as well management tools. Particularly, with the advances of wireless sensor networks, they yield diverse patterns of digital records. The records are mostly semi-structured and unstructured data which are usually beyond of capabilities of the management tools. Such data are rapidly growing due to their complex data structures. The complex type effectively supports data exchangeability and heterogeneity and that is the main reason their volumes are getting bigger in the sensor networks. However, there are many errors and problems in applications because the managing solutions for the complex data model are rarely presented in current big data environments. To solve such problems and show our differentiation, we aim to provide the solution of actionable analytics and semantic reusability in the sensor web based streaming big data with new data structure, and to empower the competitiveness.

국내 HR Analytics 연구에서 활용한 데이터와 분석방법에 대한 체계적문헌고찰 (A Systematic Literature Review of Data and Analysis Methods Used in HR Analytics Research)

  • 정재삼;조예인;양하영;진명화;박효성;이재영
    • 한국콘텐츠학회논문지
    • /
    • 제22권9호
    • /
    • pp.614-627
    • /
    • 2022
  • 본 연구는 국내 HR Analytics 연구에서 활용한 데이터와 분석방법을 탐색하여 향후 연구를 위한 기초자료를 제공하고 HR Analytics 연구 현황을 밝히는 것을 목적으로 한다. 이를 위하여 체계적 문헌고찰 방법을 활용하여 국내 KCI 등재 학술지에 수록된 실증연구 논문 78편을 선정하였고 해당 논문을 근로자 생애주기에 따라 분류하여 검토하였다. 문헌고찰 결과 다음과 같은 결과를 얻을 수 있었다. 첫째, 근로자 생애주기에 따른 HR Analytics 연구 동향을 살펴본 결과, 선행연구에서는 구성원의 유지(retention)와 관련한 연구가 가장 많았고 성과 관리에 대한 연구가 그 뒤를 이었다. 둘째, HR Analytics 연구에서 사용한 데이터를 살펴본 결과 각 연구는 해당 연구문제에 따라 다양한 데이터(정형, 비정형)를 활용하고 있었으며 데이터 출처 또한 조직내부 시스템부터 국가 통계 DB까지 매우 다양한 것으로 확인하였다. 셋째, 문헌고찰 결과 국내 HR Analytics 연구는 기술적, 진단적 분석이 가장 많으며, 예측 및 처방과 관련한 연구는 미미한 수준임을 알 수 있었다.

빅데이터 분석을 위해 아파치 스파크를 이용한 원시 데이터 소스에서 데이터 추출 (Capturing Data from Untapped Sources using Apache Spark for Big Data Analytics)

  • ;구흥서
    • 전기학회논문지
    • /
    • 제65권7호
    • /
    • pp.1277-1282
    • /
    • 2016
  • The term "Big Data" has been defined to encapsulate a broad spectrum of data sources and data formats. It is often described to be unstructured data due to its properties of variety in data formats. Even though the traditional methods of structuring data in rows and columns have been reinvented into column families, key-value or completely replaced with JSON documents in document-based databases, the fact still remains that data have to be reshaped to conform to certain structure in order to persistently store the data on disc. ETL processes are key in restructuring data. However, ETL processes incur additional processing overhead and also require that data sources are maintained in predefined formats. Consequently, data in certain formats are completely ignored because designing ETL processes to cater for all possible data formats is almost impossible. Potentially, these unconsidered data sources can provide useful insights when incorporated into big data analytics. In this project, using big data solution, Apache Spark, we tapped into other sources of data stored in their raw formats such as various text files, compressed files etc and incorporated the data with persistently stored enterprise data in MongoDB for overall data analytics using MongoDB Aggregation Framework and MapReduce. This significantly differs from the traditional ETL systems in the sense that it is compactible regardless of the data formats at source.

실제 사례 기반 비정형 데이터를 활용한 기업의 부실징후 예측에 관한 효용성 연구 (Unstructured Data based a Study of Effectiveness about Prediction of Corporate Bankruptcy with a Real Case)

  • 진훈;홍정표;이강호;주동원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.487-492
    • /
    • 2018
  • 4차산업 혁명의 여파로 국내에서는 다양한 분야에 인공지능과 빅데이터 기술을 활용하여 이전에 시행 중인 다양한 서비스 분야에 기술적 접목과 보완을 시도하고 있다. 특히 금융권에서 자금을 빌린 기업들을 대상으로 여신 안정성을 확보하고 선제적인 대응을 위해 온라인 뉴스기사들과 SNS 데이터 등을 이용하여 부실가능성을 예측하고 실제 업무에 도입하려는 시도들이 국내 주요 은행들을 중심으로 활발히 진행 중이다. 우리는 국내의 국책은행에서 수행한 비정형 데이터 기반의 기업의 부실징후 예측 시스템 개발 과정에서 시도된 다양한 분석 방법과 결과 그리고 과정 중에 발생한 문제점들에 관해 기술하고 관련 이슈들에 관하여 다룬다. 결과적으로 본 논문은 레이블이 없는 대량의 기사들에 레이블을 달기 위한 자동 태거(tagger) 개발과 뉴스 기사 예측 결과로부터 부실 가능성을 예측하기 위한 모델 및 성능 면에서 기사 예측 정확도 92%(AUC 0.96) 및 부실 가능성 기업 예측에서도 정형 데이터 분석결과에 견줄만한 성과를 이루었고 이에 관해 보고한다.

  • PDF

빅데이터 기반의 정성 정보를 활용한 부도 예측 모형 구축 (Bankruptcy Prediction Modeling Using Qualitative Information Based on Big Data Analytics)

  • 조남옥;신경식
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.33-56
    • /
    • 2016
  • 대부분의 부도 예측에 관한 연구는 재무 변수를 중심으로 통계적 방법 또는 인공지능 기법을 적용하여 부도 예측 모형을 구축하였다. 그러나 재무비율과 같은 회계 정보를 이용한 부도 예측 모형은 재무 제표 결산 시점과 신용평가 시점 간 시차를 고려하지 않을 뿐만 아니라 해당 산업의 경제적 상황과 같은 외부 환경적인 요소를 반영하기 어렵다는 한계점이 존재하였다. 기업의 부도 여부를 예측하기 위해 정량 정보인 재무 변수만을 이용하는 것에 한계가 있음에도 불구하고 정성 정보를 부도 예측 모형에 반영한 연구는 아직 미흡한 실정이다. 본 연구에서는 재무 변수를 이용하는 기존 부도 예측 모형의 성과를 개선하기 위해 빅데이터 기반의 정성 정보를 추가적인 입력 변수로 활용하는 부도 예측 모형을 제안하였다. 제안 모형의 성과 향상은 정성 정보를 예측 모형에 통합시키기에 적합한 형태로 정보의 유형을 변환시킬 수 있는가에 따라 달려있다. 이에 본 연구에서는 정성 정보 처리를 위한 방법으로 빅데이터 분석 기법 중 하나인 텍스트 마이닝(Text Mining)을 활용하였다. 해당 산업과 관련된 경제 뉴스 데이터로부터 경제 상황에 대한 감성 정보를 추출하기 위해 도메인 중심의 감성 어휘 사전을 구축하고, 구축된 어휘 사전을 기반으로 감성 분석(Sentiment Analysis)을 수행하였다. 형태소 분석 등을 포함한 텍스트 전처리 과정을 거쳐 감성 어휘를 추출하고, 각 어휘에 대한 극성 및 감성 점수를 부여하였다. 분석 결과, 전통적 부도 예측 모형에 경제 뉴스 데이터에서 도출한 정성 정보를 반영하는 것은 모형의 성과를 개선하는 것으로 나타났다. 특히, 경제 상황에 대한 부정적 감정이 기업의 부도 여부를 예측하는 데 더욱 효과적임을 알 수 있었다.

Cross-national Analysis of Robot Research Using Non-Structured Text Analytics for R&D Policy

  • Kim, Jeong Hun;Seo, Han Sol;Lee, Jae Woong;Lee, Jung Won;Kwon, Oh Byung
    • Asia Pacific Journal of Business Review
    • /
    • 제1권2호
    • /
    • pp.63-88
    • /
    • 2017
  • With the advent of new frontiers in robotics, the spectrum of robot research area has widened in many fields and applications. Other than conventional robot research, many technologies such as smart devices, drones, healthcare robots, and soft robots are emerging as promising applications. Due to the research complexity of this topic, this research requires international collaboration and should be fertilized by R&D policies. This paper aims to propose a method to perform a cross-national analysis of robot research with unstructured data such as papers in the proceedings of an international conference. Text analytics are applied to extract research issues and applications in an automatic manner.

텍스트 분석 기술 및 활용 동향 (Investigations on Techniques and Applications of Text Analytics)

  • 김남규;이동훈;최호창
    • 한국통신학회논문지
    • /
    • 제42권2호
    • /
    • pp.471-492
    • /
    • 2017
  • 최근 데이터의 양 자체가 해결해야 할 문제의 일부분이 되는 빅데이터(Big Data) 분석에 대한 수요와 관심이 급증하고 있다. 빅데이터는 기존의 정형 데이터 뿐 아니라 이미지, 동영상, 로그 등 다양한 형태의 비정형 데이터 또한 포함하는 개념으로 사용되고 있으며, 다양한 유형의 데이터 중 특히 정보의 표현 및 전달을 위한 대표적 수단인 텍스트(Text) 분석에 대한 연구가 활발하게 이루어지고 있다. 텍스트 분석은 일반적으로 문서 수집, 파싱(Parsing) 및 필터링(Filtering), 구조화, 빈도 분석 및 유사도 분석의 순서로 수행되며, 분석의 결과는 워드 클라우드(Word Cloud), 워드 네트워크(Word Network), 토픽 모델링(Topic Modeling), 문서 분류, 감성 분석 등의 형태로 나타나게 된다. 특히 최근 다양한 소셜미디어(Social Media)를 통해 급증하고 있는 텍스트 데이터로부터 주요 토픽을 파악하기 위한 수요가 증가함에 따라, 방대한 양의 비정형 텍스트 문서로부터 주요 토픽을 추출하고 각 토픽별 해당 문서를 묶어서 제공하는 토픽 모델링에 대한 연구 및 적용 사례가 다양한 분야에서 생성되고 있다. 이에 본 논문에서는 텍스트 분석 관련 주요 기술 및 연구 동향을 살펴보고, 토픽 모델링을 활용하여 다양한 분야의 문제를 해결한 연구 사례를 소개한다.

비정형 텍스트 기반의 토픽 모델링을 이용한 건설 안전사고 동향 분석 (A Study on the Trends of Construction Safety Accident in Unstructured Text Using Topic Modeling)

  • 이상규
    • 한국산학기술학회논문지
    • /
    • 제19권10호
    • /
    • pp.176-182
    • /
    • 2018
  • 본 연구는 건설 안전사고에 대한 트랜드 분석을 위해 LDA(Latent Dirichlet Allocation) 기반의 토픽모델링(Topic Modeling)을 제시하여 분석하고자 한다. 특히, 건설산업의 안전사고를 예방하기 위해 제시되고 있는 기존의 다양한 정형데이터 분석에서 벗어난 비정형 데이터 분석 기반의 토픽 모델링을 통해 건설 안전사고 주요 핵심 키워드의 흐름에 대해 파악이 가능하다. 본 방법론을 적용하기 위해 540개의 건설 안전사고 관련 뉴스데이터를 수집하였다. 이를 기반으로, 10가지 토픽과 각 토픽 내의 10가지 키워드를 통해 주요 이슈를 도출하였고 각 토픽에 대한 2017년 1월부터 2018년 2월까지의 뉴스 데이터를 월별 시계열 분석을 통해 향후 토픽에 관한 이슈를 예측한다. 본 연구를 바탕으로 향후 건설 안전사고의 다양한 이슈를 선제적으로 예측하고 이를 기반으로 건설 안전사고 정책과 연구에 좋은 방향을 제시할 것으로 판단한다.

온라인 텍스트 분석을 통해 추정한 기업의 사회적책임 성과가 기업의 단기적 장기적 성과에 미치는 영향 분석 (Investigating the Impact of Corporate Social Responsibility on Firm's Short- and Long-Term Performance with Online Text Analytics)

  • 이희승;진윤선;권오병
    • 지능정보연구
    • /
    • 제22권2호
    • /
    • pp.13-31
    • /
    • 2016
  • 그동안 기업의 사회적 책임(CSR)관련 활동의 결과가 기업 성과에 미치는 단기적 및 장기적 영향에 대한 다양한 연구가 진행되었지만 그 결과는 일관되지 못한데 그 주된 원인은 기업의 사회적책임이라고 하는 개념의 불일치였다. 따라서 본 연구는 온라인 뉴스와 같은 비정형 공개 데이터로부터 기업의 사회적책임에 관련한 키워드를 텍스트 마이닝 기법을 사용하여 추출하고 그 개념에 대한 통계치와 기업 성과와의 관계성을 이해하려고 했다. 이를 위해 개념과 관련한 키워드는 뉴욕타임즈와 구글 스칼러에서 CSR이라고 하는 단어로 검색한 비정형 데이터로부터 인식하였다. 그런 다음 점검 대상이 되는 기업에 대한 글이 실려 있는 온라인 문서를 수집하여 기업의 사회적 책임과 기업 단기적 및 장기적 성과 사이의 인과관계를 분석하였다. 그 결과, 기업의 사회적 책임에 대한 전문적인 평가 보고서의 도움 없이도 본 연구에서 개발한 기업의 사회적 책임 인덱스만으로 기업의 단기적 성과에는 영향이 없지만 장기적 성과와는 통계적으로 유의하게 정비례관계가 있는 것이 밝혀졌다. 본 연구는 빅데이터 분석을 통해 효율적이고 의미 있는 기업의 사회적 책임 평가 방법을 개발한 첫 번째 시도라는 의미가 있다.