• 제목/요약/키워드: big data mining

검색결과 686건 처리시간 0.024초

Prediction Model of User Physical Activity using Data Characteristics-based Long Short-term Memory Recurrent Neural Networks

  • Kim, Joo-Chang;Chung, Kyungyong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권4호
    • /
    • pp.2060-2077
    • /
    • 2019
  • Recently, mobile healthcare services have attracted significant attention because of the emerging development and supply of diverse wearable devices. Smartwatches and health bands are the most common type of mobile-based wearable devices and their market size is increasing considerably. However, simple value comparisons based on accumulated data have revealed certain problems, such as the standardized nature of health management and the lack of personalized health management service models. The convergence of information technology (IT) and biotechnology (BT) has shifted the medical paradigm from continuous health management and disease prevention to the development of a system that can be used to provide ground-based medical services regardless of the user's location. Moreover, the IT-BT convergence has necessitated the development of lifestyle improvement models and services that utilize big data analysis and machine learning to provide mobile healthcare-based personal health management and disease prevention information. Users' health data, which are specific as they change over time, are collected by different means according to the users' lifestyle and surrounding circumstances. In this paper, we propose a prediction model of user physical activity that uses data characteristics-based long short-term memory (DC-LSTM) recurrent neural networks (RNNs). To provide personalized services, the characteristics and surrounding circumstances of data collectable from mobile host devices were considered in the selection of variables for the model. The data characteristics considered were ease of collection, which represents whether or not variables are collectable, and frequency of occurrence, which represents whether or not changes made to input values constitute significant variables in terms of activity. The variables selected for providing personalized services were activity, weather, temperature, mean daily temperature, humidity, UV, fine dust, asthma and lung disease probability index, skin disease probability index, cadence, travel distance, mean heart rate, and sleep hours. The selected variables were classified according to the data characteristics. To predict activity, an LSTM RNN was built that uses the classified variables as input data and learns the dynamic characteristics of time series data. LSTM RNNs resolve the vanishing gradient problem that occurs in existing RNNs. They are classified into three different types according to data characteristics and constructed through connections among the LSTMs. The constructed neural network learns training data and predicts user activity. To evaluate the proposed model, the root mean square error (RMSE) was used in the performance evaluation of the user physical activity prediction method for which an autoregressive integrated moving average (ARIMA) model, a convolutional neural network (CNN), and an RNN were used. The results show that the proposed DC-LSTM RNN method yields an excellent mean RMSE value of 0.616. The proposed method is used for predicting significant activity considering the surrounding circumstances and user status utilizing the existing standardized activity prediction services. It can also be used to predict user physical activity and provide personalized healthcare based on the data collectable from mobile host devices.

텍스트마이닝 기법을 통한 직업상담서비스산업의 직무 및 지식구조 분석 (Textmining-Based Analysis for Duty and Knowledge structure of Vocational Counseling Service Industry)

  • 육동인
    • 한국산학기술학회논문지
    • /
    • 제18권9호
    • /
    • pp.366-376
    • /
    • 2017
  • 본 논문은 빅데이터 분석방법인 텍스트마이닝 기법과 네트워크분석을 활용하여 직업상담서비스 산업의 직무와 지식구조를 분석하기 위한 것이다. 정부에서 추진하는 국가직무능력표준(NCS)에서 제시한 직업상담, 전직지원, 취업알선 세 분야의 능력단위요소를 조사 대상으로 하였다. 사용빈도수가 높았던 단어들에 대한 분석결과 이 세 분야는 각각의 독자적인 직무도 있었지만 내담자, 구직자 등을 대상으로 상담, 검사, 취업지원 등 중복된 직무가 많았다. 직업상담서비스 분야 종사자들에게 요구되는 지식은 직업상담사 자격시험에 포함되어 있는 직업심리학, 직업상담학, 노동시장론, 직업정보론, 법률 등 5가지 외에도 창업, 생애진로, 직업적응, 문화충돌 등 새로운 분야가 다수 포함되어 있었다. 또한 상담자들에게는 공감, 수용, 경청 등 감성적인 접근과 함께 객관적, 가치중립, 정확 등의 태도를 중시하는 등 가치중립적인 입장을 견지할 것을 제시했다. 본 논문은 직업상담서비스분야의 직무를 빅데이터 분석을 통해 객관적으로 분석한 첫 시도라는 점에서 의의가 있다. 또한 정부의 정책방향과 실제 산업 현장의 차이를 처음으로 구체적으로 확인했다는 점도 의미있다고 할 수 있다.

텍스트 마이닝과 감성 분석을 통한 연애관의 변화 연구 : <공항가는 길>과 <이번 주 아내가 바람을 핍니다>를 중심으로 (A Study on the Change of the View of Love using Text Mining and Sentiment Analysis)

  • 김경애;구진희
    • 디지털융복합연구
    • /
    • 제15권2호
    • /
    • pp.285-294
    • /
    • 2017
  • 이 연구에서는 기혼자의 연애를 소재로 하는 최근 드라마에 대한 빅데이터 분석을 수행하여 현대인의 연애관의 변화에 대해 살펴보았다. 정 반대의 서사적 지향을 지닌 드라마 두 편을 선정하여 각각 드라마 종영 후부터 1개월 기간에 대한 시청자들의 공감도를 텍스트 마이닝과 감성 분석 기법을 사용하여 분석하였는데, 그 결과 현대 한국 사회에서 기혼자의 연애에 대한 생각이 변화하고 있다는 결론을 얻었다. 특히 가정의 의미 변화가 확인되는데, 가정은 '남편과 아내라는 사회적 역할을 수행하는 곳'이 아니라, '진정한 교감과 위안을 나눌 수 있고 개인이 행복해야 하는 곳'으로 그 의미가 변화했다고 볼 수 있다. 개인이 행복하지 않다면, 가정을 깨뜨리는 일도 필요하다는 결론이 가능한 것이다. 이런 맥락에서 현대의 이혼율과 이에 대한 문제도 고구되어야 할 것으로 보인다. 그러나 구글 트렌드 검색을 통하여 살핀 결과, 현대 한국 사회에서는 여전히 연애보다 결혼에 대한 관심도가 훨씬 높음을 알 수 있었다. 현대 한국사회에서 아직까지는 '연애를 위한 연애' 곧 '결혼을 목표로 하지 않은 연애'를 선호하고 있지 않음을 뜻한다. 결혼에 비해 연애에 대해 관심이 적은 것이라기보다, 진정한 사랑을 전제로 결혼이 이루어져야한다는 인식이 반영된 결과로 해석할 수 있다. 이와 같은 연구는 소셜미디어를 통한 트렌드 변화 연구에 활용될 수 있을 것으로 기대된다.

텍스트 마이닝을 이용한 메이커 운동의 트렌드 분석 (Trend Analysis in Maker Movement Using Text Mining)

  • 박찬혁;김자희
    • 한국콘텐츠학회논문지
    • /
    • 제18권12호
    • /
    • pp.468-488
    • /
    • 2018
  • 메이커 운동은 필요한 물건을 직접 만드는 사람들이 모여, 창의적 만들기를 통해 지식과 경험을 공유하는 사회와 문화의 움직임이다. 그러나 지난 10년간 메이커 운동이 빠르게 성장하면서, 어디까지를 메이커 운동으로 볼 것인지에 대한 공감대가 아직 부족하다. 앞으로의 발전 방향성을 모색하기 위해서는, 지금까지 메이커 운동이 어떻게 변화해 왔는지를 조망하는 것이 필요하다. 본 연구는 메이커 운동에 대한 이슈가 일반 미디어에서 어떻게 변화됐는지를 파악하기 위하여 언론 기사들을 텍스트 기반의 빅데이터 분석 방법론을 활용하여 분석한다. 특히 시간에 따른 관심의 변화를 다각도로 분석하기 위하여 키워드 네트워크 분석과 동적 토픽 모델을 통합적으로 적용한다. 키워드 네트워크는 메이커 운동의 발전을 분석하기 위하여 단어 수준에서 시기별 주요 키워드를 도출하고, 동적 토픽 모델은 메이커 운동이 아우르는 다양한 분야 관점에서 관심도의 변화를 단어와 토픽, 문서의 세 가지 수준에서 파악할 수 있도록 도와준다. 결과적으로 주요 토픽은 창업, 메이커스페이스, 메이커 교육 등이 식별되었고, 주요 키워드는 3D프린터와 기업에서 교육으로 변화된 것을 확인할 수 있다.

텍스트 마이닝을 이용한 이익조정 연구동향 토픽모델링 (Topic Modeling of Profit Adjustment Research Trend in Korean Accounting)

  • 김지연;나홍석;박경환
    • 디지털융복합연구
    • /
    • 제19권1호
    • /
    • pp.125-139
    • /
    • 2021
  • 본 연구는 이익조정을 연구주제로 국내 회계학 관련 논문들의 세부 연구 동향 파악을 목적으로 한국학술지인용색인(KCI)의 회계학 또는 경영학에 속하는 학술지에 게재된 논문 초록을 텍스트 마이닝 기법을 이용하여 분석하였다. 분석 결과, 이익조정 관련 회계학 논문들이 감사 및 감사보고서, 법인세 및 부채비율, 기업의 전반적인 경영전략, 재무제표와 회계기준의 4가지 연구 영역으로 나누어지는 것을 확인하였으며, 재무제표와 회계기준이 주된 토픽일 것이라는 예측과는 달리 감사가 가장 많이 연구된 토픽으로 분석되었다. 이어 토픽별 논문 수를 기준으로 토픽 트렌드를 확인하고 특이사항에 대한 원인을 분석하였으며, K-IFRS의 도입이 이익조정 연구에 미친 영향을 확인하였다. 본 연구는 이익조정에 대한 자세한 연구 동향에 대한 정보를 제공하고 회계학 문헌분석 연구방법으로 텍스트 마이닝 기법을 제시하였다. 또한 정책결정자 및 기업 실무 담당자가 이익조정 관련하여 회계기준 외에 감사 등 4개 토픽별로 추가적으로 고려하여야 할 사항과 그 추세를 파악할 수 있도록 하였다.

텍스트 마이닝을 이용한 시대별 유리천장 연구동향 분석 (Analysis of the Study Trend of Glass Ceiling by Period Using Text Mining)

  • 김영만;이진구
    • 한국콘텐츠학회논문지
    • /
    • 제21권8호
    • /
    • pp.376-387
    • /
    • 2021
  • 본 연구의 목적은 빅데이터 분석방법을 이용하여 유리천장 현상 관련 연구 동향을 분석하고 사회적 시사점을 제언하고자 하는 것이다. 유리천장의 연구 동향을 분석하기 위해 유리천장을 깬 역사적 사건인 '박근혜대통령 취임'을 중요 이슈로 설정하고 1기를 박대통령 재임 전, 2기는 재임 중, 3기는 재임 후로 구분하여 키워드를 수집하였다. 빈도분석 결과, 1기에는 주요 키워드로 선정된 '공무원'을 중심으로 연구가 이루어졌으며, 2기에는 '여성의 일가정 양립'이 주요 키워드군으로 선정되었다. 3기에는 여성 직업군의 키워드가 다양화되고 있었다. 일가정 양립 지원제도 이외에도 유리천장 요인 해소를 위한 제도개선에 관한 연구 및 연구대상 직종의 확대와 실생활에서의 이슈에 대한 해결책 제시를 위한 연구가 필요함을 사회적 시사점으로 제시하였으며, 추후 SNS나 뉴스기사에 나타난 일반대중의 '유리천장' 인식에 대한 연구가 필요함을 제언하였다.

빅데이터 분석을 활용한 웰에이징 요인에 관한 연구 : 신문기사를 중심으로 (A Study on the Factors of Well-aging through Big Data Analysis : Focusing on Newspaper Articles)

  • 이종형;강경희;김용하;임효남;구진희;김광환
    • 한국산학기술학회논문지
    • /
    • 제22권5호
    • /
    • pp.354-360
    • /
    • 2021
  • 사람들은 개인의 삶의 만족을 위하여 일과 삶의 균형을 맞추며 건강하고 행복하게 살아가는 것을 희망하고 있다. 따라서 걱정 없이 행복하고 건강하게 나이가 들어가는 것을 의미하는 웰에이징(well-aging)에 대한 관심이 높아지고 있다. 본 연구는 웰에이징 관련 신문기사를 분석하여 웰에이징과 연관된 요인들을 파악하고자 하였다. 파이썬(Python) 기반의 웹 크롤링(web crawling)을 활용하여 2020년 11월까지 포탈 사이트 다음(daum)의 뉴스 서비스에 게재된 1,199편의 기사를 수집하였으며, 이중 연구 주제에 일치하는 기사 374편을 연구대상으로 선정하였다. 텍스트마이닝의 빈도분석 결과, '노인', '건강', '피부', '웰에이징', '제품', '사람', '노화', '여성', '국내', '은퇴' 등의 순서로 상위 10개의 키워드가 중요하게 파악되었다. 또한 출현 빈도가 높은 45개의 중요 키워드를 기반으로 사회 네트워크 분석을 수행한 결과 '피부-주름', '피부-노화', '노인-건강'이 강한 연결 관계를 나타났다. CONCOR 분석을 수행한 결과 45개의 중요 키워드들은 '삶과 행복', '질병과 죽음', '영양과 운동', '힐링', '헬스산업', '노화와 안티에이징', '건강', '노인서비스'의 8개 군집으로 구성되어, 신문기사들을 기반으로 나타나는 웰에이징과 관련된 요인들을 유추할 수 있었다.

주가지수 방향성 예측을 위한 주제지향 감성사전 구축 방안 (Predicting the Direction of the Stock Index by Using a Domain-Specific Sentiment Dictionary)

  • 유은지;김유신;김남규;정승렬
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.95-110
    • /
    • 2013
  • 최근 다양한 소셜미디어를 통해 생성되는 비정형 데이터의 양은 빠른 속도로 증가하고 있으며, 이를 저장, 가공, 분석하기 위한 도구의 개발도 이에 맞추어 활발하게 이루어지고 있다. 이러한 환경에서 다양한 분석도구를 통해 텍스트 데이터를 분석함으로써, 기존의 정형 데이터 분석을 통해 해결하지 못했던 이슈들을 해결하기 위한 많은 시도가 이루어지고 있다. 특히 트위터나 페이스북을 통해 실시간에 근접하게 생산되는 글들과 수많은 인터넷 사이트에 게시되는 다양한 주제의 글들은, 방대한 양의 텍스트 분석을 통해 많은 사람들의 의견을 추출하고 이를 통해 향후 수익 창출에 기여할 수 있는 새로운 통찰을 발굴하기 위한 움직임에 동기를 부여하고 있다. 뉴스 데이터에 대한 오피니언 마이닝을 통해 주가지수 등락 예측 모델을 제안한 최근의 연구는 이러한 시도의 대표적 예라고 할 수 있다. 우리가 여러 매체를 통해 매일 접하는 뉴스 역시 대표적인 비정형 데이터 중의 하나이다. 이러한 비정형 텍스트 데이터를 분석하는 오피니언 마이닝 또는 감성 분석은 제품, 서비스, 조직, 이슈, 그리고 이들의 여러 속성에 대한 사람들의 의견, 감성, 평가, 태도, 감정 등을 분석하는 일련의 과정을 의미한다. 이러한 오피니언 마이닝을 다루는 많은 연구는, 각 어휘별로 긍정/부정의 극성을 규정해 놓은 감성사전을 사용하며, 한 문장 또는 문서에 나타난 어휘들의 극성 분포에 따라 해당 문장 또는 문서의 극성을 산출하는 방식을 채택한다. 하지만 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다. 본 연구는 특정 어휘의 극성은 한 가지로 고유하게 정해져 있지 않으며, 분석의 목적에 따라 그 극성이 상이하게 나타날 수도 있다는 인식에서 출발한다. 동일한 어휘의 극성이 해석하는 사람의 입장에 따라 또는 분석 목적에 따라 서로 상이하게 해석되는 현상은 지금까지 다루어지지 않은 어려운 이슈로 알려져 있다. 구체적으로는 주가지수의 상승이라는 한정된 주제에 대해 각 관련 어휘가 갖는 극성을 판별하여 주가지수 상승 예측을 위한 감성사전을 구축하고, 이를 기반으로 한 뉴스 분석을 통해 주가지수의 상승을 예측한 결과를 보이고자 한다.

데이터마이닝을 통한 방위산업기술 분석 연구: 특허분석을 중심으로 (Study for Analyzing Defense Industry Technology using Datamining technique: Patent Analysis Approach)

  • 손창호
    • 한국산학기술학회논문지
    • /
    • 제19권10호
    • /
    • pp.101-107
    • /
    • 2018
  • 최근 우리나라의 방위산업은 고도의 발전을 해왔고 국방비 중에서 국방 R&D 예산도 점차적으로 증가하고 있다. 하지만 방위산업기술에 대한 객관적인 분석 없이는 효과적인 국방 R&D 활동이 제한적이고 자칫 국방예산이 비효율적으로 사용될 수 있다. 따라서 본 논문은 현재 주로 실시하고 있는 전문가들의 의견을 반영한 정성적인 방위산업기술의 분석에 더해서 정량적인 방법으로 방위산업기술을 객관적으로 분석함으로써 국방예산의 효율적 사용과 더 나아가서는 세계시장에서의 경쟁 우위를 달성하고자 하였다. 더구나 4차 산업혁명의 키워드 중의 하나인 빅데이터 분석 방법을 국방산업기술에 적용해서 객관적이고 체계적으로 국방산업기술의 특성과 공백기술을 파악하기 위한 특허분석 방법을 제안한다. 제안된 방법은 여러 국방산업기술 중에서 화력분야의 기술에 적용하여 사례분석을 수행하였다. 그 과정은 우선 방위산업진흥원의 방위 산업기업의 분류에서 화력에 관련된 10개 국내 기업의 특허를 Kipris를 통해서 수집하고 이 중에서 IPC 코드를 활용하기 위해서 이를 전처리하여 데이터 매트릭스를 구축하였다. 그리고 R 프로그램을 활용하여 데이터마이닝 기법 중에서 각 항목 간 연관성을 파악할 수 있는 연관규칙마이닝을 수행하였다. 이를 통해서 화력분야의 각 기술에 대한 지지도, 신뢰도, 향상도 값을 도출하고 이를 해석하여 결론을 제시하였다. 따라서 본 논문은 막대한 국방예산의 효율적인 사용과 국방산업기술의 경쟁력 제고에 도움을 줄 수 있을 것이라고 판단된다.

텍스트 마이닝 기법을 활용한 중학교 가정과 교육과정 분석 (Analysis of Home Economics Curriculum Using Text Mining Techniques)

  • 이지선;임소진;최유리;김은정;이소영;박미정
    • 한국가정과교육학회지
    • /
    • 제30권3호
    • /
    • pp.111-127
    • /
    • 2018
  • 본 연구의 목적은 1차 교육과정부터 2015 개정 교육과정까지의 가정과 교육과정을 시기별로, 통시적으로 살펴보는 것이다. 이를 위해 빅데이터 분석에서 사용되는 텍스트 마이닝 기법을 이용하여 교육과정을 분석하였다. 분석대상은 국가교육과정정보센터에서 수집한 1차 교육과정부터 2015 개정 교육과정까지의 10개의 교육과정 원문이며, 분석도구는 R 프로그램을 사용하였다. 연구결과 첫째, 4차 교육과정부터 2015 개정 교육과정까지 데이터 수가 점차적으로 늘어나는 것으로 나타났다. 둘째, 교육과정 시기별 핵심 개념을 추출하여 비교한 결과 교육과정에 따라 유지 및 변화되는 핵심 개념이 있었다. '생활', '가정'은 교육과정 변화에 상관없이 지속되는 핵심 개념이었으며, 2007 개정 교육과정 이후로는 '문제', '능력', '해결', '실천'이 강조되었다. 셋째, 핵심 개념 연결망 분석 결과를 통해 각 가정과 교육과정 마다 핵심 개념 간의 관계를 점(node)과 선(line)으로 표현하였다. 그 결과 '생활'과 '가정'을 중심으로 시대별로 강조한 핵심 개념이 강하게 연결됨을 확인할 수 있었다. 이와 같은 결과를 통해, 향후 가정과 교육의 방향성과 정체성을 형성하기 위한 기초 자료를 제공한다는 측면에서 본 연구의 의의가 있다.