• 제목/요약/키워드: 빈도 기반 텍스트 분석

검색결과 106건 처리시간 0.024초

빅데이터 분석 기반의 메타스터디를 통해 본 공유경제에 대한 학술연구 동향 분석 (Trends Analysis on Research Articles of the Sharing Economy through a Meta Study Based on Big Data Analytics)

  • 김기연
    • 인터넷정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.97-107
    • /
    • 2020
  • 본 연구의 목적은 빅데이터 분석기법을 활용하여 공유경제 관련 국내 학술연구 동향을 탐색하기 위해 내용분석 관점에서 종합적 메타스터디를 수행하는데 있다. 종합적 메타분석 연구방법론은 일련의 전체 연구결과물들을 역사적으로 그리고 포괄적으로 살펴봄으로써 전체 연구동향의 규칙성이나 특성을 조명하여, 이를 통해 향후 연구에 대해 방향성을 제시할 수 있다. 공유경제를 주제로 하는 국내 학술연구는 Lawrence Lessig 교수가 2008년에 공유경제의 개념을 세상에 소개한 해에 등장하였으나, 본격적인 연구는 2013년부터 진행되었다. 특히, 2006~2008년 사이에 국내 공유경제 관련 학술연구는 양적으로 급격히 증가하였다. 본 연구는 2013년부터 현재까지 약 8년간의 논문들을 분석 논문으로 선정하고, 전자저널의 학술논문검색 및 원문서비스를 이용하여 제목, 키워드, 초록을 중심으로 텍스트 데이터를 수집하였다. 수집된 데이터를 정제, 분석, 시각화의 순서로 빅데이터 분석을 실시하여, 추출된 핵심어들을 통해 연도별 및 문헌 유형별 연구동향 및 인사이트를 도출하였다. 데이터 전처리 및 텍스트 마이닝, 메트릭스 빈도분석을 위해 Python3.7과 Textom 분석도구를 활용하였고, 핵심어 노드 간의 구조적 연관성을 파악하기 위해 UCINET6/NetDraw, Textom 프로그램 기반의 N-gram 차트, 중심성 및 소셜네트워크 분석, 그리고 CONCOR 클러스터링 시각화를 통해 8개로 군집화 한 키워드들을 토대로 연구동향의 유형별 특성을 발견하였다. 아직까지 사회과학적 관점에서 공유경제 관련 학술연구 동향에 관한 조사가 이루어진 바가 없기 때문에, 본 연구의 결과물은 선행연구로서 후속 연구들에게 이론적 고찰 및 향후 연구방향에 대해 유용한 정보를 제공하는 초석의 역할을 기대할 수 있다.

텍스트 마이닝과 딥러닝을 활용한 암호화폐 가격 예측 : 한국과 미국시장 비교 (The Prediction of Cryptocurrency on Using Text Mining and Deep Learning Techniques : Comparison of Korean and USA Market)

  • 원종관;홍태호
    • 지식경영연구
    • /
    • 제22권2호
    • /
    • pp.1-17
    • /
    • 2021
  • 본 연구에서는 한국과 미국의 대표적인 거래소인 빗썸과 코인베이스의 비트코인 가격을 ARIMA와 순환 신경망(Recurrent Neural Network)을 이용해 예측하고, 이후 각 국가의 뉴스 기사를 이용해 분리 학습에 기반한 separated RNN 모형을 제안한다. separated RNN 모형은 학습 데이터를 가격의 추세 변화 점을 기준으로 분리해 학습시킨 후, 추세 변화점 별 뉴스 데이터를 활용해 용어 기반 사전을 구축한다. 이후 용어 기반 사전과 평가 데이터 기간의 뉴스 데이터를 이용해 예측할 데이터의 가격 추세 변화 점을 찾아낸 후, 매칭되는 모형을 적용해 예측 결과를 산출한다. 2017년 5월 22일부터 2020년 9월 16일까지의 가격 데이터를 사용해 분석한 결과, 제안된 separated RNN을 이용해 예측한 결과가 한국과 미국의 비트코인 가격 예측 모두에서 순환 신경망(RNN)을 이용해 예측한 결과보다 높은 예측 성과를 보였다. 본 연구는 시계열 예측 기법의 한계를 뉴스 데이터를 이용한 추세 변화 점 탐색을 통해 극복할 수 있고, 성과 향상을 위한 추후 다양한 시계열 예측 기법 및 추세 변화 점 탐색을 위한 다양한 텍스트 마이닝 기법을 적용해볼 필요가 있음을 시사한다.

대선후보의 SNS 평판이 선거결과에 미치는 영향 분석 - 19대 대선을 중심으로 - (Analysis of the Influence of Presidential Candidate's SNS Reputation on Election Result: focusing on 19th Presidential Election)

  • 이예나;최은정;김명주
    • 디지털융복합연구
    • /
    • 제16권2호
    • /
    • pp.195-201
    • /
    • 2018
  • 최근 스마트폰과 PC 이용이 대중화됨 따라 웹상에 데이터가 기하급수적으로 축적되고 있다. 특히 SNS를 통해서 자유로운 의사소통은 물론 간편한 정보공유가 가능하여 다양한 의견들이 대량 데이터 형태로 축적된다. 이러한 데이터들을 분석하여 특정 주제에 대한 여론을 예견하는 빅데이터 기반의 여론분석기술이 주목받고 있다. 본 논문에서는 SNS 상에 표현된 사용자들의 의견을 수집하고 분석하여 대한민국 19대 대통령 후보자들에 대한 유권자들의 숨어있는 표심을 분석해 보았다. 이를 위해 19대 대선 후보에 관한 SNS상의 정보를 수집한 후 텍스트 마이닝 기법과 오피니언 마이닝 기법을 적용하여 언급 빈도수와 관련 키워드를 통한 평판 분석을 실시하였다. 본 논문에서 제시한 SNS를 통한 19대 대선후보의 평판분석 결과가 기존의 여론조사결과에 비하여 더 정확하게 예측했음을 확인할 수 있다.

텍스트마이닝 기법을 이용한 제 2형 당뇨환자 온라인 담론의 어휘 및 구문구조 분석 (Lexical and Phrasal Analysis of Online Discourse of Type 2 Diabetes Patients based on Text-Mining)

  • 황문현;박정식
    • 디지털융복합연구
    • /
    • 제12권6호
    • /
    • pp.655-667
    • /
    • 2014
  • 본 연구는 질병과 관련한 온라인 포럼에서 추출한 언어 데이터를 통해 제 2형 당뇨병 환자의 질병에 대한 담론을 양적으로 분석하였다. 또한 환자 언어행위의 양적분석을 통해 환자들의 주요 관심사와 심리적 특징의 일반화가 가능한지에 대해 실증적으로 검증하였다. 분석방법으로는 기존의 인터뷰에 기반한 정성적 연구방법론과 달리 환자들의 담론 표본 전체를 파싱 (parsing)과 POS 태깅을 통해 언어학적으로 형태소 분류를 하였다. 주요 어휘빈도 추출과 N-gram을 통한 최빈도 구문구조 분석을 병행하여, 질병과 관련한 이슈의 주요 범주와 심리상태에 관한 언어적인 특징을 살펴보았다. 연구 결과 환자들의 자발적 대화는 주로 다이어트, 운동, 증상, 약물치료, 심리상태의 5가지 범주로 나타나고 있음을 확인하였고, 최빈도 구문구조 분석을 통해 질병치료와 식생활습관 개선 전반에 대한 부정적인 견해가 두드러진 것을 확인하였다. 결과적으로 의료진의 정확한 정보 전달과 전문가의 조언, 정서적 지원 등이 당뇨환자에 대한 심리적 상태에 중요한 만큼 심리치료 서비스이 개선이 필요할 것으로 보인다. 이런한 결과는 기존의 의료제도 안에서의 환자의 관심사와 심리적 특징이 온라인 상에서도 적절하게 투영되고 있음을 시사한다.

텍스트 마이닝 기반 사용자 경험 분석 및 관리: 스마트 스피커 사례 (User Experience Analysis and Management Based on Text Mining: A Smart Speaker Case)

  • 연다인;박가연;김희웅
    • 경영정보학연구
    • /
    • 제22권2호
    • /
    • pp.77-99
    • /
    • 2020
  • 스마트 스피커는 인공지능을 활용하여 음악, 일정, 날씨, 상품 등 다양한 정보와 콘텐츠들을 검색, 이용할 수 있는 대화형 음성 기반 서비스를 제공하는 기기이다. 인공지능 기술은 데이터가 축적될수록 이를 활용하여 더욱 정교하고 최적화된 서비스를 이용자에게 제공한다. 따라서 스마트 스피커 제조사들은 초기에 공격적인 마케팅을 통해 플랫폼 구축에 힘썼다. 하지만 스마트 스피커의 사용빈도는 월 1회 미만이 전체의 3분의 1 이상을 차지하고, 사용자 만족도도 49%에 그치는 것으로 나타났다. 이에 지속적인 이용활성화와 만족도 증진을 위해 스마트 스피커의 사용자 경험을 강화할 필요성이 대두되었다. 이에 본 연구에서는 스마트 스피커의 사용자 경험을 분석하고, 이를 바탕으로 스마트 스피커의 사용자 경험 강화 방안을 제시하고자 한다. 본 연구는 사용자가 직접 작성한 실제 리뷰 데이터를 수집하여 스마트 스피커 사용자 경험 차원을 기반으로 분석 결과를 해석했다는 점에서 의의가 있다. 또한 스마트 스피커 사용자 경험 차원을 개발하여 텍스트 마이닝 결과를 해석한 것에서 학술적 의의가 있다. 본 연구 결과를 통해 스마트 스피커 제조사에게 실무적으로 사용자 경험 강화를 위한 전략을 제안할 수 있다.

감염병 확산에 따른 레스토랑 선택속성 변화 분석: 텍스트마이닝 기법 적용 (Analysis of Changes in Restaurant Attributes According to the Spread of Infectious Diseases: Application of Text Mining Techniques)

  • 유준일;이은지;구철모
    • 경영정보학연구
    • /
    • 제25권4호
    • /
    • pp.89-112
    • /
    • 2023
  • 2020년 3월, 코로나바이러스 팬데믹으로 선포되면서, 다양한 방역 조치가 취해져 왔다. 이에 따라, 관광 및 환대 산업 내의 많은 변화들이 야기되었다. 특히 레스토랑 산업에서는 비대면 서비스 및 좌석 간 거리두기 등 방역 지침이 시행되었다. 전통적으로 레스토랑 선택속성에 대한 연구는 분위기, 서비스 품질, 음식의 품질을 포함한 3가지 속성의 중요성이 강조해 온 데 반해, 코로나19 이후 레스토랑 이용자를 대상으로 레스토랑 선택속성을 탐색한 연구는 미비한 실정이다. 이에 따라, 본 연구에서는 코로나19라는 환대 산업 내의 환경적 변화에 대한 이해에 기반하여, 국내 온라인 리뷰 데이터 상에서 새로운 레스토랑 경험적 속성을 확인하기 위한 탐색적인 접근을 시도하였다. 본 연구는 서울 을지로 지역에 위치한 일반음식점 및 휴게음식점 475개로 네이버 플레이스에 등록된 총 31,115개의 온라인 리뷰를 분석 단위로 고려하였다. 분석 방법은 단어 빈도와 역문서 빈도의 곱으로 산출된 TF-IDF와 잠재적 토픽들을 추출하는 확률적 모델 알고리즘인 LDA 토픽모델링 기법을 통해 온라인 리뷰 내에서 단어들의 군집화를 통해 레스토랑 선택속성을 재분류하고자 하였다. 분석 결과, 분위기, 서비스 품질, 음식 품질과 함께 코로나19 이후 레스토랑의 새로운 속성으로 "감염병 예방"요인이 도출되었다. 본 연구는 기존 레스토랑 선택속성에서 제시하는 세 가지 속성들을 범주화하고, 나아가 새로운 속성을 제시하였다는 점에서 기존 레스토랑 선택속성 문헌을 확장하여 학술적 의의가 있다. 나아가, 분석 결과에 기반하여 레스토랑 운영의 측면 및 정책적 관점에서의 실무적 제언을 시도하였다.

빅데이터 마이닝에 의한 공시지가 민원의 시공간적 분석모델 제시 (A Suggestion for Spatiotemporal Analysis Model of Complaints on Officially Assessed Land Price by Big Data Mining)

  • 조태인;최병길;나영우;문영섭;김세훈
    • 지적과 국토정보
    • /
    • 제48권2호
    • /
    • pp.79-98
    • /
    • 2018
  • 이 연구는 빅데이터 마이닝에 기초하여 공시지가 민원에 대한 시공간적 특성을 분석하는 모델을 제시하는 데 목적이 있다. 특히 이 연구는 행정 민원이 제기되는 원인을 학술적 요인보다는 시공간적 측면에서 찾았고, 그러한 민원 발생의 경향을 시공간적으로 모니터링하는 모델을 제시하였다. 2006년부터 2015년까지 인천광역시 중구의 공시지가에 대한 6,481개의 민원정보가 시간 및 공간적 특성을 고려해 수집되었고 분석을 위해 사용되었다. 텍스트 마이닝 기법을 이용해 주요 키워드의 빈도수를 도출했으며, 소셜 네트워크 분석을 통해 주요 키워드 간의 관계를 분석하였다. 키워드의 가중치와 연관되는 TF(term frequency)와 TF-IDF(term frequency-inverse document frequency)를 산출함으로써, 공시지가의 민원 발생에 대한 주요 키워드를 식별하였다. 마지막으로 Getis-Ord의 $Gi^*$의 통계량에 기초한 핫스팟 분석을 통해 공시지가 민원의 시공간적 특성을 분석하였다. 연구 결과, 공시지가 민원의 특성은 시공간적으로 연계된 군집 형태를 형성하면서 변화하고 있음을 알 수 있었다. 텍스트 마이닝과 소셜 네트워크 분석 방법을 이용하여 자연어 기반의 공시지가 민원에 대한 발생 원인을 정량적으로 규명할 수 있음을 알 수 있었으며, 키워드 가중치인 단어 빈도(TF) 및 단어 빈도와 역문서 빈도의 조합값(TF-IDF)의 상대적인 차이가 있어 시공간적인 민원 특성을 분석하기 위한 주요 설명변수로 활용될 수 있음을 알 수 있었다.

텍스트 마이닝에 기반한 U-City 서비스 이슈 및 동향분석 - 네트워크분석 및 정보량계측기법을 활용하여 - (Study on U-City Service Issue and Trends based Text Mining - Using the Network Analysis and Information Measure Method -)

  • 정다운;유지송;이미숙;신동빈
    • Spatial Information Research
    • /
    • 제23권3호
    • /
    • pp.35-44
    • /
    • 2015
  • 최근 정부는 U-City 활성화를 위한 발전전략을 통해 시민들이 체감하는 서비스를 발굴 및 제공하는 것을 목표로 하고 있다. 이에 본 연구는 신문기사 중 U-City 서비스관련 기사를 대상으로 시사분석을 통해 서비스 이슈와 동향을 분석하여 시민체감형 서비스 추진방향을 모색하는데 목적이 있다. 분석을 위해 2009년부터 2014년까지 수집된 723개 신문기사는 전처리과정을 거쳐 키워드 빈도분석을 실시했으며, 빈도분석 결과를 바탕으로 네트워크 분석과 정보계측기법을 활용했다. 네트워크 분석결과 연결 중심성, 매개 중심성, 근접 중심성이 높은 키워드는 정보, IT, 환경, 기술, 센터 순으로 나타났다. 5개의 키워드는 지난 6년 동안 U-City를 추진하는데 있어 중요한 요소였다는 것을 알 수 있다. 정보계측기법결과 기존에 추진된 U-City는 인프라 구축에 중심을 뒀으며, 공공중심의 서비스를 제공했다는 동향을 파악할 수 있었다. 2009년은 관광, 2010년은 방범 방재, 2011년은 시설물 관리, 2012년은 행정, 2013년 2014년은 시설물 관리 분야를 중심적으로 서비스를 개발했다. 이에 기존에 구축된 인프라를 기반으로 시민체감도가 높은 서비스분야의 발굴 및 제공이 필요하다는 시사점을 도출하였다. 본 연구는 추후 U-City를 추진하는 지자체의 계획수립에 참고적인 역할을 할 수 있을 것으로 기대된다.

텍스트 마이닝과 소셜 네트워크 분석을 이용한 재난대응 용어분석 (Analyzing Disaster Response Terminologies by Text Mining and Social Network Analysis)

  • 강성경;유환;이영재
    • 경영정보학연구
    • /
    • 제18권1호
    • /
    • pp.141-155
    • /
    • 2016
  • 세월호 침몰사고, 판교 환풍구 붕괴사고 등 재난은 점차 복합적이고 대형화되고 있다. 따라서 이러한 재난에 신속히 대응하기 위한 기관들의 협업 또한 중요해지고 있다. 다수기관 간 협업과정에서는 다양한 용어를 바탕으로 의사소통이 이루어진다. 의사소통은 '용어'를 기반으로 하므로 '용어'에 대한 중요성 또한 간과할 수 없다. 따라서 본 연구에서는 재난현장에서 사용하는 용어를 선정하여 텍스트 마이닝 및 소셜 네트워크 분석(SNA: Social Network Analysis)을 이용해 어떤 용어가 대응과정에 있어 핵심적인 용어인지를 파악해보았다. 텍스트 마이닝의 TDM을 이용하여 역문헌 빈도수를 산출해 용어와 문서 간의 관계를 알아보고, SNA를 통해 노드(용어)와 노드 사이의 관계를 파악하였다. 용어분석의 결과 표현은 용어 간의 유기적인 관계를 시각화할 수 있는 마인드맵(Mind Map)을 이용하였다. 용어는 미국의 NIMS, EMR, 그리고 우리나라의 재난 및 안전관리 기본법을 토대로 온톨로지 개념에 따라 계층적(Class, Object, Instance)으로 분류하였으며. 신문기사와 사설, 정책보고서 등의 정부 간행물에서 선정하였다. 이러한 재난대응 핵심용어의 파악은 재난현장에서 사용하는 용어를 표준화하기 위한 기초자료로 활용할 수 있으며, 온톨로지 개념에 따라 용어들을 계층적으로 분류하였기 때문에 재난 대응에 대한 다양한 자료들을 축적하고 검색하는데 용어의 분류체계를 활용할 수 있다. 이 밖에 사고대응 시나리오 작성 시에도 핵심용어를 활용할 수 있을 것으로 판단된다.

YouTube 동영상 의견분석을 통한 사용과 충족 이론 측정 : 트로트 가수 조명섭 동영상을 중심으로 (Analyzing Comments of YouTube Video to Measure Use and Gratification Theory Using Videos of Trot Singer, Cho Myung-sub)

  • 홍한국;임병학;김삼문
    • 한국콘텐츠학회논문지
    • /
    • 제20권9호
    • /
    • pp.29-42
    • /
    • 2020
  • 본 연구의 목적은 소셜미디어 중 하나인 YouTube 동영상 사용자들이 남긴 의견을 추출하여 분석하는 질적연구방법을 제시한다. 이를 위해서 YouTube 동영상 사용자의견을 사용하여 사용과 충족 이론의 쾌락적 충족, 사회적 충족, 그리고 실용적 충족을 빈도분석과 토픽모델링을 통해 측정하였다. 측정결과, YouTube KBS 한국방송 채널 중 트로트 가수 조명섭 동영상을 사용자들이 시청하는 이유는 첫 번째로 높은 빈도를 보이는 것이 쾌락적 충족을 위해서였다. 다음 순으로 사회적 충족과 실용적 충족으로 나타났다. 단어-문서 네트워크 분석에서 연결정도중심성은 '응원', '감사', '화이팅', '최고' 등이 높게 나타났고, 매개중심은'감사', '응원', '화이팅'등의 단어가 높게 나타나 연결정도 중심성과 유사함을 보였다. 아이겐벡터중심성은 '사랑', '마음', '감사' 등의 단어가 높게 나타나 사용자들의 의견들에 가장 영향력이 높은 단어들임을 알 수 있다. 이는 YouTube의 트로트 가수 조명섭 동영상 시청자들 중 대다수가 동영상에 대해 사랑과 감사의 마음을 보이고 있음을 알 수 있다. 위의 세 가지 중심성 분석결과는 동영상을 시청하는 동기로 사용충족 이론의 쾌락적 충족과 사회적 충족 관련 단어들이 높은 값을 보이고 있다. 본 연구는 설문조사 기반의 구조방정식 모형을 따르지 않고, 질적분석연구를 자동화한 텍스트마이닝 기법을 사용하여 YouTube동영상을 사용하는 동기를 사용 및 충족 이론에 의해 밝혀냈다는 것에서 연구 함의를 찾을 수 있다.