• 제목/요약/키워드: 워드 클라우드 분석

검색결과 121건 처리시간 0.031초

워드 클라우드 기법을 이용한 국내 융복합 학술연구 트렌드 분석 (A Study on Trend Analysis in Convergence Research Applying Word Cloud in Korea)

  • 김준환;문형진;이항
    • 디지털융복합연구
    • /
    • 제19권2호
    • /
    • pp.33-38
    • /
    • 2021
  • 융복합 트렌드는 4차 산업혁명의 핵심이며, 이런 기대와 가능성으로 인해 여러 분야에서 다양한 대응책이 모색되고 있다. 본 연구는 최근 10년 간 융복합 연구동향을 파악하기 위하여 정량적인 분석을 시행하였다. 구체적으로 주요 연구의 키워드를 추출하여, 워드 클라우드 기법을 적용하고 시각화하여 융복합에 대한 학술 연구동향을 파악하였다. 이를 위해 '디지털융복합연구'에 게재된 2012년-2020년간의 연구논문을 대상으로 조사하였다. 분석기간은 전반부 4년(2012년-2015년)과 후반부 4년(2016년-2019년) 두 기간으로 나눠서 비교분석하여 연구동향의 차이를 확인하였다. 추가적으로 코로나19 사태로 인한 최근 1년의 연구동향에 대한 변화를 보다 명확하게 파악하기 위해 2020년의 연구논문들을 대상으로 분석하였다. 본 연구의 결과는 융복합 분야의 핵심 주제어로 연구동향을 파악하고 추후 연구를 위한 유용한 기초자료로 활용될 수 있다는 점에서 의의를 갖는다.

글로벌 게임 트렌드의 빅데이터 분석을 통한 국내 게임 시장의 발전 방향성 제시 (Suggestion of development for domestic game market through big data analysis of global game trend)

  • 송준협;임민우;김한수
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2022년도 제66차 하계학술대회논문집 30권2호
    • /
    • pp.161-164
    • /
    • 2022
  • 게임 산업은 기술의 발전과 비대면 서비스 수요 증가로 해마다 발전하고 있다. 본 연구는 사용자들의 수요를 조사하기 위하여 대중성이 가장 높은 온라인 게임 플랫폼에서 이용 시간이 많은 게임 정보를 확인하였다. HTML 파싱(parsing) 라이브러리를 통해 해당 게임들의 리뷰를 크롤링하여 엑셀 파일로 데이터베이스화하였고, 자연어 처리 라이브러리를 활용하여 데이터를 정제하였다. 총 5개 장르에 대하여 분석한 결과 각 장르에 해당하는 대표적인 키워드를 확인할 수 있었다. 취득한 키워드는 범용 시각화 패키지를 활용하여 워드 클라우드 형태로 한눈에 알아볼 수 있도록 시각화하였다.

  • PDF

API 통계 기반의 워드 클라우드를 이용한 악성코드 분석 기법 (Malware Analysis Mechanism using the Word Cloud based on API Statistics)

  • 유성태;오수현
    • 한국산학기술학회논문지
    • /
    • 제16권10호
    • /
    • pp.7211-7218
    • /
    • 2015
  • 악성코드는 하루 평균 수만 건 이상이 발생하고 있으며, 신종 악성코드의 수는 해마다 큰 폭으로 증가하고 있다. 악성코드를 탐지하는 방법은 시그니쳐 기반, API 흐름, 문자열 등을 이용한 다양한 기법이 존재하지만 대부분의 탐지 기법들은 악성코드를 우회하는 공격 기법으로 인해 신종 악성코드를 탐지하는데 한계가 있다. 따라서 신종 악성코드를 효율적으로 탐지하기 위한 연구가 많이 진행되고 있다. 그중 시각화 기법을 통한 연구가 최근 활발하게 이루어지고 있으며, 악성코드를 직관적으로 파악할 수 있으므로 대량의 악성코드를 효율적으로 탐지하고 분석할 수 있다는 장점이 있다. 본 논문에서는 악성코드와 정상파일에서 Native API 함수를 추출하고 해당 Native API가 악성코드에서 발생하는 확률에 따라서 F-measure 실험을 통해 가중치의 합을 결정하고, 최종적으로 가중치를 이용하여 워드 클라우드에서 텍스트의 크기로 표현되는 기법을 제안한다. 그리고 실험을 통해 악성코드와 정상파일에서 사용하는 Native API의 가중치에 따라서 악성코드를 판단할 수 있음을 보인다. 제안하는 방식은 워드 클라우드를 이용하여 Native API를 시각적으로 표현함으로써 파일의 악성 유무를 판단하고, 직관적으로 악성코드의 행위를 분석할 수 있다는 장점이 있다.

불용어 시소러스를 이용한 비정형 텍스트 데이터 후처리 방법론에 관한 연구 (A Study on Unstructured text data Post-processing Methodology using Stopword Thesaurus)

  • 이원조
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.935-940
    • /
    • 2023
  • 인공지능과 빅데이터 분석을 위해 웹 스크래핑으로 수집된 대부분의 텍스트 데이터들은 일반적으로 대용량이고 비정형이기 때문에 빅데이터 분석을 위해서는 정제과정이 요구된다. 그 과정은 휴리스틱 전처리 정제단계와 후처리 머시인 정제단계를 통해서 분석이 가능한 정형 데이터가 된다. 따라서 본 연구에서는 후처리 머시인 정제과정에서 한국어 딕셔너리와 불용어 딕셔너리를 이용하여 워드크라우드 분석을 위한 빈도분석을 위해 어휘들을 추출하게 되는데 이 과정에서 제거되지 않은 불용어를 효율적으로 제거하기 위한 "사용자 정의 불용어 시소러스" 적용에 대한 방법론을 제안하고 R의 워드클라우드 기법으로 기존의 "불용어 딕셔너리" 방법의 문제점을 보완하기 위해 제안된 "사용자 정의 불용어 시소러스" 기법을 이용한 사례분석을 통해서 제안된 정제방법의 장단점을 비교 검증하여 제시하고 제안된 방법론의 실무적용에 대한 효용성을 제안한다.

웹 스크래핑과 텍스트마이닝을 이용한 공공 및 민간공사의 사고유형 분석 (A Study on the Analysis of Accident Types in Public and Private Construction Using Web Scraping and Text Mining)

  • 윤영근;오태근
    • 문화기술의 융합
    • /
    • 제8권5호
    • /
    • pp.729-734
    • /
    • 2022
  • 건설업의 사고원인 파악을 위해 사고사례를 이용한 다양한 연구가 진행되고 있지만, 공공 및 민간공사의 차이점에 대한 연구는 미미한 실정이다. 본 연구에서는 발주 유형별 사고원인 분석을 위해 웹 스크래핑과 텍스트 마이닝 기술을 적용하였다. 수집된 10,000건 이상의 정형 및 비정형 데이터에 대한 통계분석과 워드클라우드 분석을 통해 공공 및 민간공사의 사고유형과 사고원인에 대한 차이가 확인되었다. 또한, 주요 사고원인들의 상관관계를 파악함으로써 향후 안전관리 대책 수립에 기여할 수 있다.

Comparative Analysis of News Big Data related to SARS-CoV, MERS-CoV, and SARS-CoV-2 (COVID-19)

  • Woo, Jae-Hyun
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권8호
    • /
    • pp.91-101
    • /
    • 2021
  • 본 논문은 COVID-19로 인해 세계적인 팬데믹(Pandamic)을 경험하게 되면서 보건 분야, 정책 분야 등에 있어 포스트 코로나(Post-Corona)를 준비하기 위한 시사점을 도출하고자 한다. 국내 감염병 방역체계가 가동되었던 SARS-CoV, MERS-CoV, SARS-CoV-2(COVID-19)의 3개 감염병에 대해 발병 1년간의 시기적인 분석을 통해 언론사 뉴스 및 트렌드를 분석해보자는 것이다. 이를 위해 한국언론진흥재단 '빅카인즈' 뉴스 분석 프로그램을 활용하여 각 감염병이 국내에 영향이 미치던 시기를 기준점으로 1년간의 뉴스 기사 건수를 수치화하고 주요 트렌드를 워드클라우드로 구현하여 분석하였다. 분석 결과, 감염병과 관련한 기사 건수는 세계보건기구(WHO)의 경고 선언 및 (의심)확진자 발생 시점에 정점을 기록하였다. 키워드와 워드클라우드 분석에 따르면 감염병에 대한 '발병지 및 주요 유행지역', '방역당국', '질병정보 및 확진자 정보' 등이 주요한 공통점으로 나타났으며, 3개 감염병에서 차이점을 도출하였다. 아울러, 불확실 정보에 대하여 워드클라우드 분석을 수행함으로써 인포데믹 현황을 파악하였다. 본 연구결과는 앞서 경험하고 있는 감염병을 통해서 새로운 질병이 대유행할 시 선행되어야 하는 보건당국, 언론의 역할 및 재정비되어야 할 영역을 도출할 수 있었다는 점에서 의의를 갖는다.

토픽모델링과 에고 네트워크 분석을 활용한 스마트 헬스케어 연구동향 분석 (Research Trend Analysis on Smart healthcare by using Topic Modeling and Ego Network Analysis)

  • 윤지은;서창진
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권5호
    • /
    • pp.981-993
    • /
    • 2018
  • 스마트 헬스케어는 ICT 분야와 의료서비스 분야가 융 복합 된 분야로 다양한 분야에서 학제 간 융 복합 연구가 활발히 이루어지고 있다. 본 연구는 토픽모델링(Topic Modeling)과 에고 네트워크 분석(Ego Network Analysis)을 활용하여 스마트 헬스케어 연구동향을 살피는데 그 목적이 있다. 이를 위해 2001년부터 2018년 4월까지 Scopus에 게재된 2,690편을 대상으로 텍스트 분석, 각 기간별 빈도분석, 토픽모델링, 워드 클라우드, 에고 네트워크 분석을 수행하였다. 토픽 모델링 분석 결과 8개의 주요 연구토픽이 도출되었다. 8개 주요 연구토픽은 "AI in healthcare", " Smart hospital", "Healthcare platform", " blockchain in healthcare", "Smart health data", "Mobile healthcare", "Wellness care", "Cognitive healthcare" 순으로 나타났다. 토픽모델링 결과를 보다 심도 있게 살펴보기 위해 연구토픽별 에고 네트워크 분석을 하였다. 이를 통해 스마트 헬스케어 연구동향을 파악하고, 향후 연구의 방향성을 수립하는데 시사점을 제시하고자 한다.

워드클라우드를 이용한 국내·외 BIM 연구 동향 분석 (Recent Research Trends Analysis of Building Information Modeling using WordCloud through Comparison of Korean and International Journals)

  • 서민구;이웅균
    • 한국건축시공학회지
    • /
    • 제19권1호
    • /
    • pp.95-103
    • /
    • 2019
  • 건설 프로젝트에서 BIM도입과 활용이 증가하고 있는 실정이다. 하지만 국내 BIM 활용 수준은 해외 BIM 활용 수준에 비해 아직 미약하다. 이를 위해 본 연구는 국내 외 연구문헌 분석을 통해 BIM연구의 방향성을 제시하는 것을 목적으로 한다. 연구 방법으로는 건축의 관련된 국내 외 BIM논문을 수집 후 연도별과 분야별로 나누어 비교 분석을 진행하였고, 빅데이터 기법 중 하나인 워드클라우드를 활용하여 연구패턴을 분석하였다. 분석결과, 여전히 설계분야가 가장 큰 비중을 차지하고 있지만 최근 들어와서는 시공분야에 대한 연구가 활발하게 진행되고 있었다. 또한 국내 BIM연구의 흐름은 2012년을 시작으로 협업, 친환경에 대한 연구가 계속 진행되고 있으며, 국외 BIM연구의 흐름은 매 년마다 연구의 트렌드가 변화하는 것으로 파악되었고, 최근에는 IFC에 대한 연구가 활발하게 진행되고 있는 것으로 나타났다. 이에 본 연구는 향후 진행할 연구 방향으로 IFC 분야의 연구를 진행할 필요가 있음을 확인하였다. 본 연구의 결과물은 향후 국내 BIM 연구를 진행하기 위한 효율적인 기초자료로 활용될 수 있을 것이다.

밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구 (A Case Study on Text Analysis Using Meal Kit Product Review Data)

  • 최혜선;연규필
    • 한국콘텐츠학회논문지
    • /
    • 제22권5호
    • /
    • pp.1-15
    • /
    • 2022
  • 본 연구에서는 밀키트 제품 평가에 영향을 미치는 요인을 파악하기 위하여 밀키트 제품 리뷰 데이터에 대한 텍스트 분석을 수행하였다. 분석에 사용된 자료는 네이버 쇼핑 사이트에서 판매되고 있는 밀키트 제품에 대한 리뷰 334,498건을 스크래핑하여 수집하였다. 텍스트 자료에 대한 전처리 과정을 거쳐 제품 리뷰에 빈번히 등장하는 단어를 추출한 후 워드클라우드 및 감성분석을 수행하였다. 감성분석시 제품 리뷰에 대한 긍정 또는 부정의 레이블은 평점을 기준으로 설정하여 반응변수로 활용하였고, 입력변수로는 단어들의 정규화 단어빈도-역문서빈도 (TF-IDF) 값을 구하여 사용하였다. 리뷰의 극성을 판별하는 모형으로는 로지스틱 회귀모형, 서포트 벡터 머신, 랜덤 포레스트 알고리즘을 적용하였으며, 분류 정확도 및 해석가능성을 고려하여 로지스틱 회귀모형을 최종 모형으로 선택한 후 제품 범주별 감성분석 모형으로 사용하였다. 각 제품 범주별로 도출된 로지스틱 회귀모형으로부터 밀키트 제품 구매 후 긍·부정의 감성을 발생시킨 주요 요인들을 밝혀내었다. 결과적으로 텍스트 분석을 통해 밀키트 제품 개발 시 특정 카테고리, 메뉴, 재료에 대한 긍정 요소를 극대화하고 부정적 위험 요소를 제거할 수 있는 기반을 제공할 수 있음을 확인하였다.

발달장애 아동 부모의 인지재활 경험에 대한 질적 연구: 워드 클라우드 분석과 현상학적 연구 방법 혼합설계 (Parents' Perceptions of Cognitive Rehabilitation for Children With Developmental Disabilities: A Mixed-Method Approach of Phenomenological Methodology and Word Cloud Analysis )

  • 주유미;김영근;이희령;홍승표;한대성
    • 재활치료과학
    • /
    • 제13권1호
    • /
    • pp.49-63
    • /
    • 2024
  • 목적 : 본 연구의 목적은 현상학적 방법론과 워드 클라우드 분석을 통해 발달장애 아동 부모의 인지재활 경험에 대한 인식을 알아보기 위함이다. 연구방법 : 인지재활에 대한 부모 인식을 알아보기 위하여 발달장애 아동의 부모 5명을 심층 인터뷰하였다. 아울러 Python을 사용하여 워드 클라우드 분석을 하였고, 출현 빈도 수가 높은 단어를 중심으로 5명의 연구자가 의미 단위와 주제를 현상학적 방법으로 분석하였다. 결과 : 인지재활의 현상에 대한 의미 단위 43개 및 구성요소 9개를 도출하였고, 이로부터 총 3개의 주제를 최종 도출하였다. 도출된 중심 주제는 인지재활의 정의, 인지재활의 문제점, 인지재활 기관 선택 시 고려사항이었다. 인지재활은 발달장애 아동의 학습, 일상생활 기능, 인지기능 향상을 목적으로 하는 치료라는 인식이 있었다. 인지재활의 문제점으로는 치료방식, 치료사의 전문성, 치료비용에 관한 문제인식이 있었다. 마지막으로, 인지재활 기관 선택 시 고려사항으로는 치료사의 전문성, 입소문, 비용과 시간의 적정성이 있었다. 결론 : 발달장애 아동의 부모는 인지재활을 통해 아동의 실질적인 기능 향상을 기대하고 있었고, 이와 더불어 임상에는 현실적인 문제들이 존재하고 있었다. 본 연구는 부모가 인식하는 문제점들을 보완한 보다 나은 인지재활 서비스로 발전되는 데 기초자료가 될 것이다.