• 제목/요약/키워드: Word Cloud Method

검색결과 62건 처리시간 0.024초

비정형 텍스트 테이터 분석을 위한 워드클라우드 기법에 관한 연구 (A Study on Word Cloud Techniques for Analysis of Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.715-720
    • /
    • 2020
  • 빅데이터 분석에서 텍스트 데이터는 대부분 비정형이고 대용량으로 분석 기법이 정립되지 않아 분석에 어려움이 많았다. 따라서 텍스트 데이터 분석 기법의 하나인 빅데이터 워드클라우드 기법의 실무 적용시 문제점과 유용성 검증을 통한 상용화 가능성을 위해 본 연구를 수행하였다. 본 논문에서는 R 프로그램 워드클라우드 기법을 이용하여 "대통령 UN연설문"을 시각화 분석을 하고 이 기법의 한계와 문제점을 도출한다. 그리고 이를 해결하기 위한 개선된 모델을 제안하여 워드클라우드 기법의 실무 적용에 대한 효율적인 방안을 제시한다.

텍스트 마이닝을 이용한 지능적 워드클라우드 (Intelligent Wordcloud Using Text Mining)

  • 김연창;지상수;박동서;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.325-326
    • /
    • 2019
  • 본 논문은 텍스트 마이닝 기법으로 명사의 빈도수를 조사하여 워드클라우드를 나타내는 기존의 방법을 개선하여 지능적 워드클라우드를 구현하는 방법을 제안한다. 텍스트 마이닝 시에 명사 단어를 추출하는 사전에 누락된 신조어 등의 단어를 효과적으로 추가하고, 동사 등 다른 품사위주의 워드클라우드를 시각적으로 보여주는 방법을 제안한다. 실험에서 기존 명사의 빈도수 추출에는 KoNLP 패키지를 사용하였고, 지원되지 않는 신조어 80개를 추가하였고 빈도수를 수동으로 조사하여 추가하였다.

  • PDF

델파이 기법을 이용한 클라우드 서비스의 개념 정의와 활성화 요인 분석 (Evaluation of Facilitating Factors for Cloud Service by Delphi Method)

  • 서정한;장석권
    • 한국IT서비스학회지
    • /
    • 제11권2호
    • /
    • pp.107-118
    • /
    • 2012
  • Recently, as the clouding computing begins to receive a great attention from people all over the world, it became the most popular buzz word in recent IT magazines or journal and heard it in many different services or different fields. However, a notion of the cloud service is defined vaguely compared to increasing attentions from others. Generally the cloud service could be understood as a specific service model base on the clouding computing, but the cloud, the cloud computing, the cloud computing service and cloud service, these four all terms are often used without any distinction of its notions and characteristics so that it's difficult to define the exact nature of the cloud service. To explore and analyze the cloud service systematically, an accurate conception and scope have to be preceded. Therefore this study is to firstly clarify its definition by Delpi method using expert group and then tries to provide the foundation needed to enable relative research such as establishing business model or value chain and policies for its activation to set off. For the Delpi, 16 experts participated in several surveys from different fields such industry, academy and research sector. As a result of the research, Characteristics of the Cloud Service are followings : Pay per use, Scalability, Internet centric Virtualization. And the scope as defined including Grid Computing, Utility Computing, Server Based Computing, Network Computing.

불용어 시소러스를 이용한 비정형 텍스트 데이터 후처리 방법론에 관한 연구 (A Study on Unstructured text data Post-processing Methodology using Stopword Thesaurus)

  • 이원조
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.935-940
    • /
    • 2023
  • 인공지능과 빅데이터 분석을 위해 웹 스크래핑으로 수집된 대부분의 텍스트 데이터들은 일반적으로 대용량이고 비정형이기 때문에 빅데이터 분석을 위해서는 정제과정이 요구된다. 그 과정은 휴리스틱 전처리 정제단계와 후처리 머시인 정제단계를 통해서 분석이 가능한 정형 데이터가 된다. 따라서 본 연구에서는 후처리 머시인 정제과정에서 한국어 딕셔너리와 불용어 딕셔너리를 이용하여 워드크라우드 분석을 위한 빈도분석을 위해 어휘들을 추출하게 되는데 이 과정에서 제거되지 않은 불용어를 효율적으로 제거하기 위한 "사용자 정의 불용어 시소러스" 적용에 대한 방법론을 제안하고 R의 워드클라우드 기법으로 기존의 "불용어 딕셔너리" 방법의 문제점을 보완하기 위해 제안된 "사용자 정의 불용어 시소러스" 기법을 이용한 사례분석을 통해서 제안된 정제방법의 장단점을 비교 검증하여 제시하고 제안된 방법론의 실무적용에 대한 효용성을 제안한다.

네트워크 기반 대한민국 역대 대통령 취임사 분석 (Analysis of Inauguration Address of Previous Korean Presidents Based on Network)

  • 김학용
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.11-19
    • /
    • 2021
  • 대통령 취임사는 국가 비전을 제시하고 대통령의 정치철학, 정책기조와 방향을 국민들에게 전달할 수 있는 매우 유용한 수단이다. 이런 이유로 취임사를 분석하는 것은 해당 대통령을 이해하고 그 시대를 파악하는데 도움을 줄 것이다. 대통령 취임사는 다양한 학문분야에서 분석할 수 있지만, 본 연구에서는 취임사를 하나의 콘텐츠로 보고 네트워크를 기반으로 분석하고자 하였다. 취임사에 등장하는 단어의 빈도수를 중심으로 분석하는 단어구름이 널리 사용되지만 네트워크를 기반으로 분석하면 문장 속에 들어있는 맥락을 도출할 수 있기 때문에 유용한 방법이 될 것이다. 대한민국 역대 대통령 취임사 전체 네트워크를 구축하고 구조인자를 제시하였다. 네트워크로부터 도출한 핵심단어 및 단어구름의 핵심단어를 비교분석하여 대통령의 정책 방향 등을 도출하였다. 대통령 각각의 취임사 네트워크를 구축하여 핵심단어 및 네트워크의 구조인자인 근접 중심성을 비교 분석하여 취임사의 특성을 제시하였다. 네트워크 기반 역대 대통령 취임사 분석은 궁극적으로 대통령의 이해와 평가를 위한 자료로 활용할 수 있을 것으로 기대한다.

API 통계 기반의 워드 클라우드를 이용한 악성코드 분석 기법 (Malware Analysis Mechanism using the Word Cloud based on API Statistics)

  • 유성태;오수현
    • 한국산학기술학회논문지
    • /
    • 제16권10호
    • /
    • pp.7211-7218
    • /
    • 2015
  • 악성코드는 하루 평균 수만 건 이상이 발생하고 있으며, 신종 악성코드의 수는 해마다 큰 폭으로 증가하고 있다. 악성코드를 탐지하는 방법은 시그니쳐 기반, API 흐름, 문자열 등을 이용한 다양한 기법이 존재하지만 대부분의 탐지 기법들은 악성코드를 우회하는 공격 기법으로 인해 신종 악성코드를 탐지하는데 한계가 있다. 따라서 신종 악성코드를 효율적으로 탐지하기 위한 연구가 많이 진행되고 있다. 그중 시각화 기법을 통한 연구가 최근 활발하게 이루어지고 있으며, 악성코드를 직관적으로 파악할 수 있으므로 대량의 악성코드를 효율적으로 탐지하고 분석할 수 있다는 장점이 있다. 본 논문에서는 악성코드와 정상파일에서 Native API 함수를 추출하고 해당 Native API가 악성코드에서 발생하는 확률에 따라서 F-measure 실험을 통해 가중치의 합을 결정하고, 최종적으로 가중치를 이용하여 워드 클라우드에서 텍스트의 크기로 표현되는 기법을 제안한다. 그리고 실험을 통해 악성코드와 정상파일에서 사용하는 Native API의 가중치에 따라서 악성코드를 판단할 수 있음을 보인다. 제안하는 방식은 워드 클라우드를 이용하여 Native API를 시각적으로 표현함으로써 파일의 악성 유무를 판단하고, 직관적으로 악성코드의 행위를 분석할 수 있다는 장점이 있다.

Analysis of Laughter Therapy Trend Using Text Network Analysis and Topic Modeling

  • LEE, Do-Young
    • 웰빙융합연구
    • /
    • 제5권4호
    • /
    • pp.33-37
    • /
    • 2022
  • Purpose: This study aims to understand the trend and central concept of domestic researches on laughter therapy. For the analysis, this study used total 72 theses verified by inputting the keyword 'laughter therapy' from 2007 to 2021. Research design, data and methodology: This study performed the development and analysis of keyword co-occurrence network, analyzed the types of researches through topic modeling, and verified the visualized word cloud and sociogram. The keyword data that was cleaned through preprocessing, was analyzed in the method of centrality analysis and topic modeling through the 1-mode matrix conversion process by using the NetMiner (version 4.4) Program. Results: The keywords that most appeared for last 14 years were laughter therapy, depression, the elderly, and stress. The five topics analyzed in thesis data from 2007 to 2021 were therapy, cognitive behavior, quality of life, stress, and the elderly. Conclusions: This study understood the flow and trend of research topics of domestic laughter therapy for last 14 years, and there should be continuous researches on laughter therapy, which reflects the flow of time in the future.

Fuzzy Keyword Search Method over Ciphertexts supporting Access Control

  • Mei, Zhuolin;Wu, Bin;Tian, Shengli;Ruan, Yonghui;Cui, Zongmin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제11권11호
    • /
    • pp.5671-5693
    • /
    • 2017
  • With the rapid development of cloud computing, more and more data owners are motivated to outsource their data to cloud for various benefits. Due to serious privacy concerns, sensitive data should be encrypted before being outsourced to the cloud. However, this results that effective data utilization becomes a very challenging task, such as keyword search over ciphertexts. Although many searchable encryption methods have been proposed, they only support exact keyword search. Thus, misspelled keywords in the query will result in wrong or no matching. Very recently, a few methods extends the search capability to fuzzy keyword search. Some of them may result in inaccurate search results. The other methods need very large indexes which inevitably lead to low search efficiency. Additionally, the above fuzzy keyword search methods do not support access control. In our paper, we propose a searchable encryption method which achieves fuzzy search and access control through algorithm design and Ciphertext-Policy Attribute-based Encryption (CP-ABE). In our method, the index is small and the search results are accurate. We present word pattern which can be used to balance the search efficiency and privacy. Finally, we conduct extensive experiments and analyze the security of the proposed method.

한국농수산대학 졸업생 영농정착 성공 사례집의 Text Mining - 주요단어의 빈도 분석 및 word cloud - (Text Mining of Successful Casebook of Agricultural Settlement in Graduates of Korea National College of Agriculture and Fisheries - Frequency Analysis and Word Cloud of Key Words -)

  • 주진수;김종숙;박석영;송천영
    • 현장농수산연구지
    • /
    • 제20권2호
    • /
    • pp.57-72
    • /
    • 2018
  • 본 연구는 한농대에서 발간하는 청년 농어업인들의 우수한 영어·영농 정착사례에서 의미 있는 정보를 추출하고자 프로그램 R의 Text mining으로 주요단어를 추출하고 시각화를 위하여 word cloud를 작성하였다. 먼저 전체 표본에 대한 text mining 결과에서는 '대표', '이사', '생각', '자신', '시작', '마음', '노력' 등이 상위 50개 핵심 단어 가운데 빈도수가 높게 나타난 단어들이다. 이는 젊은 농부들이 회사의 경영주가 되기 위해서거나 또는 경영주로서 그들 스스로 생각하고 판단하고 추진하는 능력을 갖추고 있음을 표현이며 자기의 꿈을 버리지 않고 스스로 꿈꾸는 일을 헤쳐 나가는 모습의 표현이라 할 수 있다. '아버지', '부친' 및 '부모님' 등의 단어 빈도수가 높은 것은 부모협농과 승계농의 비율이 높은 경영형태의 영향이라 할 수 있으며, '한국농수산대학', '대학', '졸업', '공부' 등의 단어는 이들의 높은 교육의식을 나타낸 결과이며, '유기농'과 '친환경' 의 단어는 우수사례자들의 친환경 농업에 대한 관심도를 나타낸 결과라 할 수 있다. 또한 '판매', '체험' 등의 6차산업 관련어는 농어업·농어촌을 활성화시키기 위한 이들의 노력을 나타내는 결과라 할 수 있다. 한편 '인터넷', '블로그', '온라인', '홈페이지', 'SNS', 'ICT', '융복합' 및 '스마트' 등의 단어들은 비록 상위 50위 안에는 없었으나 이들 단어들이 빠지지 않고 추출된 결과는 영어·영농의 과학화·첨단화에 청년농부들의 관심이 높아지고 있음을 알 수 있었다. 다음으로 품목별 샘플에 대하여 빈도수가 상위 50위 이내인 주요단어를 그룹화 한 결과로서 축산, 채소 및 수산은 '시설', 식량작물은 '장비', '기계' 등의 빈도수가 높게 나타냈다. '친환경'은 채소작물과 식량작물에서 나타났으며, '유기농'은 채소, 식량작물, 과수에서 나타났다. 식량작물에서는 '우렁이'가 추출되었으며, 우수농수산물을 의미하는 '인증'은 수산에서만 나타났다. '6차산업' 관련단어로 '생산'은 모든 계열, '가공', '유통'은 과수, '체험'은 채소, 식량작물 및 과수에서 나타났다. 그리고 텍스트 마이닝으로 추출한 단어를 시각화하기 위하여 전체 샘플과 각 품목별로 word cloud를 작성하여 구조화되지 않은 비정형 텍스트인 우수사례들이 내포하고 있는 의미를 글자의 크기로 알 수 있도록 나타냈다.

Research on Satisfaction Evaluation Based on Tourist Big Data

  • Guo, Hanwen;Liu, Ziyang;Jiao, Zeyu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권1호
    • /
    • pp.231-244
    • /
    • 2022
  • With the improvement of people's living standards and the development of tourism, tourists have greater freedom in choosing destinations. Therefore, as an indicator of satisfaction with scenic spots, tourist comments are becoming increasingly prominent. This paper aims to compare and analyze the landscape image of the Five Great Mountains in China and provide specific strategies for its development. The online reviews of tourists on the Online Travel Agency (OTA) website about the Five Great Mountains from 2015 to 2018 are collected as research samples. The text analysis method and R language are used to analyze the content of the tourist reviews, while the high-frequency words in the word cloud are used for visual display. In addition, the entropy weight method is used to determine the index weight and tourist satisfaction is evaluated to understand the weaknesses of those scenic spots. The results of the study show that firstly, the tourist satisfaction with the Five Great Mountains is basically consistent with its popularity. Secondly, through weight analysis, tourists pay special attention to the landscape features and environmental health of the scenic area, so that relevant departments should focus on building the landscape characteristics and improving the environmental health of the scenic area. At the same time, the accommodation and service management of the scenic spot cannot be ignored. Finally, according to the analysis results, suggestions are made on how to improve the tourist satisfaction with the Five Great Mountains.