• 제목/요약/키워드: 워드 클라우드 분석

검색결과 119건 처리시간 0.037초

비정형 텍스트 테이터 분석을 위한 워드클라우드 기법에 관한 연구 (A Study on Word Cloud Techniques for Analysis of Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제6권4호
    • /
    • pp.715-720
    • /
    • 2020
  • 빅데이터 분석에서 텍스트 데이터는 대부분 비정형이고 대용량으로 분석 기법이 정립되지 않아 분석에 어려움이 많았다. 따라서 텍스트 데이터 분석 기법의 하나인 빅데이터 워드클라우드 기법의 실무 적용시 문제점과 유용성 검증을 통한 상용화 가능성을 위해 본 연구를 수행하였다. 본 논문에서는 R 프로그램 워드클라우드 기법을 이용하여 "대통령 UN연설문"을 시각화 분석을 하고 이 기법의 한계와 문제점을 도출한다. 그리고 이를 해결하기 위한 개선된 모델을 제안하여 워드클라우드 기법의 실무 적용에 대한 효율적인 방안을 제시한다.

비정형 텍스트 데이터 정제를 위한 불용어 코퍼스의 활용에 관한 연구 (A Study on the Use of Stopword Corpus for Cleansing Unstructured Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제8권6호
    • /
    • pp.891-897
    • /
    • 2022
  • 빅데이터 분석에서 원시 텍스트 데이터는 대부분 다양한 비정형 데이터 형태로 존재하기 때문에 휴리스틱 전처리 정제와 컴퓨터를 이용한 후처리 정제과정을 거쳐야 분석이 가능한 정형 데이터 형태가 된다. 따라서 본 연구에서는 텍스트 데이터 분석 기법의 하나인 R 프로그램의 워드클라우드를 적용하기 위해서 수집된 원시 데이터 전처리를 통해 불필요한 요소들을 정제하고 후처리 과정에서 불용어를 제거한다. 그리고 단어들의 출현 빈도수를 계산하고 출현빈도가 높은 단어들을 핵심 이슈들로 표현해 주는 워드클라우드 분석의 사례 연구를 하였다. 이번 연구는 R의워드클라우드 기법으로 기존의 불용어 처리 방법인 "내포된 불용어 소스코드" 방법의 문제점을 개선하기 위하여 "일반적인 불용어 코퍼스"와 "사용자 정의 불용어 코퍼스"의 활용 방안을 제안하고 사례 분석을 통해서 제안된 "비정형 데이터 정제과정 모델"의 장단점을 비교 검증하여 제시하고 "제안된 외부 코퍼스 정제기법"을 이용한 워드클라우드 시각화 분석의 실무적용에 대한 효용성을 제시한다.

텍스트 데이터 워드클라우드 분석을 위한 데이터 정제기법에 관한 연구 (A Study on Data Cleansing Techniques for Word Cloud Analysis of Text Data)

  • 이원조
    • 문화기술의 융합
    • /
    • 제7권4호
    • /
    • pp.745-750
    • /
    • 2021
  • 비정형 텍스트 데이터의 빅데이터 시각화 분석에서 원시 데이터는 대부분 대용량이고 비정형으로 정제하지 않고 분석기법을 적용할 수 없는 상태이다. 따라서 수집된 원시 데이터는 1차 휴리스틱 정제과정을 통해서 불필요한 데이터들을 제거하고 2차 머시인 정제과정을 통해서 불용어를 제거한다. 그리고 어휘의 빈도수를 계산하여 워드클라우드 기법으로 시각화하고 핵심 이슈들을 추출하여 정보화하고 그 결과를 분석한다. 본 연구에서는 파이썬 워드클라우드에서 외부 불용어 Set(DB)를 사용한 새로운 불용어 정제기법을 제안하고 실무 사례분석을 통하여 이 기법의 문제점과 효용성을 도출한다. 그리고 이 검증 결과를 통해 제안된 정제기법을 적용한 워드클라우드 분석의 실무적용에 대한 효용성을 제시한다.

패스워드 매니저의 패스워드 저장소 보안 취약점 분석 (Security of Password Vaults of Password Managers)

  • 정혜라;소재우
    • 정보보호학회논문지
    • /
    • 제28권5호
    • /
    • pp.1047-1057
    • /
    • 2018
  • 웹사이트 이용이 증가하면서, 패스워드들을 암호화하여 데이터베이스에 저장 관리해주는 패스워드 매니저의 사용이 증가하고 있다. 브라우저 기반 패스워드 매니저와 로컬 기반 패스워드 매니저는 암호화된 데이터베이스를 로컬 컴퓨터에 저장한다. 웹 기반 패스워드 매니저는 암호화된 데이터베이스를 클라우드 서버에 저장하지만 사용자는 클라우드 서버에 접속하는데 사용하는 마스터 패스워드를 로컬 컴퓨터에 저장할 수 있다. 공격자가 사용자의 컴퓨터에서 패스워드 데이터베이스를 훔쳐 복호화에 성공한다면, 사용자의 모든 패스워드들이 노출되는 심각한 문제가 있다. 본 논문에서는 로컬 컴퓨터에 저장된 패스워드 저장소의 보안 취약점을 분석하는 절차를 제시하고, 패스워드 저장소를 공격하는 시나리오를 제시하며, 공격 프로그램을 개발하여 패스워드 저장소를 공격함으로써 패스워드 저장소의 보안 취약점을 확인한다.

텍스트마이닝과 워드 클라우드를 활용한 VR 게임 트렌드 분석 -스팀(steam) 리뷰 데이터를 중심으로- (Analysis of VR Game Trends using Text Mining and Word Cloud -Focusing on STEAM review data-)

  • 나지영
    • 한국게임학회 논문지
    • /
    • 제22권1호
    • /
    • pp.87-98
    • /
    • 2022
  • 4차 산업혁명 관련 기술의 발전과 비대면 서비스 수요 증가로 VR 게임이 주목받고 있다. 본 연구는 VR 게임의 리뷰 데이터를 온라인 게임 플랫폼 스팀(STEAM)에서 수집하고 텍스트 마이닝과 워드 클라우드 분석을 적용해 시대별 트렌드를 분석했다. 연구 결과, 프레즌스와 FPS는 시기와 상관 없이 VR 게임의 특징으로 나타났고, 2016~2017년은 체험과 지각된 비용, 2018~2019년은 FPS와 리듬게임의 수요 증가, 2020~2021년은 스토리와 몰입감이 주요 트렌드로 나타났다. 본 연구는 VR 게임 사용자들이 관심을 보이는 키워드를 시기별로 파악해 VR게임 저변 확대에 기여하고자 한다.

빅데이터 분석을 활용한 중소기업의 상담요구 분석 (A Study on the Analysis of Consultation Needs of SMEs through Big-Data)

  • 이봉철;유연우
    • 디지털융복합연구
    • /
    • 제16권7호
    • /
    • pp.27-34
    • /
    • 2018
  • 본 연구는 중소벤처기업부가 영위하는 비즈니스지원단의 운영효율성 제고에 관해 제언을 하고자 수행되었다. 이를 위해 비즈니스지원단 홈페이지에 게재되어 있는 7천여 개의 상담 사례와 현장클리닉 사례의 제목을 크롤링한 후 유효 키워드를 중심으로 한 워드클라우드 분석과 연관어분석을 실시하였다. 주요 결과로써, 상담사례의 분야별 빈도는 창업, 경영전략, 인사노무, 금융 순으로 많았으며 법무, 정보화, 수출입 순으로 적었다. 워드클라우드 분석 결과, 상담수요와 관련하여 높은 빈도를 보인 키워드는 소상공인, 수출, 방법, 절차, 등록, 인증 순이었다. 또한 최근의 중소기업의 상담 요구는 주로 소상공인에 대한 지원과 대출인 것으로 파악되었다. 본 연구의 성과는 빅데이터 분석을 활용하여 비즈니스지원단의 상담분야에 대한 적시 개편 필요성과 지원단 인력 모집 및 상담분야에의 배치 등과 같은 지원단 운영정책의 효율성에 대한 시사점을 제시했다는 점이다. 향후 연구의 한계점을 보완하여 인관관계 분석과 네트워크 분석까지 연구를 확대해 나가고자 한다.

식품안전 관련 트위터 정보의 연관 관계 분석 및 시각화 (Coocurrence Relation Analysis and Visualization in Tweet for Food Safety Domain)

  • 소현수;강승식;오세욱
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.305-306
    • /
    • 2016
  • 식품안전 사고가 발생했을 때 뉴스, 인터넷 기사를 통해 정보를 인지하기 전에 그 음식을 섭취하는 경우가 발생하는 문제점 최소화하기 위하여 실시간 트윗 분석으로 현재 발생한 식품안전 키워드와 어느 지역에서 발생했는지를 신속하게 파악하고, 키워드 연관관계 분석 프로그램을 활용하여 정확한 정보를 추출한다. 이와 더불어, SNS 등 다양한 정보 소스로부터 추출한 정보를 간단명료하게 파악하기 위해서 워드 클라우드 등 데이터 시각화 기법을 활용하여 시각화로 정보를 제공한다. 이 기법은 식품안전 뿐만 아니라 최근 발생한 콜레라 감염 발생과 같은 문제를 해결하기 위한 방법으로 활용될 수 있을 것이다.

  • PDF

식품안전 관련 트위터 정보의 연관 관계 분석 및 시각화 (Coocurrence Relation Analysis and Visualization in Tweet for Food Safety Domain)

  • 소현수;강승식;오세욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.305-306
    • /
    • 2016
  • 식품안전 사고가 발생했을 때 뉴스, 인터넷 기사를 통해 정보를 인지하기 전에 그 음식을 섭취하는 경우가 발생하는 문제점 최소화하기 위하여 실시간 트윗 분석으로 현재 발생한 식품안전 키워드와 어느 지역에서 발생했는지를 신속하게 파악하고, 키워드 연관관계 분석 프로그램을 활용하여 정확한 정보를 추출한다. 이와 더불어, SNS 등 다양한 정보 소스로부터 추출한 정보를 간단명료하게 파악하기 위해서 워드 클라우드 등 데이터 시각화 기법을 활용하여 시각화로 정보를 제공한다. 이 기법은 식품안전 뿐만 아니라 최근 발생한 콜레라 감염 발생과 같은 문제를 해결하기 위한 방법으로 활용될 수 있을 것이다.

  • PDF

빅데이터를 활용한 국내 샤오미에 관한 인식 연구 (An Efficient Dynamic Workload Balancing Strategy)

  • 문재영;이은지
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.343-344
    • /
    • 2023
  • 본 논문에서는 최근 스마트업체이며 제조업체로 화두가 되고 있는 샤오미 키워드로 빅데이터 분석을 활용하여 분석하고자 한다. 샤오미는 2021년 스마트폰 제조업체 세계1위를 차지했고, 글로벌 100대 브랜드(2022)에는 처음으로 84위에 진입하여 급격하게 성장하고 있는 업체 중 하나이다. 특히 국내에서도 점차 점유율이 커지고 있는 상황에서 국내 소비자들의 인식과 향후 국내에서의 입지를 알아보고자 한다. 국내 포털과 SNS에 채널을 통한 '샤오미' 키워드에 관한 데이터를 통해 키워드 분석, 워드클라우드, 토픽모델링 등의 분석을 진행하여 최근 국내 샤오미에 관한 인식과 향후 방향성을 제시해보고자 한다.

  • PDF

워드 클라우드 기법을 이용한 국내 융복합 학술연구 트렌드 분석 (A Study on Trend Analysis in Convergence Research Applying Word Cloud in Korea)

  • 김준환;문형진;이항
    • 디지털융복합연구
    • /
    • 제19권2호
    • /
    • pp.33-38
    • /
    • 2021
  • 융복합 트렌드는 4차 산업혁명의 핵심이며, 이런 기대와 가능성으로 인해 여러 분야에서 다양한 대응책이 모색되고 있다. 본 연구는 최근 10년 간 융복합 연구동향을 파악하기 위하여 정량적인 분석을 시행하였다. 구체적으로 주요 연구의 키워드를 추출하여, 워드 클라우드 기법을 적용하고 시각화하여 융복합에 대한 학술 연구동향을 파악하였다. 이를 위해 '디지털융복합연구'에 게재된 2012년-2020년간의 연구논문을 대상으로 조사하였다. 분석기간은 전반부 4년(2012년-2015년)과 후반부 4년(2016년-2019년) 두 기간으로 나눠서 비교분석하여 연구동향의 차이를 확인하였다. 추가적으로 코로나19 사태로 인한 최근 1년의 연구동향에 대한 변화를 보다 명확하게 파악하기 위해 2020년의 연구논문들을 대상으로 분석하였다. 본 연구의 결과는 융복합 분야의 핵심 주제어로 연구동향을 파악하고 추후 연구를 위한 유용한 기초자료로 활용될 수 있다는 점에서 의의를 갖는다.