• 제목/요약/키워드: TF-IDF analysis

검색결과 197건 처리시간 0.028초

The Study of Comparing Korean Consumers' Attitudes Toward Spotify and MelOn: Using Semantic Network Analysis

  • Namjae Cho;Bao Chen Liu;Giseob Yu
    • Journal of Information Technology Applications and Management
    • /
    • 제30권5호
    • /
    • pp.1-19
    • /
    • 2023
  • This study examines Korean users' attitudes and emotions toward Melon and Spotify, which lead the music streaming market. We used Text Mining, Semantic Network Analysis, TF-IDF, Centrality, CONCOR, and Word2Vec analysis. As a result of the study, MelOn was used in a user's daily life. Based on Melon's advantages of providing various contents, the advantage is judged to have considerable competitiveness beyond the limits of the streaming app. However, the MelOn users had negative emotions such as anger, repulsion, and pressure. On the contrary, in the case of Spotify, users were highly interested in the music content. In particular, interest in foreign music was high, and users were also interested in stock investment. In addition, positive emotions such as interest and pleasure were higher than MelOn users, which could be interpreted as providing attractive services to Korean users. While previous studies have mainly focused on technical or personal factors, this study focuses on consumer reactions (online reviews) according to corporate strategies, and this point is the differentiation from others.

주제 균형 지능형 텍스트 요약 기법 (Subject-Balanced Intelligent Text Summarization Scheme)

  • 윤여일;고은정;김남규
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.141-166
    • /
    • 2019
  • 최근 다양한 매체를 통해 생성되는 방대한 양의 텍스트 데이터를 효율적으로 관리 및 활용하기 위한 방안으로써 문서 요약에 대한 연구가 활발히 진행되고 있다. 특히 최근에는 기계 학습 및 인공 지능을 활용하여 객관적이고 효율적으로 요약문을 도출하기 위한 다양한 자동 요약 기법이(Automatic Summarization) 고안되고 있다. 하지만 현재까지 제안된 대부분의 텍스트 자동 요약 기법들은 원문에서 나타난 내용의 분포에 따라 요약문의 내용이 구성되는 방식을 따르며, 이와 같은 방식은 비중이 낮은 주제(Subject), 즉 원문 내에서 언급 빈도가 낮은 주제에 대한 내용이 요약문에 포함되기 어렵다는 한계를 갖고 있다. 본 논문에서는 이러한 한계를 극복하기 위해 저빈도 주제의 누락을 최소화하는 문서 자동 요약 기법을 제안한다. 구체적으로 본 연구에서는 (i) 원문에 포함된 다양한 주제를 식별하고 주제별 대표 용어를 선정한 뒤 워드 임베딩을 통해 주제별 용어 사전을 생성하고, (ii) 원문의 각 문장이 다양한 주제에 대응되는 정도를 파악하고, (iii) 문장을 주제별로 분할한 후 각 주제에 해당하는 문장들의 유사도를 계산한 뒤, (iv) 요약문 내 내용의 중복을 최소화하면서도 원문의 다양한 내용을 최대한 포함할 수 있는 자동적인 문서 요약 기법을 제시한다. 제안 방법론의 평가를 위해 TripAdvisor의 리뷰 50,000건으로부터 용어 사전을 구축하고, 리뷰 23,087건에 대한 요약 실험을 수행한 뒤 기존의 단순 빈도 기반의 요약문과 주제별 분포의 비교를 진행하였다. 실험 결과 제안 방법론에 따른 문서 자동 요약을 통해 원문 내각 주제의 균형을 유지하는 요약문을 도출할 수 있음을 확인하였다.

텍스트 마이닝과 토픽모델링 분석을 활용한 코로나19와 간호사에 대한 언론기사 분석 (Analysis of Media Articles on COVID-19 and Nurses Using Text Mining and Topic Modeling)

  • 안지연;이윤정;이복임
    • 지역사회간호학회지
    • /
    • 제32권4호
    • /
    • pp.467-476
    • /
    • 2021
  • Purpose: The purpose of this study is to understand the social perceptions of nurses in the context of the COVID-19 outbreak through analysis of media articles. Methods: Among the media articles reported from January 1st to September 30th, 2020, those containing the keywords '[corona or Wuhan pneumonia or covid] and [nurse or nursing]' are extracted. After the selection process, the text mining and topic modeling are performed on 454 media articles using textom version 4.5. Results: Frequency Top 30 keywords include 'Nurse', 'Corona', 'Isolation', 'Support', 'Shortage', 'Protective Clothing', and so on. Keywords that ranked high in Term Frequency-Inverse Document Frequency (TF-IDF) values are 'Daegu', 'President', 'Gwangju', 'manpower', and so on. As a result of the topic analysis, 10 topics are derived, such as 'Local infection', 'Dispatch of personnel', 'Message for thanks', and 'Delivery of one's heart'. Conclusion: Nurses are both the contributors and victims of COVID-19 prevention. The government and the nurses' community should make efforts to improve poor working conditions and manpower shortages.

나이브 베이즈 기반 소셜 미디어 상의 신조어 감성 판별 기법 (Sensitivity Identification Method for New Words of Social Media based on Naive Bayes Classification)

  • 김정인;박상진;김형주;최준호;김한일;김판구
    • 스마트미디어저널
    • /
    • 제9권1호
    • /
    • pp.51-59
    • /
    • 2020
  • 인터넷의 발달과 스마트폰의 보급으로 인하여 그에 따른 소셜 미디어 문화가 형성됨에 따라 PC통신부터 지금까지 소셜 미디어 신조어가 그 문화로 자리 잡아가고 있다. 소셜 미디어의 등장과 사람들의 가교역할을 해주는 스마트폰의 보급화로 신조어가 생기고 빈번하게 사용되고 있는 추세이다. 신조어의 사용은 다양한 문자 제한 메신저의 문제점을 해결하고 짧은 문장을 사용하여 데이터를 줄이는 등 많은 장점을 가지고 있다. 그러나 신조어에는 사전적인 의미가 없으므로 데이터 마이닝 기술이나 빅데이터와 같은 연구에서 사용되는 알고리즘의 성능 저하와 연구에 제약사항이 발생한다. 따라서 본 논문에서는 웹 크롤링을 통해 텍스트 데이터를 추출하고, 텍스트 마이닝과 오피니언 마이닝을 통해 의미부여 및 단어들에 대한 감정적 분류를 통한 문장의 오피니언 파악을 진행하고자 한다. 실험은 다음과 같이 3단계로 진행하였다. 첫째, 소셜 미디어에서 새로운 단어를 수집하여 수집된 단어는 긍정적이고 부정적인 학습을 받게 하였다. 둘째, 표준 문서를 사용하여 감정적 가치를 도출하고 검증하기 위해 TF-IDF를 사용하여 데이터의 감정적 가치를 측정하기 위해 명사 빈도수를 측정한다. 신조어와 마찬가지로 분류된 감정적 가치가 적용되어 감정이 표준 언어 문서로 분류되는지 확인하였다. 마지막으로, 새로 합성된 단어와 표준 감정적 가치의 조합을 사용하여 장비 기술의 비교분석을 수행하였다.

소셜 Q&A 사이트의 질문 분석을 통한 청소년의 성 정체성(sexual identity) 고민에 대한 이해 (Understanding Sexual Identity-related Concerns through the Analysis of Questions on a Social Q&A Site)

  • 주영준;남서진;이다정;이용정
    • 한국도서관정보학회지
    • /
    • 제51권4호
    • /
    • pp.101-119
    • /
    • 2020
  • 본 연구는 소셜 Q&A 사이트인 네이버 지식iN에서 성 정체성과 관련된 질문들을 분석하여 질문의 중심이 되는 주제를 추출하고 구체적인 고민들에 대해 이해하는 것이 목적이다. 이를 위해 네이버 지식iN에서 2010년부터 9년간 작성된 2,120개의 관련 질문들을 수집한 후, 자연어 처리와 정보 검색 방법을 사용하여 질문들의 주제와 고민들을 추출하고 분석하였다. 분석결과, 주요 주제는 인간관계, 성 정체성 의심, 성적 지향, 감정 및 관계, 성 정체성 고민 등으로 나타났다. 나아가 사용자들은 주로 1) 일반적인 성 정체성, 2) 성적 지향, 3) 성 정체성에 대한 부정적 인식, 4) 감정 고백, 커밍아웃, 동성애, 5) 미래, 이성 관계, 군대에 대한 우려, 6) 성 정체성 혼란을 겪는 이유 등과 관련된 고민을 하고 있었다. 본 연구는 성 정체성에 대한 실제적 고민들을 수집하여 토픽 모델링 기법을 통해 정보 요구를 도출하였으며 exact match와 tf-idf 기반의 검색 방법을 비교함으로써 문헌정보학 분야의 방법론적 확장을 시사했다. 또한 특정 관심사에 대한 온라인 커뮤니티 이용자들의 정보요구 및 정보탐색행태를 관찰함으로써 정보행위분야의 학문적 성숙에도 기여했다.

메소드 참조 빈도와 매니페스트 정보를 이용한 안드로이드 애플리케이션들의 유사도 측정 (Measuring Similarity of Android Applications Using Method Reference Frequency and Manifest Information)

  • 김규식;마수드;조성제;김성백
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제13권3호
    • /
    • pp.15-25
    • /
    • 2017
  • 소프트웨어 가치와 중요성이 커짐에 따라 소프트웨어의 도용이 증가하고 있어 이에 대한 대책으로 소프트웨어 도용을 정확히 탐지하는 방안이 필요하다. 특히 안드로이드 앱의 경우, 소프트웨어 도용이 상대적으로 용이한 반면 안드로이드 마켓 상에서는 불법 앱에 대한 적절한 검수를 수행하지 않고 있다. 이에 본 논문에서는 소프트웨어 도용을 탐지하기 위해 실행파일 수준에서 안드로이드 앱 간의 유사도를 효과적으로 측정하는 기법을 제안한다. 제안 기법은 유사도 측정을 위한 주요 특징정보로, 안드로이드 앱의 실행파일을 정적으로 분석하여 메소드 참조 빈도와 매니페스트 정보를 추출한다. 각 앱을 이 두 가지 특징정보들의 n-차원 벡터로 표시하고, 코사인 유사도를 사용하여 두 앱의 유사도를 측정한다. 제안 기법을 검증하기 위해 대표적인 소스코드 기반의 유사도 측정 기법과 본 논문에서 제안한 기법을 비교 평가한다. 소스파일과 실행파일이 함께 주어진 안드로이드 앱을 대상으로 진행한 실험에서, 본 논문에서 제안한 실행파일 수준의 유사도 측정 결과와 기존의 잘 알려진 소스파일 수준의 유사도 측정 결과가 동등한 수준으로 나왔다.

Automated Analysis Approach for the Detection of High Survivable Ransomware

  • Ahmed, Yahye Abukar;Kocer, Baris;Al-rimy, Bander Ali Saleh
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권5호
    • /
    • pp.2236-2257
    • /
    • 2020
  • Ransomware is malicious software that encrypts the user-related files and data and holds them to ransom. Such attacks have become one of the serious threats to cyberspace. The avoidance techniques that ransomware employs such as obfuscation and/or packing makes it difficult to analyze such programs statically. Although many ransomware detection studies have been conducted, they are limited to a small portion of the attack's characteristics. To this end, this paper proposed a framework for the behavioral-based dynamic analysis of high survivable ransomware (HSR) with integrated valuable feature sets. Term Frequency-Inverse document frequency (TF-IDF) was employed to select the most useful features from the analyzed samples. Support Vector Machine (SVM) and Artificial Neural Network (ANN) were utilized to develop and implement a machine learning-based detection model able to recognize certain behavioral traits of high survivable ransomware attacks. Experimental evaluation indicates that the proposed framework achieved an area under the ROC curve of 0.987 and a few false positive rates 0.007. The experimental results indicate that the proposed framework can detect high survivable ransomware in the early stage accurately.

텍스트 마이닝 기법을 이용한 게임 마케팅 비디오에서의 스피치 분석 (Analysis of speech in game marketing video using text mining techniques)

  • 이여경;김재직
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.147-159
    • /
    • 2022
  • 오늘날 다양한 소셜 미디어 플랫폼이 널리 퍼져 있고 사람들은 그들의 일상생활 속에서 밀접하게 그러한 플랫폼들을 이용하고 있다. 이에 따라, 많은 수의 구독자, 시청, 댓글 등을 보유한 인플루언서들은 우리 사회 속에서 큰 영향력을 가지게 되었다. 이러한 추세에 따라 많은 회사들은 그들의 상품과 서비스 판매의 촉진을 위한 마케팅 목적으로 인플루언서들을 적극 활용하고 있다. 본 연구에서는 게임 마케팅을 위한 비디오에서 인플루언서들의 스피치를 추출하고 텍스트화하여 이를 텍스트 마이닝 기술을 이용하여 탐색적으로 분석한다. 분석에 있어, 성공한 마케팅 비디오와 실패한 마케팅 비디오를 구분하고 성공, 실패한 마케팅 비디오에서 인플루언서들의 언어적 특징들을 비교 분석한다.

사례 기반 지능형 수출통제 시스템 : 설계와 평가 (Export Control System based on Case Based Reasoning: Design and Evaluation)

  • 홍원의;김의현;조신희;김산성;이문용;신동훈
    • 지능정보연구
    • /
    • 제20권3호
    • /
    • pp.109-131
    • /
    • 2014
  • 최근 전 세계적인 원전 설비의 수요 증가로 원자력 전략물자 취급의 중요성이 높아지는 가운데, 국외 수출을 위한 원전 관련 물품 및 기술의 신청 또한 급증하는 추세이다. 전략물자 사전판정 업무는 통상 원자력 물자 관리에 해박한 전문가의 경험 및 지식에 근거하여 수행되어 왔지만, 급증하는 수요에 상응하는 전문 인력의 공급이 부족한 실정이다. 이러한 문제를 극복하기 위하여, 본 연구진은 전략물자 수출 통제를 위한 사례 기반 지능형 수출 통제 시스템을 설계 및 개발하였다. 이 시스템은 현장 전문가의 전담 업무이던 신규 사례에 대한 전략물자 사전판정 과정 업무의 주요 맥락을 자동화 하여 전문가 및 관계 기관이 감당해야 할 업무 부담을 줄이며, 빠르고 정확한 판정을 돕는 의사결정 지원 시스템의 역할을 맡는다. 개발된 시스템은 사례 기반 추론 (Case Based Reasoning) 방식에 기반을 두어 설계되었는데, 이는 과거 사례의 특성을 활용하여 신규 사례의 해법을 유추하는 추론 방법이다. 본 연구에서는 자연어로 작성된 전자문서 처리에 널리 사용되는 텍스트 마이닝 분석 기법을 원자력 분야에 특화된 형태로 응용하여 전략물자 수출통제 시스템을 설계하였다. 시스템 설계의 근거로 선행 연구에서 제안된 반자동식 핵심어 추출 방안의 성능을 보다 엄밀히 검증하였고, 추출된 핵심어로 신규 사례와 유사한 과거 사례를 추출하는 알고리즘을 제안하였다. 제안된 방안은 텍스트 마이닝 분야의 TF-IDF 방법 및 코사인 유사도 점수를 활용한 결과(${\alpha}$)와 원자력 분야에서 통용되는 개념적 지식을 계통으로 분류하여 도출한 결과(${\beta}$)를 조합하여 최종 결과 (${\gamma}$) 를 생성하게 된다. 세부 요소 기술의 성능 검증은 임상 데이터를 활용한 실험 및 실무 전문가의 의견수렴을 통해 이루어졌다. 개발된 시스템은 사전판정 전문 인력을 다수 양성하는 데 드는 비용을 절감하는 데 일조할 것이며, 지식서비스 산업의 의미 있는 응용 사례로서 관련 산업의 성장에 기여할 수 있을 것으로 보인다.

텍스트마이닝 기법을 활용한 사용후핵연료 건식처리기술 관련 언론 동향 분석 (Analysis of media trends related to spent nuclear fuel treatment technology using text mining techniques)

  • 정지송;김호동
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.33-54
    • /
    • 2021
  • 최근 4차 산업혁명, 코로나로 인한 뉴노멀 시대의 도래 등을 계기로 인공지능, 빅데이터 연구와 같은 언택트 관련 기술의 중요성이 더욱 급상하고 있다. 각 종 연구 분야에서는 이러한 연구 트렌드를 따라가기 위한 융합적 연구가 본격적으로 시행되고 있으나 원자력 분야의 경우 자연어 처리, 텍스트마이닝 분석 등 인공지능 및 빅데이터 관련 기술을 적용한 연구가 많이 수행되지 않았다. 이에 원자력 연구 분야에 데이터 사이언스 분석기술의 적용 가능성을 확인해보고자 본 연구를 수행하였다. 원자로 연료로 사용된 뒤 배출되는 사용후핵연료 인식 동향 파악에 대한 연구는 원자력 산업 정책에 대한 방향을 결정하고 산업정책 변화를 사전에 대응할 수 있다는 측면에서 매우 중요하다. 사용후핵연료 처리기술은 크게 습식 재처리 방식과 건식 재처리 방식으로 나뉘는데, 이 중 환경 친화적이고 핵비확산성 및 경제성이 높은 건식재처리 기술인 '파이로프로세싱'과 그 연계 원자로 '소듐냉각고속로'의 연구개발에 대한 재평가가 현재 지속적으로 검토되고 있다. 따라서 위와 같은 이유로, 본 연구에서는 사용후핵연료 처리기술인 파이로프로세싱에 대한 언론 동향 분석을 진행하였다. 사용후핵연료 처리기술인 '파이로프로세싱' 키워드를 포함하는 네이버 웹 뉴스 기사 전문의 텍스트데이터를 수집하여 기간에 따라 인식변화를 분석하였다. 2016년 발생한 경주 지진, 2017년 새 정부의 에너지 전환정책 시행된 2010년대 중반 시기를 기준으로 전, 후의 동향 분석이 시행되었고, 빈도분석을 바탕으로 한 워드 클라우드 도출, TF-IDF(Term Frequency - Inverse Document Frequency) 도출, 연결정도 중심성 산출 등의 분석방법을 통해 텍스트데이터에 대한 세부적이고 다층적인 분석을 수행하였다. 연구 결과, 2010년대 이전에는 사용후핵연료 처리기술에 대한 사회 언론의 인식이 외교적이고 긍정적이었음을 알 수 있었다. 그러나 시간이 흐름에 따라 '안전(safety)', '재검토(reexamination)', '대책(countermeasure)', '처분(disposal)', '해체(disassemble)' 등의 키워드 출현빈도가 급증하며 사용후핵연료 처리기술 연구에 대한 지속 여부가 사회적으로 진지하게 고려되고 있음을 알 수 있었다. 정치 외교적 기술로 인식되던 사용후핵연료 처리기술이 국내 정책의 변화로 연구 지속 가능성이 모호해짐에 따라 언론 인식도 점차 변화했다는 것을 확인하였다. 이러한 연구 결과를 통해 원자력 분야에서의 사회과학 연구의 지속은 필수불가결함을 알 수 있었고 이에 대한 중요성이 부각되었다. 또한, 현 정부의 원전 감축과 같은 에너지 정책의 영향으로, 사용후핵연료 처리기술 연구개발에 대한 재평가가 시행되는 이 시점에서 해당 분야의 주요 키워드 분석은 향후 연구 방향 설정에 기여할 수 있을 것이라는 측면에서 실무적 의의를 갖는다. 더 나아가 원자력 공학 분야에 사회과학 분야를 폭넓게 적용할 필요가 있으며, 국가 정책적 변화를 고려해야 원자력 산업이 지속 가능할 것으로 사료된다.