• 제목/요약/키워드: word network analysis

검색결과 381건 처리시간 0.026초

한글 감정단어의 의미적 관계와 범주 분석에 관한 연구 (A Study on the Analysis of Semantic Relation and Category of the Korean Emotion Words)

  • 이수상
    • 한국도서관정보학회지
    • /
    • 제47권2호
    • /
    • pp.51-70
    • /
    • 2016
  • 이 연구의 목적은 한글로 된 주요감정단어들의 리스트를 대상으로 의미적 관계의 네트워크와 극성과 각성의 범주를 분석하는데 있다. 분석결과는 다음과 같다. 첫째, 감정단어 네트워크에서 각 감정단어들은 의미적으로 연결되어 있었다. 이것은 의미적 유사성에 따라 감정단어들의 유형을 구분하는 것을 어렵게 하는 특징이다. 대신에 의미적 관계의 감정단어 네트워크에서 중심적인 역할을 수행하는 감정단어들을 확인할 수 있었다. 둘째, 극성과 각성의 차원을 혼합한 범주에서, 많은 감정단어들은 부정적인 극성과 높은 각성의 단어들 집단과 부정적인 극성과 중간수준 각성의 단어들 집단으로 분류되었다. 이러한 한글감정단어의 특성들은 도서관이나 문헌정보에 나타나는 각종 텍스트 데이터의 감정분석에 유용하게 활용될 것이다.

The Impact of Transforming Unstructured Data into Structured Data on a Churn Prediction Model for Loan Customers

  • Jung, Hoon;Lee, Bong Gyou
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권12호
    • /
    • pp.4706-4724
    • /
    • 2020
  • With various structured data, such as the company size, loan balance, and savings accounts, the voice of customer (VOC), which is text data containing contact history and counseling details was analyzed in this study. To analyze unstructured data, the term frequency-inverse document frequency (TF-IDF) analysis, semantic network analysis, sentiment analysis, and a convolutional neural network (CNN) were implemented. A performance comparison of the models revealed that the predictive model using the CNN provided the best performance with regard to predictive power, followed by the model using the TF-IDF, and then the model using semantic network analysis. In particular, a character-level CNN and a word-level CNN were developed separately, and the character-level CNN exhibited better performance, according to an analysis for the Korean language. Moreover, a systematic selection model for optimal text mining techniques was proposed, suggesting which analytical technique is appropriate for analyzing text data depending on the context. This study also provides evidence that the results of previous studies, indicating that individual customers leave when their loyalty and switching cost are low, are also applicable to corporate customers and suggests that VOC data indicating customers' needs are very effective for predicting their behavior.

Data Dictionary 기반의 R Programming을 통한 비정형 Text Mining Algorithm 연구 (A study on unstructured text mining algorithm through R programming based on data dictionary)

  • 이종화;이현규
    • 한국산업정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.113-124
    • /
    • 2015
  • 미리 선언된 구조를 이용하여 수집 저장된 정형적 데이터와는 달리 웹 2.0의 시대에서 일반 사용자들이 평상시에 사용하는 자연어 형태로 작성된 비정형 데이터 분석은 과거보다 훨씬 더 넓은 응용범위를 가지고 있다. 데이터 양이 폭발적으로 증가하고 있다는 특성뿐 만 아니라 인간의 감성이 그대로 표현된 특성을 가진 텍스트에서 의미 있는 정보를 추출하는 빅데이터 분석 기법을 텍스트마이닝(Text Mining)이라 하며 본 연구는 이를 주제로 하고 있다. 본 연구를 위해 오픈 소스인 통계분석용 소프트웨어 R 프로그램을 이용하였으며, 비정형 텍스트 문서를 웹 환경에서 수집, 저장, 전처리, 분석 작업과 시각화(Frequency Analysis, Cluster Analysis, Word Cloud, Social Network Analysis)작업 등의 과정에 관한 알고리즘 구현을 연구하였다. 특히, 연구자의 연구 영역 분석에 초점을 더욱 높이기 위해 Data Dictionary를 참조한 키워드 추출 기법을 사용하였다. 실제 사례에 적용한 R은 다양한 OS 구동, 일반적 언어와의 인터페이스 지원 등 통계 분석용 소프트웨어로써 매우 유용하다는 점을 발견할 수 있었다.

한글 음소 단위 딥러닝 모형을 이용한 감성분석 (Sentiment Analysis Using Deep Learning Model based on Phoneme-level Korean)

  • 이재준;권순범;안성만
    • 한국IT서비스학회지
    • /
    • 제17권1호
    • /
    • pp.79-89
    • /
    • 2018
  • Sentiment analysis is a technique of text mining that extracts feelings of the person who wrote the sentence like movie review. The preliminary researches of sentiment analysis identify sentiments by using the dictionary which contains negative and positive words collected in advance. As researches on deep learning are actively carried out, sentiment analysis using deep learning model with morpheme or word unit has been done. However, this model has disadvantages in that the word dictionary varies according to the domain and the number of morphemes or words gets relatively larger than that of phonemes. Therefore, the size of the dictionary becomes large and the complexity of the model increases accordingly. We construct a sentiment analysis model using recurrent neural network by dividing input data into phoneme-level which is smaller than morpheme-level. To verify the performance, we use 30,000 movie reviews from the Korean biggest portal, Naver. Morpheme-level sentiment analysis model is also implemented and compared. As a result, the phoneme-level sentiment analysis model is superior to that of the morpheme-level, and in particular, the phoneme-level model using LSTM performs better than that of using GRU model. It is expected that Korean text processing based on a phoneme-level model can be applied to various text mining and language models.

网络流行语"X+人"探析 - 从"打工人", "尾款人", "工具人"等谈起

  • 유철
    • 중국학논총
    • /
    • 제71호
    • /
    • pp.41-59
    • /
    • 2021
  • With the progress of social economy and science and technology, network media technology has developed rapidly, China has ushered in the network information age, and the network buzzwords emerged to reflect the interaction and influence between language and society. The network buzzwords of "X+ ren "indirectly show the social psychology and value orientation of modern people with their unique structural characteristics, semantic connotation and cultural deposits, and so on. Based on this, we have conducted a multi-angle investigation on the network buzzwords "X+ ren". This paper first analyzes the structure types and syntactic functions of the lexical model of "X+ ren ", then makes a semantic analysis of the lexical model of "X+ Ren ", and finally investigates the causes and influences of the popularity of "X+ ren ". Through the investigation, we believe that "X+ ren "will continue to grow, and "X+ ren" will continue to attract the attention of the academic community.

Visualization of movie recommendation system using the sentimental vocabulary distribution map

  • Ha, Hyoji;Han, Hyunwoo;Mun, Seongmin;Bae, Sungyun;Lee, Jihye;Lee, Kyungwon
    • 한국컴퓨터정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.19-29
    • /
    • 2016
  • This paper suggests a method to refine a massive collective intelligence data, and visualize with multilevel sentiment network, in order to understand information in an intuitive and semantic way. For this study, we first calculated a frequency of sentiment words from each movie review. Second, we designed a Heatmap visualization to effectively discover the main emotions on each online movie review. Third, we formed a Sentiment-Movie Network combining the MDS Map and Social Network in order to fix the movie network topology, while creating a network graph to enable the clustering of similar nodes. Finally, we evaluated our progress to verify if it is actually helpful to improve user cognition for multilevel analysis experience compared to the existing network system, thus concluded that our method provides improved user experience in terms of cognition, being appropriate as an alternative method for semantic understanding.

고등학생들의 원자력 인식구조에 대한 언어 연결망 분석 (Semantic Network Analysis on Teen's Perceptual Construct about Nuclear Power)

  • 김봉철;정운관;최명일
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.578-590
    • /
    • 2015
  • 이 연구는 언어 연결망 분석을 통해 고등학교 학생들이 원자력에 대해 어떤 인식구조를 갖고 있는가를 파악하기 위한 것이다. 6대 광역도시에 소재하는 고등학생 250명을 대상으로 설문조사를 실시한 결과, 출현빈도가 높은 단어들은 발전소(87회), 일본(71회), 위험(59회), 후쿠시마(59회), 방사능(56회), 에너지(47회), 영광(37회), 전기(30회), 체르노빌(29회), 폭발(25회) 등인 것으로 나타났다. 한편, 원자력 수용성이 높은 집단과 낮은 집단으로 구분하여 차이를 분석한 결과, 수용성이 높은 집단은 방사능(25회), 후쿠시마(23회), 에너지(21회), 일본(21회), 발전소(20회), 위험(17회), 영광(16회), 핵(14회) 등이, 수용성이 낮은 집단은 발전소(40회), 일본(31회), 위험(29회), 후쿠시마(23회), 방사능(17회), 에너지(16회), 영광(16회), 체르노빌(15회) 등의 출현빈도가 높은 것으로 나타났다. 이러한 결과를 바탕으로, 원자력과 관련한 대국민 커뮤니케이션은 공중 세분화와 이에 따른 적절한 접근이 필요하다는 사실을 확인할 수 있었다.

영상콘텐츠분야 정권별 빅데이터 분석 - 상위 중심성 값의 변화를 중심으로 (Analysis of Big Data by Regimes of Image Contents Field)

  • 황고은;문신정
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권5호
    • /
    • pp.911-921
    • /
    • 2017
  • 이 연구는 영상콘텐츠 분야가 정권별로 어떤 의미 구조를 형성하고 있는지 분석하기 위해 의미연결망 분석 기법을 적용했다. 연구대상은 영상콘텐츠 석박사학위논문의 초록을 대상으로, 시기는 문화산업 도입기인 1993년부터 2016년까지이다. 분석대상 단어는 정권별 최상위 출현단어인 영상, 미디어, 교육, 콘텐츠 등 4개 언어의 의미연결망을 분석하였다. 분석방법에는 빅데이터 분석기법인 텍스트 마이닝과 의미연결망 분석을 활용했고, 분석프로그램으로는 R을 사용했다. 연구결과는 다음과 같다. 첫째, '교육'에 대한 영향력 감소이다. 초기 영상콘텐츠 분야는 영상과 관련한 '교육', 어떻게 '표현'할 것인지에 대한 연구들이 많이 실시되었으나 점차 감소 추세를 보였다. 둘째, '미디어'의 역할 변화이다. 중기의 영상콘텐츠 분야는 영상을 전달하는 수단인 '미디어'에 대한 연구들이 주로 실시되었으며, 더불어 '디지털' 기술에 대한 연구들이 강세를 보였다. 마지막으로 '콘텐츠' 위상의 변화이다. 노무현 정부를 시작으로 내용물의 질에 관련한 '콘텐츠'에 대한 관심이 증대하였으며, <박근혜정부>에는 '영상'과 '콘텐츠'의 위상이 거의 동등해져 연구들이 실시되었다.

유튜브를 활용한 전기 자동차 결함에 대한 구전 확산 연구: 네트워크 통계분석을 중심으로 (A Study on Word-of-Mouth of an Electric Automobile using YouTube: A Focus on Statistical Network Analysis)

  • 정의범;오건택
    • 한국산업정보학회논문지
    • /
    • 제29권1호
    • /
    • pp.15-29
    • /
    • 2024
  • 최근 정보통신 기술의 발전으로 인해 유튜브는 이용자 자신의 관심사와 경험을 담은 콘텐츠를 만들어 공유함으로써 새로운 문화 현상을 창출하고 확산시키는 강력한 온라인 공간이 되었다. 특히, 제조 분야는 소비자의 직접적인 접촉도가 상대적으로 거의 없었다는 이유로 소셜미디어에 대한 연구가 거의 없었다. 기업에 있어 유튜브는 자사 제품 및 브랜드의 홍보와 같이 경영에 있어 긍정적인 효과를 가질 수 있지만, 그와 반대로 루머나 잘못된 정보로 인해 생산 단절과 같은 제조 리스크가 발생할 수 있다. 그렇기 때문에 기업은 유튜브 동영상의 특징에 따라 구전 확산에 따른 특징을 살펴볼 필요가 있다. 이에 본 연구는 유튜브에서 전기 자동차의 결함을 다루고 있는 동영상을 추출하여 구독자 수 및 조회 수에 따라 어떤 확산 네트워크 구조를 갖고 있는지를 네트워크 통계 분석을 통해서 사시점을 규명하고자 한다.

언어 네트워크 분석을 이용한 과학의 본성에 관한 국내연구 동향 (Research Trends of Studies Related to the Nature of Science in Korea Using Semantic Network Analysis)

  • 이상균
    • 대한지구과학교육학회지
    • /
    • 제9권1호
    • /
    • pp.65-87
    • /
    • 2016
  • The purpose of this study is to examine Korean journals related to science education in order to analyze research trends into Nature of science in Korea. The subject of the study is the level of Korean Citation Index (KCI-listed, KCI listing candidates), that can be searched by the key phrase, "Nature of science" in Korean language through the RISS service. In this study, the Descriptive Statistical Analysis Method is utilized to discover the number of research articles, classifying them by year and by journal. Also, the Sementic Network Analysis was conducted to Word Cloud Analysis the frequency of key words, Centrality Analysis, co-occurrence and Cluster Dendrogram Analysis throughout a variety of research articles. The results show that 91 research papers were published in 25 journals from 1991 to 2015. Specifically, the 2 major journals published more than 50% of the total papers. In relation to research fields., In addition, key phrases, such as 'Analysis', 'recognition', 'lessons', 'science textbook', 'History of Science' and 'influence' are the most frequently used among the research studies. Finally, there are small language networks that appear concurrently as below: [Nature of science - high school student - recognize], [Explicit - lesson - effect], [elementary school - science textbook - analysis]. Research topic have been gradually diversified. However, many studies still put their focus on analysis and research aspects, and there have been little research on the Teaching and learning methods.