• 제목/요약/키워드: word frequency matrix

검색결과 21건 처리시간 0.037초

단어 구름과 동적 그래픽스 기법을 이용한 영어성경 텍스트 시각화 (English Bible Text Visualization Using Word Clouds and Dynamic Graphics Technology)

  • 장대흥
    • 응용통계연구
    • /
    • 제27권3호
    • /
    • pp.373-386
    • /
    • 2014
  • 단어 구름은 문자 텍스트 상의 복수개의 단어들을 대상으로 그 단어들의 출현 빈도에 비례하는 글자의 크기나 글자의 색깔로 중요도를 나타내는 텍스트 시각화 방법이다. 이 그림은 텍스트 상의 핵심단어를 재빨리 인지하고 단어들의 상대적 출현빈도수에 맞추어 배열하는 데 유용하다. 동적 그래픽스를 이용하여 텍스트 장들의 변화에 따른 핵심단어와 단어출현빈도의 패턴의 변하는 모습을 살필 수 있다. 행들이 텍스트 상의 장들이고 열들이 텍스트에 출현하는 단어들의 출현빈도수 순위들인 단어출현빈도행렬을 정의할 수 있고 이 행렬을 이용하여 단어출현빈도행렬그림을 그릴 수 있다. 동적 그래픽스를 이용하여 출현빈도수 순위의 변화에 따른 단어출현빈도행렬의 패턴의 변하는 모습을 살필 수 있다. 우리는 단어 구름과 동적 그래픽스 기법을 사용하여 영어성경 텍스트 시각화를 수행할 수 있다.

Latent Semantic Analysis Approach for Document Summarization Based on Word Embeddings

  • Al-Sabahi, Kamal;Zuping, Zhang;Kang, Yang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권1호
    • /
    • pp.254-276
    • /
    • 2019
  • Since the amount of information on the internet is growing rapidly, it is not easy for a user to find relevant information for his/her query. To tackle this issue, the researchers are paying much attention to Document Summarization. The key point in any successful document summarizer is a good document representation. The traditional approaches based on word overlapping mostly fail to produce that kind of representation. Word embedding has shown good performance allowing words to match on a semantic level. Naively concatenating word embeddings makes common words dominant which in turn diminish the representation quality. In this paper, we employ word embeddings to improve the weighting schemes for calculating the Latent Semantic Analysis input matrix. Two embedding-based weighting schemes are proposed and then combined to calculate the values of this matrix. They are modified versions of the augment weight and the entropy frequency that combine the strength of traditional weighting schemes and word embedding. The proposed approach is evaluated on three English datasets, DUC 2002, DUC 2004 and Multilingual 2015 Single-document Summarization. Experimental results on the three datasets show that the proposed model achieved competitive performance compared to the state-of-the-art leading to a conclusion that it provides a better document representation and a better document summary as a result.

SNS대상의 지능형 자연어 수집, 처리 시스템 구현을 통한 한국형 감성사전 구축에 관한 연구 (Research on Designing Korean Emotional Dictionary using Intelligent Natural Language Crawling System in SNS)

  • 이종화
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제29권3호
    • /
    • pp.237-251
    • /
    • 2020
  • Purpose The research was studied the hierarchical Hangul emotion index by organizing all the emotions which SNS users are thinking. As a preliminary study by the researcher, the English-based Plutchick (1980)'s emotional standard was reinterpreted in Korean, and a hashtag with implicit meaning on SNS was studied. To build a multidimensional emotion dictionary and classify three-dimensional emotions, an emotion seed was selected for the composition of seven emotion sets, and an emotion word dictionary was constructed by collecting SNS hashtags derived from each emotion seed. We also want to explore the priority of each Hangul emotion index. Design/methodology/approach In the process of transforming the matrix through the vector process of words constituting the sentence, weights were extracted using TF-IDF (Term Frequency Inverse Document Frequency), and the dimension reduction technique of the matrix in the emotion set was NMF (Nonnegative Matrix Factorization) algorithm. The emotional dimension was solved by using the characteristic value of the emotional word. The cosine distance algorithm was used to measure the distance between vectors by measuring the similarity of emotion words in the emotion set. Findings Customer needs analysis is a force to read changes in emotions, and Korean emotion word research is the customer's needs. In addition, the ranking of the emotion words within the emotion set will be a special criterion for reading the depth of the emotion. The sentiment index study of this research believes that by providing companies with effective information for emotional marketing, new business opportunities will be expanded and valued. In addition, if the emotion dictionary is eventually connected to the emotional DNA of the product, it will be possible to define the "emotional DNA", which is a set of emotions that the product should have.

다중빈도 키워드 가시화에 관한 연구 (A Study on Multi-frequency Keyword Visualization based on Co-occurrence)

  • 이현창;신성윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.103-104
    • /
    • 2018
  • Recently, interest in data analysis has increased as the importance of big data becomes more important. Particularly, as social media data and academic research communities become more active and important, analysis becomes more important. In this study, co-word analysis was conducted through altmetrics articles collected from 2012 to 2017. In this way, the co-occurrence network map is derived from the keyword and the emphasized keyword is extracted.

  • PDF

다중빈도 키워드 가시화에 관한 연구 (A Study on Multi-frequency Keyword Visualization based on Co-occurrence)

  • 이현창;신성윤
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.424-425
    • /
    • 2018
  • Recently, interest in data analysis has increased as the importance of big data becomes more important. Particularly, as social media data and academic research communities become more active and important, analysis becomes more important. In this study, co-word analysis was conducted through altmetrics articles collected from 2012 to 2017. In this way, the co-occurrence network map is derived from the keyword and the emphasized keyword is extracted.

  • PDF

기능적 조음장애아동과 일반아동의 어중자음 연쇄조건에서 나타나는 어중종성 오류 특성 비교 (Comparison of error characteristics of final consonant at word-medial position between children with functional articulation disorder and normal children)

  • 이란;이은주
    • 말소리와 음성과학
    • /
    • 제7권2호
    • /
    • pp.19-28
    • /
    • 2015
  • This study investigated final consonant error characteristics at word-medial position in children with functional articulation disorder. Data was collected from 11 children with functional articulation and 11 normal children, ages 4 to 5. The speech samples were collected from a naming test. Seventy-five words with every possible bi-consonants matrix at the word-medial position were used. The results of this study were as follows : First, percentage of correct word-medial final consonants of functional articulation disorder was lower than normal children. Second, there were significant differences between two groups in omission, substitution and assimilation error. Children with functional articulation disorder showed a high frequency of omission and regressive assimilation error, especially alveolarization in regressive assimilation error most. However, normal children showed a high frequency of regressive assimilation error, especially bilabialization in regressive assimilation error most. Finally, the results of error analysis according to articulation manner, articulation place and phonation type of consonants of initial consonant at word-medial, both functional articulation disorder and normal children showed a high error rate in stop sound-stop sound condition. The error rate of final consonant at word-medial position was high when initial consonant at word-medial position was alveolar sound and alveopalatal sound. Futhermore, when initial sounds were fortis and aspirated sounds, more errors occurred than linis sound was initial sound. The results of this study provided practical error characteristics of final consonant at word-medial position in children with speech sound disorder.

Empirical Comparison of Word Similarity Measures Based on Co-Occurrence, Context, and a Vector Space Model

  • Kadowaki, Natsuki;Kishida, Kazuaki
    • Journal of Information Science Theory and Practice
    • /
    • 제8권2호
    • /
    • pp.6-17
    • /
    • 2020
  • Word similarity is often measured to enhance system performance in the information retrieval field and other related areas. This paper reports on an experimental comparison of values for word similarity measures that were computed based on 50 intentionally selected words from a Reuters corpus. There were three targets, including (1) co-occurrence-based similarity measures (for which a co-occurrence frequency is counted as the number of documents or sentences), (2) context-based distributional similarity measures obtained from a latent Dirichlet allocation (LDA), nonnegative matrix factorization (NMF), and Word2Vec algorithm, and (3) similarity measures computed from the tf-idf weights of each word according to a vector space model (VSM). Here, a Pearson correlation coefficient for a pair of VSM-based similarity measures and co-occurrence-based similarity measures according to the number of documents was highest. Group-average agglomerative hierarchical clustering was also applied to similarity matrices computed by individual measures. An evaluation of the cluster sets according to an answer set revealed that VSM- and LDA-based similarity measures performed best.

경상 방언 의문문 작용역의 지각 구분 (Perceptual discrimination of wh-scopes in Gyeongsang Korean)

  • 윤원희
    • 말소리와 음성과학
    • /
    • 제14권2호
    • /
    • pp.1-10
    • /
    • 2022
  • 내포문에 위치한 의문사 구는 의문사 억양으로 발화되었을 경우 모문의 작용역으로 해석되는 것으로 알려져 있다. 40명의 경상 방언 화자가 모문 작용역으로 해석되는 문맥 속에서 발화한 동일 문장 발화를 자극으로 하여, 그 작용역을 판단하는 지각 실험이 24명의 경상 방언 화자를 대상으로 이루어졌다. 자극당 3회 청취로, 문장당 72개 응답이 수집되었으며, 40개 중 20개의 자극에서 36회 이상의 내포문 작용역 응답이 나타났다. 이는 경상 방언에서 명시적으로 의문사의 작용역을 표시하는 종결어미가 있음에도 불구하고 적절한 의문사 억양으로 발화하지 못하는 화자가 다수 있음을 보여준다. 다중 회귀 분석을 통해 모문 작용역 응답을 가장 잘 예측하는 운율 단서는 내포 동사와 보문소가 나타나는 어절의 돋들림 크기로, 해당 어절의 fundamental frequency(F0) 정점에서 보문소에 나타난 F0값을 차감한 수치로 계산되며, 이 돋들림이 크면 클수록 내포문 작용역으로 판단하는 음의 상관관계를 가진 것으로 나타났다. 이처럼 의문사 작용역은 내포문 동사와 보문소가 있는 어절의 돋들림 크기에 기반한 범주적 인지로 나타나며 인지의 경곗값은 실험 참가자에 따라 매우 다르게, 큰 차이를 보이는 결과로 나타났다.

카테고리 중립 단어 활용을 통한 주가 예측 방안: 텍스트 마이닝 활용 (Stock Price Prediction by Utilizing Category Neutral Terms: Text Mining Approach)

  • 이민식;이홍주
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.123-138
    • /
    • 2017
  • 주식 시장은 거래자들의 기업과 시황에 대한 기대가 반영되어 움직이기에, 다양한 원천의 텍스트 데이터 분석을 통해 주가 움직임을 예측하려는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 것이기에 단순히 주가의 등락 뿐만이 아니라, 뉴스 기사나 소셜 미디어의 반응에 따라 거래를 하고 이에 따른 수익률을 분석하는 연구들이 진행되어 왔다. 주가의 움직임을 예측하는 연구들도 다른 분야의 텍스트 마이닝 접근 방안과 동일하게 단어-문서 매트릭스를 구성하여 분류 알고리즘에 적용하여 왔다. 문서에 많은 단어들이 포함되어 있기 때문에 모든 단어를 가지고 단어-문서 매트릭스를 만드는 것보다는 단어가 문서를 범주로 분류할 때 기여도가 높은 단어들을 선정하여야 한다. 단어의 빈도를 고려하여 너무 적은 등장 빈도나 중요도를 보이는 단어는 제거하게 된다. 단어가 문서를 정확하게 분류하는 데 기여하는 정도를 측정하여 기여도에 따라 사용할 단어를 선정하기도 한다. 단어-문서 매트릭스를 구성하는 기본적인 방안인 분석의 대상이 되는 모든 문서를 수집하여 분류에 영향력을 미치는 단어를 선정하여 사용하는 것이었다. 본 연구에서는 개별 종목에 대한 문서를 분석하여 종목별 등락에 모두 포함되는 단어를 중립 단어로 선정한다. 선정된 중립 단어 주변에 등장하는 단어들을 추출하여 단어-문서 매트릭스 생성에 활용한다. 중립 단어 자체는 주가 움직임과 연관관계가 적고, 중립 단어의 주변 단어가 주가 상승에 더 영향을 미칠 것이라는 생각에서 출발한다. 생성된 단어-문서 매트릭스를 가지고 주가의 등락 여부를 분류하는 알고리즘에 적용하게 된다. 본 연구에서는 종목 별로 중립 단어를 1차 선정하고, 선정된 단어 중에서 다른 종목에도 많이 포함되는 단어는 추가적으로 제외하는 방안을 활용하였다. 온라인 뉴스 포털을 통해 시가 총액 상위 10개 종목에 대한 4개월 간의 뉴스 기사를 수집하였다. 3개월간의 뉴스 기사를 학습 데이터로 분류 모형을 수립하였으며, 남은 1개월간의 뉴스 기사를 모형에 적용하여 다음 날의 주가 움직임을 예측하였다. 본 연구에서 제안하는 중립 단어 활용 알고리즘이 희소성에 기반한 단어 선정 방안에 비해 우수한 분류 성과를 보였다.

LSA모형에서 다의어 의미의 표상 (Representation of ambiguous word in Latent Semantic Analysis)

  • 이태헌;김청택
    • 인지과학
    • /
    • 제15권2호
    • /
    • pp.23-31
    • /
    • 2004
  • 잠재의미분석은 단어 의미를 동일한 맥락 (문장/문서) 하에서 동시에 제시되는 단어들의 공기성(co-occurence)으로 정의한다. 이 분석에서 한 단어는 맥락들을 대표하는 측들로 구성된 다차원 상의 한 점으로 표상 되며, 단어 의미는 각 단어가 맥락 속에서 등장한 빈도로 정의된다. 이 다차원 의미공간은 SVD를 통하여 차원이 축소되어 추상된 의미를 표상 한다. 이 연구는 다의어의 표상이 가능하도록 LSA를 발전시켰다. 제안된 LSA는 축에 대한 해석이 가능하도록 축의 회전을 도입하였으며 다의어 표상을 가능하게 하였다. 시뮬레이션에서는, 먼저 LSA에 의해 산출된 단어-맥락 빈도표에서 다의어를 포함하고 있는 문서들만을 재 수집한 다음 문서들을 다의어 의미별로 분류하였다. 두 번째 단계에서는 다의어의 특정의미에 대한 표상을 분류된 단어-맥락 빈도표에서 비해당 의미에 대한 맥락들을 제거한 후 LSA를 적용하여 구성하였다. 시뮬레이션 결과는 다의어의 의미들을 LSA가 표상 할 수 있음을 보여주었다. 이는 축회전을 포함한 LSA가 다의어 다중의미를 표상 할 수 있고 실용적인 측면에서 웹검색 엔진에도 적용될 수 있음을 시사한다.

  • PDF