• 제목/요약/키워드: pointwise mutual information

검색결과 8건 처리시간 0.025초

NPMI를 이용한 어휘의 감성분석 연구 (A Study on Sentiment Analysis of Words using Normalized PMI)

  • 류기곤;김현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2015년도 추계학술발표대회
    • /
    • pp.1333-1336
    • /
    • 2015
  • 감성분석은 최근 오피니언 마이닝에서 주목받고 있는 분야로써, 특정 주제, 상품, 유명인사 등에 대한 사람들의 반응을 긍정 또는 부정으로 구분하거나 점수를 이용하여 긍정 또는 부정의 강도를 분석하는데 이용되고 있다. PMI(pointwise mutual information)와 SO-PMI(semantic orientation from pointwise mutual information)는 비교적 빠르고 간편하게 극성을 판단할 수 있다는 장점이 있지만, 어휘와 기준 어휘 사이의 극성 값이 넓은 범위를 갖는다는 단점이 있다. 본 논문에서는 일상적인 언어 사용 환경에서 나타나는 어휘로부터 감성을 분석하고자 하였다. 특히 어휘의 극성 값 편차로 인해 나타날 수 있는 어려움을 보완하기 위해 NPMI(normalized pointwise mutual information)를 이용하여 어휘의 감성을 분석하였다. PMI와 NPMI를 비교 분석한 결과 어휘의 감성 강도를 나타내는 데 있어서 밀집도에서 큰 차이를 보였다.

한국농촌계획 온톨로지 구축을 위한 상호정보 기반 단어연결망 분석 (Word Network Analysis based on Mutual Information for Ontology of Korean Rural Planning)

  • 이제명
    • 농촌계획
    • /
    • 제23권3호
    • /
    • pp.37-51
    • /
    • 2017
  • There has been a growing concern on ontology especially in recent knowledge-based industry and defining a field-customized semantic word network is essential for building it. In this paper, a word network for ontology is established with 785 publications of Korean Society of Rural Planning(KSRP), from 1995 to 2017. Semantic relationships between words in the publications were quantitatively measured with the 'normalized pointwise mutual information' based on the information theory. Appearance and co-appearance frequencies of nouns and adjectives in phrases are analyzed based on the assumption that a 'noun phrase' represents a single 'concept'. The word network of KSRP was compared with that of $WordNet^{TM}$, a world-wide thesaurus network, for the verification. It is proved that the KSRP's word network, established in this paper, provides words' semantic relationships based on the common concepts of Korean rural planning research field. With the results, it is expecting that the established word network can present more opportunity for preparation of the fourth industrial revolution to the field of the Korean rural planning.

Evaluation of Similarity Analysis of Newspaper Article Using Natural Language Processing

  • Ayako Ohshiro;Takeo Okazaki;Takashi Kano;Shinichiro Ueda
    • International Journal of Computer Science & Network Security
    • /
    • 제24권6호
    • /
    • pp.1-7
    • /
    • 2024
  • Comparing text features involves evaluating the "similarity" between texts. It is crucial to use appropriate similarity measures when comparing similarities. This study utilized various techniques to assess the similarities between newspaper articles, including deep learning and a previously proposed method: a combination of Pointwise Mutual Information (PMI) and Word Pair Matching (WPM), denoted as PMI+WPM. For performance comparison, law data from medical research in Japan were utilized as validation data in evaluating the PMI+WPM method. The distribution of similarities in text data varies depending on the evaluation technique and genre, as revealed by the comparative analysis. For newspaper data, non-deep learning methods demonstrated better similarity evaluation accuracy than deep learning methods. Additionally, evaluating similarities in law data is more challenging than in newspaper articles. Despite deep learning being the prevalent method for evaluating textual similarities, this study demonstrates that non-deep learning methods can be effective regarding Japanese-based texts.

토픽모델링을 활용한 인공지능 관련 이슈 분석 (Analysis of Issues Related to Artificial Intelligence Based on Topic Modeling)

  • 노설현
    • 디지털융복합연구
    • /
    • 제18권5호
    • /
    • pp.75-87
    • /
    • 2020
  • 본 연구는 국내의 인공지능과 관련된 기사들을 LDA 알고리즘에 기반한 토픽모델링 기법으로 분석하여 인공지능 관련 주요 이슈들을 도출하고 세부적으로 분석함으로써 인공지능 기술이 전(全) 산업 분야와 융합을 통해 창출할 수 있는 새로운 가치를 통찰하고, 인공지능 기술을 지식 경영에 적용할 수 있는 분야를 도출하는데 유용한 정보를 생산하고자 하였다. 본 연구에서는 '인공지능'을 검색어로 하여 추출된 11개의 중앙지와 8개의 경제지, 주요 방송사의 2016년부터 2019년까지 3,889건의 기사를 대상으로 오픈 소프트웨어인 R을 활용한 토픽모델링 기법을 사용하여 토픽 별 키워드들을 추출하였다. 각 토픽의 키워드 간 연관성을 나타내는 PMI(Pointwise Mutual Information) 측도를 높이도록 relevance 파라미터 λ를 최적화하여 토픽 별 키워드를 추출하였으며, 키워드들로부터 타당한 근거를 바탕으로 토픽명을 추론하였다. 추출된 토픽들은 인공지능 기술의 응용 분야와 사회, 경제, 산업, 문화 전반에서 일어나고 있는 변화 및 정부의 지원 정책과 비전을 폭 넓게 나타냈다.

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 (Automatic Generating Stopword Methods for Improving Topic Model)

  • 이정빈;인호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.869-872
    • /
    • 2017
  • 정보검색(Information retrieval) 및 텍스트 분석을 위해 수집하는 비정형 데이터 즉, 자연어를 전처리하는 과정 중 하나인 불용어(Stopword) 제거는 모델의 품질을 높일 수 있는 쉽고, 효과적인 방법 중에 하나이다. 특히 다양한 텍스트 문서에 잠재된 주제를 추출하는 기법인 토픽모델링의 경우, 너무 오래되거나, 수집된 문서의 도메인이나 성격과 무관한 불용어의 제거로 인해, 해당 토픽 모델에서 학습되어 생성된 주제 관련 단어들의 일관성이 떨어지게 된다. 따라서 분석가가 분류된 주제를 올바르게 해석하는데 있어 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 일반적으로 사용되는 표준 불용어 대신 관련 도메인 문서로부터 추출되는 점별 상호정보량(PMI: Pointwise Mutual Information)을 이용하여 불용어를 자동으로 생성해주는 기법을 제안한다. 생성된 불용어와 표준 불용어를 통해 토픽 모델의 품질을 혼잡도(Perplexity)로써 측정한 결과, 본 논문에서 제안한 기법으로 생성한 30개의 불용어가 421개의 표준 불용어보다 더 높은 모델 성능을 보였다.

k-Structure를 이용한 한국어 상품평 단어 자동 추출 방법 (Automatic Extraction of Opinion Words from Korean Product Reviews Using the k-Structure)

  • 강한훈;유성준;한동일
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권6호
    • /
    • pp.470-479
    • /
    • 2010
  • 감정어 추출과 관련하여 기존 영어권 연구에서 제시된 방법의 대부분은 한국어에 직접 적용이 쉽지 않다. 한국어권 연구에서 제시된 방법 중 수작업에 의한 방법은 감정어 추출에 많은 시간이 걸린다는 문제점이 있다. 영어 시소러스 기반 한국어 감정어 추출 기술은 한국어와 영어 단어간 일대일 부정합에서부터 기인하는 정확도의 저하를 제고해야 하는 과제를 갖고 있다. 한국어 구문 분석기를 기반으로 한 연구는 출현 빈도가 낮은 감정어를 선정하지 못할 수 있는 문제점을 내포하고 있다. 본 논문에서는 한국어 상품평 중 단순한 문장에서 감정어를 자동으로 추출하는 데 있어 기존에 제안된 한국어권 연구에 상호 보완적으로 정확도를 향상시킬 수 있는 k-Structure(k=5 또는 8) 기법을 제안한다. 단순한 문장이라 함은 패턴 길이를 최대 3으로 한다. 이는 평가 대상 상품(예를 들어 '카메라')의 속성 명 f (예를 들어 카메라의 '배터리')를 기준으로 ${\pm}2$의 거리에 감정어가 포함되어 있는 문장을 의미한다. 성능 실험은 국내 주요 쇼핑몰로부터 수집한 1,868개의 상품평을 대상으로 미리 주어진 8개의 속성 명에 대한 감정어를 k-Structure를 이용하여 자동으로 추출하고 그 정확도를 평가하였다. 그 결과, k=5일 경우 평균 79.0%의 재현률, 87.0%의 정확률을 보였고, k=8일 경우 평균 92.35%의 재현률, 89.3%의 정확률을 얻을 수 있었다. 또한, 영어권 연구에서 제안된 방법 중 PMI-IR(Pointwise Mutual Information-Information Retrieval) 기법을 이용하여 실험을 수행하였다. 이 결과, 평균 55%의 재현률과 57%의 정확률을 보였다.

Cyberbullying Detection by Sentiment Analysis of Tweets' Contents Written in Arabic in Saudi Arabia Society

  • Almutairi, Amjad Rasmi;Al-Hagery, Muhammad Abdullah
    • International Journal of Computer Science & Network Security
    • /
    • 제21권3호
    • /
    • pp.112-119
    • /
    • 2021
  • Social media has become a global means of communication in people's lives. Most people are using Twitter for communication purposes and its inappropriate use, which has negative effects on people's lives. One of the widely common misuses of Twitter is cyberbullying. As the resources of dialectal Arabic are rare, so for cyberbullying most people are using dialectal Arabic. For this reason, the ultimate goal of this study is to detect and classify cyberbullying on Twitter in the Arabic context in Saudi Arabia. To help in the detection and classification of tweets, Pointwise Mutual Information (PMI) to generate a lexicon, and Support Vector Machine (SVM) algorithms are used. The evaluation is performed on both methods in terms of the F1-score. However, the F1-score after applying the PMI is 50%, while after the SVM application on the resampling data it is 82%. The analysis of the results shows that the SVM algorithm outperforms better.

A statistical analysis of vowel inventories of world languages

  • Byunggon Yang
    • 말소리와 음성과학
    • /
    • 제16권3호
    • /
    • pp.1-6
    • /
    • 2024
  • Vowels are fundamental elements of spoken language, providing insights into linguistic patterns and phonological systems. This study examines vowel inventories from 913 languages in a database, analyzing their statistical distributions. It investigates unique vowels within each language category, focusing on the two major dimensions of vowel height and backness, including diphthongs. The results show that vowel phonemes without diacritics constitute 30% of all distinct vowel types but account for 64% of the total vowel phonemes, highlighting the dominance of primary vowel articulations. The most frequent vowels are /i/, followed by /u/, /a/, /o/, /e/, /ɛ/, and /ɔ/. Multidimensional scaling of vowels, with or without diacritics, reveals distinctive clusters and co-occurrence patterns, necessitating more detailed analysis. Future research should consider the establishment of linguistic criteria on vowel representation and incorporate actual speech data for comprehensive linguistic studies.