• 제목/요약/키워드: 형태소 빈도

검색결과 71건 처리시간 0.026초

소비자 분석을 위한 감성사전 모델링 (Sentiment lexicon modeling for consumer analysis)

  • 이재웅;윤현노;문남미
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.850-853
    • /
    • 2017
  • 본 논문은, 크롤링을 통해 얻은 비정형 데이터를 'Python'의 'KoNLPy' 라이브러리를 사용해 형태소 분석한 후 텍스트 마이닝을 통한 감성사전 구축을 목표로 하고 있으며, 형태소들의 빈도수를 기반으로 가중치로 두어 선별된 단어들을 이용해 긍정과 부정으로 나누어 카테고리화 한다. 이후, 선별한 카테고리에 단어의 극성을 판단하여 감성사전을 모델링한다. 실험을 위하여, 온라인 쇼핑몰 리뷰를 크롤링하여 비정형 데이터를 수집하고, 수집한 데이터를 분석, 가공 과정을 거쳐 정형화된 단어를 추출한다. 그 후에, 리뷰에 자주 사용되는 단어를 바탕으로 카테고리를 구성하였다. 구성된 카테고리 별로 단어의 극성을 판단하여 소비자 성향을 분석한 결과, 단순히 긍정과 부정을 표현하는 범용 감성사전보다 더 세분화된 감성 사전을 구축 할 수 있었다.

자연어 처리, 통계적 기법, 적합성 검증을 이용한 자동색인 시스템에 관한 연구 (A Study on Automatic Indexing System Using natural language Processing, Statistical Technique, Relevance Verification)

  • 유춘식;우선미;유철중;이종득;권오봉;김용성
    • 한국정보처리학회논문지
    • /
    • 제5권6호
    • /
    • pp.1552-1562
    • /
    • 1998
  • 형태소 분석(Morphological Analysis)과 같은 언어학적 처리에 의존하는 기존의 한국어 문헌에 대한 자동색인 기법들은 품사의 애매모호함이나 복합명사의 처리 등으로 부담(overhead)이 크다. 또한 불용어 처리에 사용되는 불용어 리스트가 대상 문헌의 주제 분야별로 따로 구축되어야 하며 그 크기가 방대하다는 문제점이 있다. 이러한 문제점들을 해결하기 위해, 본 논문에서는 각 문헌의 텍스트에 대해 복합명사 처리나 애매모호함에 대한 엄격한 분석을 수행하지 않는 간단한 형태의 형태소 분석을 수행하여 단순명사들을 추출한다. 그런 후 이들 단순명사들을 이용하여 유한 오토마타(Finite Automata)를 구성하고, 구성된 유한 오토마타와 각 명사의 단어빈도(Term Frequency)에 의해 각 색인어 후보들의 중요도를 계산하는 자동색인 기법을 제안한다. 그 결과 품사의 애매모호함에 대한 처리나 복합명사의 처리에따른 부담을 줄일 수 있었으며, 선정된 색인어들과 수작업으로 선정한 색인어들의 비교 실험에 의해 제안한 자동색인 기법의 성능을 검증하였다.

  • PDF

온라인쇼핑몰 상품평 문법적 오류 개선을 위한 오피니언 마이닝에 대한 연구 (Research for the opinion mining for the improvement of online shopping mall review grammatical errors)

  • 박세정;황재승;김종배
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 춘계학술대회
    • /
    • pp.160-163
    • /
    • 2015
  • 현대인들은 필요한 물건들을 직접 구매하러 갈 시간이 부족하기 때문에 온라인 쇼핑몰의 이용 빈도가 늘어가고 있으며 이에 따라 온라인 쇼핑몰이 성행하고 있다. 하지만 온라인 쇼핑몰에서 물건을 구매하는 것은 물건을 눈으로 확인할 수 없다는 문제점이 있기 때문에 상품평은 구매를 결정하는데 많은 영향을 준다. 현재 온라인 쇼핑몰에서 고객이 상품평을 통해 상품에 대한 정보를 파악하기 어렵기 때문에 이를 해결하기 위한 연구들이 진행되고 있다. 이러한 연구들로 상품평의 의견을 분석하기 위한 연구로 오피니언 마이닝이 사용되고 있는 추세이다. 그러나 지금까지의 연구는 문법적인 오류, 신조어와 같이 국어사전에 등재되어 있지 않은 단어들을 감성분석기가 올바르게 판단하지 못하기 때문에 분석의 신뢰도가 떨어진다는 문제점이 있다. 그래서 형태소 분석을 실시하기 전에 신조어 사전을 추가하여 Noisy-channel model을 적용하여 더욱 정확한 감성분석이 가능하도록 하였다. 이러한 과정을 통해 가공된 정보를 바탕으로 상품평을 보다 정확하게 분석할 수 있는 시스템을 제안하고자 한다.

  • PDF

형태소분석과 인공신경망을 활용한 SNS 기반 재난알림시스템의 정확도 향상 (Improving accuracy of SNS-based Disaster Notification System using Morphological Analysis and Artificial Neural Network)

  • 이동호;강석민;김수현;조성재;박찬혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 추계학술발표대회
    • /
    • pp.881-884
    • /
    • 2017
  • 스마트 디바이스가 대중화 되면서 각종 사건 사고에 대한 데이터가 SNS 상에 실시간으로 업데이트 된다. SNS의 이런 특성을 이용하여 이용자 개개인이 사고감지센서의 역할을 하면 빠른 사고감지가 가능하다. 하지만 기존 연구들은 단순히 키워드의 출현 빈도로 사고를 판단하는 방식과, 문법파괴 요소가 많은 트위터의 특성으로 인해 정확성에서 한계를 보인다. 본 연구에서는 사고감지의 정확도를 높이기 위해 형태소로 분석한 트윗을 벡터화하여 다층퍼셉트론신경망으로 학습시키는 모델을 구현하였다. 연구 결과 일반명사로 이루어진 40개의 단어를 사용했을 때 가장 높은 82.58%의 정확도를 얻었다.

코사인 유사도 기법을 이용한 뉴스 추천 시스템 (SNS news Recommendation by Using Cosine Similarity)

  • 김상모;김형준;한인규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-166
    • /
    • 2013
  • 사용자별로 SNS/RSS 구독 뉴스 분석을 통해 사용자가 관심이 있는 새로운 뉴스를 추천해 주는 시스템을 설계하고 구현한다. 뉴스 추천 시스템의 설계를 위해 전체 시스템에서 사용자와 서버에서의 작업을 명세하고, 이중에 주요 기능을 담당하는 부분을 구현한다. 구현된 주요 기능은 선호 문서가 들어왔을 때 특징을 추출하고 이를 저장하는 것과 새로운 문서가 들어왔을 때 선호 문서군과 얼마나 유사한지 판별하여 문서에 대한 추천 여부를 결정하는 것이다. 선호 문서의 특징 추출에 대해서는 형태소 분석을 통해 단어와 빈도를 추출하고 이를 누적하여 저장한다. 또한, 새로운 문서가 들어왔을 때 코사인 유사도를 계산하여 사용자가 선호하는 학습문서와의 유사도 비교를 통해 문서 추천 여부를 결정한다. 구현된 시스템에서 실제로 연관된 선호 문서군을 학습시키고, 연관된 새로운 문서 혹은 연관되지 않은 새로운 문서에 대한 추천 여부를 비교하는 것으로 시스템 정확도를 파악한다.

  • PDF

CHILDES 코퍼스를 기반으로 한 아동의 영어 굴절형태소 발달 연구 (A Study on the Development of English Inflectional Morphemes Based on the CHILDES Corpus)

  • 민명숙;전종섭;이선영
    • 인지과학
    • /
    • 제24권3호
    • /
    • pp.203-235
    • /
    • 2013
  • 본 연구의 목적은 선행 연구에서 보고된 영어 모국어 아동의 굴절형태소 습득 과정을 대규모 언어습득 데이터베이스를 활용하여 검증하는 것이다. 이를 위해, 우리는 CHILDES(Child Language Data Exchange System) 데이터베이스에 등장하는 1-7세 영국 및 미국 아동 1,630명이 발화한 470만 어절 말뭉치를 대상으로 굴절형태소의 발달 과정을 분석하였다. 본 논문에서는 동사의 현재분사 -ing, 과거형 -(e)d, 형용사의 비교/최상급 -er/est 등의 형태소에 대해 어휘 유형(Type)과 사례(Token) 빈도, 전체 사례(Token)에 대한 유형(Type) 비율인 TTR(Type per Token Ratio), 어휘 다양성 척도인 Lexical Diversity(D) 값을 구하여 이를 국가 및 연령별로 비교, 분석하였다. 그 결과, 굴절형태소별로 연령과 D 값의 상관관계가 다르게 나타났다. 특히, 현재분사 -ing와 D 값 사이에는 주목할 만한 상관관계가 나타나지 않은 반면, 과거형 -(e)d의 경우 양의 상관관계 경향성이 보였고, 비교/최상급 -er/-est는 유의미한 상관관계를 보였다. 이는 현재진행형이 과거형보다 먼저 습득된다고 보고한 Brown(1973)의 견해를 지지한다. 다음으로, 과잉일반화에 따른 오류 표현이 2-3세 사이에 많이 나타나면서 U자형 발달 양상을 보였다. 과잉일반화도 현재분사보다 과거형에서 많이 나타났는데, 이것 또한 현재분사가 과거형보다 일찍 습득된다는 주장을 지지한다. 영국과 미국 아동의 연령별 굴절형태소 사용 양상을 비교한 결과, 미국 아동의 D 값이 영국 아동보다 높았다. 이는 미국 아동이 영국 아동보다 더 많은 어휘 유형에 대해 굴절형태소를 사용했음을 의미한다. 본 연구는 소수의 아동을 대상으로 수행된 선행 연구의 다양한 논점을 대규모 데이터베이스로 검증하고, CHILDES 코퍼스를 효율적으로 분석하는 연구 방법론을 제안했다는 점에서 의의가 있다.

  • PDF

문장 및 어절 유사도를 이용한 표절 탐지 시스템 구현 (Implementation of A Plagiarism Detecting System with Sentence and Syntactic Word Similarities)

  • 맹주수;박지수;손진곤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.109-114
    • /
    • 2019
  • 기존 표절 탐지 시스템은 형태소 분석을 기반으로 공통 단어의 빈도수를 이용해 문서의 유사도를 측정한다. 그러나 주제가 같아 유사 단어가 많이 쓰인 경우, 문장 단위로 일부만 발췌 표절한 경우, 그리고 조사와 어미의 유사성이 있는 경우는 공통 단어의 빈도수만으로는 정확한 유사도를 측정하는데 한계가 있다. 따라서 본 논문에서는 공통 단어 빈도수 기반의 유사도 측정 외에 문장 유사도와 어절 유사도를 추가적으로 측정해 유사도의 정확성을 높일 수 있는 표절 탐지 시스템을 설계하고 구현하였다. 실험 결과, 문장 유사도를 측정함으로써 문장 단위로 표절이 이루어진 경우를 발견할 수 있었고, 어절 유사도를 추가로 측정함으로써 부분표절이 일어난 경우라도 조사나 어미까지 그대로 사용한 표절의 경우 등을 발견할 수 있었다.

문서내 단어간 비교를 통한 철자오류 검출 (Detecting Spelling Errors by Comparison of Words within a Document)

  • 김동주
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권12호
    • /
    • pp.83-92
    • /
    • 2011
  • 일반 출판물과는 달리 문서 편집기를 사용하여 작성중에 있는 문서에는 사용자의 실수에 의한 오타 오류가 자주 발생한다. 이와 같은 온라인 문서에서 맞춤법 오류의 다수를 차지하는 사용자의 오타 오류는 대부분 자판을 입력할 때 주위 문자를 잘못 입력하는 경우이다. 통상적인 철자 검사기는 이러한 오류들을 형태소 분석기를 이용하여 검출하고 교정하게 된다. 즉, 입력된 어절에 대해 형태소 분석을 시도하고 분석되지 않은 어절을 철자 오류로 간주하게 된다. 그러나 오타 입력된 어절임에도 불구하고 형태소 분석에 성공한 경우에는 이와 같은 방법으로는 검출이 불가능하다. 본 논문에서는 기존 방법들이 검출하지 못했던 철자 오류들을 검출해 낼 수 있는 방법을 제시한다. 이 방법은 문서 작성자의 오타 입력은 반복하여 입력되지 않는 경향이 있으므로 저빈도로 발생한다는 특성에 기반하여 제안되었다. 저빈도의 어절의 자소 대치를 통해 문서의 특정 구간 내의 다른 단어와 비교하여 오타일 확률이 적은 단어인 자주 나오는 단어와 매칭이 된다면 일단 오류 후보로 가정하는 것이다. 여기에는 몇 가지 경험적인 제약이 추가되어야 한다. 이러한 단어간 비교에 의한 추정은 기존에 발견하지 못했던 구문오류뿐만 아니라 일부 의미오류까지 검출할 수 있으며, 교정 후보 선정시 가중치 적용에도 사용될 수 있다.

웹문서에서의 출현빈도를 이용한 한국어 미등록어 사전 자동 구축 (Automatic Construction of Korean Unknown Word Dictionary using Occurrence Frequency in Web Documents)

  • 박소영
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.27-33
    • /
    • 2008
  • 본 논문에서는 한국어 형태소 분석의 성능향상을 위해서, 어절에서 미등록어를 인식하여 자동으로 사전을 구축하는 방법을 제안한다. 제안하는 사전 구축 방법은 전문 분석 기반 사전 구축 방법과 웹 출현빈도 기반 사전 구축방법으로 구성되어 있다. 전문 분석 기반사전 구축 방법은 전체 문서에서 반복적으로 나타나는 문자열을 미등록어로 인식하고, 웹 출현빈도 기반사전 구축 방법은 반복되지 않은 문자열을 웹 문서에서 검색하여 그 출현빈도를 바탕으로 미등록어를 인식한다. 실험결과 전문 분석만을 바탕으로 하는 기존 접근방법에 비해서 웹 문서에서의 출현빈도도 함께 고려하여 제안하는 사전 구축 방법은 32.39% 정도 재현율이 높게 나타났다.

  • PDF

텍스트마이닝을 활용한 러닝 어플리케이션 사용자 리뷰 분석: Nike Run Club과 Runkeeper를 중심으로 (Analysis of User Reviews of Running Applications Using Text Mining: Focusing on Nike Run Club and Runkeeper)

  • 류기문;김일광
    • 산업융합연구
    • /
    • 제22권4호
    • /
    • pp.11-19
    • /
    • 2024
  • 본 연구의 목적은 텍스트마이닝을 활용하여 러닝 어플리케이션 사용자의 리뷰를 분석하였다. 본 연구는 python3의 selenium 패키지를 이용하여 google playstore의 Nike Run Club, Runkeeper의 사용자 리뷰들을 분석자료로 이용하였으며, okt 분석기를 통해 한글 명사만을 남겨 형태소를 분리하였다. 형태소 분리 후 rankNL 사전을 만들어 불용어(stopword)를 제거하였다. 자료 분석을 위해 텍스트마이닝의 TF(빈도분석), TF-IDF(키워드 빈도-문서 역빈도), LDA 토픽모델링을 통해 분석하였다. 본 연구의 결과는 다음과 같다. 첫째, Nike Run Club, Runkeeper 어플리케이션 사용자 리뷰에서 공통적으로 상위 키워드로 '기록', '앱', '운동'의 키워드가 도출되었으며 TF, TF-IDF의 순위에는 차이가 나타났다. 둘째, Nike Run Club의 LDA 토픽모델링으로 '기본 항목', '추가 기능', '오류 사항', '위치기반데이터'의 토픽이 도출되었고 Runkeeper는 '오류 사항', '음성 기능', '러닝 데이터', '사용 혜택', '사용 동기'의 토픽이 도출되었다. 결과를 통해 제언하면 어플리케이션의 경쟁력 향상을 기여하기 위해 오류 및 개선사항을 보완해야 한다.