• 제목/요약/키워드: 노이즈 리뷰 필터링

검색결과 3건 처리시간 0.022초

Improving Accuracy of Noise Review Filtering for Places with Insufficient Training Data

  • Hyeon Gyu Kim
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권7호
    • /
    • pp.19-27
    • /
    • 2023
  • 소셜 리뷰를 수집하는 과정에서 주어진 검색어와 상관없는 노이즈 리뷰가 검색 결과에 다수 포함될 수 있으며, 이들을 필터링하기 위해 기계 학습이 이용될 수 있다. 그러나 분석하고자 하는 대상의 리뷰 수가 부족한 경우, 학습 데이터 부족으로 인한 정확도 저하 문제가 발생할 수 있다. 본 논문에서는 리뷰 수가 부족한 플레이스를 대상으로 노이즈 리뷰 필터링의 정확도를 높이기 위한 지도 학습 방법을 소개한다. 제안 방법에서는 개별 플레이스 단위로 학습을 수행하지 않고, 특성이 유사한 여러 플레이스를 그룹으로 묶어 학습을 수행한다. 학습을 통해 얻은 분류기는 그룹에 속한 임의의 플레이스에 공통으로 적용함으로써 학습 데이터 부족 문제를 해결하고자 하였다. 제안 방법의 검증을 위해, LSTM과 BERT를 이용하여 노이즈 리뷰 필터링 모델을 구현하고, 온라인에서 수집된 실제 데이터를 활용한 실험을 통해 필터링 정확도를 체크하였다. 실험 결과, 제안 방법의 정확도는 평균 92.4% 수준이었으며, 리뷰 수가 100개 미만인 플레이스를 대상으로 할 경우 87.5%의 정확도를 제공하였다.

Efficient Keyword Extraction from Social Big Data Based on Cohesion Scoring

  • Kim, Hyeon Gyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권10호
    • /
    • pp.87-94
    • /
    • 2020
  • 블로그나 SNS 피드 등의 소셜 리뷰는 고객 관점의 의견이나 불만 사항을 반영한 키워드를 추출하기 위한 목적으로 광범위하게 활용되고 있으며, 최근 트렌드를 반영한 신조어나 고유명사를 포함하는 경우가 많다. 이들 단어는 사전에 포함되어 있지 않아 기존 형태소 분석기가 잘 인지하지 못하는 경우가 많으며, 동시에 상당한 처리 시간이 소요되어 키워드 분석 결과를 실시간으로 제공하는데 어려움이 있다. 본 논문에서는 응집도 점수 개념을 기반으로 소셜 리뷰로부터 키워드를 효율적으로 추출하기 위한 방법을 제안한다. 응집도 점수는 단어의 빈도수를 기반으로 계산되어 별도의 사전이 필요없다는 장점이 있으나, 띄어쓰기가 되지 않은 입력 데이터에 대해서는 정확도가 떨어질 수 있다. 이와 관련하여 본 논문에서는 단어 트리 구조를 이용하여 기존의 응집도 점수 계산 방법을 개선한 알고리즘을 제시한다. 또한 실험을 통해 제안하는 방법이 15.5%의 오류율을 보이는 동시에, 1,000개의 리뷰를 처리하는데 0.008초 정도 소요됨을 확인하였다.

Developing a Big Data Analysis Platform for Small and Medium-Sized Enterprises

  • Kim, Hyeon Gyu
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권8호
    • /
    • pp.65-72
    • /
    • 2020
  • 금융, 통신 등의 응용 분야에서 빅데이터는 광범위하게 활용되고 있으며, 빅데이터 분석 시장은 해마다 크게 성장하고 있다. 이에 반해 소상공인들의 빅데이터 활용 실적은 저조하며, 이는 기존 시스템이 소상공인들의 여건을 충분히 반영하지 못하는 동시에 서비스 이용 가격 역시 높다는 점에 기인한다. 이를 해결하기 위한 노력의 일환으로, 본 논문에서는 소상공인에 특화된 빅데이터 분석 서비스를 제공하는 새로운 플랫폼을 개발, 제안한다. 먼저 소셜 빅데이터 분석과 관련한 기존 연구들을 비교하고, 소상공인의 마케팅을 돕기 위해 필요한 서비스 지표들을 추출한다. 다음으로 도출된 지표들을 구현한 프로토타입 시스템을 소개하고, 구현을 통해 얻어진 시스템 완성에 필요한 기술적인 이슈들을 논의한다.