• 제목/요약/키워드: Korean Natural Language Processing

검색결과 515건 처리시간 0.022초

정보 검색을 위한 숫자의 해석에 관한 구문적.의미적 판별 기법 (Syntactic and Semantic Disambiguation for Interpretation of Numerals in the Information Retrieval)

  • 문유진
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권8호
    • /
    • pp.65-71
    • /
    • 2009
  • 월드 와이드 웹의 정보 검색에서 산출되어지는 수많은 정보를 효율적으로 검색하기 위해서 자연어 정보처리가 필수적이다. 이 논문은 텍스트에서 숫자의 의미 파악을 위한 판별기법을 제안한 것이다. 숫자 의미 판별기법은 챠트 파싱 기법과 함께 문맥자유 문법을 활용하여 숫자 스트링과 연관된 접사를 해석하였으며, N-그램 기반의 단어에 의거하여 조직화된 의미 파악을 하도록 설계되었다. 그리고 POS 태거를 사용하여 트라이그램 단어의 제한조건이 자동 인식되도록 시스템을 구성하여, 점진적으로 효율적인 숫자의 의미 파악을 하도록 하였다. 이 논문에서 제안한 숫자 해석 시스템을 실험한 결과, 빈도수 비례 방법은 86.3%의 정확률을 나타냈고 조건수 비례 방법은 82.8%의 정확률을 나타냈다.

인터넷 채팅 도메인에서의 감성정보를 이용한 타관점 사용자 선호도 학습 방법 (Multi-perspective User Preference Learning in a Chatting Domain)

  • 신욱현;정윤재;맹성현;한경수
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권1호
    • /
    • pp.1-8
    • /
    • 2009
  • 개인화 서비스와 같은 지능정보 시스템을 위해서는 사용자 선호도의 학습은 중요한 연구 분야이다. 본 연구에서는 채팅 도메인에서의 사용자 선호도를 학습하는 방법을 제시하며, 기존의 평면적인 사용자 선호도 모델의 문제점을 해결하기 위한 사용자 선호도 모델을 제안한다. 사용자가 선호도 학습의 대상에 대하여 얼마나 관심이 있는가를 나타내는 관심도와 대상에 대한 감성을 나타내는 호감도 라는 요소로 모델링 할 수 있다. 자연어 처리를 통해 현재 대화에서의 주제 탐지와 호감도 분석을 하고, 이를 이용하여 사용자의 선호도와 호감도를 학습한다. 시간의 흐름에 따라 변하는 사용자 선호도의 특징을 고려하여, 사용자 선호도를 세션, 단기, 장기 선호도로 나누어 계산한다. 사용자선호도 학습의 대상이 되는 키워드와 주제에 대하며 시간에 따라 변하는 사용자의 선호도 변화를 고려하여 선호도 결정을 한다 사용자 선호도 학습 효과의 검증을 위하여 사용자 평가를 하였으며 주제 선호도, 키워드 선호도, 키워드 호감도에 대하여 각각 86.52%, 86.28%, 87.22%의 성능을 보였다.

유튜브 악성 댓글 탐지를 위한 LSTM 기반 기계학습 시스템 설계 및 구현 (Design and Implementation of a LSTM-based YouTube Malicious Comment Detection System)

  • 김정민;국중진
    • 스마트미디어저널
    • /
    • 제11권2호
    • /
    • pp.18-24
    • /
    • 2022
  • 많은 소셜 서비스 상에서 악성 댓글로 인한 문제가 발생되고 있으며, 특히 매체로서의 성격이 강한 유튜브는 모바일기기를 이용한 쉬운 접근성으로 인해 악성 댓글로 인한 폐해가 더욱 커지고 있는 실정이다. 본 논문에서는 LSTM 기반의 자연어 처리를 통해 유튜브 콘텐츠에 대한 악성 댓글을 판별하고 악성 댓글의 비율, 악플러들의 닉네임, 그리고 빈도를 시각적으로 표현해 주기 위한 유튜브 악성 댓글 탐지 시스템을 설계하고 구현하였으며, 성능을 평가하였다. 약 5만 개의 댓글 데이터셋을 통해 악성 댓글 여부를 판별하였을 때, 약 92%의 정확도로 악성 댓글을 검출해 낼 수 있었으며, 이를 활용하여 악성 댓글의 통계가 자동으로 생성되도록 함으로써 많은 유튜버들이 겪는 악성 댓글로 인한 사회적 문제를 해결할 수 있을 것으로 기대한다.

ProphetNet 모델을 활용한 시계열 데이터의 열화 패턴 기반 Health Index 연구 (A Study on the Health Index Based on Degradation Patterns in Time Series Data Using ProphetNet Model)

  • 원선주;김용수
    • 산업경영시스템학회지
    • /
    • 제46권3호
    • /
    • pp.123-138
    • /
    • 2023
  • The Fourth Industrial Revolution and sensor technology have led to increased utilization of sensor data. In our modern society, data complexity is rising, and the extraction of valuable information has become crucial with the rapid changes in information technology (IT). Recurrent neural networks (RNN) and long short-term memory (LSTM) models have shown remarkable performance in natural language processing (NLP) and time series prediction. Consequently, there is a strong expectation that models excelling in NLP will also excel in time series prediction. However, current research on Transformer models for time series prediction remains limited. Traditional RNN and LSTM models have demonstrated superior performance compared to Transformers in big data analysis. Nevertheless, with continuous advancements in Transformer models, such as GPT-2 (Generative Pre-trained Transformer 2) and ProphetNet, they have gained attention in the field of time series prediction. This study aims to evaluate the classification performance and interval prediction of remaining useful life (RUL) using an advanced Transformer model. The performance of each model will be utilized to establish a health index (HI) for cutting blades, enabling real-time monitoring of machine health. The results are expected to provide valuable insights for machine monitoring, evaluation, and management, confirming the effectiveness of advanced Transformer models in time series analysis when applied in industrial settings.

Research on analysis of articleable advertisements and design of extraction method for articleable advertisements using deep learning

  • Seoksoo Kim;Jae-Young Jung
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권6호
    • /
    • pp.13-22
    • /
    • 2024
  • 기사성광고의 필요성과 긍정적인면도 존재하나, 일부 무분별한 '기사성 광고'로 인하여 과장되고 위장된 정보를 전달함에 따라 독자들은 일반기사와 기사성 광고의 구별이 어려움에 따라 많은 정보의 오인과 혼란을 하고 있다. 독자들은 앞으로도 계속 새로운 정보를 획득하고 이러한 정보를 적재적소에 적용하여 많은 가치를 가져와야 하기에, 정확한 일반기사와 기사성 광고를 식별하는 것이 더욱이 중요하다고 판단된다. 따라서 일반기사와 기사성 광고의 구별된 정보를 필요로 하기에, 이러한 일환으로, 인터넷신문에서 이러한 무분별한 기사성 광고로 인한 정확한 정보식별의 어려움이 많은 독자들을 위해, 본 논문에서는 IT기술과 AI기술을 접목한 시스템측면에서 해결할 수 있는 방법을 제시하고자 하였으며, 이러한 방법은 광고성 키워드를 찾아내어 정제해주는 지식기반 자연어처리 방법과 딥러닝기술을 이용한 기사성 광고를 추출하고자 설계 하였다.

F_MixBERT: Sentiment Analysis Model using Focal Loss for Imbalanced E-commerce Reviews

  • Fengqian Pang;Xi Chen;Letong Li;Xin Xu;Zhiqiang Xing
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제18권2호
    • /
    • pp.263-283
    • /
    • 2024
  • Users' comments after online shopping are critical to product reputation and business improvement. These comments, sometimes known as e-commerce reviews, influence other customers' purchasing decisions. To confront large amounts of e-commerce reviews, automatic analysis based on machine learning and deep learning draws more and more attention. A core task therein is sentiment analysis. However, the e-commerce reviews exhibit the following characteristics: (1) inconsistency between comment content and the star rating; (2) a large number of unlabeled data, i.e., comments without a star rating, and (3) the data imbalance caused by the sparse negative comments. This paper employs Bidirectional Encoder Representation from Transformers (BERT), one of the best natural language processing models, as the base model. According to the above data characteristics, we propose the F_MixBERT framework, to more effectively use inconsistently low-quality and unlabeled data and resolve the problem of data imbalance. In the framework, the proposed MixBERT incorporates the MixMatch approach into BERT's high-dimensional vectors to train the unlabeled and low-quality data with generated pseudo labels. Meanwhile, data imbalance is resolved by Focal loss, which penalizes the contribution of large-scale data and easily-identifiable data to total loss. Comparative experiments demonstrate that the proposed framework outperforms BERT and MixBERT for sentiment analysis of e-commerce comments.

The new frontier: utilizing ChatGPT to expand craniofacial research

  • Andi Zhang;Ethan Dimock;Rohun Gupta;Kevin Chen
    • 대한두개안면성형외과학회지
    • /
    • 제25권3호
    • /
    • pp.116-122
    • /
    • 2024
  • Background: Due to the importance of evidence-based research in plastic surgery, the authors of this study aimed to assess the accuracy of ChatGPT in generating novel systematic review ideas within the field of craniofacial surgery. Methods: ChatGPT was prompted to generate 20 novel systematic review ideas for 10 different subcategories within the field of craniofacial surgery. For each topic, the chatbot was told to give 10 "general" and 10 "specific" ideas that were related to the concept. In order to determine the accuracy of ChatGPT, a literature review was conducted using PubMed, CINAHL, Embase, and Cochrane. Results: In total, 200 total systematic review research ideas were generated by ChatGPT. We found that the algorithm had an overall 57.5% accuracy at identifying novel systematic review ideas. ChatGPT was found to be 39% accurate for general topics and 76% accurate for specific topics. Conclusion: Craniofacial surgeons should use ChatGPT as a tool. We found that ChatGPT provided more precise answers with specific research questions than with general questions and helped narrow down the search scope, leading to a more relevant and accurate response. Beyond research purposes, ChatGPT can augment patient consultations, improve healthcare equity, and assist in clinical decision-making. With rapid advancements in artificial intelligence (AI), it is important for plastic surgeons to consider using AI in their clinical practice to improve patient-centered outcomes.

오피니언 마이닝 기법을 이용한 사회적 재난의 시민 감성도 분석 (Citizen Sentiment Analysis of the Social Disaster by Using Opinion Mining)

  • 서민송;유환희
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.37-46
    • /
    • 2017
  • 최근 우리나라는 사회적 요인에 의한 재난이 빈번하게 발생하고 있다. 어떤 위기가 도시민들을 위협할지 예측하기 어려워 우려가 높아지고 있다. 따라서 본 연구에서는 Python언어 기반 Tweepy 플러그인을 적용하여 트윗 데이터를 취득하는 프로그램을 개발하고, 자연어 처리 후 R Studio프로그램에서 텍스트 클러스터링 분석과 오피니언 마이닝 분석을 통하여 시민들의 건강에 영향을 미치는 성분이 검출된 '옥시'와 시민들에게 많은 공포감을 주었던 '묻지마 범죄'와 같은 사회적 재난에 대해 정신적 충격과 불안감을 평가하였다. 텍스트 클러스터링 분석에서 '옥시' 사건은 '정부의 대처능력이 세월호 사건과의 연관성', '옥시제품의 철수지시에도 여전한 판매' 등이 가장 높은 관심도를 보였다. 그리고 '묻지마 범죄' 사건은 '스크린 도어 사건, 세월호 사건 등 예측 못하는 사건에 대한 정부의 대응, 대책', '강남역, 부산의 범죄가 여성혐오로 인한 것' 등이 가장 높은 관심도를 보였다. 또한, 두 범죄를 비교 분석 하였을 때 묻지마 범죄에 대해 시민 감성도 평균 지수가 11.61%p 더 부정적이라는 것을 알 수 있었다.

영어 리뷰데이터를 이용한 딥러닝 기반 다국어 감성분석 (Deep learning-based Multilingual Sentimental Analysis using English Review Data)

  • 성재경;김영복;김용국
    • 한국인터넷방송통신학회논문지
    • /
    • 제19권3호
    • /
    • pp.9-15
    • /
    • 2019
  • 영어로 된 아마존과 같은 대형 글로벌 온라인 쇼핑몰은 전 세계를 대상으로 영어 또는 판매 해당국가 언어로 서비스를 하고 있다. 온라인 쇼핑몰 이용자 중, 많은 고객은 상품 리뷰평가를 참조하여 상품을 구매하고 있다. 그래서 고객들이 작성한 대량의 리뷰데이터를 이용하여 구매 상품에 대해 긍정과 부정을 판정하는 감성분석을 영어를 중심으로 활발히 연구되고 분석 결과는 고객의 타켓 마케팅에 활용되고 있다. 하지만 이와 같은 영어 중심의 감성분석 시스템을 전 세계의 다양한 언어에 그대로 적용하기는 어렵다. 따라서 본 연구에서는 영어로 된 50만개 이상의 아마존 푸드 상품 리뷰데이터를 학습과 테스트 데이터로 분리하여 딥러닝 기술 기반의 감성분석 시스템을 구현하였다. 먼저 영어 테스트데이터의 3가지 모델에 대한 감성분석 평가 실험을 한 후에, 같은 데이터를 자동번역기로 7개국(한국어, 일본어, 중국어, 베트남어, 불어, 독어, 영어) 언어로 번역 후에 다시 영어로 번역하여 실험 결과를 얻었다. 감성분석 정확성은 영어(94.35%)에 비해 각 7개국 언어의 평균(91.59%)보다 정확도가 2.77% 정도 낮게 나왔으나 번역 성능 수준에서 실용 가능성을 확인하였다.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.