• Title/Summary/Keyword: SentenceBERT

검색결과 43건 처리시간 0.024초

텍스트 데이터의 정보 손실을 방지하기 위한 군집화 기반 언더샘플링 기법 (A Clustering-based Undersampling Method to Prevent Information Loss from Text Data)

  • 김종휘;신사임;장진예
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-256
    • /
    • 2022
  • 범주 불균형은 분류 모델이 다수 범주에 편향되게 학습되어 소수 범주에 대한 분류 성능을 떨어뜨리는 문제를 야기한다. 언더 샘플링 기법은 다수 범주 데이터의 수를 줄여 소수 범주와 균형을 이루게하는 대표적인 불균형 해결 방법으로, 텍스트 도메인에서의 기존 언더 샘플링 연구에서는 단어 임베딩과 랜덤 샘플링과 같은 비교적 간단한 기법만이 적용되었다. 본 논문에서는 트랜스포머 기반 문장 임베딩과 군집화 기반 샘플링 방법을 통해 텍스트 데이터의 정보 손실을 최소화하는 언더샘플링 방법을 제안한다. 제안 방법의 검증을 위해, 감성 분석 실험에서 제안 방법과 랜덤 샘플링으로 추출한 훈련 세트로 모델을 학습하고 성능을 비교 평가하였다. 제안 방법을 활용한 모델이 랜덤 샘플링을 활용한 모델에 비해 적게는 0.2%, 많게는 2.0% 높은 분류 정확도를 보였고, 이를 통해 제안하는 군집화 기반 언더 샘플링 기법의 효과를 확인하였다.

  • PDF

BERT를 활용한 초등학교 고학년의 욕설문장 자동 분류방안 연구 (A Study on Automatic Classification of Profanity Sentences of Elementary School Students Using BERT)

  • 심재권
    • 창의정보문화연구
    • /
    • 제7권2호
    • /
    • pp.91-98
    • /
    • 2021
  • 코로나19로 인해 초등학생이 온라인 환경에 머무는 시간이 증가함에 따라 작성하는 게시글, 댓글, 채팅의 양이 증가하였고, 타인의 감정을 상하게 하거나 욕설을 하는 등의 문제가 발생하고 있다. 네티켓을 초등학교에서 교육하고 있지만, 교육시간이 부족할 뿐 아니라 행동의 변화까지 기대하기는 어려움이 있어 자연어처리를 통한 기술적인 지원이 필요한 상황이다. 본 연구는 초등학생이 작성하는 문장에 사전언어학습 모델에 적용하여 자동으로 욕설문장을 필터링하는 실험을 진행하였다. 실험은 온라인 학습 플랫폼에서 초등학교 4-6학년의 채팅내역을 수집하였고, 채팅 내역중에 욕설로 신고되어 판정된 욕설문장을 함께 수집하여 사전학습된 언어모델을 통해 훈련하였다. 실험결과, 욕설문장을 분류한 결과 75%의 정확률을 보이는 것으로 분석되어 학습 데이터가 충분히 보완된다면, 초등학생이 사용하는 온라인 플랫폼에서 적용할 수 있음을 보여주었다.

InferSent를 활용한 오픈 도메인 기계독해 (Open Domain Machine Reading Comprehension using InferSent)

  • 김정훈;김준영;박준;박성욱;정세훈;심춘보
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.89-96
    • /
    • 2022
  • 오픈 도메인 기계독해는 질문과 연관된 단락이 존재하지 않아 단락을 검색하는 검색 기능을 추가한 모델이다. 문서 검색은 단어 빈도 기반인 TF-IDF로 많은 연구가 진행됐으나 문서의 양이 많아지면 낮은 성능을 보이는 문제가 있다. 아울러 단락 선별은 단어 기반 임베딩으로 많은 연구가 진행됐으나 문장의 특징을 가지는 단락의 문맥을 정확히 추출하지 못하는 문제가 있다. 그리고 문서 독해는 BERT로 많은 연구가 진행됐으나 방대한 파라미터로 느린 학습 문제를 보였다. 본 논문에서는 언급한 3가지 문제를 해결하기 위해 문서의 길이까지 고려한 BM25를 이용하며 문장 문맥을 얻기 위해 InferSent를 사용하고, 파라미터 수를 줄이기 위해 ALBERT를 이용한 오픈 도메인 기계독해를 제안한다. SQuAD1.1 데이터셋으로 실험을 진행했다. 문서 검색은 BM25의 성능이 TF-IDF보다 3.2% 높았다. 단락 선별은 InferSent가 Transformer보다 0.9% 높았다. 마지막으로 문서 독해에서 단락의 수가 증가하면 ALBERT가 EM에서 0.4%, F1에서 0.2% 더 높았다.

AI를 활용한 비정형 문서정보의 공간정보화 (Spatialization of Unstructured Document Information Using AI)

  • 윤상원;박정우;남광우
    • 한국지리정보학회지
    • /
    • 제26권3호
    • /
    • pp.37-51
    • /
    • 2023
  • 도시현상의 해석을 위해 공간정보는 필수적이다. 위치정보가 부족한 도시정보를 공간정보로 변환하기 위한 공간정보화 방법론이 꾸준히 개발되어왔다. 정형화된 주소정보나 지명 등을 이용한 Geocoding이나 이미 위치정보가 있는 공간정보와의 공간결합, 참조데이터를 활용한 수작업 형태 등이 대표적이다. 그러나 아직도 행정기관에서 작성되는 수많은 문서정보들은 비정형화된 문서형태로 인해 공간정보화의 수요가 있음에도 그동안 깊이 있게 다루어지지 못하였다. 본 연구는 자연어 처리 모델인 BERT를 활용하여 도시계획과 관련된 공개문서의 공간정보화를 진행한다. 주소가 포함된 문장 요소를 문서로부터 추출하고, 이를 정형화된 데이터로 변환하는 과정을 중점적으로 다룬다. 18년 동안의 도시계획 고시공고문을 학습 데이터로 사용하여 BERT 모델을 학습시켰으며, 모델의 하이퍼파라미터를 직접 조정하여 성능을 향상시켰다. 모델 학습 후의 테스트 결과, 도시계획시설의 유형을 분류하는 모델은 96.6%, 주소 인식 모델은 98.5%, 주소 정제 모델은 93.1%의 정확도를 보였다. 결과 데이터를 GIS 상에 맵핑하였을 때, 특정 지점의 도시계획시설에 관한 변경 이력을 효과적으로 표출할 수 있었다. 본 연구로 도시계획 문서의 공간적 맥락에 대한 깊은 이해를 제공하며, 이를 통해 이해관계자들이 더욱 효과적인 의사결정을 할 수 있게 지원하기를 기대한다.

사회문제 해결 연구보고서 기반 문장 의미 식별 데이터셋 구축 (Building Sentence Meaning Identification Dataset Based on Social Problem-Solving R&D Reports)

  • 신현호;정선기;전홍우;권이남;이재민;박강희;최성필
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.159-172
    • /
    • 2023
  • 일반적으로 사회문제 해결 연구는 과학기술을 활용하여 다양한 사회적 현안들에 의미있는 해결 방안을 제시함으로써 중요한 사회적 가치를 창출하는 것을 연구 목표로 한다. 그러나 사회문제와 쟁점을 완화하기 위하여 많은 연구들이 국가적으로 수행되었음에도 불구하고 여전히 많은 사회문제가 남아 있는 상황이다. 사회문제 해결 연구의 전 과정을 원활하게 하고 그 효과를 극대화하기 위해서는 사회적으로 시급한 현안들에 대한 문제를 명확하게 파악하는 것이 중요하다. 사회문제 해결과 관련된 기존 R&D 보고서와 같은 자료에서 중요한 사안을 자동으로 식별할 수 있다면 사회문제 파악 단계가 크게 개선될 수 있다. 따라서 본 논문은 다양한 국가 연구보고서에서 사회문제와 해결방안을 자동으로 감지하기 위한 기계학습 모델을 구축하는 데에 필수적인 데이터셋을 제안하고자 한다. 우선 데이터를 구축하기 위해 사회문제와 쟁점을 다룬 연구보고서를 총 700건 수집하였다. 수집된 연구보고서에서 사회문제, 목적, 해결 방안 등 사회문제 해결과 관련된 내용이 담긴 문장을 추출 후 라벨링을 수행하였다. 또한 4개의 사전학습 언어모델을 기반으로 분류 모델을 구현하고 구축된 데이터셋을 통해 일련의 성능 실험을 수행하였다. 실험 결과 KLUE-BERT 사전학습 언어모델을 미세조정한 모델이 정확도 75.853%, F1 스코어 63.503%로 가장 높은 성능을 보였다.

최신 기계번역 품질 예측 연구 (Research on Recent Quality Estimation)

  • 어수경;박찬준;문현석;서재형;임희석
    • 한국융합학회논문지
    • /
    • 제12권7호
    • /
    • pp.37-44
    • /
    • 2021
  • 기계번역 품질 예측(Quality Estimation, QE)은 정답 문장(Reference sentence) 없이도 기계번역 결과의 질을 평가할 수 있으며, 활용도가 높다는 점에서 그 필요성이 대두되고 있다. Conference on machine translation(WMT)에서 매년 이와 관련한 shared task가 열리고 있고 최근에는 대용량 데이터 기반 Pretrained language model(PLM)을 적용한 연구들이 주로 진행되고 있다. 본 논문에서는 기계번역 품질 예측 task에 대한 설명 및 연구 동향에 대한 전반적인 survey를 진행했고, 최근 자주 활용되는 PLM의 특징들에 대해 정리하였다. 더불어 아직 활용된 바가 없는 multilingual BART 모델을 이용하여 기존 연구들인 XLM, multilingual BERT, XLM-RoBERTa와 의 비교 실험 및 분석을 진행하였다. 실험 결과 어떤 사전 학습된 다중언어 모델이 QE에 적용했을 때 가장 효과적인지 확인하였을 뿐 아니라 multilingual BART 모델의 QE 태스크 적용 가능성을 확인했다.

Modern Methods of Text Analysis as an Effective Way to Combat Plagiarism

  • Myronenko, Serhii;Myronenko, Yelyzaveta
    • International Journal of Computer Science & Network Security
    • /
    • 제22권8호
    • /
    • pp.242-248
    • /
    • 2022
  • The article presents the analysis of modern methods of automatic comparison of original and unoriginal text to detect textual plagiarism. The study covers two types of plagiarism - literal, when plagiarists directly make exact copying of the text without changing anything, and intelligent, using more sophisticated techniques, which are harder to detect due to the text manipulation, like words and signs replacement. Standard techniques related to extrinsic detection are string-based, vector space and semantic-based. The first, most common and most successful target models for detecting literal plagiarism - N-gram and Vector Space are analyzed, and their advantages and disadvantages are evaluated. The most effective target models that allow detecting intelligent plagiarism, particularly identifying paraphrases by measuring the semantic similarity of short components of the text, are investigated. Models using neural network architecture and based on natural language sentence matching approaches such as Densely Interactive Inference Network (DIIN), Bilateral Multi-Perspective Matching (BiMPM) and Bidirectional Encoder Representations from Transformers (BERT) and its family of models are considered. The progress in improving plagiarism detection systems, techniques and related models is summarized. Relevant and urgent problems that remain unresolved in detecting intelligent plagiarism - effective recognition of unoriginal ideas and qualitatively paraphrased text - are outlined.

Korean Text to Gloss: Self-Supervised Learning approach

  • Thanh-Vu Dang;Gwang-hyun Yu;Ji-yong Kim;Young-hwan Park;Chil-woo Lee;Jin-Young Kim
    • 스마트미디어저널
    • /
    • 제12권1호
    • /
    • pp.32-46
    • /
    • 2023
  • Natural Language Processing (NLP) has grown tremendously in recent years. Typically, bilingual, and multilingual translation models have been deployed widely in machine translation and gained vast attention from the research community. On the contrary, few studies have focused on translating between spoken and sign languages, especially non-English languages. Prior works on Sign Language Translation (SLT) have shown that a mid-level sign gloss representation enhances translation performance. Therefore, this study presents a new large-scale Korean sign language dataset, the Museum-Commentary Korean Sign Gloss (MCKSG) dataset, including 3828 pairs of Korean sentences and their corresponding sign glosses used in Museum-Commentary contexts. In addition, we propose a translation framework based on self-supervised learning, where the pretext task is a text-to-text from a Korean sentence to its back-translation versions, then the pre-trained network will be fine-tuned on the MCKSG dataset. Using self-supervised learning help to overcome the drawback of a shortage of sign language data. Through experimental results, our proposed model outperforms a baseline BERT model by 6.22%.

이미지 캡셔닝 기반의 새로운 위험도 측정 모델 (A Novel Image Captioning based Risk Assessment Model)

  • 전민성;고재필;최경주
    • 한국정보시스템학회지:정보시스템연구
    • /
    • 제32권4호
    • /
    • pp.119-136
    • /
    • 2023
  • Purpose We introduce a groundbreaking surveillance system explicitly designed to overcome the limitations typically associated with conventional surveillance systems, which often focus primarily on object-centric behavior analysis. Design/methodology/approach The study introduces an innovative approach to risk assessment in surveillance, employing image captioning to generate descriptive captions that effectively encapsulate the interactions among objects, actions, and spatial elements within observed scenes. To support our methodology, we developed a distinctive dataset comprising pairs of [image-caption-danger score] for training purposes. We fine-tuned the BLIP-2 model using this dataset and utilized BERT to decipher the semantic content of the generated captions for assessing risk levels. Findings In a series of experiments conducted with our self-constructed datasets, we illustrate that these datasets offer a wealth of information for risk assessment and display outstanding performance in this area. In comparison to models pre-trained on established datasets, our generated captions thoroughly encompass the necessary object attributes, behaviors, and spatial context crucial for the surveillance system. Additionally, they showcase adaptability to novel sentence structures, ensuring their versatility across a range of contexts.

Aspect-based Sentiment Analysis of Product Reviews using Multi-agent Deep Reinforcement Learning

  • M. Sivakumar;Srinivasulu Reddy Uyyala
    • Asia pacific journal of information systems
    • /
    • 제32권2호
    • /
    • pp.226-248
    • /
    • 2022
  • The existing model for sentiment analysis of product reviews learned from past data and new data was labeled based on training. But new data was never used by the existing system for making a decision. The proposed Aspect-based multi-agent Deep Reinforcement learning Sentiment Analysis (ADRSA) model learned from its very first data without the help of any training dataset and labeled a sentence with aspect category and sentiment polarity. It keeps on learning from the new data and updates its knowledge for improving its intelligence. The decision of the proposed system changed over time based on the new data. So, the accuracy of the sentiment analysis using deep reinforcement learning was improved over supervised learning and unsupervised learning methods. Hence, the sentiments of premium customers on a particular site can be explored to other customers effectively. A dynamic environment with a strong knowledge base can help the system to remember the sentences and usage State Action Reward State Action (SARSA) algorithm with Bidirectional Encoder Representations from Transformers (BERT) model improved the performance of the proposed system in terms of accuracy when compared to the state of art methods.