• 제목/요약/키워드: Natural language process

검색결과 242건 처리시간 0.024초

변형된 비속어 탐지를 위한 토큰 기반의 분류 및 데이터셋 (Token-Based Classification and Dataset Construction for Detecting Modified Profanity)

  • 고성민;신유현
    • 정보처리학회 논문지
    • /
    • 제13권4호
    • /
    • pp.181-188
    • /
    • 2024
  • 기존의 비속어 탐지 방법들은 의도적으로 변형된 비속어를 식별하는 데 한계가 있다. 이 논문에서는 자연어 처리의 한 분야인 개체명 인식에 기반한 새로운 방법을 소개한다. 우리는 시퀀스 레이블링을 이용한 비속어 탐지 기법을 개발하고, 이를 위해 한국어 악성 댓글 중 일부 비속어를 레이블링하여 직접 데이터셋을 구축하여 실험을 수행하였다. 또한 모델의 성능을 향상시키기 위하여 거대 언어 모델중 하나인 ChatGPT를 활용해 한국어 혐오발언 데이터셋의 일부를 레이블링을 하는 방식으로 데이터셋을 증강하여 학습을 진행하였고, 이 과정에서 거대 언어 모델이 생성한 데이터셋을 인간이 필터링 하는 것만으로도 성능을 향상시킬 수 있음을 확인하였다. 이를 통해 데이터셋 증강 과정에는 여전히 인간의 관리감독이 필요함을 제시하였다.

퍼지 논리를 이용한 컴퓨터 언어해석 구현 규칙의 이용법 (The Theory of Linguistic Semantic Interpretation Rule using Fuzzy Definition)

  • 진현수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.227-230
    • /
    • 2003
  • We can not distinguish semantism of the feature of the current language “big”, “small”, “beautiful”. But we study artificial linguistic interface work and convert natural language to digital binary linguistic theory, we should define the basical conversion process. When we utilize the sum of product fuzzy theory and the visible numerical value, we can establish reasoning rule of input language. Fuzzy theory should be converted to general resulting rule.

  • PDF

An Application of RASA Technology to Design an AI Virtual Assistant: A Case of Learning Finance and Banking Terms in Vietnamese

  • PHAM, Thi My Ni;PHAM, Thi Ngoc Thao;NGUYEN, Ha Phuong Truc;LY, Bao Tuyen;NGUYEN, Truc Linh;LE, Hoanh Su
    • The Journal of Asian Finance, Economics and Business
    • /
    • 제9권5호
    • /
    • pp.273-283
    • /
    • 2022
  • Banking and finance is a broad term that incorporates a variety of smaller, more specialized subjects such as corporate finance, tax finance, and insurance finance. A virtual assistant that assists users in searching for information about banking and finance terms might be an extremely beneficial tool for users. In this study, we explored the process of searching for information, seeking opportunities, and developing a virtual assistant in the first stages of starting learning and understanding Vietnamese to increase effectiveness and save time, which is also an innovative business practice in Use-case Vietnam. We built the FIBA2020 dataset and proposed a pipeline that used Natural Language Processing (NLP) inclusive of Natural Language Understanding (NLU) algorithms to build chatbot applications. The open-source framework RASA is used to implement the system in our study. We aim to improve our model performance by replacing parts of RASA's default tokenizers with Vietnamese tokenizers and experimenting with various language models. The best accuracy we achieved is 86.48% and 70.04% in the ideal condition and worst condition, respectively. Finally, we put our findings into practice by creating an Android virtual assistant application using the model trained using Whitespace tokenizer and the pre-trained language m-BERT.

A Process-Centered Knowledge Model for Analysis of Technology Innovation Procedures

  • Chun, Seungsu
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권3호
    • /
    • pp.1442-1453
    • /
    • 2016
  • Now, there are prodigiously expanding worldwide economic networks in the information society, which require their social structural changes through technology innovations. This paper so tries to formally define a process-centered knowledge model to be used to analyze policy-making procedures on technology innovations. The eventual goal of the proposed knowledge model is to apply itself to analyze a topic network based upon composite keywords from a document written in a natural language format during the technology innovation procedures. Knowledge model is created to topic network that compositing driven keyword through text mining from natural language in document. And we show that the way of analyzing knowledge model and automatically generating feature keyword and relation properties into topic networks.

금융권에 적용 가능한 금융특화언어모델 구축방안에 관한 연구 (A Study on the Construction of Financial-Specific Language Model Applicable to the Financial Institutions)

  • 배재권
    • 한국산업정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.79-87
    • /
    • 2024
  • 최근 텍스트분류, 감성분석, 질의응답 등의 자연어 처리를 위해서 사전학습언어모델(Pre-trained Language Model, PLM)의 중요성은 날로 강조되고 있다. 한국어 PLM은 범용적인 도메인의 자연어 처리에서 높은 성능을 보이나 금융, 제조, 법률, 의료 등의 특화된 도메인에서는 성능이 미약하다. 본 연구는 금융도메인 뿐만 아니라 범용도메인에서도 우수한 성능을 보이는 금융특화 언어모델의 구축을 위해 언어모델의 학습과정과 미세조정 방법을 제안하는 것이 주요 목표이다. 금융도메인 특화언어모델을 구축하는 과정은 (1) 금융데이터 수집 및 전처리, (2) PLM 또는 파운데이션 모델 등 모델 아키텍처 선정, (3) 도메인 데이터 학습과 인스트럭션 튜닝, (4) 모델 검증 및 평가, (5) 모델 배포 및 활용 등으로 구성된다. 이를 통해 금융도메인의 특성을 살린 사전학습 데이터 구축방안과 효율적인 LLM 훈련방법인 적응학습과 인스트럭션 튜닝기법을 제안하였다.

이메일에 포함된 감성정보 관련 메타데이터 추출에 관한 연구 (Recognizing Emotional Content of Emails as a byproduct of Natural Language Processing-based Metadata Extraction)

  • 백우진
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.167-183
    • /
    • 2006
  • 본 연구는 이메일에 나타난 감성정보 메타데이터 추출에 있어 자연언어처리에 기반한 방식을 적용하였다. 투자분석가와 고객 사이에 주고받은 이메일을 통하여 개인화 정보를 추출하였다. 개인화란 이용자에게 개인적으로 의미 있는 방식으로 콘텐츠를 제공함으로써 온라인 상에서 관계를 생성하고, 성장시키고, 지속시키는 것을 의미한다. 전자상거래나 온라인 상의 비즈니스 경우, 본 연구는 대량의 정보에서 개인에게 의미 있는 정보를 선별하여 개인화 서비스에 활용할 수 있도록, 이메일이나 토론게시판 게시물, 채팅기록 등의 텍스트를 자연언어처리 기법에 의하여 자동적으로 메타데이터를 추출할 수 있는 시스템을 구현하였다. 구현된 시스템은 온라인 비즈니스와 같이 커뮤니케이션이 중요하고, 상호 교환되는 메시지의 의도나 상대방의 감정을 파악하는 것이 중요한 경우에 그러한 감성정보 관련 메타데이터를 자동으로 추출하는 시도를 했다는 점에서 연구의 가치를 찾을 수 있다.

질의문 유형 분석을 통한 서답형 자동 채점 시스템 (Automatic Grading System for Subjective Questions Through Analyzing Question Type)

  • 강원석
    • 한국콘텐츠학회논문지
    • /
    • 제11권2호
    • /
    • pp.13-21
    • /
    • 2011
  • 서답형 자동평가는 자연어 처리의 어려움이 있어 그 시스템의 개발이 쉽지 않다. 본 연구는 자연어처리 기술을 접목한 서답형 자동채점 시스템을 설계, 구현한다. 이 시스템은 일반화된 채점 시스템이 지니는 성능 저하의 문제를 해결하기 위해 문제유형을 정의하고 각 유형에 맞는 처리를 하여 성능을 향상하였다. 이 시스템의 성능을 실험하기 위하여 교사 채점과 기존의 용어중심의 채점 시스템, 교사채점과 제안한 채점 시스템의 상관계수를 분석하였다. 실험결과, 기존의 용어 중심의 채점 시스템보다 향상된 결과를 얻었다. 앞으로 문제 유형을 확대 정의하고 각 유형에 맞는 자연어 처리 기법을 개선할 필요가 있다.

국방 기사 데이터를 이용한 맞춤형 정보 분석 시스템 (Customized Information Analysis System Using National Defense News Data)

  • 최중환;임채오
    • 한국콘텐츠학회논문지
    • /
    • 제10권12호
    • /
    • pp.457-465
    • /
    • 2010
  • 맞춤형 정보 분석 시스템이란 정형화 되어 있지 않은 자연어 텍스트에서 유용한 정보를 추출하고 고객이 요구하는 맞춤형 정보로 가공하여, 미래를 예측하거나 추론하는데 도움을 주는 시스템을 말한다. 이러한 정보 분석 시스템을 구현하기 위해서는 자연어를 분석하는 자연어 처리 기술과 텍스트에서 필요한 개체와 그것들의 관계를 찾아내는 정보 추출 기술, 추출한 데이터로부터 알려지지 않은 새로운 정보를 찾아 내는 데이터 마이닝 기술이 필요하다. 본 논문에서는 국방 기사 데이터를 대상으로 맞춤형 정보 분석을 수행하는 가상의 시스템을 제안하고, 정보 분석을 위한 기반 기술들을 소개한다.

학습 상담 내용의 자연어 처리를 위한 오픈 데이터 현황 분석 (Analyze the Open data for Natural Language Processing of Learning Counseling)

  • 김유두
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.500-501
    • /
    • 2019
  • 4차산업의 융합시대를 맞이하여 단순한 학습이 아닌 다양한 학문을 학습하고 융합하여 적용하기 위해서는 주입식 수업보다는 자기주도방식의 학습방법이 중요해지고 있다. 따라서 다양한 교육 기관에서는 자기주도적인 학습 방법의 개발에 많은 노력을 하고 있다. 자기주도적인 학습이 효과적으로 수행되기 위해서는 교수자는 학생의 학업에 직접 관여하기 보다는 학업의 전체적인 과정을 관리하는 것이 더 중요하다. 이에 학습 상담은 자기주도적학습을 효과적으로 수행하는데 중요한 방법이 된다. 이에 본 논문에서는 학습 상담 내용을 자연어 처리를 통해 다양한 응용이 가능하도록 이를 구현할 수 있는 자연어 처리를 위한 오픈 데이터 현황에 대한 분석을 수행 하였다.

  • PDF

집단지성을 이용한 한글 감성어 사전 구축 (Building a Korean Sentiment Lexicon Using Collective Intelligence)

  • 안정국;김희웅
    • 지능정보연구
    • /
    • 제21권2호
    • /
    • pp.49-67
    • /
    • 2015
  • 최근 다양한 분야에서 빅데이터의 활용과 분석에 대한 중요성이 대두됨에 따라, 뉴스기사와 댓글과 같은 비정형 데이터의 자연어 처리 기술에 기반한 감성 분석에 대한 관심이 높아지고 있다. 하지만, 한국어는 영어와는 달리 자연어 처리가 어려운 교착어로써 정보화나 정보시스템에의 활용이 미흡한 실정이다. 이에 본 연구는 감성 분석에 활용이 가능한 감성어 사전을 집단지성으로 구축하였고, 누구나 연구와 실무에 사용하도록 API서비스 플랫폼을 개방하였다(www.openhangul.com). 집단지성의 활용을 위해 국내 최대 대학생 소셜네트워크 사이트에서 대학생들을 대상으로 단어마다 긍정, 중립, 부정에 대한 투표를 진행하였다. 그리고 집단지성의 효율성을 높이기 위해 감성을 '정의'가 아닌 '분류'하는 방식인 폭소노미의 '사람들에 의한 분류법'이라는 개념을 적용하였다. 총 517,178(+)의 국어사전 단어 중 불용어 형태를 제외한 후 감성 표현이 가능한 명사, 형용사, 동사, 부사를 우선 순위로 하여, 현재까지 총 35,000(+)번의 단어에 대한 투표를 진행하였다. 본 연구의 감성어 사전은 집단지성의 참여자가 누적됨에 따라 신뢰도가 높아지도록 설계하여, 시간을 축으로 사람들이 단어에 대해 인지하는 감성의 변화도 섬세하게 반영하는 장점이 있다. 따라서 본 연구는 앞으로도 감성어 사전 구축을 위한 투표를 계속 진행할 예정이며, 현재 제공하고 있는 감성어 사전, 기본형 추출, 카테고리 추출 외에도 다양한 자연어 처리에 응용이 가능한 API들도 제공할 계획이다. 기존의 연구들이 감성 분석이나 감성어 사전의 구축과 활용에 대한 방안을 제안하는 것에만 한정되어 있는 것과는 달리, 본 연구는 집단지성을 실제로 활용하여 연구와 실무에 활용이 가능한 자원을 구축하여 개방하여 공유한다는 차별성을 가지고 있다. 더 나아가, 집단지성과 폭소노미의 특성을 결합하여 한글 감성어 사전을 구축한 새로운 시도가 향후 한글 자연어 처리의 발전에 있어 다양한 분야들의 융합적인 연구와 실무적인 참여를 이끌어 개방적 협업의 새로운 방향과 시사점을 제시 할 수 있을 것이라 기대한다.