• 제목/요약/키워드: Korean NLP

검색결과 207건 처리시간 0.033초

한국어 자연언어처리의 NIF 적용에 관한 연구 (NIF Application for Korean Natural Language Processing)

  • 서지우;원유성;김정욱;함영균;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-172
    • /
    • 2014
  • 본 논문에서는 한국어 자연언어처리 결과물들을 통일된 형식으로 표준화하기 위해서 NIF를 적용한 내용을 다룬다. 한국어 자연언어처리에 NIF 온톨로지를 적용한 이유와 적용과정에서 야기된 문제점들을 논의한다. 한국어 NLP2RDF 구축과정에서 한국어 자연언어처리에 필요한 새로운 클래스와 프로퍼티들을 추가로 정의하여 NIF 온톨로지를 변형 적용하였다.

  • PDF

텍스트 마이닝을 이용한 지능적 워드클라우드 (Intelligent Wordcloud Using Text Mining)

  • 김연창;지상수;박동서;이충호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2019년도 춘계학술대회
    • /
    • pp.325-326
    • /
    • 2019
  • 본 논문은 텍스트 마이닝 기법으로 명사의 빈도수를 조사하여 워드클라우드를 나타내는 기존의 방법을 개선하여 지능적 워드클라우드를 구현하는 방법을 제안한다. 텍스트 마이닝 시에 명사 단어를 추출하는 사전에 누락된 신조어 등의 단어를 효과적으로 추가하고, 동사 등 다른 품사위주의 워드클라우드를 시각적으로 보여주는 방법을 제안한다. 실험에서 기존 명사의 빈도수 추출에는 KoNLP 패키지를 사용하였고, 지원되지 않는 신조어 80개를 추가하였고 빈도수를 수동으로 조사하여 추가하였다.

  • PDF

Generative Linguistic Steganography: A Comprehensive Review

  • Xiang, Lingyun;Wang, Rong;Yang, Zhongliang;Liu, Yuling
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권3호
    • /
    • pp.986-1005
    • /
    • 2022
  • Text steganography is one of the most imminent and promising research interests in the information security field. With the unprecedented success of the neural network and natural language processing (NLP), the last years have seen a surge of research on generative linguistic steganography (GLS). This paper provides a thorough and comprehensive review to summarize the existing key contributions, and creates a novel taxonomy for GLS according to NLP techniques and steganographic encoding algorithm, then summarizes the characteristics of generative linguistic steganographic methods properly to analyze the relationship and difference between each type of them. Meanwhile, this paper also comprehensively introduces and analyzes several evaluation metrics to evaluate the performance of GLS from diverse perspective. Finally, this paper concludes the future research work, which is more conducive to the follow-up research and innovation of researchers.

PASS: A Parallel Speech Understanding System

  • Chung, Sang-Hwa
    • Journal of Electrical Engineering and information Science
    • /
    • 제1권1호
    • /
    • pp.1-9
    • /
    • 1996
  • A key issue in spoken language processing has become the integration of speech understanding and natural language processing(NLP). This paper presents a parallel computational model for the integration of speech and NLP. The model adopts a hierarchically-structured knowledge base and memory-based parsing techniques. Processing is carried out by passing multiple markers in parallel through the knowledge base. Speech-specific problems such as insertion, deletion, and substitution have been analyzed and their parallel solutions are provided. The complete system has been implemented on the Semantic Network Array Processor(SNAP) and is operational. Results show an 80% sentence recognition rate for the Air Traffic Control domain. Moreover, a 15-fold speed-up can be obtained over an identical sequential implementation with an increasing speed advantage as the size of the knowledge base grows.

  • PDF

맵리듀스를 이용한 통계적 접근의 감성 분류 (Statistical Approach to Sentiment Classification using MapReduce)

  • 강문수;백승희;최영식
    • 감성과학
    • /
    • 제15권4호
    • /
    • pp.425-440
    • /
    • 2012
  • 인터넷의 규모가 커지면서 주관적인 데이터가 증가하였다. 이에 주관적인 데이터를 자동으로 분류할 필요가 생겼다. 감성 분류는 데이터를 여러 감성 종류에 따라 나누는 것을 말한다. 감성 분류 연구는 크게 자연어 처리와 감성어 사전 구축을 중심으로 이루어져 왔다. 이전의 감성 분류 연구는 자연어 처리 과정에서 형태소 분석이 제대로 이루어지지 않는 문제와 감성어 사전구축 시 등록할 단어를 선별하고 단어의 감성 정도를 정하는 데에 명확한 기준을 정하기 힘든 문제가 있다. 이러한 어려움을 해결하기 위하여 감성 분류에 대용량 데이터와 통계적 접근의 조합을 제안한다. 본 논문에서 제안하는 방법은 단어의 의미를 찾는 대신 수많은 데이터에서 등장하는 표현들의 통계치를 이용하여 감성 판단을 하는 것이다. 이러한 접근은 자연어 처리 알고리즘에 의존하던 이전 연구와 달리 데이터에 집중한다. 대용량 데이터 처리를 위해 하둡과 맵리듀스를 이용한다.

  • PDF

금융권에 적용 가능한 금융특화언어모델 구축방안에 관한 연구 (A Study on the Construction of Financial-Specific Language Model Applicable to the Financial Institutions)

  • 배재권
    • 한국산업정보학회논문지
    • /
    • 제29권3호
    • /
    • pp.79-87
    • /
    • 2024
  • 최근 텍스트분류, 감성분석, 질의응답 등의 자연어 처리를 위해서 사전학습언어모델(Pre-trained Language Model, PLM)의 중요성은 날로 강조되고 있다. 한국어 PLM은 범용적인 도메인의 자연어 처리에서 높은 성능을 보이나 금융, 제조, 법률, 의료 등의 특화된 도메인에서는 성능이 미약하다. 본 연구는 금융도메인 뿐만 아니라 범용도메인에서도 우수한 성능을 보이는 금융특화 언어모델의 구축을 위해 언어모델의 학습과정과 미세조정 방법을 제안하는 것이 주요 목표이다. 금융도메인 특화언어모델을 구축하는 과정은 (1) 금융데이터 수집 및 전처리, (2) PLM 또는 파운데이션 모델 등 모델 아키텍처 선정, (3) 도메인 데이터 학습과 인스트럭션 튜닝, (4) 모델 검증 및 평가, (5) 모델 배포 및 활용 등으로 구성된다. 이를 통해 금융도메인의 특성을 살린 사전학습 데이터 구축방안과 효율적인 LLM 훈련방법인 적응학습과 인스트럭션 튜닝기법을 제안하였다.

Understanding recurrent neural network for texts using English-Korean corpora

  • Lee, Hagyeong;Song, Jongwoo
    • Communications for Statistical Applications and Methods
    • /
    • 제27권3호
    • /
    • pp.313-326
    • /
    • 2020
  • Deep Learning is the most important key to the development of Artificial Intelligence (AI). There are several distinguishable architectures of neural networks such as MLP, CNN, and RNN. Among them, we try to understand one of the main architectures called Recurrent Neural Network (RNN) that differs from other networks in handling sequential data, including time series and texts. As one of the main tasks recently in Natural Language Processing (NLP), we consider Neural Machine Translation (NMT) using RNNs. We also summarize fundamental structures of the recurrent networks, and some topics of representing natural words to reasonable numeric vectors. We organize topics to understand estimation procedures from representing input source sequences to predict target translated sequences. In addition, we apply multiple translation models with Gated Recurrent Unites (GRUs) in Keras on English-Korean sentences that contain about 26,000 pairwise sequences in total from two different corpora, colloquialism and news. We verified some crucial factors that influence the quality of training. We found that loss decreases with more recurrent dimensions and using bidirectional RNN in the encoder when dealing with short sequences. We also computed BLEU scores which are the main measures of the translation performance, and compared them with the score from Google Translate using the same test sentences. We sum up some difficulties when training a proper translation model as well as dealing with Korean language. The use of Keras in Python for overall tasks from processing raw texts to evaluating the translation model also allows us to include some useful functions and vocabulary libraries as well.

구조최적설계시 직접법 및 근사법 알고리즘의 성능 비교에 관한 연구 (A Study on the Comparison of Performances Between Direct Method and Approximation Method in Structural Optimization)

  • 박영선;이상헌;박경진
    • 대한기계학회논문집
    • /
    • 제18권2호
    • /
    • pp.313-322
    • /
    • 1994
  • Structural optimization has been developed by two methods. One is the direct method which applies the Nonlinear Programming (NLP) algorithm directly to the structural optimization problem. This method is known to be very excellent mathematically. However, it is very expensive for large-scale problems due to the one-dimensional line search. The other method is the approximation method which utilizes the engineering senses very well. The original problem is approximated to a simple problem and an NLP algorithm is adopted for solving the approximated problems. Practical solutions are obtained with low cost by this method. The two methods are compared through standard structural optimization problems. The Finite element method with truss and beam elements is used for the structural and sensitivity analyses. The results are analyzed based on the convergence performances, the number is function calculations, the quality of the cost functions, and etc. The applications of both methods are also discussed.

자연어 처리 기법을 활용한 산업재해 위험요인 구조화 (Structuring Risk Factors of Industrial Incidents Using Natural Language Process)

  • 강성식;장성록;이종빈;서용윤
    • 한국안전학회지
    • /
    • 제36권1호
    • /
    • pp.56-63
    • /
    • 2021
  • The narrative texts of industrial accident reports help to identify accident risk factors. They relate the accident triggers to the sequence of events and the outcomes of an accident. Particularly, a set of related keywords in the context of the narrative can represent how the accident proceeded. Previous studies on text analytics for structuring accident reports have been limited to extracting individual keywords without context. We proposed a context-based analysis using a Natural Language Processing (NLP) algorithm to remedy this shortcoming. This study aims to apply Word2Vec of the NLP algorithm to extract adjacent keywords, known as word embedding, conducted by the neural network algorithm based on supervised learning. During processing, Word2Vec is conducted by adjacent keywords in narrative texts as inputs to achieve its supervised learning; keyword weights emerge as the vectors representing the degree of neighboring among keywords. Similar keyword weights mean that the keywords are closely arranged within sentences in the narrative text. Consequently, a set of keywords that have similar weights presents similar accidents. We extracted ten accident processes containing related keywords and used them to understand the risk factors determining how an accident proceeds. This information helps identify how a checklist for an accident report should be structured.