• Title/Summary/Keyword: 자연어 분석

Search Result 559, Processing Time 0.03 seconds

Voice Recognition Speech Correction Application Using Big Data Analysis (빅데이터 분석을 활용한 음성 인식 스피치 교정 애플리케이션)

  • Kim, Han-Kyeol;Kim, Do-Woo;Lim, Sae-Myung;Hong, Du-Pyo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2019.10a
    • /
    • pp.533-535
    • /
    • 2019
  • 최근 청년 실업률의 증가에 따른 취업 경쟁이 날이 갈수록 심해지고 있다. 채용과정에서 면접의 비중을 높이는 기업도 갈수록 증가하고 있다. 또한 대기업에서는 면접의 객관성을 확보하기 위해 AI 면접을 도입했다. 이러한 면접의 도입으로 인해 취업 준비생들의 면접 준비에 드는 비용 부담이 증가하였다. 최근 AI분야에서 음성 인식과 자연어 처리에 대한 개발이 활발히 이루어지고 있다. 본 논문은 녹음된 면접 음성을 음성 인식 기술 중 STT(Speech To Text) 와 TTS(Text To Speech)를 활용하여 면접의 음성을 문자로, 면접 질문의 문장을 음성으로 변환한다. 또한 자연어 처리 및 감성어 사전(KNU)을 활용하여 면접 문장의 형태소 분석하고 긍정 및 부정 단어별 정보를 시각화 하여 나타낼 수 있게 구현하였다.

GMLP for Korean natural language processing and its quantitative comparison with BERT (GMLP를 이용한 한국어 자연어처리 및 BERT와 정량적 비교)

  • Lee, Sung-Min;Na, Seung-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.540-543
    • /
    • 2021
  • 본 논문에서는 Multi-Head Attention 대신 Spatial Gating Unit을 사용하는 GMLP[1]에 작은 Attention 신경망을 추가한 모델을 구성하여 뉴스와 위키피디아 데이터로 사전학습을 실시하고 한국어 다운스트림 테스크(감성분석, 개체명 인식)에 적용해 본다. 그 결과, 감성분석에서 Multilingual BERT보다 0.27%높은 Accuracy인 87.70%를 보였으며, 개체명 인식에서는 1.6%높은 85.82%의 F1 Score를 나타내었다. 따라서 GMLP가 기존 Transformer Encoder의 Multi-head Attention[2]없이 SGU와 작은 Attention만으로도 BERT[3]와 견줄만한 성능을 보일 수 있음을 확인할 수 있었다. 또한 BERT와 추론 속도를 비교 실험했을 때 배치사이즈가 20보다 작을 때 BERT보다 1에서 6배 정도 빠르다는 것을 확인할 수 있었다.

  • PDF

Text Classification using Cloze Question based on KorBERT (KorBERT 기반 빈칸채우기 문제를 이용한 텍스트 분류)

  • Heo, Jeong;Lee, Hyung-Jik;Lim, Joon-Ho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.486-489
    • /
    • 2021
  • 본 논문에서는 KorBERT 한국어 언어모델에 기반하여 텍스트 분류문제를 빈칸채우기 문제로 변환하고 빈칸에 적합한 어휘를 예측하는 방식의 프롬프트기반 분류모델에 대해서 소개한다. [CLS] 토큰을 이용한 헤드기반 분류와 프롬프트기반 분류는 사전학습의 NSP모델과 MLM모델의 특성을 반영한 것으로, 텍스트의 의미/구조적 분석과 의미적 추론으로 구분되는 텍스트 분류 태스크에서의 성능을 비교 평가하였다. 의미/구조적 분석 실험을 위해 KLUE의 의미유사도와 토픽분류 데이터셋을 이용하였고, 의미적 추론 실험을 위해서 KLUE의 자연어추론 데이터셋을 이용하였다. 실험을 통해, MLM모델의 특성을 반영한 프롬프트기반 텍스트 분류에서는 의미유사도와 토픽분류 태스크에서 우수한 성능을 보였고, NSP모델의 특성을 반영한 헤드기반 텍스트 분류에서는 자연어추론 태스크에서 우수한 성능을 보였다.

  • PDF

Natural Language Processing Trends For Science & Technology Data (과학기술데이터를 위한 자연어처리 기술 동향)

  • Jeong, Hyun Ji;Jang, Gwangseon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2021.11a
    • /
    • pp.666-669
    • /
    • 2021
  • 연구수행과정에서 발생하는 논문, 특허, 연구보고서 등의 과학기술데이터는 다양한 과학기술지식을 포함한다. 연구자들의 효과적인 연구를 지원하기 위해서는 과학기술데이터 분석을 통한 지식 발견이 필수적이다. 과학기술데이터는 일반 텍스트와는 다르게 다수의 전문용어를 포함하고 있으며, 고유의 양식이 정해져 있고, 텍스트 길이가 대체로 길다는 특징이 있다. 본 고에서는 이러한 과학기술데이터만의 고유한 특징을 반영한 인공지능 기반 자연어처리 기술들을 소개함으로써 과학기술데이터 분석에 대한 이해를 돕고자 한다.

Comparing Byte Pair Encoding Methods for Korean (음절 단위 및 자모 단위의 Byte Pair Encoding 비교 연구)

  • Lee, Chanhee;Lee, Dongyub;Hur, YunA;Yang, Kisu;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.291-295
    • /
    • 2018
  • 한국어는 교착어적 특성이 강한 언어로, 교착어적 특성이 없는 영어 등의 언어와 달리 형태소의 수에 따라 조합 가능한 어절의 수가 매우 많으므로 어절 단위의 처리가 매우 어렵다. 따라서 어절을 더 작은 단위로 분해하는 전처리 단계가 요구되는데, 형태소 분석이 이를 위해 주로 사용되었다. 하지만 지도학습 방법을 이용한 형태소 분석 시스템은 다량의 학습 데이터가 요구되고, 비지도학습 방법을 이용한 형태소 분석은 성능에 큰 하락을 보인다. Byte Pair Encoding은 데이터를 압축하는 알고리즘으로, 이를 자연어처리 분야에 응용하면 비지도학습 방법으로 어절을 더 작은 단위로 분해할 수 있다. 본 연구에서는 한국어에 Byte Pair Encoding을 적용하는 두 가지 방법인 음절 단위 처리와 자모 단위 처리의 성능 및 특성을 정량적, 정성적으로 분석하는 방법을 제안하였다. 또한, 이 방법을 세종 말뭉치에 적용하여 각각의 알고리즘을 이용한 어절 분해를 실험하고, 그 결과를 어절 분해 정확도, 편향, 편차를 바탕으로 비교, 분석하였다.

  • PDF

A Grammar Development Environment for Feature-based APSG (자질 기반 구 구조 문법을 위한 문법 개발 환경)

  • 심광섭;양재형
    • Journal of KIISE:Software and Applications
    • /
    • v.31 no.10
    • /
    • pp.1418-1429
    • /
    • 2004
  • This paper presents GrammE, a grammar development environment for feature-based APSG. At the stage of a grammar development, analysis are be done by interpreting the grammar under development, given in a text format, it is relatively easy to diagnose the grammar. Once developed, the grammar is compiled, by using the embedded grammar compiler, into a parser program written in $C^{++}$. The parser program can be used in various types of natural language processing systems requiring syntactic analysis. GrammE is language-independent, and so far has been used for the development of Korean and Chinese grammars.

Advancing Societal Statistics Processing Methodology through Artificial Intelligence: A Case Study on Household Trend Survey and Time Use Survey (인공지능 기반 사회 통계 생산 방법론 고도화 방안: 가계동향조사와 생활시간조사 사례)

  • Kyo-Joong Oh;Ho-Jin Choi;Ilgu Kim;Seungwoo Han;Kunsoo Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.563-567
    • /
    • 2023
  • 본 연구는 한국 통계청이 수행하는 가계동향조사와 생활시간조사에서 자료처리 과정 및 방법을 혁신하려는 시도로, 기존의 통계 생산 방법론의 한계를 극복하고, 대규모 데이터의 효과적인 관리와 분석을 가능하게 하는 인공지능 기반의 통계 생산을 목표로 한다. 본 연구는 데이터 과학과 통계학의 교차점에서 진행되며, 인공지능 기술, 특히 자연어 처리와 딥러닝을 활용하여 비정형 텍스트 분류 방법의 성능을 검증하며, 인공지능 기반 통계분류 방법론의 확장성과 추가적인 조사 확대 적용의 가능성을 탐구한다. 이 연구의 결과는 통계 데이터의 품질 향상과 신뢰성 증가에 기여하며, 국민의 생활 패턴과 행동에 대한 더 깊고 정확한 이해를 제공한다.

  • PDF

Automatic Correction of Errors in Annotated Corpus Using Kernel Ripple-Down Rules (커널 Ripple-Down Rule을 이용한 태깅 말뭉치 오류 자동 수정)

  • Park, Tae-Ho;Cha, Jeong-Won
    • Journal of KIISE
    • /
    • v.43 no.6
    • /
    • pp.636-644
    • /
    • 2016
  • Annotated Corpus is important to understand natural language using machine learning method. In this paper, we propose a new method to automate error reduction of annotated corpora. We use the Ripple-Down Rules(RDR) for reducing errors and Kernel to extend RDR for NLP. We applied our system to the Korean Wikipedia and blog corpus errors to find the annotated corpora error type. Experimental results with various views from the Korean Wikipedia and blog are reported to evaluate the effectiveness and efficiency of our proposed approach. The proposed approach can be used to reduce errors of large corpora.

Efficient Classification of User's Natural Language Question Types using Word Semantic Information (단어 의미 정보를 활용하는 이용자 자연어 질의 유형의 효율적 분류)

  • Yoon, Sung-Hee;Paek, Seon-Uck
    • Journal of the Korean Society for information Management
    • /
    • v.21 no.4 s.54
    • /
    • pp.251-263
    • /
    • 2004
  • For question-answering system, question analysis module finds the question points from user's natural language questions, classifies the question types, and extracts some useful information for answer. This paper proposes a question type classifying technique based on focus words extracted from questions and word semantic information, instead of complicated rules or huge knowledge resources. It also shows how to find the question type without focus words, and how useful the synonym or postfix information to enhance the performance of classifying module.

An Example-Based Natural Language Dialogue System for EPG Information Access (EPG 정보 검색을 위한 예제 기반 자연어 대화 시스템)

  • Kim, Seok-Hwan;Lee, Cheong-Jae;Jung, Sang-Keun;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2006.10e
    • /
    • pp.65-70
    • /
    • 2006
  • 본 논문에서는 EPG 정보 검색을 위한 자연어 대화 시스템에 대해 논한다. 자연어 대화 시스템 구축을 위한, 대화 예제를 이용한 상황 기반 대화 관리 방법론은, 효율적이고 실용적인 대화 시스템 구축을 가능하게 한다. 대화 시스템은 사용자 발화에 대해 적합한 시스템응답 발화를 출력하는 과정으로 진행되며, 이를 위해, 사용자 발화 의미 분석, 대화 관리, 시스템 응답 발화 생성의 과정을 거친다. 정확하고 신속한 정보의 전달이 중요한 EPG 정보 검색 도메인의 특성상 EPG 데이터베이스의 관리 및 갱신이 중요한 요소로 작용한다. 이를 위해 웹마이닝 기반의 EPG 데이터베이스 관리자를 구현함으로써 데이터베이스 구축에 필요한 비용을 최소화하고, 신속하고 정확한 정보를 제공할 수 있었다.

  • PDF