• Title/Summary/Keyword: sentence processing

검색결과 324건 처리시간 0.023초

빈칸 되묻기 방식 기반 다중 키워드 처리가 가능한 주문용 챗봇 개발 (Development of ordering chatbot that can process multiple keywords based on recursive slot-filling method)

  • 최현준;배승주;정구민
    • 한국정보전자통신기술학회논문지
    • /
    • 제12권4호
    • /
    • pp.440-448
    • /
    • 2019
  • 이 논문에서는 빈칸 되묻기 방식 기반 다중 키워드 처리가 가능한 주문용 챗봇을 제안한다. 일반적으로 챗봇을 이용한 주문 서비스의 경우에는 개발자가 미리 정의한 순서에 따라서만 주문이 진행된다. 그리고 한번의 답변으로 들어올 수 있는 입력 정보가 정해져 있기 때문에 사용자에 따라 다른 입력을 고려하지 못한다. 이 연구에서는 이러한 문제를 해결하기 위해 빈칸 되묻기 방식을 사용하여 다중 키워드 동시 처리를 하고자 한다. 빈칸 되묻기 방식은 다음과 같이 진행된다. 첫번째, 각 주문 단계에서 입력 받아야 하는 정보를 저장할 수 있는 배열을 미리 만들어 둔다. 그리고 각 주문 단계별로 받을 수 있는 정보들을 키워드로 미리 지정한다. 두번째로, 입력된 문장에서 키워드를 추출하는 작업을 진행한다. 그리고 추출된 키워드들을 해당하는 주문 단계의 배열에 채워 넣는다. 마지막으로, 각 주문 단계의 배열을 체크하면서 비어있는 단계에 대한 질문만 진행하여 부족한 정보들을 전부 채운다. 배열이 모두 채워지면 주문이 완료된다. 제안하는 방식은 한 문장에 주문과 관련된 키워드가 여러 개이더라도 처리가 가능하다. 그리고 한 번에 여러 개의 키워드를 처리할 수 있기 때문에 주문 단계를 생략하여 주문 시간을 줄일 수 있다. 안드로이드 스마트폰을 이용해 챗봇을 구현하고 빈칸 되묻기 방식을 이용해 주문 단계의 동적 처리가 되는지 실험을 통해 확인한다.

빅데이터 분석도구 R을 이용한 성경 데이터의 빈도와 소셜 네트워크 분석 (Frequency and Social Network Analysis of the Bible Data using Big Data Analytics Tools R)

  • 반재훈;하종수;김동현
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.166-171
    • /
    • 2020
  • 데이터를 저장하고 분석하여 새로운 지식을 얻을 수 있는 빅데이터 처리기술은 사회의 여러 분야에서 중요성이 강조되고 있으며 정보통신기술 분야의 핵심 이슈로 부각되면서 관련 기술에 대한 관심이 증가하고 있다. 이러한 빅데이터를 분석할 수 있는 도구인 R은 통계 기반의 정보 분석을 가능하게 하는 언어와 환경이다. 본 논문에서는 이를 이용하여 성경데이터를 분석한다. 성경 중에서 신약성경의 4복음서의 데이터를 분석한다. 먼저 성경데이터를 수집하고 분석을 위한 필터링을 수행한다. 이후 R을 이용하여 어떠한 텍스트가 분포되어 있는지를 빈도 조사를 수행하며 정확한 데이터의 분석을 위해 한 문장에서 나오는 단어들을 쌍으로 표현하고 단어 간의 관계성을 분석하는 소셜 네트워크 분석을 통해 성경을 분석한다.

BERT를 활용한 초등학교 고학년의 욕설문장 자동 분류방안 연구 (A Study on Automatic Classification of Profanity Sentences of Elementary School Students Using BERT)

  • 심재권
    • 창의정보문화연구
    • /
    • 제7권2호
    • /
    • pp.91-98
    • /
    • 2021
  • 코로나19로 인해 초등학생이 온라인 환경에 머무는 시간이 증가함에 따라 작성하는 게시글, 댓글, 채팅의 양이 증가하였고, 타인의 감정을 상하게 하거나 욕설을 하는 등의 문제가 발생하고 있다. 네티켓을 초등학교에서 교육하고 있지만, 교육시간이 부족할 뿐 아니라 행동의 변화까지 기대하기는 어려움이 있어 자연어처리를 통한 기술적인 지원이 필요한 상황이다. 본 연구는 초등학생이 작성하는 문장에 사전언어학습 모델에 적용하여 자동으로 욕설문장을 필터링하는 실험을 진행하였다. 실험은 온라인 학습 플랫폼에서 초등학교 4-6학년의 채팅내역을 수집하였고, 채팅 내역중에 욕설로 신고되어 판정된 욕설문장을 함께 수집하여 사전학습된 언어모델을 통해 훈련하였다. 실험결과, 욕설문장을 분류한 결과 75%의 정확률을 보이는 것으로 분석되어 학습 데이터가 충분히 보완된다면, 초등학생이 사용하는 온라인 플랫폼에서 적용할 수 있음을 보여주었다.

Relationship between Speech Perception in Noise and Phonemic Restoration of Speech in Noise in Individuals with Normal Hearing

  • Vijayasarathy, Srikar;Barman, Animesh
    • Journal of Audiology & Otology
    • /
    • 제24권4호
    • /
    • pp.167-173
    • /
    • 2020
  • Background and Objectives: Top-down restoration of distorted speech, tapped as phonemic restoration of speech in noise, maybe a useful tool to understand robustness of perception in adverse listening situations. However, the relationship between phonemic restoration and speech perception in noise is not empirically clear. Subjects and Methods: 20 adults (40-55 years) with normal audiometric findings were part of the study. Sentence perception in noise performance was studied with various signal-to-noise ratios (SNRs) to estimate the SNR with 50% score. Performance was also measured for sentences interrupted with silence and for those interrupted by speech noise at -10, -5, 0, and 5 dB SNRs. The performance score in the noise interruption condition was subtracted by quiet interruption condition to determine the phonemic restoration magnitude. Results: Fairly robust improvements in speech intelligibility was found when the sentences were interrupted with speech noise instead of silence. Improvement with increasing noise levels was non-monotonic and reached a maximum at -10 dB SNR. Significant correlation between speech perception in noise performance and phonemic restoration of sentences interrupted with -10 dB SNR speech noise was found. Conclusions: It is possible that perception of speech in noise is associated with top-down processing of speech, tapped as phonemic restoration of interrupted speech. More research with a larger sample size is indicated since the restoration is affected by the type of speech material and noise used, age, working memory, and linguistic proficiency, and has a large individual variability.

Relationship between Speech Perception in Noise and Phonemic Restoration of Speech in Noise in Individuals with Normal Hearing

  • Vijayasarathy, Srikar;Barman, Animesh
    • 대한청각학회지
    • /
    • 제24권4호
    • /
    • pp.167-173
    • /
    • 2020
  • Background and Objectives: Top-down restoration of distorted speech, tapped as phonemic restoration of speech in noise, maybe a useful tool to understand robustness of perception in adverse listening situations. However, the relationship between phonemic restoration and speech perception in noise is not empirically clear. Subjects and Methods: 20 adults (40-55 years) with normal audiometric findings were part of the study. Sentence perception in noise performance was studied with various signal-to-noise ratios (SNRs) to estimate the SNR with 50% score. Performance was also measured for sentences interrupted with silence and for those interrupted by speech noise at -10, -5, 0, and 5 dB SNRs. The performance score in the noise interruption condition was subtracted by quiet interruption condition to determine the phonemic restoration magnitude. Results: Fairly robust improvements in speech intelligibility was found when the sentences were interrupted with speech noise instead of silence. Improvement with increasing noise levels was non-monotonic and reached a maximum at -10 dB SNR. Significant correlation between speech perception in noise performance and phonemic restoration of sentences interrupted with -10 dB SNR speech noise was found. Conclusions: It is possible that perception of speech in noise is associated with top-down processing of speech, tapped as phonemic restoration of interrupted speech. More research with a larger sample size is indicated since the restoration is affected by the type of speech material and noise used, age, working memory, and linguistic proficiency, and has a large individual variability.

라디오 청취자 문자 사연을 활용한 한국어 다중 감정 분석용 데이터셋연구 (A Study on the Dataset of the Korean Multi-class Emotion Analysis in Radio Listeners' Messages)

  • 이재아;박구만
    • 방송공학회논문지
    • /
    • 제27권6호
    • /
    • pp.940-943
    • /
    • 2022
  • 본 연구에서는 직접 수집한 라디오 청취자 문자 사연을 활용하여 한국어 문장 감정 분석을 수행하기 위한 한국어 데이터셋을 구성하였으며 그 특성을 분석하였다. 딥러닝 언어모델 연구가 활발해지면서 한국어 문장 감정 분석에 관한 연구도 다양하게 진행되고 있다. 그러나 한국어의 언어학적 특성으로 인해 감정 분석은 높은 정확도를 기대하기 어렵다. 또한, 긍정/부정으로만 분류되도록 하는 이진 감성 분석은 많은 연구가 이루어졌으나, 3개 이상의 감정으로 분류되는 다중 감정 분석은 더 많은 연구가 필요하다. 이에 대해 딥러닝 기반의 한국어에 대한 다중 감정 분석 모델의 정확도를 높이기 위한 한국어 데이터셋 구성에 관한 고찰과 분석이 필요하다. 본 논문에서는 설문조사와 실험을 통해 감정 분석이 실행되는 과정에서 한국어 감정 분석이 어떤 이유 때문에 어려운지 분석하고 정확도를 향상시킬 수 있는 데이터셋 조성에 대한 방안을 제시하였으며 한국어 문장 감정 분석에 근거로 활용할 수 있게 하였다.

대학수학능력시험 독서 영역의 교육 목표를 위한 자연어처리 기법을 통한 검증 (Verification of educational goal of reading area in Korean SAT through natural language processing techniques)

  • 이수민;김경민;임희석
    • 한국융합학회논문지
    • /
    • 제13권1호
    • /
    • pp.81-88
    • /
    • 2022
  • 대학수학능력시험 국어 과목에서 중요한 비중을 차지하는 독서 영역의 주된 교육 목표는 주어진 지문을 온전히 이해할 수 있는가를 평가하는 데에 있다. 따라서 해당 지문에 포함된 질의를 주어진 지문만으로 풀이할 수 있는지는 해당 영역의 교육 목표와 관련이 깊다. 본 연구에서는 처음으로, 교육학 분야와 딥러닝을 접목하여 이러한 교육 목표가 실제로도 타당하게 실현 가능한지를 입증하고자 한다. 대학수학능력시험의 독서 영역의 개별지문과 그에 수반된 다수의 문장 쌍(sentence pair)을 정제하여 추출하고, 해당 문장 쌍을 주어진 지문에 비추어 적절하거나(T), 적절하지 않은지(F)를 판단하는 이진 분류 태스크(binary classification task)에 적용하여 평가하고자 한다. 그 결과, F1 스코어 기준 59.2%의 human performance를 뛰어넘는 성능을 62.49%의 KoELECTRA를 비롯한 대부분의 언어 모델에서 확인할 수 있었으며, 또한 데이터 전처리 과정에 변화를 줌으로써 언어 모델의 구조적 한계를 극복할 수 있었다.

지식베이스 구축을 위한 한국어 위키피디아의 학습 기반 지식추출 방법론 및 플랫폼 연구 (Knowledge Extraction Methodology and Framework from Wikipedia Articles for Construction of Knowledge-Base)

  • 김재헌;이명진
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.43-61
    • /
    • 2019
  • 최근 4차 산업혁명과 함께 인공지능 기술에 대한 연구가 활발히 진행되고 있으며, 이전의 그 어느 때보다도 기술의 발전이 빠르게 진행되고 있는 추세이다. 이러한 인공지능 환경에서 양질의 지식베이스는 인공지능 기술의 향상 및 사용자 경험을 높이기 위한 기반 기술로써 중요한 역할을 하고 있다. 특히 최근에는 인공지능 스피커를 통한 질의응답과 같은 서비스의 기반 지식으로 활용되고 있다. 하지만 지식베이스를 구축하는 것은 사람의 많은 노력을 요하며, 이로 인해 지식을 구축하는데 많은 시간과 비용이 소모된다. 이러한 문제를 해결하기 위해 본 연구에서는 기계학습을 이용하여 지식베이스의 구조에 따라 학습을 수행하고, 이를 통해 자연어 문서로부터 지식을 추출하여 지식화하는 방법에 대해 제안하고자 한다. 이러한 방법의 적절성을 보이기 위해 DBpedia 온톨로지의 구조를 기반으로 학습을 수행하여 지식을 구축할 것이다. 즉, DBpedia의 온톨로지 구조에 따라 위키피디아 문서에 기술되어 있는 인포박스를 이용하여 학습을 수행하고 이를 바탕으로 자연어 텍스트로부터 지식을 추출하여 온톨로지화하기 위한 방법론을 제안하고자 한다. 학습을 바탕으로 지식을 추출하기 위한 과정은 문서 분류, 적합 문장 분류, 그리고 지식 추출 및 지식베이스 변환의 과정으로 이루어진다. 이와 같은 방법론에 따라 실제 지식 추출을 위한 플랫폼을 구축하였으며, 실험을 통해 본 연구에서 제안하고자 하는 방법론이 지식을 확장하는데 있어 유용하게 활용될 수 있음을 증명하였다. 이러한 방법을 통해 구축된 지식은 향후 지식베이스를 기반으로 한 인공지능을 위해 활용될 수 있을 것으로 판단된다.

CNN-LSTM 조합모델을 이용한 영화리뷰 감성분석 (Sentiment Analysis of Movie Review Using Integrated CNN-LSTM Mode)

  • 박호연;김경재
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.141-154
    • /
    • 2019
  • 인터넷 기술과 소셜 미디어의 빠른 성장으로 인하여, 구조화되지 않은 문서 표현도 다양한 응용 프로그램에 사용할 수 있게 마이닝 기술이 발전되었다. 그 중 감성분석은 제품이나 서비스에 내재된 사용자의 감성을 탐지할 수 있는 분석방법이기 때문에 지난 몇 년 동안 많은 관심을 받아왔다. 감성분석에서는 주로 텍스트 데이터를 이용하여 사람들의 감성을 사전 정의된 긍정 및 부정의 범주를 할당하여 분석하며, 이때 사전 정의된 레이블을 이용하기 때문에 다양한 방향으로 연구가 진행되고 있다. 초기의 감성분석 연구에서는 쇼핑몰 상품의 리뷰 중심으로 진행되었지만, 최근에는 블로그, 뉴스기사, 날씨 예보, 영화 리뷰, SNS, 주식시장의 동향 등 다양한 분야에 적용되고 있다. 많은 선행연구들이 진행되어 왔으나 대부분 전통적인 단일 기계학습기법에 의존한 감성분류를 시도하였기에 분류 정확도 면에서 한계점이 있었다. 본 연구에서는 전통적인 기계학습기법 대신 대용량 데이터의 처리에 우수한 성능을 보이는 딥러닝 기법과 딥러닝 중 CNN과 LSTM의 조합모델을 이용하여 감성분석의 분류 정확도를 개선하고자 한다. 본 연구에서는 대표적인 영화 리뷰 데이터셋인 IMDB의 리뷰 데이터 셋을 이용하여, 감성분석의 극성분석을 긍정 및 부정으로 범주를 분류하고, 딥러닝과 제안하는 조합모델을 활용하여 극성분석의 예측 정확도를 개선하는 것을 목적으로 한다. 이 과정에서 여러 매개 변수가 존재하기 때문에 그 수치와 정밀도의 관계에 대해 고찰하여 최적의 조합을 찾아 정확도 등 감성분석의 성능 개선을 시도한다. 연구 결과, 딥러닝 기반의 분류 모형이 좋은 분류성과를 보였으며, 특히 본 연구에서 제안하는 CNN-LSTM 조합모델의 성과가 가장 우수한 것으로 나타났다.

국어사전을 이용한 한국어 명사에 대한 상위어 자동 추출 및 WordNet의 프로토타입 개발 (The Automatic Extraction of Hypernyms and the Development of WordNet Prototype for Korean Nouns using Korean MRD (Machine Readable Dictionary))

  • 김민수;김태연;노봉남
    • 한국정보처리학회논문지
    • /
    • 제2권6호
    • /
    • pp.847-856
    • /
    • 1995
  • 인간은 문장 안에 있는 명사를 인식할 때 그 명사의 상위 개념을 머리에 떠올린다. 컴퓨터에게 인간의 단어 인식작용을 시뮬레이션하기 위해서는 단어의 상위 개념(상위어) 을 지식 베이스(WordNet)로 구축해야만 한다. 현재 한국에서는 많은 인력과 시간이 소요되기 때문에 WordNet의 작업을 시작하지 못하였으나 컴퓨터의 성능이 급격히 향상 되고 상용화된 MRD(Machine Readable Dictionary)가 이용하능하게 됨에 따라 자동으로 WordNet 구축의 가능성을 보이고 있다. 본 논문에서는 한국어 MRD(Machine Readable Dictionary)의 명사의 정의 (description)를 이용하여 자동으로 한국어 명사 WordNet 을 구축하는 방법을 제안한다. 한국어 문장의 구조적인 특징을 분석하여 상위 개념 (상위어)를 추출하는 규칙을 제안한다. 그것은 중심적인 말이 보통 뒤에 나타난다는 것과 명사의 정의는 특수한 구조를 갖는다는 것을 반영하였다. 또한, 이러한 규칙에 의해 만들어진 상위어들을 결합한 한국어 명사의 WordNet프로토타입을 개발 하였다. 약 250개 표본 단어의 상위어를 추출한 결과 약 92여 퍼센트가 상위어가 옳게 추출 되었다.

  • PDF