• 제목/요약/키워드: 단어 벡터 생성

검색결과 58건 처리시간 0.023초

실시간 윈도우 환경에서 DMS모델을 이용한 자동 음성 제어 시스템에 관한 연구 (A Study on the Automatic Speech Control System Using DMS model on Real-Time Windows Environment)

  • 이정기;남동선;양진우;김순협
    • 한국음향학회지
    • /
    • 제19권3호
    • /
    • pp.51-56
    • /
    • 2000
  • 본 논문은 음성인식을 이용한 실시간 윈도우 자동 제어 시스템에 관한 연구이다. 사용된 음성 모델은 수행 속도를 높이기 위해 제안된 가변 DMS 모델을 이용하였으며, 인식 알고리즘으로 이를 이용한 One-Stage DP 알고리즘을 사용한다. 인식 대상단어는 윈도우에서 자주 사용되는 66개의 윈도우 제어 명령어들로 구성한다. 본 연구에서 온라인으로 음성을 처리하기 위해 음성 검출 알고리즘을 구현하였으며, 기존 DMS(Dynamic Multi Section)모델 생성시 고정적으로 적용하던 섹션의 수를 입력 신호의 지속 시간을 고려하여 가변적으로 적용한 가변 DMS 모델을 제안하였다. 또한 윈도우에서 사용자 작업에 의해 현재 상태에 인식 대상으로 불필요한 인식 대상단어가 발생하게 되는데 이를 효율적으로 처리하기 위해 사용 모델을 재구성하여 사용하도록 제안하였으며, 인간의 청각적 특성을 고려하여 음성신호에서 개인의 특성은 제외하고 음성 자체의 특징만을 추출하여 특징 벡터를 생성하는 인지 선형 예측(Perceptual Linear Predictive)분석 방법을 이용하였다. 시스템 성능 평가 결과 가변 동적 다중 섹션 모델(Variable DMS model)과 기존의 DMS 모델은 인식률 면에서는 거의 동일하지만 인식 수행 속도는 제안된 모델의 계산량이 기존 모델보다 작기 때문에 향상되었고, 다중 화자 독립 인식률은 99.08%, 다중 화자 종속 인식률은 99.39%의 인식률을 나타내었으며, 실제 노이즈가 있는 환경에서 화자독립실험의 경우 96.25%의 인식률을 보여 주었다.

  • PDF

문서의 감정 분류를 위한 주목 방법 기반의 딥러닝 인코더 (An Attention Method-based Deep Learning Encoder for the Sentiment Classification of Documents)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권4호
    • /
    • pp.268-273
    • /
    • 2017
  • 최근 감정 분류 분야에서 딥러닝 인코더 기반의 접근 방법이 활발히 적용되고 있다. 딥러닝 인코더 기반의 접근 방법은 가변 길이 문장을 고정 길이 문서 벡터로 압축하여 표현한다. 하지만 딥러닝 인코더에 흔히 사용되는 구조인 장 단기 기억망(Long Short-Term Memory network) 딥러닝 인코더는 문서가 길어지는 경우, 문서 벡터 표현의 품질이 저하된다고 알려져 있다. 본 논문에서는 효과적인 감정 문서의 분류를 위해, 장 단기 기억망의 출력을 중요도에 따라 가중합하여 문서 벡터 표현을 생성하는 주목방법 기반의 딥러닝 인코더를 사용하는 것을 제안한다. 또한, 주목 방법 기반의 딥러닝 인코더를 문서의 감정 분류 영역에 맞게 수정하는 방법을 제안한다. 제안하는 방법은 윈도우 주목 방법(Window Attention Method)을 적용한 단계와 주목 가중치 재조정(Weight Adjustment) 단계로 구성된다. 윈도우 주목 방법은 한 단어 이상으로 구성된 감정 자질을 효과적으로 인식하기 위해, 윈도우 단위로 가중치를 학습한다. 주목 가중치 재조정에서는 학습된 가중치를 평활화(Smoothing) 한다, 실험 결과, 본 논문에서 제안하는 방법은 정확도 기준으로 89.67%의 성능을 나타내어 장 단기 기억망 인코더보다 높은 성능을 보였다.

A Study on the Classification of Unstructured Data through Morpheme Analysis

  • Kim, SungJin;Choi, NakJin;Lee, JunDong
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권4호
    • /
    • pp.105-112
    • /
    • 2021
  • 빅데이터 시대에 접어들며 데이터에 대한 관심이 폭발적으로 늘어나고 있다. 특히, 인터넷 및 소셜미디어의 발전은 새로운 데이터들의 생성으로 연결되어 빅데이터와 인공지능 시대의 실현과 융합 기술의 새로운 장을 열 수 있게 되었으며, 과거에는 프로그램으로 다루지 못하던 데이터에 대한 분석 요구가 많이 발생하고 있다. 본 논문에서는 빅데이터 시대에서 많이 요구되는 비정형 데이터에 대한 분류를 위하여 분석 모델을 설계하고 이를 검증하였다. 데이터는 디비피아의 논문 요약과 주제어, 그리고 부주제 어를 크롤링하였으며, 코엔엘피의 데이터 사전을 이용해 데이터베이스를 생성하고, 형태소 분석을 통하여 단어의 토큰화 과정을 수행하였다. 또한, 카이스트의 9 품사 분류 체계를 이용해 명사를 추출하고, TF-IDF 값을 생성하였으며, 학습 데이터와 Y 값을 결합하여 분석 데이터 셋을 생성하였다. 이와 같이 생성된 분석 데이터 셋에 랜덤 포레스트와 서포트 벡터 머신 그리고 의사결정트리, 이렇게 세 가지 분석 알고리즘을 적용하여 분류의 적정성을 측정하였다. 본 논문에서 제안한 분류 모델 기법은 논문 분류 외에도 민원 분류 분석 및 텍스트 관련 분석 등 다양한 분야에 유용하게 사용될 수 있다.

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.

NLP와 BiLSTM을 적용한 조세 결정문의 분석과 예측 (Tax Judgment Analysis and Prediction using NLP and BiLSTM)

  • 이영근;박구락;이후영
    • 디지털융복합연구
    • /
    • 제19권9호
    • /
    • pp.181-188
    • /
    • 2021
  • 일반인에게 난해한 법률분야를 이해하기 쉽고 예측 가능 할 수 있도록 인공지능을 적용한 법률 서비스에 대한 연구의 중요성이 대두되고 있다. 본 연구에서는 조세심판원의 결정정보를 수집하고 데이터 처리와 자체 학습을 통한 모델을 구축하여 사용자의 질의에 맞는 답변을 예측하기 위한 시스템을 제안한다. 제안 모델은 웹크롤링을 통해서 조세 결정문의 정보 수집 및 자연어 처리과정을 통하여 유용한 데이터를 추출하고, 최적화된 산출물을 Word2Vec의 Fast Text 알고리즘을 적용하여 단어의 벡터를 생성하였다. 2017년부터 2019년까지 총 11,103건의 정보를 수집하고 분류하였으며 RNN 기술의 BiLSTM을 적용하여 자체학습을 통한 결과 예측 프로그램을 구축하여 70%정확도로 실증하였다. 향후 다양한 법률시스템으로 활용성을 기대할 수 있으며 보다 효율적인 적용을 위한 연구와 정확도 향상을 위한 연구가 계속되어야 한다.

한국 전통문화 말뭉치구축 및 Bi-LSTM-CNN-CRF를 활용한 전통문화 개체명 인식 모델 개발 (Constructing for Korean Traditional culture Corpus and Development of Named Entity Recognition Model using Bi-LSTM-CNN-CRFs)

  • 김경민;김규경;조재춘;임희석
    • 한국융합학회논문지
    • /
    • 제9권12호
    • /
    • pp.47-52
    • /
    • 2018
  • 개체명 인식(Named Entity Recognition)시스템은 문서로부터 고유한 의미를 가질 수 있는 인명(PS), 지명(LC), 기관명(OG) 등의 개체명을 추출하고 추출된 개체명의 범주를 결정하는 시스템이다. 최근 딥러닝 방식을 이용한 개체명 인식 연구에서 입력 데이터의 앞, 뒤 방향을 고려한 LSTM 기반의 Bi-LSTM 모델로부터 출력 데이터 간의 전이 확률을 이용한 CRF를 결합한 방식의 Bi-LSTM-CRF가 우수한 성능을 보이고, 문자 및 단어 단위의 효율적인 임베딩 벡터생성에 관한 연구와 CNN, LSTM을 활용한 모델에서도 좋은 성능을 보여주고 있다. 본 연구에서는 한국어 개체명 인식시스템 성능 향상을 위해 자질을 보강한 Bi-LSTM-CNN-CRF 모델에 관해 기술하고 전통문화 말뭉치구축 방식에 대해 제안한다. 그리고 구축한 말뭉치를 한국어 개체명 인식 성능 향상을 위한 자질 보강 모델 Bi-LSTM-CNN-CRF로 학습한 결과에 대해 제안한다.

회선 신경망을 활용한 자모 단위 한국형 감성 분석 모델 개발 및 검증 (Development and Validation of the Letter-unit based Korean Sentimental Analysis Model Using Convolution Neural Network)

  • 성원경;안재영;이중정
    • 한국전자거래학회지
    • /
    • 제25권1호
    • /
    • pp.13-33
    • /
    • 2020
  • 본 연구는 자모 단위의 임베딩과 회선 신경망을 활용한 한국어 감성 분석 알고리즘을 제안한다. 감성 분석은 텍스트에서 나타난 사람의 태도, 의견, 성향과 같은 주관적인 데이터 분석을 위한 자연어 처리 기술이다. 최근 한국어 감성 분석을 위한 연구는 꾸준히 증가하고 있지만, 범용 감성 사전을 사용하지 못하고 각 분야에서 자체적인 감성 사전을 구축하여 사용하고 있다. 이와 같은 현상의 문제는 한국어 특성에 맞지 않게 형태소 분석을 수행한다는 것이다. 따라서 본 연구에서는 감성 분석 절차 중 형태소 분석을 배제하고 초성, 중성, 종성을 기반으로 음절 벡터를 생성하여 감성 분석을 하는 모델을 개발하였다. 그 결과 단어 학습 문제와 미등록 단어의 문제점을 최소화할 수 있었고 모델의 정확도는 88% 나타내었다. 해당 모델은 입력 데이터의 비 정형성에 대한 영향을 적게 받으며, 텍스트의 맥락에 따른 극성 분류가 가능하게 되었다. 한국어 특성을 고려하여 개발된 본 모델이 한국어 감성 분석을 수행하고자 하는 비전문가에게 보다 쉽게 이용될 수 있기를 기대한다.

사용자-상품 행렬의 최적화와 협력적 사용자 프로파일을 이용한 그룹의 대표 선호도 추출 (Extracting Typical Group Preferences through User-Item Optimization and User Profiles in Collaborative Filtering System)

  • 고수정
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권7호
    • /
    • pp.581-591
    • /
    • 2005
  • 협력적 여과 시스템은 희박성과 단지 두 고객만의 선호도에 따른 상관 관계로 추천을 제공한다는 문제점과 군집내의 가장 유사한 두 사용자만의 상관 관계에 의하여 추천을 한다는 단점이 있다. 또한, 상품의 내용을 기반으로 하지 않고 선호도만을 기반으로 하므로 추천의 정확도가 사용자에 의해 평가한 자료에만 의존한다는 문제점도 있다. 이와 같이 평가된 자료를 추천에 이용할 경우, 모든 사용자가 모든 상품에 대해 성의 있게 평가할 수는 없으므로 추천의 정확도가 낮아지는 결과를 가져온다. 따라서 본 논문에서는 엔트로피을 사용하여 사용자가 상품에 대하여 평가한 자료를 기반으로 검증되지 않은 사용자를 제외시키고, 다음으로 사용자 프로파일을 생성한 후 사용자를 군집시키며, 마지막으로 그룹의 대표 선호도를 추출하는 방법을 제안한다. 기존의 사용자 군집을 이용한 방법은 군집내의 사용자만을 대상으로 유사한 사용자를 찾으므로 희박성은 해결할 수 있으나 그 외의 단점을 해결하지 못하였다. 제안한 방법에서는 상품에 대해 평가한 선호도 뿐만 아니라 상품에 대한 정보를 반영하기 위하여 연관 단어 마이닝의 방법에 의해 협력적 사용자의 프로파일을 생성하고, 이를 기반으로 벡터 공간 모델과 K-means 알고리즘에 의해 사용자를 군집시킨다. 군집된 사용자를 대상으로 상품의 선호도와 사용자의 엔트로피를 병합함으로써 최종적으로 그룹의 대표 선호도를 추출한다. 대표 선호도를 이용한 추천 시스템은 한 사용자의 부정확한 선호도를 기반으로 추천을 하는 경우에 나타나는 추천의 부정확도 문제를 해결하며, 군집내의 가장 유사한 두 사용자만의 상관 관계에 의하여 추천을 하는 단점을 보완하고, 또한 그룹 내에 가장 유사한 사용자를 찾는 데 소요되는 시간을 절약할 수 있다는 장점을 갖는다.