• 제목/요약/키워드: 단어 벡터 생성

검색결과 58건 처리시간 0.028초

단어 임베딩 기법을 이용한 한글의 의미 변화 파악 (Understanding the semantic change of Hangeul using word embedding)

  • 선현석;이영섭;임창원
    • 응용통계연구
    • /
    • 제34권3호
    • /
    • pp.295-308
    • /
    • 2021
  • 최근 들어 많은 사람들이 자신의 관심사를 SNS에 게시하거나 인터넷과 컴퓨터의 기술 발달로 디지털 형태의 문서 저장이 가능하게 됨으로써 생성되는 텍스트 자료의 양이 폭발적으로 증가하게 되었다. 이에 따라 수많은 문서 자료로부터 가치 있는 정보를 창출하기 위한 기술의 요구 또한 증가하고 있다. 본 연구에서는 대통령 연설 기록문과 신문기사 공공데이터를 활용하여 한글 단어들이 시간에 따라 어떻게 의미가 변화되어 가는지를 통계적 기법을 통해 발굴하였다. 이를 이용하여 한글의 통시적 변화 연구에 활용할 수 있는 방안을 제시한다. 기존 언어학자나 원어민의 직관에 의해 연구되던 한글의 이론적 언어 현상 연구에서 벗어나 누구나 사용할 수 있는 공공문서를 통해 수치화된 값을 도출하고 단어의 의미변화 현상을 설명하고자 한다.

PDA를 위한 내장형 화자인증기의 구현 (An Implementation of Embedded Speaker Identifier for PDA)

  • 김동주;노용완;김동규;정광우;홍광석
    • 융합신호처리학회 학술대회논문집
    • /
    • 한국신호처리시스템학회 2005년도 추계학술대회 논문집
    • /
    • pp.286-289
    • /
    • 2005
  • 기존의 물리적 인증도구를 이용한 방식이나 패스워드 인증 방식은 분실, 도난, 해킹 등에 취약점을 가지고 있다. 따라서 지문, 서명, 홍채, 음성, 얼굴 등을 이용한 생체 인식기술을 보안 기술로 적용하려는 연구가 진행중이며 일부는 실용화도 되고 있다. 본 논문에서는 최근 널리 보급되어 있는 임베디드 시스템중의 하나인 PDA에 음성 기술을 이용한 내장형 화자 인증기를 구현하였다. 화자 인증기는 음성기술에서 널리 사용되고 있는 벡터 양자화 기술과 은닉 마코프 모델 기술을 사용하였으며, PDA의 하드웨어적인 제약 사항을 고려하여 사용되는 벡터 코드북을 두 가지로 다르게 하여 각각 구현하였다. 처음은 코드북을 화자 등록시에 발성음만을 이용하여 생성하고 화자인증 시에 이용하는 방법이며, 다른 하나는 대용량의 음성 데이터베이스를 이용하여 코드북을 사전에 생성하여 이를 화자 인증시에 이용하는 방법이다. 화자인증기의 성능평가는 5명의 화자가 10번씩 5개의 단어에 대하여 실험하여, 각각 화자종속 코득북을 이용한 인증기는 88.8%, 99.5%, 화자독립 코드북을 이용한 인증기는 85.6%, 95.5%의 인증율과 거절율을 보였으며, 93.5%와 90.0%의 평균 확률을 보였다.. 실험을 통하여 화자독립 인증기의 경우가 화자종속 인증기의 경우보다 낮은 인식율을 보였지만, 화자종속 인증기에서 나타나는 코드북 훈련시에 발생하는 메모리 문제를 해결 할 수 있었다.

  • PDF

Doc2Vec과 Word2Vec을 활용한 Convolutional Neural Network 기반 한국어 신문 기사 분류 (Categorization of Korean News Articles Based on Convolutional Neural Network Using Doc2Vec and Word2Vec)

  • 김도우;구명완
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.742-747
    • /
    • 2017
  • 본 논문에서는 문장의 분류에 있어 성능이 입증된 word2vec을 활용한 Convolutional Neural Network(CNN) 모델을 기반으로 하여 문서 분류에 적용 시 성능을 향상시키기 위해 doc2vec을 함께 CNN에 적용하고 기반 모델의 구조를 개선한 문서 분류 방안을 제안한다. 먼저 토큰화 방법을 선정하기 위한 초보적인 실험을 통하여, 어절 단위, 형태소 분석, Word Piece Model(WPM) 적용의 3가지 방법 중 WPM이 분류율 79.5%를 산출하여 문서 분류에 유용함을 실증적으로 확인하였다. 다음으로 WPM을 활용하여 생성한 단어 및 문서의 벡터 표현을 기반 모델과 제안 모델에 입력하여 범주 10개의 한국어 신문 기사 분류에 적용한 실험을 수행하였다. 실험 결과, 제안 모델이 분류율 89.88%를 산출하여 기반 모델의 분류율 86.89%보다 2.99% 향상되고 22.80%의 개선 효과를 보였다. 본 연구를 통하여, doc2vec이 동일한 범주에 속한 문서들에 대하여 유사한 문서 벡터 표현을 생성하기 때문에 문서의 분류에 doc2vec을 함께 활용하는 것이 효과적임을 검증하였다.

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용 (Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity)

  • 이정원;임일
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.267-286
    • /
    • 2023
  • 인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.

VAE를 이용한 의미적 연결 관계 기반 다중 문서 요약 기법 (Multi-Document Summarization Method Based on Semantic Relationship using VAE)

  • 백수진
    • 디지털융복합연구
    • /
    • 제15권12호
    • /
    • pp.341-347
    • /
    • 2017
  • 많은 양의 문서 데이터가 증가됨에 따라 사용자는 해당 문서를 이해하기 위한 요약된 정보를 필요로 한다. 그러나, 기존 문서 요약 연구 방법들은 지나치게 단순한 통계에 의존함으로써 문장의 모호성 및 의미 있는 문장 생성을 위한 다중 문서 요약 연구가 미흡한 실정이다. 본 논문에서는 의미적 연결 관계에 대한 파악 및 불필요한 정보를 처리하기 위한 전처리 과정을 거치며, 어휘 의미 패턴 정보를 기반으로 VAE를 이용하여 문장 간의 의미적 연결성을 높인 다중 문서 요약 기법을 제안하였다. 문장을 이루고 있는 단어 벡터들을 이용하여, 잠재된 변수로 생성된 압축된 정보와 속성 판별기로부터 학습을 한 후 문장을 재구성함으로써 의미적 연결 처리가 자연스러운 요약문을 생성하였다. 제안된 방법과 다른 문서 요약 방법을 비교했을 시 미세하지만 더 향상된 성능을 나타냈으며, 이는 의미적 문장 생성 및 연결성을 높일 수 있음을 증명하였다. 앞으로, 다양한 속성 설정 값을 가지고 실험하여 의미적 연결 관계를 확장할 수 있는 방법을 연구하고자 한다.

빅데이터 분석을 이용한 이러닝 수강 후기 분석 (e-Learning Course Reviews Analysis based on Big Data Analytics)

  • 김장영;박은혜
    • 한국정보통신학회논문지
    • /
    • 제21권2호
    • /
    • pp.423-428
    • /
    • 2017
  • 인터넷과 스마트 기기의 사용량 증가로 인해 다양한 교육정보와 많은 양의 데이터가 생성되어 빠르게 확산되고 있다. 최근 이러닝 이용률이 증가하면서 발생하는 빅데이터를 활용하여 학습자들의 교육 성과와 교육 시스템의 효과성을 극대화 하는 것을 목표로 하는 교육 데이터 관련 연구 분야에 대한 관심이 높아지고 있으며 온라인에서 학습자들이 학습한 수많은 기록과 데이터들이 정보로 쌓이게 된다. 이에 본 논문에서는 이러닝 학습자들이 시스템에 남긴 수강 기록을 기반으로 학습자 현황에 대해 객관적으로 파악할 수 있도록 신경망 알고리즘인 Word2Vec을 적용하여 단어 간 유사도를 구하고 클러스터링 알고리즘을 이용하여 군집화 하였다. Word2vec을 이용하여 학습을 시키면 연관된 의미의 단어가 나타나게 되고 학습을 반복해 나가는 과정에서 점차 가까운 벡터를 지니게 된다. 또한 클러스터 알고리즘을 이용하여 명사, 동사, 형용사, 부사가 중심점에서 최소의 거리를 두고 같은 거리에 위치해 있음을 실험 검증하였다.

준 실시간 뉴스 이슈 분석을 위한 계층적·점증적 군집화 (Hierarchical and Incremental Clustering for Semi Real-time Issue Analysis on News Articles)

  • 김호용;이승우;장홍준;서동민
    • 한국콘텐츠학회논문지
    • /
    • 제20권6호
    • /
    • pp.556-578
    • /
    • 2020
  • 실시간으로 발생하는 뉴스 기사로부터 이슈를 분석하기 위한 다양한 연구가 진행되어 왔다. 하지만 범주에 따라 계층적으로 이슈를 분석하는 연구는 많이 진행되지 않았고, 계층적 이슈 분석을 위한 기존의 연구에서 제안하는 방식 또한 뉴스 기사 증가에 따라 군집화 속도가 느려지는 문제점이 있다. 따라서 본 논문에서는 준 실시간으로 뉴스 기사의 이슈를 분석하는 계층적·점증적 군집화 방식을 제안한다. 제안하는 군집화 방식은 샴 신경망을 이용한 가중 코사인 유사도 측정 모델 기반의 k-평균 알고리즘을 이용한 단어 군집 기반 문서 표현 방식을 통해 뉴스 기사를 문서 벡터로 표현한다. 그리고 문서 벡터로부터 초기 이슈 군집 트리를 생성하고, 새로 발생한 뉴스 기사를 해당 이슈 군집 트리에 추가하는 점증적 군집화 방식을 제안함으로써 뉴스 기사의 계층적 이슈를 준 실시간으로 분석한다. 마지막으로, 본 논문에서 제안하는 방식과 기존 방식들과의 성능평가를 통해 제안하는 군집화 방식이 정확도 측면에서 기존 방식 대비 NMI 지표 기준 0.26 정도 성능이 향상되었고, 속도 측면에서 약 10배 이상의 성능이 향상됨을 입증하였다.

Signal Set Partitioning을 이용한 격자 양자화의 비 손실 부호화 기법 (Lossless Coding Scheme for Lattice Vector Quantizer Using Signal Set Partitioning Method)

  • 김원하
    • 전자공학회논문지CI
    • /
    • 제38권6호
    • /
    • pp.93-105
    • /
    • 2001
  • 격자 벡터 양자화의 비 손실 과정에서는 생성된 코드단어들을 radius 열과 Index 열로 열거한다. radius 열은 run-length 부호화한 한 다음 Entropy 부호화한다. 또한 index 열들은 이진의 고정길이로 표현한다. 비트율이 증가함에 따라 index 비트는 선형적으로 증가하여서 부호화 성능을 감소시킨다. 이 논문에서는, 넓은 비트율의 범위에서 index 비트를 줄이기 위해서, set partitioning 방식을 채택한 새로운 열거 알고리즘을 개발하였다. 제안된 열거 방법은 큰 index 값을 작은 값들을 천이 시켜서 index 비트를 줄인다. 제안된 비손실 기법을 웨이블릿 기반의 영상 부호화에 적용시켰을 때, 0.3 bits/pixel 이상의 비트룰에서 기존의 비손실 부호화 방식보다 10%이상의 비트율을 감소시켰다.

  • PDF

DCT 맵 FSVQ와 단방향 분포 허프만 트리를 이용한 영상 압축 (Image Compression Using DCT Map FSVQ and Single - side Distribution Huffman Tree)

  • 조성환
    • 한국정보처리학회논문지
    • /
    • 제4권10호
    • /
    • pp.2615-2628
    • /
    • 1997
  • 본 논문에서는 영상 전송을 위한 벡터 양자화기를 설계할 때 2차원 DCT에 근거한 DCT 맵과 유한상태 벡터 양자화를 이용하는 새로운 부호책(codebook) 설계 알고리듬을 제안한다. 영상을 윤곽선이 많은 부분과 적은 부분으로 나누어 맵을 만들고 이 맵에 따라 영상의 중요한 특징들을 2차원 DCT로 추출한다. 유한상태 벡터 양자화기의 마스터 부호책은 트리 구조에 근거한 2진 트리를 사용하여 두 영역을 따로 학습세트로 나눔으로서 만들어진다. 이와 같이 작성된 마스터 부호책으로부터 상태 부호책을 작성하여 입력 벡터에 대하여 마스터 부호책이 아닌 상태 부호책으로부터 부호단어를 찾는다. 또한 인덱스의 부호화는 고속 디지털 전송에 중요한 부분이기 때문에 고정길이의 부호를 엔트로피 부호화 법칙에 따라 가변 길이의 부호로 바꾸어 수행한다. 즉, 설계한 부호책에서 각 부호에 전송 부호 할당은 허프만 부호화를 수행하는데, 허프만 트리에서의 허프만 코드의 생성을 빠르게 하기 위해 본 논문에서는 트리의 단방향 분포 허프만 트리 알고리듬을 제안한다. Einstein과 Bridge 영상에 대하여 본 알고리듬으로 영상을 부호화했을 때 PNN 알고리듬보다는 각각 2.94 dB과 2.48 dB만큼, CVQ 알고리듬보다 각각 약 1.75 dB과 0.99dB만큼 더 좋은 영상의 화질을 얻을 수 있었다.

  • PDF