• Title/Summary/Keyword: 문장 벡터

Search Result 145, Processing Time 0.024 seconds

Robust Speaker Recognition using Independent Component Analysis (독립성분분석을 이용한 강인한 화자인식)

  • 장길진
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • 1998.06e
    • /
    • pp.327-330
    • /
    • 1998
  • 독립성분분석(ICA: Independent Component Analysis)이란 특징이 상이한 둘 이상의 신호들이 선형적으로 결합되어 있을 때 이를 효과적으로 분리하는 방법들을 통칭하며 잡음제거, 음질개선 및 신호처리 분야에서 많이 활용되고 있다. 본 논문에서는 전화음성 화자인식 시스템의 성능향상을 위해 독립성분분석을 이용하는 방법을 제안한다. 먼저 화자가 발성한 음성신호의 켑스트럼 계수를 여러 채널 함수들의 선형적인 합으로 가정하고, 독립성분분석을 이용하여 얻은 새로운 켑스트럼 벡터를 학습과 인식에 사용하였다. 실험자료는 잔화음성 화자식별기의 성능평가에 널리 쓰이고 있는 SPIDRE를 사용하였고 regodic 은닉 마코프 모델을 이용하여 문장 독립 화자식별 시스템을 구성하였다. 학습음성의 특징과 실험음성의 특징이 다른 조건에서 기존의 채널 정규화 방법들에 비해 10~15%이상 인식률이 향상되었다.

  • PDF

An automatic Industrial/Occupational Code Classification Tool Using Information Retrieval Technique (정보검색 기법을 이용한 산업/직업 코드 분류 도구)

  • 임희석;박두순
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2001.06a
    • /
    • pp.75-78
    • /
    • 2001
  • 본 논문은 통계청에서 실시하는 인구주택 총조사로부터 획득된 각 개인의 직업 및 직종을 기술하고 있는 자연어를 입력받아 입력된 자연어가 의미하는 한국 표준 산업/구업 분류 코드의 후보들을 생성하는 산업/직업 코드 분류 도구를 제안한다. 코드 분류는 분류할 코드를 문서 범주로 간주하면 문서 분류와 동일한 문제로 생각할 수 있다. 하지만 본 산업/직업 코드 분류 문제는 입력되는 자연어의 길이가 한 두 문장 정도로 매우 짧아 문서 분류에 사용될 자질들이 개수가 주어 기존의 문서 분류 기법을 적용하기 어렵다. 이에 본 논문은 표준 코드를 기술하고 있는 내용을 미리 색인하고 입력된 자연어로부터 질의어를 생성하여 벡터공간모델로 질의어를 검색후 질의어와 일치율이 가장 높은 코드들을 분류될 후보 코드로 계시하는 정보검색 기법을 이용한 산업/직업 코드 분류 도구를 개발하였다.

  • PDF

KoELMo: Deep Contextualized word representations for Korean (KoELMo: 한국어를 위한 문맥화된 단어 표상)

  • Hong, Seung-Yean;Na, Seung-Hoon;Shin, Jong-Hoon;Kim, Young-Kil
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.296-298
    • /
    • 2018
  • 기존의 Word2Vec이나 Glove 등의 단어 임베딩 모델은 문맥에 상관없이 단어의 Vector들이 고정된 Vector를 가지는 문제가 있다. ELMo는 훈련된 Bi-LSTM 모델을 통해서 문장마다 Word Embedding을 수행하기 때문에 문맥에 상관없이 고정된 Vector를 가지는 문제를 해결하였다. 본 논문에서는 한국어와 같이 형태적으로 복잡한 언어의 경우 수 많은 단어가 파생될 수 있어 단어 임베딩 벡터를 직접적으로 얻는 방식에는 한계가 있기 때문에 형태소의 표상들을 결합하여 단어 표상을 사용한 ELMo를 제안한다. ELMo 단어 임베딩을 Biaffine attention 파싱 모델에 적용 결과 UAS에서 91.39%, LAS에서 90.79%으로 기존의 성능보다 향상된 성능을 얻었다.

  • PDF

Two-phase Spam-mail Filtering System Applying Hyper]links (하이퍼링크를 활용한 2단계 스팸 메일 필터링 시스템)

  • 강신재;이새봄;김종완
    • Proceedings of the Korea Society for Industrial Systems Conference
    • /
    • 2004.06a
    • /
    • pp.20-25
    • /
    • 2004
  • 본 논문은 하이퍼링크를 활용한 2 단계 스팸 메일 필터링에 관한 방법을 제시한다. 일반적으로 스팸 메일의 본문에는 텍스트 문장보다는 그림이 더 많이 포함되어 있기 때문에 단어의 블랙리스트와 같은 전형적인 방법으로 스팸 메일을 구분하기에는 많은 어려움이 따른다. 이러한 문제를 해결하기 위하여 본 논문에서는 스팸 메일에 포함되어 있는 하이퍼링크를 추출하여 해당 웹 페이지를 가져온 후, 이를 확장된 형태의 메일 본문이라 간주하여 텍스트 정보를 추출하였다. 또한 스팸 메일을 구분하기 위한 정보를 두 가지로 구분하여 사용하였는데, 메일 송신자의 정보와 확실한 스팸 키워드 리스트를 확실한 정보군으로 구분하여 먼저 적용하고, 이보다 덜 명확한 정보들은 토로 구분하여 속성벡터를 만들어 SVM 알고리즘을 적용하였다. 실험결과 하이퍼링크를 통하여 웹페이지를 가져온 방법이 그냥 원본 메일만 사용한 방법보다 F-measure 값이 평균 2.8%의 성능향상을 보였다.

  • PDF

DOCST: Document frequency Oriented Clustering for Short Texts (가중치를 이용한 효과적인 항공 단문 군집 방법)

  • Kim, Jooyoung;Lee, Jimin;An, Soonhong;Lee, Hoonsuk
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.331-334
    • /
    • 2018
  • 비정형 데이터의 대표적인 형태 중 하나인 텍스트 데이터 기계학습은 다양한 산업군에서 활용되고 있다. NOTAM 은 하루에 수 천개씩 생성되는 항공전문으로써 현재는 사람의 수작업으로 분석하고 있다. 기계학습을 통해 업무 효율성을 기대할 수 있는 반면, 축약어가 혼재된 단문이라는 데이터의 특성상 일반적인 분석에 어려움이 있다. 본 연구에서는, 데이터의 크기가 크지 않고, 축약어가 혼재되어 있으며, 문장의 길이가 매우 짧은 문서들을 군집화하는 방법을 제안한다. 주제를 기준으로 문서를 분류하는 LDA 와, 단어를 k 차원의 벡터공간에 표현하는 Word2Vec 를 활용하여 잡음이 포함된 단문 데이터에서도 효율적으로 문서를 군집화 할 수 있다.

Short Text Emotion Recognition based on Complex Keywords (복합색인어 기반 단문텍스트 감정 인식 기법)

  • Han, Ki-Hyun;Lee, Sungyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2013.11a
    • /
    • pp.520-522
    • /
    • 2013
  • 스마트 폰의 확산으로 대화의 개념이 음성에서 텍스트로 확대 되고 있다. 방대하게 누적되고 있는 메신저의 텍스트 데이터로부터 유용한 정보들을 찾아 사용자에게 추천서비스를 제공할 수 있다. 이를 뒷받침 해주기 위해서는 텍스트 감정 인식이 중요하다. 기존에는 PMI기법과 감정키워드를 이용하여 감정을 분류 하였다. 그러나 특정단어로 감정을 분류하기 때문에 정확도가 낮았다. 본 논문에서는 복합색인어 기반 텍스트 감정 인식 기법을 제안한다. 문장에서 동사와 복합색인어를 추출하여 음운으로 분해한다. 그리고 스트링커널에서 벡터 값을 추출하여 기계학습 알고리즘(SVM)으로 4가지 감정(행복, 슬픔. 화남, 평범)으로 분류하는 방법이다. 동사와 감정에 영향을 주는 색인어를 추출하여 감정을 인식하는 기법으로 실험결과 정확도는 기존에 동사만 사용했을 때 보다 15%향상됨을 보였다.

Korean Morpheme Restoration and Segmentation based on Transformer (트랜스포머 기반 한국어 형태소 원형복원 및 분리)

  • Hyeong Jin Shin;Jeongyeon Park;Jae Sung Lee
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.403-406
    • /
    • 2022
  • 최근 한국어 언어 모델이나 단어 벡터 생성 등에서는 효과적인 토큰을 만들기 위해 품사 태그 없이 형태소 열만을 사용하고 있다. 본 논문에서는 입력 문장에 대해 품사 태그열 생성없이 형태소 열만을 직접 출력하는 효율적인 모델을 제안한다. 특히, 자연어처리에서 적합한 트랜스포머를 활용하기 위해, 입력 음절과 원형 복원된 형태소 조각이 1:1로 대응되는 새로운 형태소 태깅 방법을 제안한다. 세종 품사 부착 말뭉치를 대상으로 평가해 본 결과 공개 배포되어 있는 기존 형태소 분석 모델들보다 형태소 단위 F1 기준으로 약 7%에서 14% 포인트 높은 성능을 보였다.

  • PDF

Zero-Shot Readability Assessment of Korean ESG Reports using BERT (BERT를 활용한 한국어 지속가능경영 보고서의 제로샷 가독성 평가)

  • Son, Guijin;Yoon, Naeun;Lee, Kaeun
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.456-459
    • /
    • 2022
  • 본 연구는 최근 자연어 인공지능 연구 동향에 발맞추어 사전 학습된 언어 인공지능을 활용한 의미론적 분석을 통해 국문 보고서의 가독성을 평가하는 방법론 두 가지를 제안한다. 연구진은 연구 과정에서 사전 학습된 언어 인공지능을 활용해 추가 학습 없이 문장을 임의의 벡터값으로 임베딩하고 이를 통해 1. 의미론적 복잡도 와 2. 내재적 감정 변동성 두 가지 지표를 추출한다. 나아가, 앞서 발견한 두 지표가 국문 보고서의 가독성과 정(+)의 상관관계에 있음을 확인하였다. 본 연구는 통사론적 분석과 레이블링 된 데이터에 크게 의존하던 기존의 가독성 평가 방법론으로 부터 탈피해, 별도의 학습 없이 기존 가독성 지표에 근사한다는 점에서 의미가 있다.

Prefix-tuning for Korean Natural language processing (Prefix-tuning에 기반한 한국어 자연언어 처리)

  • Min, Jinwoo;Na, Seung-Hoon;Shin, Dongwook;Kim, Seon-Hoon;Kang, Inho
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.622-624
    • /
    • 2021
  • 현재 BERT와 같은 대용량의 코퍼스로부터 학습된 사전 학습 언어 모델을 자연어 응용 태스크에 적용하기 위해 일반적으로 널리 사용되는 방법은 Fine-tuning으로 각 응용 태스크에 적용 시 모델의 모든 파라미터를 조정하기 때문에 모든 파라미터를 조정하는데 필요한 시간적 비용과 함께 업데이트된 파라미터를 저장하기 위한 별도의 저장공간이 요구된다. 언어 모델이 커지면 커질수록 저장 공간의 비용이 증대됨에 따라 이러한 언어모델을 효율적으로 튜닝 할 수 있는 방법들이 연구되었다. 본 연구에서는 문장의 입력 임베딩에 연속적 태스크 특화 벡터인 prefix를 추가하여 해당 prefix와 관련된 파라미터만 튜닝하는 prefix-tuning을 한국어 네이버 감성 분석 데이터 셋에 적용 후 실험결과를 보인다.

  • PDF

Standard Industrial Classification in Short Sentence Based on Machine Learning Approach (기계학습 기반 단문에서의 문장 분류 방법을 이용한 한국표준산업분류)

  • Oh, Kyo-Joong;Choi, Ho-Jin;An, Hweongak
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.394-398
    • /
    • 2020
  • 산업/직업분류 자동코딩시스템은 고용조사 등을 함에 있어 사업체 정보, 업무, 직급, 부서명 등 사용자의 다양한 입력을 표준 산업/직업분류에 맞춰 코드 정보를 제공해주는 시스템이다. 입력 데이터로부터 비지도학습 기반의 색인어 추출 모델을 학습하고, 부분단어 임베딩이 적용된 색인어 임베딩 모델을 통해 입력 벡터를 추출 후, 출력 분류 코드를 인코딩하여 지도학습 모델에서 학습하는 방법을 적용하였다. 기존 시스템의 분류 결과 데이터를 통해 대, 중, 소, 세분류에서 높은 정확도의 모델을 구축할 수 있으며, 기계학습 기술의 적용이 가능한 시스템임을 알 수 있다.

  • PDF