• Title/Summary/Keyword: 유사언어

Search Result 693, Processing Time 0.03 seconds

A clustering algorithm of statistical langauge model and its application on speech recognition (통계적 언어 모델의 clustering 알고리즘과 음성인식에의 적용)

  • Kim, Woo-Sung;Koo, Myoung-Wan
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.145-152
    • /
    • 1996
  • 연속음성인식 시스템을 개발하기 위해서는 언어가 갖는 문법적 제약을 이용한 언어모델이 요구된다. 문법적 규칙을 이용한 언어모델은 전문가가 일일이 문법 규칙을 만들어 주어야 하는 단점이 있다. 통계적 언어 모델에서는 문법적인 정보를 수작업으로 만들어 주지 않는 대신 그러한 모든 정보를 학습을 통해서 훈련해야 하기 때문에 이를 위해 요구되는 학습 데이터도 엄청나게 증가한다. 따라서 적은 양의 데이터로도 이와 유사한 효과를 보일 수 있는 것이 클래스에 의거한 언어 모델이다. 또 이 모델은 음성 인식과 연계시에 탐색 공간을 줄여 주기 때문에 실시간 시스템 구현에 매우 유용한 모델이다. 여기서는 자동으로 클래스를 찾아주는 알고리즘을 호텔예약시스템의 corpus에 적용, 분석해 보았다. Corpus 자체가 문법규칙이 뚜렷한 특성을 갖고 있기 때문에 heuristic하게 클래스를 준 것과 유사한 결과를 보였지만 corpus 크기가 커질 경우에는 매우 유용할 것이며, initial map을 heuristic하게 주고 그 알고리즘을 적용한 결과 약간의 성능향상을 볼 수 있었다. 끝으로 음성인식시스템과 접합해 본 결과 유사한 결과를 얻었으며 언어모델에도 음향학적 특성을 반영할 수 있는 연구가 요구됨을 알 수 있었다.

  • PDF

Controllable data augmentation framework based on multiple large-scale language models (복수 대규모 언어 모델에 기반한 제어 가능형 데이터 증강 프레임워크)

  • Hyeonseok Kang;Hyuk Namgoong;Jeesu Jung;Sangkeun Jung
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.3-8
    • /
    • 2023
  • 데이터 증강은 인공지능 모델의 학습에서 필요한 데이터의 양이 적거나 편향되어 있는 경우, 이를 보완하여 모델의 성능을 높이는 데 도움이 된다. 이미지와는 달리 자연어의 데이터 증강은 문맥이나 문법적 구조와 같은 특징을 고려해야 하기 때문에, 데이터 증강에 많은 인적자원이 소비된다. 본 연구에서는 복수의 대규모 언어 모델을 사용하여 입력 문장과 제어 조건으로 프롬프트를 구성하는 데 최소한의 인적 자원을 활용한 의미적으로 유사한 문장을 생성하는 방법을 제안한다. 또한, 대규모 언어 모델을 단독으로 사용하는 것만이 아닌 병렬 및 순차적 구조로 구성하여 데이터 증강의 효과를 높이는 방법을 제안한다. 대규모 언어 모델로 생성된 데이터의 유효성을 검증하기 위해 동일한 개수의 원본 훈련 데이터와 증강된 데이터를 한국어 모델인 KcBERT로 다중 클래스 분류를 수행하였을 때의 성능을 비교하였다. 다중 대규모 언어 모델을 사용하여 데이터 증강을 수행하였을 때, 모델의 구조와 관계없이 증강된 데이터는 원본 데이터만을 사용하였을 때보다 높거나 그에 준하는 정확도를 보였다. 병렬 구조의 다중 대규모 언어 모델을 사용하여 400개의 원본 데이터를 증강하였을 때에는, 원본 데이터의 최고 성능인 0.997과 0.017의 성능 차이를 보이며 거의 유사한 학습 효과를 낼 수 있음을 보였다.

  • PDF

Question Similarity Analysis in dialogs with Automatic Feature Extraction (자동 추출 자질을 이용한 대화 속 질의 문장 유사성 분석)

  • Oh, KyoJoong;Lee, DongKun;Lim, Chae-Gyun;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.347-351
    • /
    • 2018
  • 이 논문은 대화 시스템에서 질의를 이해하기 위해 딥 러닝 모델을 통해 추출된 자동 추출 자질을 이용하여 문장의 유사성을 분석하는 방법에 대해 기술한다. 문장 간 유사성을 분석하기 위한 자동 추출 자질로써, 문장 내 표현 순차적 정보를 반영하기 위한 RNN을 이용하여 생성한 문장 벡터와, 어순에 관계 없이 언어 모델을 학습하기 위한 CNN을 이용하여 생성한 문장 벡터를 사용한다. 이렇게 자동으로 추출된 문장 임베딩 자질은 금융서비스 대화에서 입력 문장을 분류하거나 문장 간 유사성을 분석하는데 이용된다. 유사성 분석 결과는 질의 문장과 관련된 FAQ 문장을 찾거나 답변 지식을 찾는데 활용된다.

  • PDF

Token Compiler for Virtual machine on Spacecraft Computer (인공위성 탑재컴퓨터 가상머신을 위한 토큰 컴파일러)

  • Yoon, Young-Il;Jung, Hyun-A;Joe, Hyun-Woo;Kim, Hyung-Shin
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2012.06a
    • /
    • pp.276-278
    • /
    • 2012
  • 본 논문에서는 인공위성 탑재 컴퓨터의 가상머신에서 사용되는 C 언어와 유사한 언어를 번역하는 SpaceApp 토큰 컴파일러를 개발하였다. SpaceApp은 위성 제어를 위한 지상으로부터 업로드 가능한 프로그램으로, 이를 실행하기 위한 환경으로 자바가상머신과 유사한 SpaceApp 가상머신이 개발되었다. 이러한 가상머신에 필요한 컴파일러는 SpaceApp 언어를 번역할 수 있어야 하고, 실행 가능한 파일 형식으로 변환되어야 한다. 따라서 논문에서 개발한 컴파일러는 C 언어와 유사하게 SpaceApp 언어를 번역 가능하다. 그리고 인공위성 임무에 맞게 라이브러리를 지원하며, 가상머신에서 실행 가능한 파일 형식을 출력할 수 있도록 구현했다. 또한 통합 개발 환경으로 이클립스를 이용하여 편의성을 제공하도록 구현하였다.

Relations among the Non-Verbal Communication Abilities of Scuba Diving Instructors, Users' Coach Trust and Continuous Participating Intention (스쿠버다이빙 강사의 비언어적 커뮤니케이션 능력, 신뢰 및 지속적 참여의도와의 관계)

  • Kim, Seung-Yong;Song, Ki-Hyun
    • Journal of the Korea Convergence Society
    • /
    • v.11 no.7
    • /
    • pp.329-335
    • /
    • 2020
  • The purpose of this study was to investigate relations among the non-verbal communication, coach trust, and continuous participating intention of scuba diving participants. For this purpose, the investigator applied convenience sampling to users at three scuba diving resorts in Gangwon Province and those at two scuba diving pools in Gyeonggi Province and selected total 267 valid questionnaires. Collected data was put to simple and multiple regression analysis with the SPSS 18.0 program. The findings were as follows: first, body language and paralanguage of non-verbal communication had significant effects on coach trust, but spatial acts and physical appearance had no such effects on it; secondly, coach trust had significant impacts on continuous participating intention; and finally, body language of non-verbal communication had significant influences on continuous participating intention, but spatial acts, paralanguage, and physical appearance had no significant influences on it.

Methodology of Developing Train Set for BERT's Sentence Similarity Classification with Lexical Mismatch (어휘 유사 문장 판별을 위한 BERT모델의 학습자료 구축)

  • Jeong, Jaehwan;Kim, Dongjun;Lee, Woochul;Lee, Yeonsoo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.265-271
    • /
    • 2019
  • 본 논문은 어휘가 비슷한 문장들을 효과적으로 분류하는 BERT 기반 유사 문장 분류기의 학습 자료 구성 방법을 제안한다. 기존의 유사 문장 분류기는 문장의 의미와 상관 없이 각 문장에서 출현한 어휘의 유사도를 기준으로 분류하였다. 이는 학습 자료 내의 유사 문장 쌍들이 유사하지 않은 문장 쌍들보다 어휘 유사도가 높기 때문이다. 따라서, 본 논문은 어휘 유사도가 높은 유사 의미 문장 쌍들과 어휘 유사도가 높지 않은 의미 문장 쌍들을 학습 자료에 추가하여 BERT 유사 문장 분류기를 학습하여 전체 분류 성능을 크게 향상시켰다. 이는 문장의 의미를 결정짓는 단어들과 그렇지 않은 단어들을 유사 문장 분류기가 학습하였기 때문이다. 제안하는 학습 데이터 구축 방법을 기반으로 학습된 BERT 유사 문장 분류기들의 학습된 self-attention weight들을 비교 분석하여 BERT 내부에서 어떤 변화가 발생하였는지 확인하였다.

  • PDF

Measuring Sentence Similarity using Morpheme Embedding Model and GRU Encoder for Question and Answering System (질의응답 시스템에서 형태소임베딩 모델과 GRU 인코더를 이용한 문장유사도 측정)

  • Lee, DongKeon;Oh, KyoJoong;Choi, Ho-Jin;Heo, Jeong
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.128-133
    • /
    • 2016
  • 문장유사도 분석은 문서 평가 자동화에 활용될 수 있는 중요한 기술이다. 최근 순환신경망을 이용한 인코더-디코더 언어 모델이 기계학습 분야에서 괄목할만한 성과를 거두고 있다. 본 논문에서는 한국어 형태 소임베딩 모델과 GRU(Gated Recurrent Unit)기반의 인코더를 제시하고, 이를 이용하여 언어모델을 한국어 위키피디아 말뭉치로부터 학습하고, 한국어 질의응답 시스템에서 질문에 대한 정답을 유추 할 수 있는 증거문장을 찾을 수 있도록 문장유사도를 측정하는 방법을 제시한다. 본 논문에 제시된 형태소임베딩 모델과 GRU 기반의 인코딩 모델을 이용하여 문장유사도 측정에 있어서, 기존 글자임베딩 방법에 비해 개선된 결과를 얻을 수 있었으며, 질의응답 시스템에서도 유용하게 활용될 수 있음을 알 수 있었다.

  • PDF

An iterative algorithm for Ontology mapping (반복적 알고리즘을 이용한 온톨로지 매핑)

  • Ahn, Jinhyun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.14-18
    • /
    • 2009
  • 온톨로지 매핑은 서로 다른 온톨로지에 있는 클래스가 유사한 개념을 표현한 것인지 판단하는 문제이다. 클래스 유사도를 계산 하는 방법에는 클래스의 이름 어휘 유사도, 의미 유사도, 클래스 관계/속성 유사도 그리고 클래스 상하위 관계 유사도 등이 제안되었다. 본 논문에서는 이러한 클래스 유사도를 계산하기 위한 반복적 유사도 계산 알고리즘을 제안한다. 매 반복 단계마다 모든 클래스 쌍의 유사도를 전부 갱신 하는 방법과 유사도가 최대인 쌍만 선택적으로 갱신 하는 방법을 비교 실험하였다. 실험 결과 유사도가 최대인 쌍만 업데이트하는 방법의 성능이 좋았고 소요시간도 적었다.

  • PDF

비트겐슈타인과 유아론

  • Park, Jeong-Il
    • Korean Journal of Logic
    • /
    • v.9 no.2
    • /
    • pp.59-98
    • /
    • 2006
  • 유아론에 대한 비트겐슈타인의 철학적 투쟁을 조명하는 것은 그의 전체 철학의 핵심을 조명하는 것에 상당한다. 요컨대 유아론의 문제는 언어놀이, 놀이와 언어의 유사성, 가족 유사성, 규칙 따르기, 규칙 따르기의 역설, 사적 언어 논변, 뜻함, 봄과 -로서 봄, 모순, 논리적 필연성, 함 또는 실천과 같은 후기 비트겐슈타인의 핵심 개념이나 주제와 얽혀 있다. 이를 보이기 위해서 이 글에서는 유아론의 개념, 유아론에 대한 청년 비트겐슈타인의 생각, 후기 비트겐슈타인의 진단을 논의하게 될 것이다. 이러한 과정에서 우리는 비트겐슈타인이 유아론(넓게는 데카르트주의, 영국경험론, 현상학)에서 실천으로 나아가는 패러다임의 전환을 수행하고 있다는 것을 확인하게 될 것이다. 이러한 논의가 진행되면 우리는 유아론에 대한 후기 비트겐슈타인의 비판과 '사적 언어'가 어떻게 연결되는지 자연스럽게 문제 삼게 된다. 많은 학자들이 주장하는 바에 따르면, 비트겐슈타인은 사적 언어가 불가능하다고 간주했다. 그러나 나는 이러한 주장은 비트겐슈타인이 처한 패러다임의 전환 상황을 간과하는 처사로서 설득력 없는 것임을 보이고자 한다.

  • PDF

Word Sense Disambiguation using Semantically Similar Words (유사어를 이용한 단어 의미 중의성 해결)

  • Seo, Hee-Chul;Lee, Ho;Baek, Dae-Ho;Rim, Hae-Chang
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.304-309
    • /
    • 1999
  • 본 논문에서는 의미계층구조에 나타난 유사어 정보를 이용해서 단어 의미 중의성을 해결하고자 한다. 의미계층구조를 이용한 기존의 방법에서는 의미 벡터를 이용해서 단어 의미 중의성을 해결했다. 의미 벡터는 의미별 학습 자료에서 획득되는 것으로 유사어들의 공통적인 특징만을 이용하고, 유사어 개별 특징은 이용하지 않는다. 본 논문에서는 유사어 개별 특징을 이용하기 위해서 유사어 벡터를 이용해서 단어 의미 중의성을 해결한다. 유사어 벡터는 유사어별 학습 자료에서 획득되는 것으로, 유사어의 개별 정보를 가지고 있는 벡터이다. 세 개의 한국어 명사에 대한 실험 결과, 의미 벡터를 이용하는 것보다 유사어 벡터를 이용하는 경우에 평균 9.5%정도의 성능향상이 있었다.

  • PDF