• 제목/요약/키워드: 어휘모델

검색결과 306건 처리시간 0.028초

워드 임베딩과 품사 태깅을 이용한 클래스 언어모델 연구 (Class Language Model based on Word Embedding and POS Tagging)

  • 정의석;박전규
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권7호
    • /
    • pp.315-319
    • /
    • 2016
  • 음성인식 성능 개선을 위한 언어모델의 기술적 진보는 최근 심층 신경망을 기반으로 한 접근방법으로 한 단계 더 진보한 모양새다. 그러나 연구되고 있는 심층 신경망 기반 언어모델은 대부분 음성인식 이후 리스코링 단계에서 적용할 수 있는 한계를 지닌다. 또한 대규모 어휘에 대한 심층 신경망 접근방법은 아직 시간이 필요하다고 본다. 따라서 본 논문은 심층 신경망 언어 모델의 단순화된 형태인 워드 임베딩 기술을 음성인식 후처리가 아닌 기반 N-gram모델에 바로 적용할 수 있는 접근 방법을 찾는다. 클래스 언어모델이 한 접근 방법이 될 수 있는데, 본 연구에서는 워드 임베딩을 우선 구축하고, 해당 어휘별 벡터 정보를 클러스터링하여 클래스 언어모델을 구축 방법을 제시한다. 이를 기존 어휘기반 N-gram 모델에 통합한 후, 언어모델의 성능 개선 여부를 확인한다. 클래스 언어모델의 타당성 검증을 위해 다양한 클래스 개수의 언어모델 실험과 RNN LM과의 비교 결과를 검토한 후, 모든 언어모델의 성능 개선을 보장하는 품사 부착 언어모델 생성 방법을 제안한다.

Word2Vec의 IN-OUT Vector를 이용한 기계독해용 단락 검색 모델 (Paragraph Retrieval Model for Machine Reading Comprehension using IN-OUT Vector of Word2Vec)

  • 김시형;박성식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.326-329
    • /
    • 2019
  • 기계독해를 실용화하기 위해 단락을 검색하는 검색 모델은 최근 기계독해 모델이 우수한 성능을 보임에 따라 그 필요성이 더 부각되고 있다. 그러나 기존 검색 모델은 질의와 단락의 어휘 일치도나 유사도만을 계산하므로, 기계독해에 필요한 질의 어휘의 문맥에 해당하는 단락 검색을 하지 못하는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 Word2vec의 입력 단어열의 벡터에 해당하는 IN Weight Matrix와 출력 단어열의 벡터에 해당하는 OUT Weight Matrix를 사용한 단락 검색 모델을 제안한다. 제안 방법은 기존 검색 모델에 비해 정확도를 측정하는 Precision@k에서 좋은 성능을 보였다.

  • PDF

음성인식기의 변별력있는 학습 알고리즘들 (Discriminative Training Algorithms for Speech Recognizers)

  • 나경민
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.166-171
    • /
    • 1994
  • 기존의 음성인식기들은 일반적으로 간단하면서도 성능이 우수한 계층별 학습에 의해서 설계된다. 계층별 학습은 통계적 패턴인식에서의 ML 추정기법처럼 모델간의 독립성이 보장되고 무한한 양의 학습데이타가 주어진다는 가정에 기초하고 있다. 그러나, 대상어휘집합에 음운학적으로 유사한 어휘가 많이 포함되어 있는 인식문제에 있어서는 모델간의 독립성이 보장되지 못하고, 실제 주어지는 grktmqepdlk의 양도 제한되므로 기존의 합습알고리즘에는 한계가 있다. 따라서 본 논문에서는 그러한 가정상의 문제점으로 생기는 인식기의 성능저하를 개선할 수 있는 변별력 있는 학습알고리즘들을 검토하고 그의 일반적인 접근방법들에 대해서 논의한다.

  • PDF

핵심질의 클러스터를 이용한 어휘 그래프 기반 질의 확장 (Query Expansion Based on Word Graph Using Core Query Clusters)

  • 조승현;장계훈;이경순
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.430-432
    • /
    • 2011
  • 본 논문에서는 질의 조합을 기반한 핵심질의 클러스터와 비핵심질의 클러스터를 각각 어휘 그래프로 표현한다. 이 때, 핵심질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 핵심질의 클러스터의 어휘 그래프에서 비핵심질의 클러스터의 어휘 그래프를 빼서 확장어휘를 선택한다. 본 논문의 유효성을 검증하기 위해 웹문서 테스트컬렉션인 TREC WT10g 에 대해 실험하였고, 언어모델보다 평균정확률의 평균(MAP)이 9.4% 향상되었다.

효율적인 개방형 어휘 3차원 개체 분할을 위한 클래스-독립적인 3차원 마스크 제안과 2차원-3차원 시각적 특징 앙상블 (Class-Agnostic 3D Mask Proposal and 2D-3D Visual Feature Ensemble for Efficient Open-Vocabulary 3D Instance Segmentation)

  • 송성호;박경민;김인철
    • 정보처리학회 논문지
    • /
    • 제13권7호
    • /
    • pp.335-347
    • /
    • 2024
  • 개방형 어휘 3차원 포인트 클라우드 개체 분할은 3차원 장면 포인트 클라우드를 훈련단계에서 등장하였던 기본 클래스의 개체들뿐만 아니라 새로운 신규 클래스의 개체들로도 분할해야 하는 어려운 시각적 작업이다. 본 논문에서는 중요한 모델 설계 이슈별 기존 모델들의 한계점들을 극복하기 위해, 새로운 개방형 어휘 3차원 개체 분할 모델인 Open3DME를 제안한다. 첫째, 제안 모델은 클래스-독립적인 3차원 마스크의 품질을 향상시키기 위해, 새로운 트랜스포머 기반 3차원 포인트 클라우드 개체 분할 모델인 T3DIS[6]를 마스크 제안 모듈로 채용한다. 둘째, 제안 모델은 각 포인트 세그먼트별로 텍스트와 의미적으로 정렬된 시각적 특징을 얻기 위해, 사전 학습된 OpenScene 인코더와 CLIP 인코더를 적용하여 포인트 클라우드와 멀티-뷰 RGB 영상들로부터 각각 3차원 및 2차원 특징들을 추출한다. 마지막으로, 제안 모델은 개방형 어휘 레이블 할당 과정동안 각 포인트 클라우드 세그먼트별로 추출한 2차원 시각적 특징과 3차원 시각적 특징을 상호 보완적으로 함께 이용하기 위해, 특징 앙상블 기법을 적용한다. 본 논문에서는 ScanNet-V2 벤치마크 데이터 집합을 이용한 다양한 정량적, 정성적 실험들을 통해, 제안 모델의 성능 우수성을 입증한다.

WiseQA를 위한 정답유형 인식 (Recognition of Answer Type for WiseQA)

  • 허정;류법모;김현기;옥철영
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권7호
    • /
    • pp.283-290
    • /
    • 2015
  • 본 논문에서는 WiseQA 시스템에서 정답유형을 인식하기 위한 하이브리드 방법을 제안한다. 정답유형은 어휘정답유형과 의미정답유형으로 구분된다. 본 논문은 어휘정답유형 인식을 위해서 질문초점에 기반한 규칙모델과 순차적 레이블링에 기반한 기계학습모델을 제안한다. 의미정답유형 인식을 위해 다중클래스 분류에 기반한 기계학습모델과 어휘정답유형을 이용한 필터링 규칙을 소개한다. 어휘정답유형 인식성능은 F1-score 82.47%이고, 의미정답유형 인식성능은 정확률 77.13%이다. 어휘정답유형 인식성능은 IBM 왓슨과 비교하여, 정확률은 1.0% 저조하고, 재현율은 7.4% 높다.

심층생성모델 기반 가수 스타일 전이형 작사 모델 구현 (Engineering a deep-generative model for lyric writing based upon a style transfer of song writers)

  • 홍혜진;김소현;이지항
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.741-744
    • /
    • 2021
  • 본 논문은 사전 학습된 심층생성모델을 기반으로 가수 별 가사의 특성을 반영하여 새로운 가사를 생성하는 모델을 소개한다. 베이스 모델로 한국어 사전 학습 모델 KoGPT-2 를 사용하였으며, 총 가수 10 명의 노래 823 곡을 수집하여 미세조정 기법을 바탕으로 학습하였다. 특히, 가수 별로 구분한 가사를 학습 데이터로 구축하여, 가수 별로 독특하게 나타나는 가사 스타일이 전이되도록 하였다. 가수의 이름과 시작 단어를 입력으로 주고 작사를 수행한 실험 결과, (i) 가수 별로 생성되는 가사의 어휘와 스타일이 그 가수의 기존 곡들의 가사와 유사함을 확인하였고, (ii) 작사 결과 가수 별 차이를 확인하였다. 추후 설문을 통해, 개별 가수들의 가사와 생성된 가사의 어휘와 스타일 유사성을 확인하고, 가수 별 차이 또한 확인하고자 한다.

영어 어휘 학습을 위한 모바일 콘텐츠의 설계 및 구현 (Design and Implementation of a Mobile Contents for Learning English Vocabulary)

  • 이재석;배인한
    • 인터넷정보학회논문지
    • /
    • 제5권4호
    • /
    • pp.43-51
    • /
    • 2004
  • 이동 통신과 휴대용 컴퓨터의 통합은 개인과 집단에게 언제 어디서나 학습할 수 있는 기술 개발 기회를 제공하였다. 본 논문에서는 교육용 모바일 콘텐츠를 위한 학습 모델을 제시하고, 영어 어휘 학습을 위한 모바일 콘텐츠를 구현한다. 그 모바일 콘텐츠는 두 부분: 어휘 학습, 어휘 평가로 구성된다. 어휘 학습에서는 모바일 학습자에게 영어 어휘를 제시할 뿐만 아니라 원어민의 발음도 제공한다. 그리고 학습 성취도는 게임 형식의 퀴즈 프로그램에 의해 평가된다. 따라서 영어 어휘 학습을 위한 제안된 원형 시tm템은 에듀테인먼트 모바일 학습을 위한 개인 모바일 시스템의 견본으로써 설계되고 구현되었다.

  • PDF

음성인식 리스코링을 위한 의존관계분석과 상호정보량 접근방법의 비교 (Dependency relation analysis and mutual information technique for ASR rescoring)

  • 정의석;전형배;박전규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.164-166
    • /
    • 2014
  • 음성인식 결과는 다수의 후보를 생성할 수 있다. 해당 후보들은 각각 음향모델 값과 언어모델 값을 결합한 형태의 통합 정보를 갖고 있다. 여기서 언어모델 값을 다시 계산하여 성능을 향상하는 접근 방법이 일반적인 음성인식 성능개선 방법 중 하나이며 n-gram 기반 리스코링 접근 방법이 사용되어 왔다. 본 논문은 적절한 성능 개선을 위하여, 대용량 n-gram 모델의 활용 문제점을 고려한 문장 구성 어휘의 의존 관계 분석 접근 방법 및 일정 거리 어휘쌍들의 상호정보량 값을 이용한 접근 방법을 검토한다.

  • PDF

단어클러스터링 시스템을 이용한 어휘의미망의 활용평가 방안 (The Method of the Evaluation of Verbal Lexical-Semantic Network Using the Automatic Word Clustering System)

  • 김혜경;송미영
    • 한국한의학연구원논문집
    • /
    • 제12권3호통권18호
    • /
    • pp.1-15
    • /
    • 2006
  • 최근 수년간 한국어를 위한 어휘의미망에 대한 관심은 꾸준히 높아지고 있지만, 그 결과물을 어떻게 평가하고 활용할 것인가에 대한 방안은 이루어지지 않고 있다. 본 논문에서는 단어클러스터링 시스템 개발을 통하여, 어휘의미망에 의해 확장되기 전후의 클러스터링을 수행하여 데이터를 서로 비교하였다. 단어클러스터링 시스템 개발을 위해 사용된 학습 데이터는 신문 말뭉치 기사로 총 68,455,856 어절 규모이며, 특성벡터와 벡터공간모델을 이용하여 시스템A를 완성하였다. 시스템B는 구축된 '[-하]동사류' 3,656개의 어휘의미를 포함하는 동사 어휘의미망을 활용하여 확장된 것으로 확장대상정보를 선택하여 특성벡터를 재구성한다. 대상이 되는 실험 데이터는 '다국어 어휘의미망-코어넷'으로 클러스터링 결과 나타난 어휘의 세 번째 층위까지의 노드 동일성 여부로 정확률을 검수하였다. 같은 환경에서 시스템A와 시스템B를 비교한 결과 단어클러스터링의 정확률이 45.3%에서 46.6%로의 향상을 보였다. 향후 연구는 어휘의미망을 활용하여 좀 더 다양한 시스템에 체계적이고 폭넓은 평가를 통해 전산시스템의 향상은 물론, 연구되고 있는 많은 어휘의미망에 의미 있는 평가 방안을 확대시켜 나가야 할 것이다.

  • PDF