• 제목/요약/키워드: 단어 입력

검색결과 431건 처리시간 0.028초

유한상태 벡터양자화를 이용한 격리단어인식 (Isolated Word Recognition Based on Finite-State Vector Quantization)

  • 윤원식;은종관
    • 한국음향학회지
    • /
    • 제5권3호
    • /
    • pp.50-57
    • /
    • 1986
  • 유한상태 벡터양자화 방법을 이용한 격리단어인식에 관하여 기술하고 있다. 이 인식시스템은 codebook과 next-state function 으로 구성된 일종의 finite-state machine으로 볼 수 있다. 유한상태 벡 터양자화방법을 이용한 격리단어 인식시스템은 일반적인 벡터양자화방법을 이용한 인식시스템에 비하여 소요시간이 감소하며 입력음성을 분할할 필요도 없는 한편 두 시스템의 인식율은 비슷한 것으로 나타났 다. Next-state function을 구하는 방법에는 conditional histogram 방법과 omniscient design 방법이 있 으며, 이 방법들의 성능비교를 위해 영부터 구까지의 한국어 숫자음성에 대한 인식실험을 수행하였다.

  • PDF

연역적이고 국부적인 영문자의 폰트 분류법 ($\emph{A Priori}$ and the Local Font Classification)

  • 정민철
    • 한국산학기술학회논문지
    • /
    • 제3권4호
    • /
    • pp.245-250
    • /
    • 2002
  • 본 연구에서는 영문 단어로부터 폰트를 분류하기 위해 연역적이고 국부적인 폰트 분류 방법을 제안한다. 이는 문자 인식 전에 한 단어의 폰트를 분류하는 것을 말한다. 폰트 분류를 위해 활자 특성인 Ascender, Descender와 Serif가 사용된다. 입력 단어로부터 Ascender, Descender 와 Serif가 추출되어 경사도 특징 벡터가 추출되고, 그 특징 벡터는 인공 신경망에 의해 입력 단어에 대한 폰트 스타일, 폰트 그룹, 폰트 이름이 분류된다. 제안된 연역적이고 국부적인 폰트 분류 방법은 폰트 정보가 문자 분할기와 문자 인식기에 사용될 수 있게 한다. 나아가, 특정 폰트에 따른 Mono-Font 문자 분할기와 Mono-Font 문자 인식기로 구성되는 OCR 시스템을 구성할 수 있는 것을 가능하게 한다.

  • PDF

다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델 (CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding)

  • 남상하;한기종;김은경;권성구;정유성;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

의미적 계층정보를 반영한 단어의 분산 표현 (Distributed Representation of Words with Semantic Hierarchical Information)

  • 김민호;최성기;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.941-944
    • /
    • 2017
  • 심층 학습에 기반을 둔 통계적 언어모형에서 가장 중요한 작업은 단어의 분산 표현(Distributed Representation)이다. 단어의 분산 표현은 단어 자체가 가지는 의미를 다차원 공간에서 벡터로 표현하는 것으로서, 워드 임베딩(word embedding)이라고도 한다. 워드 임베딩을 이용한 심층 학습 기반 통계적 언어모형은 전통적인 통계적 언어모형과 비교하여 성능이 우수한 것으로 알려져 있다. 그러나 워드 임베딩 역시 자료 부족분제에서 벗어날 수 없다. 특히 학습데이터에 나타나지 않은 단어(unknown word)를 처리하는 것이 중요하다. 본 논문에서는 고품질 한국어 워드 임베딩을 위하여 단어의 의미적 계층정보를 이용한 워드 임베딩 방법을 제안한다. 기존연구에서 제안한 워드 임베딩 방법을 그대로 활용하되, 학습 단계에서 목적함수가 입력 단어의 하위어, 동의어를 반영하여 계산될 수 있도록 수정함으로써 단어의 의미적 계층청보를 반영할 수 있다. 본 논문에서 제안한 워드 임베딩 방법을 통해 생성된 단어 벡터의 유추검사(analog reasoning) 결과, 기존 방법보다 5%가 증가한 47.90%를 달성할 수 있었다.

다중-어의 단어 임베딩을 적용한 CNN 기반 원격 지도 학습 관계 추출 모델 (CNN-based Distant Supervision Relation Extraction Model with Multi-sense Word Embedding)

  • 남상하;한기종;김은경;권성구;정유성;최기선
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.137-142
    • /
    • 2017
  • 원격 지도 학습은 자동으로 매우 큰 코퍼스와 지식베이스 간의 주석 데이터를 생성하여 기계 학습에 필요한 학습 데이터를 사람의 손을 빌리지 않고 저렴한 비용으로 만들 수 있어, 많은 연구들이 관계 추출 문제를 해결하기 위해 원격 지도 학습 방법을 적용하고 있다. 그러나 기존 연구들에서는 모델 학습의 입력으로 사용되는 단어 임베딩에서 단어의 동형이의어 성질을 반영하지 못한다는 단점이 있다. 때문에 서로 다른 의미를 가진 동형이의어가 하나의 임베딩 값을 가지다 보니, 단어의 의미를 정확히 파악하지 못한 채 관계 추출 모델을 학습한다고 볼 수 있다. 본 논문에서는 원격 지도 학습 기반 관계 추출 모델에 다중-어의 단어 임베딩을 적용한 모델을 제안한다. 다중-어의 단어 임베딩 학습을 위해 어의 중의성 해소 모듈을 활용하였으며, 관계 추출 모델은 문장 내 주요 특징을 효율적으로 파악하는 모델인 CNN과 PCNN을 활용하였다. 본 논문에서 제안하는 다중-어의 단어 임베딩 적용 관계추출 모델의 성능을 평가하기 위해 추가적으로 2가지 방식의 단어 임베딩을 학습하여 비교 평가를 수행하였고, 그 결과 어의 중의성 해소 모듈을 활용한 단어 임베딩을 활용하였을 때 관계추출 모델의 성능이 향상된 결과를 보였다.

  • PDF

학습 및 게임 기능을 갖는 자소모아한글단어맞추기(자모한) 안드로이드 앱 개발 (An Android App Development for JAMOHAN with Learning and Game Facilities)

  • 김가영;이효은;김혜수;양창근;강현규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.191-194
    • /
    • 2012
  • 본 논문은 뜻풀이를 통해 한글단어를 맞추는 앱 어플리케이션인 자모한(자소 모아 한글단어 맞추기)의 구현에 대하여 논한다. 학습 형태의 게임방식을 통하여 누구나 쉽게 사용하고 한글 단어를 학습할 수 있는 안드로이드 앱 어플리케이션이다. 자모한은 3가지 특징을 가진다. 첫 번째는 '한글'로, 평소 뜻을 제대로 알고 쓰지 못했던 단어나 잊혀져 가는 순수 우리말과 같은 한글단어의 뜻을 학습 할 수 있다. 두 번째는 '자소'로 한글에서 하나하나의 자소가 모여 단어가 됨을 보여주며 각 단어의 자소 구성을 명확히 인식할 수 있도록 도와준다. 세 번째는 '획수'이다. 게임에서 간접적으로 자소의 획수를 알려주고 있다. 이러한 특징들은 교육적 측면으로서 좋은 특징을 가지고 있다. 그 외에도 자모한은 데이터베이스 파일을 중심으로 작동하기 때문에 파일의 구조와 입력 정보를 변경하여 여러 버전(햇갈리기 쉬운 단어, 순수우리말, 사자성어 등)으로 응용이 가능하다는 산업 및 기술적 측면의 모습도 볼 수 있다.

  • PDF

64kbit/s(7 kHz) Codec을 경유한 연속음성의 인식 (Recognition of Continuous speech via 64kbit/s(7 kHz) Codec)

  • 정현열
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1993년도 학술논문발표회 논문집 제12권 1호
    • /
    • pp.125-127
    • /
    • 1993
  • 오디오 혹은 비디오화의, 방송 고품질전화 등의 음성신호의 전송을 위해 마련된 CCITT Recommendation G.722에 의거 Codec을 구성하고 이를 통과한 연속음성을 CMU의 불특정 화자 연속음성인식 시스템인 SPHINX에 입력하여 인식률을 조사 한 후 CODING전의 인식결과와 비교하였다. 이때 CODEC은 크게 네 부분(Trans Quarature Mirror Filter, Encoder, Decoder, Receive QMF)으로 구성하고 입력음성 데이터는 150화자에 의한 1018문장을 훈련용으로, 140문장을 테스트용으로 하였을 때의 단어 인식률을 인식률로 하였다. 또 이때 특징벡터로는 12차 Melcepstrum 계수를 사용하였다. 인식결과 코딩전(close talk Mic를 이용하여 직접입력)의 단어 인식률이 86.7%인데 비해 코딩후의 인식률은 85.6%로 나타나 약 1%의 인식률 저하를 가져와 코딩으로 인한 Error에 비해 비교적 양호한 결과를 얻을 수 있었다. 인식률 저하의 원인으로서는 코딩시의 BER(Bit Error Rate)에 의한 것으로 생각된다.

  • PDF

모듈화된 신경망을 이용한 한국어 중의성 해결 시스템 (Word sense disambiguation using modular neural networks)

  • 한태식;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.39-42
    • /
    • 1995
  • 문장 안에서 한 단어가 가지는 올바른 의미를 얻기 위해 모듈화된 신경망을 이용하였다. 앞부분에 놓인 신경망은 코호넨 신경망으로 사용자의 지도가 개입되지 않은 상태로 자율학습(Unsupervised learning)이 이루어지고, 뒤에 놓인 신경망은 앞에서 결과로 얻은 2차원의 자기 조직화 형상지도(Self-organizing feature map)를 바탕으로 역전파 신경망을 이용한 지도학습(Supervised learning)을 하게 하였다. 입력 자료는 구문분석된 문장의 조사 정보를 활용하여 입력 위치를 정해준 명사의 의미표지와 동사의 의미표지를 사용하였다. 중의성이 있는 단어를 가지는 문장은 중의성의 가지수 만큼 테스트 입력 자료가 되어 신경망을 통과하여 의미를 결정하도록 한다.

  • PDF

사용자 프로파일 구축을 위한 TDIDT기반 관심단어 추출기법 (Attribute extract method based TDIDT for construction of user profile)

  • 이선미;박영택
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.321-327
    • /
    • 2002
  • 본 논문은 기존의 귀납적 결정 트리 방식에서의 문제점 개선을 통한 사용자 관심 프로파일 구축을 목적으로 한다. 특히 사용자 관심 프로파일의 정확도 향상을 위한 속성 선택에 대한 연구에 초점을 맞추고 있다. 사용자의 관심, 비관심 문서를 대상으로 사용자 관심 키워드를 생성하고 이를 바탕으로 초기 문서들을 재표현한다. 재표현된 문서를 입력 집합으로 하여 기계학습을 진행한다. 본 논문의 의사 결정 트리 생성 알고리즘은 입력 집합을 클래스별로 가장 잘 나누는 속성을 선택하여 노드를 구성하는 면에서는 기존의 알고리즘과 같다. 그러나 기존의 의사 결정 트리 알고리즘에서는 hill-climbing.방식을 사용함으로써 사용자의 관심을 나타내는 중요한 단어가 사용자 관심 프로파일에서 숨겨질 경우가 발생한다. 이를 최소화하기 위해 특징 추출을 통해 선택된 속성을 그대로 학습의 입력 데이터로 사용하는 것이 아니라 입력데이터를 가장 잘 나누는 속성과 그 다음 속성을 대상으로 disjunctive 연산을 통해 새로운 속성을 생성하여 이것을 속성 집합에 포함시키고 이를 학습의 입력 데이터로 이용한다. 이와 같이 disjunctive operator를 이용하여 새로운 속성을 의사 결정 트리 형성 시 이용하면 사용자의 중요한 관심을 포함하는 의미 있는(semantic) 사용자 관심 프로파일 구축이 가능해지고, 사용자 관심 프로파일을 기반으로 사용자가 관심 있는 문서를 제공할 수 있는 개인화 서비스를 제공한다.

  • PDF

보완대체의사소통(AAC) 글자판의 단어예측기능에 대한 뇌병변장애인 대상의 사용성 평가 (A Usability Testing of the Word-Prediction Function of the AAC Keyboard for the People with Cerebral Palsy)

  • 이희연;홍기형
    • 재활복지공학회논문지
    • /
    • 제9권3호
    • /
    • pp.209-214
    • /
    • 2015
  • 본 연구의 목적은 (1) 구어로 의사소통을 하는데 어려움을 가지고 있는 뇌병변장애인을 대상으로 보완대체의사소통 글자판의 단어예측기능이 문장산출 속도에 미치는 영향 및 (2) 단어예측기능의 필요성, 편의성, 만족도 등을 조사하는 것이다. 총 10명의 성인 뇌병변장애인들이 평가에 참여하였고, 한국형 하이테크 AAC 기기인 마이토키스마트의 글자판에 탑재된 단어예측기능이 평가도구로 사용되었다. 참가자들은 제시되는 문장을 단어예측기능과 낱글자 직접입력방식을 각각 사용하여 음성출력한 후에, 단어예측기능의 필요성, 사용 편의성 및 만족도를 5점 척도로 평가하도록 요청되었고, 자유 피드백을 통해 기타 의견들을 조사하였다. 연구결과, 문장예측기능을 사용했을 때의 문장생성속도가 낱글자입력방식을 사용했을 때보다 평균적으로 빠르게 나타났으나 통계적으로 유의한 차이는 나타나지 않았다. 이는 참가자들이 새로운 실험도구를 충분히 연습하고 학습할 적응기간이 부족했기 때문인 것으로 보인다. 참가자들의 문장예측기능에 대한 필요성, 편의성, 만족도 등은 전반적으로 긍정적인 응답을 나타냈다.

  • PDF