• 제목/요약/키워드: 단어길이

검색결과 147건 처리시간 0.023초

분할기반 은닉 마르코프 모델과 다층 퍼셉트론 결합 영문수표필기단어 인식시스템 (A Segmentation-Based HMM and MLP Hybrid Classifier for English Legal Word Recognition)

  • 김계경;김진호;박희주
    • 한국지능시스템학회논문지
    • /
    • 제11권3호
    • /
    • pp.200-207
    • /
    • 2001
  • 본 논문에서는 분할기반 은닉 마르코프 모델(segmentation based hidden Markov model)과 다층 퍼셉트론 (multi-layer perceptron)을 결합한 영문수표 필기단어 (legal word) 인식시스템을 제안하였다. 가변길이의 필기체 영문 단어 분할결과를 인식할 수 있도록 은닉 마르코프 모델을 이용하여 명확한 분할기반 (explicit segmentation-based) 단어단위 (word level) 인식기를 구현하고 다층 퍼셉트론을 이용하여 내재적 분할기반 (implicit segmentation-based) 단어단위 인식기를 구현하였다. 그리고 이종(heterogeneous)의 두 인식기를 새로운 결합 확률추정방식에 따라 결합함으로서 상호 보완 능력을 극대화시킬 수 있는 영문수표 필기단어 인식시스템을 구현하였다. 제안한 시스템을 캐나다 콘코디아 대학의 CENPARMI 영문 수표 데이터베이스에 적용하여 실험해 본 결과 기존의 연구결과에 비해 비교적 우수한 인식성능을 얻을 수 있었다.

  • PDF

KAIST 통신연구실의 음성 데이터베이스 구축 현황 (On the Present Construction Status of Speech Databases at KAIST Communications Research Laboratory)

  • 최인정
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.272-275
    • /
    • 1995
  • 한국과학기술원 통신연구실에서 진행중인 한국어 음성 데이터베이스의 개발 현황에 관하여 기술한다. 음성데이타베이스의 구축을 위하여 사용된 절차와 환경, 및 데이터베이스의 음성학적, 언어학적 성질들이 상세히 기술된다. 데이터베이스는 damtjddlstlr 알고리듬의 개발 및 평가를 위하여 사용되도록 고안되었다. 데이터베이스는 5종류의 음성 데이터, 즉 3천단어 규모의 무역관련 연속음성, 가변길이 연결 숫자음, phonembalanced 75 고립단어, 지역명 관련 500 고립단어, 한국어 아-세트로 구성되어 있다.

  • PDF

시소러스범주정보를 이용한 질의응답시스템 (A Question Answering System Using the Information of the Category Information of Thesaurus)

  • 김수민;백대호;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자연어질의를 입력받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분석단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보 중에서 정답을 추출하기 위해 각 후보단어의 질의어단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용한 것이 성능의 향상을 보였다.

  • PDF

복사 메커니즘과 강화 학습을 적용한 BERT 기반의 문서 요약 모델 (BERT-based Document Summarization model using Copying-Mechanism and Reinforcement Learning)

  • 황현선;이창기;고우영;윤한준
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.167-171
    • /
    • 2020
  • 문서 요약은 길이가 긴 원본 문서에서 의미를 유지한 채 짧은 문서나 문장을 얻어내는 작업을 의미한다. 딥러닝을 이용한 자연어처리 기술들이 연구됨에 따라 end-to-end 방식의 자연어 생성 모델인 sequence-to-sequence 모델을 문서 요약 생성에 적용하는 방법들이 연구되었다. 본 논문에서는 여러 자연어처리 분야에서 높은 성능을 보이고 있는 BERT 모델을 이용한 자연어 생성 모델에 복사 메커니즘과 강화 학습을 추가한 문서 요약 모델을 제안한다. 복사 메커니즘은 입력 문장의 단어들을 출력 문장에 복사하는 기술로 학습데이터에서 학습되기 힘든 고유 명사 등의 단어들에 대한 성능을 높이는 방법이다. 강화 학습은 정답 단어의 확률을 높이기 위해 학습하는 지도 학습 방법과는 달리 연속적인 단어 생성으로 얻어진 전체 문장의 보상 점수를 높이는 방향으로 학습하여 생성되는 단어 자체보다는 최종 생성된 문장이 더 중요한 자연어 생성 문제에 효과적일 수 있다. 실험결과 기존의 BERT 생성 모델 보다 복사 메커니즘과 강화 학습을 적용한 모델의 Rouge score가 더 높음을 확인 하였다.

  • PDF

자동통역용 한국어 음성 데이터베이스 (A Korean Speech Database for Use in Automatic Translation)

  • 최인정
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1994년도 제11회 음성통신 및 신호처리 워크샵 논문집 (SCAS 11권 1호)
    • /
    • pp.287-290
    • /
    • 1994
  • 음성 인식 시스템의 개발을 위해서는 음성 데이터베이스구축이 중요한 과제의 하나로서, 많은 시간과 노력이 요구된다. 개별적인 음성데이타베이스 구축에 따른 중복 투자를 줄이고 다양한 인식 알고리듬의 성능 비교와 국내 음성 인식 기술의 발전을 위해서는 벤치마크 시험을 위한 공통의 음성 데이터베이스가 필수적이다. 본 논문에서는 한국과학기술원 통신연구실에서 제작한 한국어 음성 데이터베이스에 관하여 기술한다. KAIST 음성데이타베이스는 자동통ㅇ역을 N이한 무역 상담과 관련되 3,000 단어 규모의 연속어를 비롯하여, 가변 길이 연결 숫자음, phoneme-balanced 75 고립단어, 지역명 관련 500 고립단어, 한국어 아-세트로 구성되어 있다. 이 음성 데이터베이스의 구축을 위하여 사용된 태스크선정 절차, 녹음 방법, 규격, 및 기대효과 등 세부사항을 기술한다.

  • PDF

Stack-Pointer Network를 이용한 한국어 의존 구문 분석 (Stack-Pointer Network for Korean Dependency Parsing)

  • 차다은;이동엽;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.685-688
    • /
    • 2018
  • 의존 구문 분석은 자연어 문장에 포함된 단어들 간의 의존 관계를 분석하는 과제로 다양한 자연어 이해 과제에 요구되는 핵심 기술 중 하나이다. 본 연구에서는 단어와 문자 자질을 적용한 기존 Stack-Pointer Network의 인코더의 입력 단어 표상을 확장하여, 한국어를 비롯한 형태적으로 복잡한 언어(morphologically rich language)에 적합하도록 음절-태그 단위, 형태소 단위, 형태소 품사 정보 자질을 보강한 의존 구문 분석 모델을 제안한다. 실험 결과 제안하는 모델은 의존 구조로 변환된 세종 구문 분석 말뭉치에서 UAS 90.58%, LAS 88.35%의 성능을, 2018 국어 정보 처리 시스템 경진 대회 평가 데이터에서 UAS 84.69%, LAS 82.02%의 성능을 보였다. 더불어 제안하는 모델은 포함된 문장의 전체 길이가 긴 의존 관계, 의존소와 지배소의 거리가 먼 의존 관계, 의존소를 구성하는 형태소의 개수가 많은 의존 관계에서 기존 Stack-Pointer Network보다 향상된 성능을 보였다.

  • PDF

문서 분류에서 단어의 통계 정보를 이용한 특징 선택 기법의 비교 (Comparison of Feature Selection Methods using the Statistics of Words in Text Categorization)

  • 임윤택;윤충화
    • 대한안전경영과학회:학술대회논문집
    • /
    • 대한안전경영과학회 1999년도 추계학술대회
    • /
    • pp.209-216
    • /
    • 1999
  • 정보 검색 분야의 문서 분류에 기계 학습 기법을 적용할 때 발생하는 가장 큰 문제는 문서를 패턴으로 표현할 때, 하나의 패턴이 가지는 특징의 수가 기계 학습 기법에서 처리할 수 있는 범위를 넘어서는 것이다. 이러한 문제를 해결하기 위하여 특징 선택 기법은 패턴을 구성하고 있는 특징 중에서 실제 문서 분류에 많은 영향을 주는 특징만을 선택하여, 기계 학습 기법에서 쉽게 처리할 수 있을 정도의 패턴을 구성하게 한다. 본 논문에서는 이러한 특징 선택 기법 중에서 IG(Information Gain), Gini index, Relief-F, DF(Document Frequency)를 비교하였다. 실험 결과 문서들에 포함된 모든 고유 단어를 특징의 길이로 하여 패턴을 구성했을 때보다 특징 선택 기법을 적용하여 고유 단어 중 일부를 특징으로 패턴을 구성할 때 기계학습에서 더 향상된 분류 성능을 보였다

  • PDF

개체명 구성 원리를 이용한 교사학습 기반의 한국어 개체명 인식 (Korean Named Entity Recognition Based on Supervised Learning Using Named Entily Construction Principles)

  • 황이규;이현숙;정의석;윤보현;박상규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.111-117
    • /
    • 2002
  • 개체명 인식은 질의응답(QA), 정보 주줄(IE), 텍스트 마이닝 시스템의 성능 향상에 중요한 역할을 담당한다. 이 논문에서는 교사학습 기반의 한국어 개체명 인식에 대해 설명한다. 한국어에서 많은 개체명들이 하나 이상의 단어로 구성되어 있으며, 개체명을 구성하는 단어 사이에는 의존 관계가 존재하고, 개체명과 개체명 주위의 단어 사이에도 문맥적 의존관계를 가지고 있다. 본 논문에서는 가변길이의 개체명과 주변 문맥의 학습을 위해 트라이그램을 이용한 HMM을 사용하였으며, 자료 부족 문제를 해소하기 위해 어휘 기반이 아닌 부개체 유형 기반의 학습을 수행하였다. 학습된 개체명 인식 시스템을 이용하여 경제 분야의 신문 기사에 대한 실험 결과, 84.4%의 정확률과 90.9%의 재현률을 보였다.

  • PDF

정서가, 각성가 및 구체성 평정을 통한 한국어 정서단어 목록 개발 (Developing Korean Affect Word List and It's Application)

  • 홍영지;남예은;이윤형
    • 인지과학
    • /
    • 제27권3호
    • /
    • pp.377-406
    • /
    • 2016
  • 본 연구의 목적은 정서가, 각성가 및 구체성 평정을 통해 한국어 정서단어 목록을 개발하고 이를 활용한 연구를 통해 이 목록의 실험 자극으로서 활용가능성을 확인해보고자 하였다. 이를 위해 연구1에서는 단어 이해과정에 큰 영향을 미친다고 알려진 단어의 품사, 빈도 및 길이를 고려하여 450개의 단어를 선정하고 이 단어들에 대해 정서가, 각성가, 구체성에 대한 평정 설문을 실시하였다. 정서단어의 평정을 위해서는 전체 단어목록을 3개로 나누어 각각 155명, 151명, 151명의 참가자들에게 각 단어들의 정서가와 각성가를 평정하게 하였으며 또 다른 134명의 참가자들에게 정서단어의 구체성을 평정하게 하였다. 그 결과 총 450개 단어에 대한 정서가, 각성가 및 구체성 평정값이 포함된 정서단어 목록이 개발되었다. 연구2에서는 42명을 대상으로 연구1에서 개발한 정서단어 목록을 활용한 정서 스트룹 실험을 실시하였다. 그 결과 정서불일치 시행에 비해 정서일치 시행의 반응시간이 더 빠르게 나타났으며, 정서일치 시행에서의 정확률이 더 높게 나타났다. 이는 연구1에서 선정 및 구성된 정서단어 자극을 활용한 연구 예를 보여주는 것이며 본 목록이 정서 연구의 자극 재료로서 다양한 정서 관련 연구에 활용될 가능성이 있음을 보여준다.

심한 소음환경에서 언어장애인 음성 인식률 향상을 위한 단어선정 방법 및 장치 개선에 관한 연구 (A Study on Word Selection Method and Device Improvement for Improving Speech Recognition Rate of Speech-Language-impaired in Severe Noise Environment)

  • 양기웅;이형근
    • 한국정보통신학회논문지
    • /
    • 제23권5호
    • /
    • pp.555-567
    • /
    • 2019
  • 언어장애인, 언어 사용이 불편한 분들의 경우 조금의 잡음 환경에도 음성인식률이 저하되어 사회 생활시 어려움을 겪게 된다. 언어 사용 시 불편함을 장치로 개선시킴과 동시에, 언어 장애인의 발음 특성을 고려하여 단어 선정 시 자체 개선한 단어 선정 방법을 사용하여 280개 단어를 선정하였다. 실험에 사용된 MEMS 개발 장치는 재질, 유도선 종류, 길이, 방향을 고려하여 제작되었으며 잘못된 발음으로 인한 음성과 심한 소음에서 음성 인식률 향상을 위하여 개발된 MEMS 장치와 개발된 단어 선정 방법을 사용하여 개선시켰다. 개선 방법으론 새로운 단어 선정 방법과 mems 장치를 개선하여 진행하였으며 결과를 포함하였다.