• 제목/요약/키워드: 한글 정규화

검색결과 48건 처리시간 0.027초

Large Pre-trained Language Model의 P-tuning을 이용한 질의 정규화 (Query Normalization Using P-tuning of Large Pre-trained Language Model)

  • 서수빈;인수교;박진성;남경민;김현욱;문기윤;황원요;김경덕;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.396-401
    • /
    • 2021
  • 초거대 언어모델를 활용한 퓨샷(few shot) 학습법은 여러 자연어 처리 문제에서 좋은 성능을 보였다. 하지만 데이터를 활용한 추가 학습으로 문제를 추론하는 것이 아니라, 이산적인 공간에서 퓨샷 구성을 통해 문제를 정의하는 방식은 성능 향상에 한계가 존재한다. 이를 해결하기 위해 초거대 언어모델의 모수 전체가 아닌 일부를 추가 학습하거나 다른 신경망을 덧붙여 연속적인 공간에서 추론하는 P-tuning과 같은 데이터 기반 추가 학습 방법들이 등장하였다. 본 논문에서는 문맥에 따른 질의 정규화 문제를 대화형 음성 검색 서비스에 맞게 직접 정의하였고, 초거대 언어모델을 P-tuning으로 추가 학습한 경우 퓨샷 학습법 대비 정확도가 상승함을 보였다.

  • PDF

DHMM 음성 인식 시스템을 위한 양자화 기반의 화자 정규화 (Quantization Based Speaker Normalization for DHMM Speech Recognition System)

  • 신옥근
    • 한국음향학회지
    • /
    • 제22권4호
    • /
    • pp.299-307
    • /
    • 2003
  • 화자독립 음성인식기에서 화자사이의 성도 길이의 영향을 최소화시켜 인식 성능을 개선하는 화자 정규화에 대한 많은 연구가 있어 왔다. 본 연구에서는 벡터양자화기를 이용하여 화자 검증이 가능하다는 사실에 착안하여 벡터 양자화기를 이용한 비교적 간단한 선형 워핑 화자정규화방법을 제안한다. 제안하는 방법에서는 먼저 정규화에 이용될 최적의 코드북을 생성한 다음, 이 코드 북을 이용하여 화자의 선형 워핑계수를 추출하고 추출된 워핑계수는 멜 켑스트럼 추출시에 사용되는 멜스케일 필터뱅크를 워핑하기 위해 이용된다. 본고에서 제안한 워핑계수 추출 및 적용 방법의 성능을 확인하기 위해 이산 HMM을 이용한 13가지의 단음절 한글 숫자음 인식기를 이용하여 인식실험을 수행하였으며, 실험 결과 약 29%의 오인식률 감소를 보여 제안하는 화자 정규화방법이 다른 라인서치 워핑계수추출 방법보다 간단한 동시에 효용가치가 있음을 확인하였다.

사건 탐지/추적을 위한 시간 정보 추출 (Temporal Information Extraction from Korean News for Event Detection and Tracking)

  • 김평;성기윤;맹성현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.22-29
    • /
    • 2003
  • 시간정보는 사건 탐지/추적 시스템은 물론 정보 추출, 질의/응답 시스템 등에서 매우 중요한 역할을 한다. 본 연구에서는 한국어 신문 기사를 대상으로 시간 표현을 추출하고 정규화한 후 사건 관련 동사와 연결하는 자동화된 방법들을 제안하였다. 시간 표현을 추출하기 위해서 품사정보로 구축된 패턴과 시간 표현 어휘가 사용되었고, 정규화 과정과 사건 관련 동사와의 연결을 위한 규칙이 만들어졌다. 한국어 신문을 대상으로 제안한 방법의 단계별 평가를 수행하였고, 제안하는 방법의 확장성을 보이기 위해 서로 다른 도메인에도 실험을 하였다.

  • PDF

직교 정규화를 이용한 신경망 기계 번역에서의 커버리지 모델링 (Coverage Modeling in Neural Machine Translation using Orthogonal Regularization)

  • 이요한;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.561-566
    • /
    • 2018
  • 최근 신경망 번역 모델에 주의 집중 네트워크가 제안되어 기존의 기계 번역 모델인 규칙 기반 번역 모델, 통계적 번역 모델에 비해 높은 번역 성능을 보이고 있다. 그러나 주의 집중 네트워크가 잘못 모델링되는 경우 과소 번역 현상이 나타난다. 신경망 번역 모델에 커버리지 메커니즘을 추가하여 과소 번역 현상을 완화하는 연구가 진행되었으나 이는 모델의 구조를 변경해야하는 불편함이 있다. 본 논문에서는 신경망 번역 모델의 구조를 변경하지 않고 새로운 손실 함수를 정의하여 과소 번역 현상을 완화하는 방법을 제안한다. 한-영 번역 실험을 통해 제안한 주의 집중 네트워크의 정규화 방법이 커버리지 메커니즘의 목적을 효율적으로 달성함을 보인다.

  • PDF

Layer Normalized LSTM CRF를 이용한 한국어 의미역 결정 (Layer Normalized LSTM CRFs for Korean Semantic Role Labeling)

  • 박광현;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-166
    • /
    • 2017
  • 딥러닝은 모델이 복잡해질수록 Train 시간이 오래 걸리는 작업이다. Layer Normalization은 Train 시간을 줄이고, layer를 정규화 함으로써 성능을 개선할 수 있는 방법이다. 본 논문에서는 한국어 의미역 결정을 위해 Layer Normalization이 적용 된 Bidirectional LSTM CRF 모델을 제안한다. 실험 결과, Layer Normalization이 적용 된 Bidirectional LSTM CRF 모델은 한국어 의미역 결정 논항 인식 및 분류(AIC)에서 성능을 개선시켰다.

  • PDF

임계 획 밀도를 이용한 한글, 한자, 영문구분 (A Distinction of the Korean Character, Chinese Character and English Character using the Threshold Stroke Density)

  • 원남식
    • 한국산업정보학회논문지
    • /
    • 제5권4호
    • /
    • pp.32-38
    • /
    • 2000
  • 다중 문자 환경의 문서인식 시스템에서 문자를 인식하기 전에 문자의 종류를 먼저 구분하는 것은 인식률의 향상에 중요한 요인이 된다. 각 나라의 문자는 그 문자마다 고유의 구성상의 다양한 특징을 가진다. 본 연구에서는, 문자를 구분하기 위한 방법으로 획 밀도 값을 이용하였고, 대상 문자는 한글, 영문과 한자로 하였다. 다양한 형태의 활자가 사용되는 문서에 적용하기 위해 입력 데이터는 정규화 과정을 거친 후 처리되었다. 제안된 방법은 80% 이상의 높은 확률로 구분이 가능함을 실험 결과로써 입증하였다.

  • PDF

웹용 영한 기계번역을 위한 문서 전처리기의 설계 및 구현 (A Preprocessor for English-to-Korean Machine Translation of Web Pages)

  • 안동언;유홍진;서진원;이영우;정성종;여상화;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.249-254
    • /
    • 1997
  • 영어 웹 문서를 한국어로 기계번역을 하기 위해서는 HTML 태그를 번역 대상 문장과 분리하는 처리가 필요하다. HTML 태그를 단순히 제거하는 것이 아니라 대상 문장의 기계번역이 종료된 후에 같은 형태의 한국어 웹 문서로 복원하기 위한 방안이 마련 되어야 한다. 또한 문서 전처리기에서는 영어 형태소해석기의 성능을 높이기 위하여 번역 단위가 되는 문장의 인식 및 분리, 타이틀의 처리, 나열된 단어의 처리, 하이픈 처리, 고유명사 인식, 특수 문자 처리, 대소문자 정규화, 날짜 인식 등을 처리하여 문서의 정규화를 수행한다.

  • PDF

LSTM 기반의 sequence-to-sequence 모델을 이용한 한글 자동 띄어쓰기 (LSTM based sequence-to-sequence Model for Korean Automatic Word-spacing)

  • 이태석;강승식
    • 스마트미디어저널
    • /
    • 제7권4호
    • /
    • pp.17-23
    • /
    • 2018
  • 자동 띄어쓰기 특성을 효과적으로 처리할 수 있는 LSTM(Long Short-Term Memory Neural Networks) 기반의 RNN 모델을 제시하고 적용한 결과를 분석하였다. 문장이 길거나 일부 노이즈가 포함된 경우에 신경망 학습이 쉽지 않은 문제를 해결하기 위하여 입력 데이터 형식과 디코딩 데이터 형식을 정의하고, 신경망 학습에서 드롭아웃, 양방향 다층 LSTM 셀, 계층 정규화 기법, 주목 기법(attention mechanism)을 적용하여 성능을 향상시키는 방법을 제안하였다. 학습 데이터로는 세종 말뭉치 자료를 사용하였으며, 학습 데이터가 부분적으로 불완전한 띄어쓰기가 포함되어 있었음에도 불구하고, 대량의 학습 데이터를 통해 한글 띄어쓰기에 대한 패턴이 의미 있게 학습되었다. 이것은 신경망에서 드롭아웃 기법을 통해 학습 모델의 오버피팅이 되지 않도록 함으로써 노이즈에 강한 모델을 만들었기 때문이다. 실험결과로 LSTM sequence-to-sequence 모델이 재현율과 정확도를 함께 고려한 평가 점수인 F1 값이 0.94로 규칙 기반 방식과 딥러닝 GRU-CRF보다 더 높은 성능을 보였다.

"미리내" 정보검색 시스템에서 Relevance Feedback 구현 (Implement of Relevance Feedback in "MIRINE" Information Retrieval System)

  • 박수현;박세진;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.65-71
    • /
    • 1997
  • 이 논문은 부산대학교 전자계산학과 인공지능 연구실에서 개발한 정보검색 시스템 "미리내"의 적합성 피드백 방법을 분석하고, 그 방법들의 검색 효율을 비교 분석하였다. "미리내"에서 질의문은 자연언어 질의문을 사용하고 재검색을 위한 적합성 피드백은 원질의문에서 검색된 문서 중 이용자가 직접 선택한 적합 문서에서 추출한다. 적합성 피드백은 크게 단어 확장(Term Expansion)을 위한 단어 선택 방법과 추가될 단어에 가중치를 부여하는 단어 가중치 부여(Term Weighting)의 2가지 요소로 이루어진다. 단어 선택을 위해서는 적합 문서에 나타난 단어 빈도합(tf), 역문헌빈도(idf), 적합 문서 중에서 해당 단어가 있는 적합 문서의 비율(r/R) 등의 정보를 이용한다. 단어 가중치 부여 방법으로는 정규화 또는 코사인 함수를 이용하여 부여하였다. 단어확장에는 tfidf가 tfidf(r/R)보다 정확도 면에서 나은 향상율을 보였으나, 30위 내 검색된 적합문서의 수를 비교해 보았을 때 tfidf(r/R)의 정확도가 높았다. 단어 선택 방법에서 계산된 값을 정규화하여 가중치를 부여하였을 때 보다 코사인 함수를 이용하여 가중치를 부여하였을 때 정확도가 높았다. 실험은 KT-Set 2.0 (4391 건), 동아일보 96 년 신문기사(70459 건)를 대상으로 수행하였다.

  • PDF

한국어 문형을 이용한 문장 정규화 기반의 FAQ 자동 응답 시스템 (An Automated FAQ Answering System Based on Sentence Normalization Using Korean Sentence Patterns)

  • 배경만;백종탁;고영중;김종훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.172-176
    • /
    • 2008
  • 인터넷 쇼핑몰과 같은 웹사이트에서 FAQ 검색의 중요성은 갈수록 증가되고 있다. 일반적으로 FAQ 검색을 하기 위해서 사용자가 직접 FAQ 리스트에서 FAQ를 찾거나 키워드 검색을 통해 FAQ를 찾는다. 하지만 이 방법은 FAQ 리스트를 찾는데 시간이 오래 걸리고 사용자가 만족하는 결과를 보여주지 못하는 경우가 많다. 이를 해결하기 위해 사용자의 자연어 질의에 대해 자동으로 FAQ를 찾아주는 FAQ 시스템이 필요하다. 자동화된 FAQ 시스템은 사용자의 질의 문장에 대해 FAQ 목록 중에 가장 유사한 FAQ 문장을 찾아준다. 이를 위해 각 문장을 유니그램과 바이그램 단어 집합으로 표현하여 문장 간의 유사도를 계산한다. 본 논문에서는 유니그램과 바이그램 단어 집합뿐만이 아니라 한국어 문형을 기반으로 한 문장 정규화를 통해 단어의 문장 성분 정보와 성분 내 위치 정보를 이용하여 문장을 표현함으로써 자동화된 FAQ 시스템의 성능을 향상 시키는 것을 목표로 한다.

  • PDF