• 제목/요약/키워드: 어절길이

검색결과 33건 처리시간 0.021초

문장 길이가 한영 통계기반 기계번역에 미치는 영향 분석 (Empirical Impact Analysis of Sentence Length on Statistical Machine Translation)

  • 조희영;서형원;김재훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 한국컴퓨터종합학술대회논문집 Vol.34 No.1 (C)
    • /
    • pp.199-203
    • /
    • 2007
  • 본 논문에서는 한영 통계기반 기계번역에서 한국어 문장 길이의 변화에 따른 번역 성능의 변화를 분석하고자 한다. 일반적으로 통계기반 기계번역은 정렬기법을 이용하는데 문장의 길이가 길수록 많은 변형(distortion)이 이루어진다. 특히 한국어와 영어처럼 어순이 매우 다를 경우, 문장 길이의 변화에 따라 그 변형이 더욱 심할 수 있다. 본 논문에서는 이러한 성질이 통계기반 기계번역에 어떠한 영향을 주는지를 실험적으로 살펴보고자 한다. 본 논문에서 비교적 잘 정렬된 203,310개의 문장을 학습데이터로 사용하였고, 세종 병렬 말뭉치로부터 89,309개의 문장을 추출하여 실험데이터로 사용하였다. 실험데이터는 한국어 문장의 길이에 따라 5구간($1{\sim}4,\;5{\sim}8,\;9{\sim}13,\;14{\sim}19,\;20{\sim}n$ 개)로 나뉘었다. 각 구간은 가능한 문장의 수가 비슷하도록 하였으며, 17,126, 18,507, 20,336, 17,884, 15,456개의 문장이 포함되었다. 데이터들은 모두 어절단위로 토큰을 나누었다. 본 논문에서는 한영 번역을 중심으로 평가되었다. 첫 번째 구간에서 가장 좋은 성능인 0.0621 BLEU를 보였으며, 마지막 구간에서 가장 좋지 않은 0.0251 BLEU를 보였다. 이는 문장의 길이가 길수록 변역 성능이 좋지 않음을 알 수 있었다. 문장이 길수록 구가 길어지고 구간의 수식이 복잡해지므로 번역의 성능은 점차 떨어진다. 이것을 볼 때, 구번역을 먼저 한 후, 다시 문장 번역을 한다면 좀 더 높은 기계번역의 성능을 기대할 수 있을 것이다.

  • PDF

발화 속도와 말차례 교체 빈도에 따른 운율 단위 변화에 관한 연구 (A study on the change of prosodic units by speech rate and frequency of turn-taking)

  • 원유권
    • 말소리와 음성과학
    • /
    • 제14권2호
    • /
    • pp.29-38
    • /
    • 2022
  • 이 연구는 국립국어원 일상 대화 음성 코퍼스(2020)에서 나타나는 발화를 분석하여 발화 속도 및 말차례 교체 빈도가 운율 단위 변화에 어떤 영향을 끼치는지 밝히는 것을 목적으로 하였다. 분석 결과, 발화 속도가 증가할수록 억양구, 어절 빈도, 발화 길이가 증가하는 양의 상관관계를 보였으나 상관관계가 낮았고, 회귀모형의 적합도는 3%-11%로 설명력이 약했다. 말차례 교체 빈도에 따른 평균 발화 속도는 유의미한 차이가 있었고, 말차례 교체 빈도가 증가할수록 발화 속도는 감소하였다. 또한 말차례 교체 빈도가 증가할수록 억양구 및 어절 빈도와 발화 길이는 감소하였으며 높은 음의 상관관계가 있는 것으로 나타났다. 회귀 모형의 적합도는 27%-32%로 계산되었다. 말차례 교체 빈도가 발화 속도와 운율 단위를 변화시키는 요인으로 작용했을 수 있다. 이는 대화체에서 나타나는 비유창성, 말차례 교체 특성, 화자 간 활발한 상호작용 등이 영향을 미쳤을 것이라 추측된다.

미등록어 처리가 강화된 복합명사 분해 (Compound Noun Analysis Strengthened Unknown Noun Processing)

  • 김응균;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.40-46
    • /
    • 2003
  • 본 논문에서는 분해 패턴을 이용한 재사용 분해 알고리즘과 외래어 인식, 이름 명사 인식, 지명 인식에 의한 미등록어 추정을 이용한 복합명사 분해 방법을 제안한다. 재사용 분해 알고리즘은 현재 분해되는 음절보다 짧은 길이의 음절에서 사용된 분해 방법을 재사용하여 분해가 이루어짐을 의미한다. 외래어 인식에서는 한국어 음절에서 비교적 사용 빈도가 낮은 음절들로 외래어가 구성이 됨을 이용한다. 이름 명사는 한국인의 이름 특성에서 한자 독음을 차용하여 작명이 이루어지기 때문에 일정한 수의 음절이 반복적으로 사용되는 점을 이용하여 인식한다. 지명 인식 방법은 지명이 출현하는 패턴을 분석하여 지명 사전의 검색으로 인식한다. 이와 같이 지명 사전에 의한 지명 인식과 알고리즘에 의한 외래어 및 이름 명사 인식 방법을 사용함으로써 미등록어 추정에 정확성을 높이고 분해 정확율 향상에 기여한다. 실험 결과 미등록어가 포함된 약 1,500어절에 대해 약 98%의 정확율이 나타났고, 미등록어가 사전에 모두 등재된 후의 실험에서는 약 99%의 정확율을 보였다.

  • PDF

한국어 문음성 변환기의 음운지속시간 제어에 관한 연구 (A Study on Segmental Duratio Control for the Kroean TTS)

  • 김인영
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 학술발표대회 논문집 제17권 1호
    • /
    • pp.143-146
    • /
    • 1998
  • 자연스러운 한국어의 음성합성을 위해서는 음운의 지속시간의 제어가 매우 중요하다. 본 연구에서는 POW3848 어절에 대한 음성 데이터에 대해 음운 세그먼트, 음운 라벨링, 품사 태깅을 행한 음성 데이터베이스를 구축하여 한국어 음운의 지속시간을 변화시키는 시간 특징을 통계적으로 분석하였다. 이 시간 특징들 중 변화 폭이 큰 요인들을 제어요소로 각 음운의 고유길이를 최대한 배제하고 단지 음운 발성 환경의 영향에 의한 지속시간 변화만을 고려하는 정규화 지속시간에 대한 회귀트리로 한국어 음운 지속시간을 모델화 하였다. 제안된 음운 지속시간 모델을 실시간 제어 알고리즘으로 구현하여 평가한 결과, 음운 지속시간 예측오차의 88% 정도가 25ms이내 이었고 예측치와 관측치 간의 다중 상관관계수는 0.92 정도로 평가되어, 제안된 모델의 타당성이 입증되었다.

  • PDF

이완성 구음마비환자의 운율적 특성 연구 (Prosodic Characteristics of Flaccid Dysarthria)

  • 김수정
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.201-208
    • /
    • 1998
  • 구음마비환자의 특징적 문제로는 조음 명료성의 저하오 kdns율의 장애등이 논의되어왔다. 지금까지 조음 명료성을 진단하고 치료하기 위한 연구는 활발히 진행되어 왔으나 운율 장애를 측정, 치료하기 위한 연구는 극히 소수이며 특히, 우리나라의 경우는 전무한 상태이다. 이에 본 연구자는 정상군과 이완성 구음마비환자군의 운율적 차이를 음폭, 음도차, 지속시간, 강도의 측면에서 기술하여 진단과 치료를 위한 기초 자료를 제시하고자 한다. 실험 대상은 이완성 구음마비환자군 6명과 정상군 6명이다. 정상군은 환자군과 성별, 나이, 학력, 방언을 맞추어 선정한다. 본 연구는 억양 대비가 분명히 나타나는 의문형 어미와 서술형 어미를 선택한다. 예문은 억양 곡선을 잘 나타내기 위해 유성 자음과 모음으로 구성된 것으로 한다. 종결형 어미가 분석 목표이나 예문의 길이가 너무 짧은 경우 경도환자의 특징이 잘 나타나지 않을 수 있으므로, 주어+목적어+서술어로 구성된 3어절로 구성된 예문을 사용한다.

  • PDF

세종전자사전을 활용한 한국어 구문분석 (Korean Parsing using Sejong Dictionary)

  • 성열원
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.261-268
    • /
    • 2007
  • 본 논문에서는 세종전자사전의 정보를 활용하여 논항 결합의 정확도를 향상시키는 한국어 구문분석 모델을 제안한다. 구문분석 과정에서 노드간의 결합 가능성을 계산할 때, 세종전자사전 동사사전의 격틀 정보, 논항 제약 정보와 명사사전의 의미부류 정보를 활용하여 가산점을 부여하여 사전의 내용과 일치하는 결합이 선호되도록 하였다. 이 과정에서 구조적 오류를 해결할 수 있었고, 결합에 참여하는 동사와 명사의 의미 중의성도 해소할 수 있었다. 평균 13어절 길이의 실험용 문장 50개를 대상으로 실험한 결과, 35% 정도의 오류 감소 효과를 볼 수 있었다. 또한 구문분석 결과 정보를, 전자 사전에 기술된 정보의 완결성을 시험하고 보완하는 데에도 활용하였다.

  • PDF

음절에 기반한 한국어 형태소 분석기 (Syllable-Based Korean Morphological Analyzer)

  • 장동수;서영훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.331-339
    • /
    • 1993
  • 본 논문에서는 한국어의 음절 특성을 이용한 한국어 형태소 분석기를 제시하였다. 이 형태소 분석기는 품사별 음절 정보, 불규칙 음절 정보, 활용어절 음절 정보, 선어말 어미 음절 정보 등을 이용하여 음절 단위로 형태소 분석을 한다. 음절 단위의 형태소 분석 방법은 음소 단위의 방법보다 형태소 분석시에 생성될 수 있는 잘못된 중간 분석 결과를 크게 감소시켜, 사전 탐색 부담을 최소화한다. 시스템의 사전은 품사별 결합 특성과 사전 표제어의 길이별 분포 특성을 이용하여 구성하였으며, 그 규모는 약 16만 어휘이다. 이러한 사전 구성은 효율적인 사전검색을 제공하며, 특히 철자 검색기와 자동 인덱싱 등의 다양한 응용 시스템 요구를 곧바로 수용할 수 있는 유연성과 효율성을 갖고 있다.

  • PDF

제어가능한 한국어 패러프레이즈 생성을 위한 제약들 (Constraints for Controllable Korean Paraphrase Generation)

  • 최승권;권오욱;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 추계학술발표대회
    • /
    • pp.544-546
    • /
    • 2022
  • 언어학적 다양성을 가지는 고품질의 한국어 패러프레이즈 생성을 위해 패러프레이즈의 생성을 제어할 수 있는 제약이 필요하다. 원문을 패러프레이즈로 변경하기 위한 생성용 제약으로 6 개의 제약을 제시한다: 키워드 치환, 키워드 확장, 품사 변경, 패턴 변경, 구조 변경, 키워드 리스트, 생성 길이. 원문으로부터 패러프레이즈를 생성할 때 제약이 적용되는 정도를 시물레이션해 보았다. 10 어절 이하의 원문은 평균 2.05 번의 제약이 적용되면 패러프레이즈가 생성되었으며 키워드 치환, 마스킹에 의한 키워드 확장과 패턴 변경에 관한 제약이 가장 많이 적용되는 것을 확인하였다.

종단 간 심층 신경망을 이용한 한국어 문장 자동 띄어쓰기 (Automatic Word Spacing of the Korean Sentences by Using End-to-End Deep Neural Network)

  • 이현영;강승식
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권11호
    • /
    • pp.441-448
    • /
    • 2019
  • 기존의 자동 띄어쓰기 연구는 n-gram 기반의 통계적인 기법을 이용하거나 형태소 분석기를 이용하여 어절 경계면에 공백을 삽입하는 방법으로 띄어쓰기 오류를 수정한다. 본 논문에서는 심층 신경망을 이용한 종단 간(end-to-end) 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 자동 띄어쓰기 문제를 어절 단위가 아닌 음절 단위 태그 분류 문제로 정의하고 음절 unigram 임베딩과 양방향 LSTM Encoder로 문장 음절간의 양방향 의존 관계 정보를 고정된 길이의 문맥 자질 벡터로 연속적인 벡터 공간에 표현한다. 그리고 새로이 표현한 문맥 자질 벡터를 자동 띄어쓰기 태그(B 또는 I)로 분류한 후 B 태그 앞에 공백을 삽입하는 방법으로 한국어 문장의 자동 띄어쓰기를 수행하였다. 자동 띄어쓰기 태그 분류를 위해 전방향 신경망, 신경망 언어 모델, 그리고 선형 체인 CRF의 세 가지 방법의 분류 망에 따라 세 가지 심층 신경망 모델을 구성하고 종단 간 한국어 자동 띄어쓰기 시스템의 성능을 비교하였다. 세 가지 심층 신경망 모델에서 분류 망으로 선형체인 CRF를 이용한 심층 신경망 모델이 더 우수함을 보였다. 학습 및 테스트 말뭉치로는 최근에 구축된 대용량 한국어 원시 말뭉치로 KCC150을 사용하였다.

LSTM 언어모델 기반 한국어 문장 생성 (LSTM Language Model Based Korean Sentence Generation)

  • 김양훈;황용근;강태관;정교민
    • 한국통신학회논문지
    • /
    • 제41권5호
    • /
    • pp.592-601
    • /
    • 2016
  • 순환신경망은 순차적이거나 길이가 가변적인 데이터에 적합한 딥러닝 모델이다. LSTM은 순환신경망에서 나타나는 기울기 소멸문제를 해결함으로써 시퀀스 구성 요소간의 장기의존성을 유지 할 수 있다. 본 논문에서는 LSTM에 기반한 언어모델을 구성하여, 불완전한 한국어 문장이 입력으로 주어졌을 때 뒤 이어 나올 단어들을 예측하여 완전한 문장을 생성할 수 있는 방법을 제안한다. 제안된 방법을 평가하기 위해 여러 한국어 말뭉치를 이용하여 모델을 학습한 다음, 한국어 문장의 불완전한 부분을 생성하는 실험을 진행하였다. 실험 결과, 제시된 언어모델이 자연스러운 한국어 문장을 생성해 낼 수 있음을 확인하였다. 또한 문장 최소 단위를 어절로 설정한 모델이 다른 모델보다 문장 생성에서 더 우수한 결과를 보임을 밝혔다.