• Title/Summary/Keyword: 자동 번역

검색결과 218건 처리시간 0.025초

SDL에서 C로 번역기의 설계 및 구현 (Design and Implementation of SDL to C Translator)

  • 김병건;최원혁;김성재;김승호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (A)
    • /
    • pp.574-576
    • /
    • 2001
  • 현재의 소프트웨어 개발은 구현 중심의 개발에서 설계 중심의 개발로 바뀌고 있다. 설계 중심의 개발은 구현 프로그램의 자동 생성을 바탕으로 시스템 개발 시간을 크게 단축할 수 있고, 정형화된 명세를 검증함으로써 설계와 구현의 일관성을 유지할 수 있으며 유지보수가 효율적이다. 본 논문에서는 설계 중심의 개발 환경을 구축하기 위해, ITU-T에서 권고한 시스템의 명세와 기술을 위한 언어인 SDL에서 범용 프로그래밍 언어인 C로의 자동 번역기를 설계하고 구현하였다.

  • PDF

합성단위 자동생성을 위한 자동 음소 분할기 후처리에 대한 연구 (The Postprocessor of Automatic Segmentation for Synthesis Unit Generation)

  • 박은영;김상훈;정재호
    • 한국음향학회지
    • /
    • 제17권7호
    • /
    • pp.50-56
    • /
    • 1998
  • 본 논문은 자동 음소 분할기의 음소 경계 오류를 보상하기 위한 후처리 (Postprocessing)에 관한 연구이다. 이는 현재 음성 합성을 위한 음성/언어학적 연구, 운율 모델링, 합성단위 자동 생성 연구 등에 대량의 음소 단위 분절과 음소 레이블링된 데이터의 필요성에 따른 연구의 일환이다. 특히 수작업에 의한 분절 및 레이블링은 일관성의 유지가 어렵고 긴 시간이 소요되므로 자동 분절 기술이 더욱 중요시 되고 있다. 따라서, 본 논문은 자동 분절 경계의 오류 범위를 줄일 수 있는 후처리기를 제안하여 자동 분절 결과를 직접 합성 단위로 사용할 수 있고 대량의 합성용 운율 데이터 베이스 구축에 유용함을 기술한다. 제안된 후처리기는 수작업으로 조정된 데이터의 특징 벡터를 다층 신경회로망 (MLP:Multi-layer perceptron)을 통해 학습을 한 후, ETRI(Electronics and Telecommunication Research Institute)에서 개발된 음성 언어 번역 시스템을 이용한 자동 분절 결과와 후처리기인 MLP를 이용하여 새로운 음소 경계를 추출한다. 고립단어로 발성된 합성 데이터베이스에서 후처리기로 보정된 분절 결과는 음성 언어 번역 시스템의 분할율보 다 약 25%의 향상된 성능을 보였으며, 절대 오류(|Hand label position-Auto label position |)는 약 39%가 향상되었다. 이는 MLP를 이용한 후처리기로 자동 분절 오류의 범위를 줄 일 수 있고, 대량의 합성용 운율 데이터 베이스 구축 및 합성 단위의 자동생성에 이용될 수 있음을 보이는 것이다.

  • PDF

재목적 Oolong-to-SIL 중간 언어 번역기 (Retargetable Oolong-to-SIL IL Translator)

  • 권혁주;김영근;이양선
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2004년도 춘계학술발표대회논문집
    • /
    • pp.310-313
    • /
    • 2004
  • 자바는 컴파일러에 의해 아키텍처 독립적인 바이트코드로 구성된 바이너리 형태의 클래스 파일을 생성하면 JVM에 의해 하드웨어와 운영체제에 상관없이 실행이 가능한 플랫폼 독립적인 언어로 현재 가장 널리 사용되는 범용 프로그램 언어중 하나이다. EVM(Embedded Virtual Machine)은 Microsoft사의 .NET 언어와 SUN사의 Java 언어등을 모두 수용할 수 있는 임베디드 시스템을 위한 가상기계이며, SIL(Standard Intermediate Language)은 EVM에서 실행되는 중간언어로 다양한 프로그래밍 언어를 수용하기 위해서 객체지향 언어와 순차적 언어를 모두 수용하기 위한 연산 코드 집합을 갖고 있다. 본 논문에서는 자바 프로그램을 EVM에서 실행 될 수 있도록 자바 프로그램을 컴파일하여 생성된 클래스 파일로부터 Oolong 코트를 추출하고 추출된 Oolong 코드를 EVM의 SIL 코드로 변환하는 Oolong-to-SIL 번역기 시스템을 구현하였다. 번역기 시스템을 정형화하기 위해 Oolong 코드의 명령어 등을 문법으로 작성하였으며, PGS를 통해 생성된 어휘 정보를 가지고 스캐너를 구성하였고, 파싱테이블을 가지고 파서를 설계하였다 파서의 출력으로 AST가 생성되면 번역기는 AST를 탐색하면서 의미적으로 동등한 SIL 코드를 생성하도록 번역기 시스템을 컴파일러 기법을 이용하여 모듈별로 구성하였다. 이와 같이 번역기를 구성함으로써 목적기계의 중간언어 형태에 따라 중간언어 번역기를 자동으로 구성할 수 있어 재목적성(Retargetability)을 높일 수 있다.

  • PDF

원격 개인 농구 기술 피드백 영상 자동 더빙 시스템 (Automatic Dubbing System for Remote Personalized Basketball Feedback Video)

  • 임종욱;;윤영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.466-467
    • /
    • 2024
  • 본 논문은 전문 스킬 트레이너들의 개인 농구 기술 분석 및 피드백 영상에 더빙을 자동으로 적용하는 시스템을 제안한다. 이 시스템은 농구 용어집 기반 번역, 음성-텍스트 변환 모델 간의 비교 분석, 영상과 더빙 트랙 동기화 알고리즘을 통해 다양한 언어로의 신속한 자동 번역과 더빙을 가능하게 함으로써 선수와 코치 간의 언어 장벽 없는 소통을 지원한다. 본 연구는 자동 더빙 기술에 힘입어 원격 농구 교육 효율성과 질의 재고 및 저변 확산에 기여하고자 한다.

한국어 대화체 음성언어 번역시스템에서의 개념기반 번역시스템 (Concept-based Translation System in the Korean Spoken Language Translation System)

  • 최운천;한남용;김재훈
    • 한국정보처리학회논문지
    • /
    • 제4권8호
    • /
    • pp.2025-2037
    • /
    • 1997
  • 대화체 음성언어번역시스템의 일부인 개념기반 번역시스템은 음성인식의 결과를 이용하여 다른 언어로 번역해 주는 시스템이다. 본 논문은 여행계획 영역에 대해 한국어를 해석하여 영어, 일본어, 한국어로 번역해 주는 시스템에 대해 기술한 것이다. 개념기반 번역은 비정형 문장이 많은 대화체 문장을 처리하기 위해 형태소 분석 등의 구문정보를 이용하지 않고, 의미단위의 번역을 시도한 것으로 화자의 의도를 정확히 번역해 주는 것을 목표로 한다. 개념기반 번역은 280여개의 개념과 개념간의 계층구조에 의해, 인식결과를 개념구조로 변환한 후 다른 언어로 생성해 준다. 효율적인 한국어 처리를 위해 기준단어를 이용한 토큰분리기와 문법자동 수정기를 개발하였다. 그리고 자연스러운 생성문을 위해 각 언어에 대한 후처리기를 개발하였다.

  • PDF

한국어 기계 번역에서의 품질 검증을 위한 치명적인 오류 범위 탐지 모델 (Critical Error Span Detection Model of Korean Machine Translation)

  • 정다현;이승윤;어수경;박찬준;이재욱;박기남;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.80-85
    • /
    • 2023
  • 기계 번역에서 품질 검증은 정답 문장 없이 기계 번역 시스템에서 생성된 번역의 품질을 자동으로 추정하는 것을 목표로 한다. 일반적으로 이 작업은 상용화된 기계 번역 시스템에서 후처리 모듈 역할을 하여 사용자에게 잠재적인 번역 오류를 경고한다. 품질 검증의 하위 작업인 치명적인 오류 탐지는 번역의 오류 중에서도 정치, 경제, 사회적으로 문제를 일으킬 수 있을 만큼 심각한 오류를 찾는 것을 목표로 한다. 본 논문은 치명적인 오류의 유무를 분류하는 것을 넘어 문장에서 치명적인 오류가 존재하는 부분을 제시하기 위한 새로운 데이터셋과 모델을 제안한다. 이 데이터셋은 거대 언어 모델을 활용하는 구축 방식을 채택하여 오류의 구체적인 범위를 표시한다. 또한, 우리는 우리의 데이터를 효과적으로 활용할 수 있는 다중 작업 학습 모델을 제시하여 오류 범위 탐지에서 뛰어난 성능을 입증한다. 추가적으로 언어 모델을 활용하여 번역 오류를 삽입하는 데이터 증강 방법을 통해 보다 향상된 성능을 제시한다. 우리의 연구는 기계 번역의 품질을 향상시키고 치명적인 오류를 줄이는 실질적인 해결책을 제공할 것이다.

  • PDF

한영 번역 시스템을 위한 문틀 기반 번역 방식의 실현성 분석 (An Analysis of Feasibility of Sentence Frame Based Method for Korean to English Translation System)

  • 김영길;서영애;서광준;최승권
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.261-264
    • /
    • 2000
  • 지금까지의 한영 번역 방식은 규칙 기반 방식이 주를 이루었지만 현재 패턴을 이용한 번역 방식이 활발히 연구되고 있다. 그러나 패턴 기반 방식은 그 적용성(Coverage)에 대한 치명적인 단점을 지닌다. 따라서 본 논문에서는 한국어 패턴을 어절 단위의 일반 문틀과 동사구를 중심으로 하는 용언중심의 문틀로 나누어 각 패턴들에 대한 적용성 및 실현성을 조사한다. 실험은 기존의 형태소 분석기를 이용하여 방송 자막 문장 351,806 문장을 대상으로 자동으로 문틀을 구축하여 4,995 문장의 테스트 데이터에 대한 적용성 검사를 실시하였다. 즉 본 논문에서는 방송 자막 문장을 대상으로 한영번역을 위한 일반 문틀 및 용언 중심의 문틀 방식의 적용성을 조사하여 문틀 기반 방식의 실현성을 평가하고 앞으로의 한영 번역 시스템 개발 방향을 제시한다.

  • PDF

영한 및 한영 통계기반 기계번역에서의 이중언어 간 어순처리 및 단어정렬 최적화 방안 연구 (The study of Method for Optimization of Phrase Ordering Process and Word Alignment between Parallel Languages in Korean-English Statistic Based Machine Translation)

  • 정상원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 춘계학술발표대회
    • /
    • pp.293-296
    • /
    • 2013
  • 통계기반 기계번역 시스템 (SBMT system)은 기계번역시스템 중에서 최근 활발히 연구되고 있는 분야이다. 통계기반 기계번역은 대용량의 말뭉치를 사용할 수 있어 특정 언어 쌍에 제한을 덜 받아 모델을 자동으로 학습할 수 있으며 다른 언어에 일반화하여 적용이 가능하다는 장점이 있다. 그러나 영어와 한국어 간 통계기반 기계번역에 있어서는 어순의 차이로 인한 문제를 해결할 필요성이 여전히 남아 있다. 이에 본 연구에서는 영어와 한국어 간 이중언어 말뭉치를 구축하고 통계기반 기계번역 훈련 시스템인 Moses 에 기반하여 구현한 베이스 시스템을 이용하여 이중언어 간 어순처리 및 단어정렬의 최적화 방안을 연구하였다.

STT로 생성된 자막의 자동 문장 분할 (Automatic sentence segmentation of subtitles generated by STT)

  • 김기현;김홍기;오병두;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.559-560
    • /
    • 2018
  • 순환 신경망(RNN) 기반의 Long Short-Term Memory(LSTM)는 자연어처리 분야에서 우수한 성능을 보이는 모델이다. 음성을 문자로 변환해주는 Speech to Text (STT)를 이용해 자막을 생성하고, 생성된 자막을 다른 언어로 동시에 번역을 해주는 서비스가 활발히 진행되고 있다. STT를 사용하여 자막을 추출하는 경우에는 마침표가 없이 전부 연결된 문장이 생성되기 때문에 정확한 번역이 불가능하다. 본 논문에서는 영어자막의 자동 번역 시, 정확도를 높이기 위해 텍스트를 문장으로 분할하여 마침표를 생성해주는 방법을 제안한다. 이 때, LSTM을 이용하여 데이터를 학습시킨 후 테스트한 결과 62.3%의 정확도로 마침표의 위치를 예측했다.

  • PDF

한국어-프랑스어 자동번역을 위한 과거시제 선어말어미 '-었'의 처리방안 (Past Tense Generation in Korean to French Machine Translation)

  • 임승희;노란;홍문표
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.173-174
    • /
    • 2014
  • 본 연구는 현재 개발 진행 중인 다국어 자동통번역시스템에서 발생하는 한국어 과거시제 선어말어미 '-었'의 생성문제를 다루었다. 한국어 과거시제 선어말 어미는 영어와 독일어의 경우에는 대부분 단순과거형으로 생성될 수 있으나, 프랑스어의 경우에는 복합과거의 형식과 반과거의 형식 중 하나를 선택해야 하는 문제가 발생한다. 본 연구에서는 이러한 문제의 해결을 위해 한-프랑스어 코퍼스 분석을 통해 복합과거와 반과거의 올바른 생성을 위한 네 가지의 자질을 선정하였고, 이에 SVM 알고리즘을 적용한 분류기를 구현하였다. 현재까지의 실험결과는 84.45%의 정확률이며 현재 성능개선을 위한 연구가 계속 진행 중이다.

  • PDF