• 제목/요약/키워드: 번역 단계

검색결과 127건 처리시간 0.024초

대화체 문장 번역을 위한 토큰기반 변환중심 한일 기계번역 (A Token Based Transfer Driven Koran -Japanese Machine Translation for Translating the Spoken Sentences)

  • 양승원
    • 한국산업정보학회논문지
    • /
    • 제4권4호
    • /
    • pp.40-46
    • /
    • 1999
  • 본 논문에서는 음성언어 자동 통역시스템의 일부 모듈로 구현한 한일 기계번역 시스템을 소개하였다. 이 번역시스템은 예제중심 기계번역(EBMT)에 기초를 둔 변환중심 기계번역(TDMT) 방법을 기반으로 구현하였다. 본 시스템에서는 토큰(TOKEN)이라는 새로운 번역단위를 정의하여 사용하였다. 토큰단위의 번역방법을 사용함으로써 한국어 문장의 매우 비 정형적인 점을 해결하고 번역의 질을 높일 수 있다. 본 시스템의 구문분석 단계에서는 대역어를 선정하기에 적합한 정도까지의 의존트리를 생성하는 간이파싱만을 함으로써 필요없는 노력을 경감시켰다. 대역어 사전은 한국전자통신 연구원이 수집한 음성 데이터베이스로부터 추출한 말뭉치를 사용해 구성하였다. 구현한 시스템은 여행 계획영역에서 수집된 600 발화 안의 문장을 대상으로 시험하였는데 제한된 환경에서 87%, 아무런 제약이 없는 환경에서는 71%의 성공률을 보였다.

  • PDF

FIM도구 및 지침서 번역과 타탕도 검증 연구 (Translation and Validity test of the FIM instrument and Guide)

  • 황옥남;조갑출
    • 재활간호학회지
    • /
    • 제4권2호
    • /
    • pp.232-239
    • /
    • 2001
  • 이 논문의 목적은 재활기능을 측정하는 FIM 도구(영문)를 한국어로 번역하고 한국 한국문화에 적합한지를 문화적 타당도를 검증하기 위함이다. 이를 위해 FIM 도구를 소개하고 타당도 검증을 위해 Flaherty et al.(1988) 등이 소개한 횡문화적 일치성 검증을 위한 5가지 단계 중 2가지 단계 즉 전문가 집단의 내용타당도 검증과 역번역 절차를 사용하였다. 연구 결과 FIM 도구는 사회 심리적 도구가 아닌 재활환자의 기능을 측정하기 위해 사용된 도구여서 여기에 사용된 용어나 문장들은 비교적 간결하고 번역에 혼동을 초래할 수 있는 형용사나 은유법은 거의 사용되지 않아서 의미는 일치한 수준으로 나타났다. 그러나 47쪽에 해당되는 방대한 도구를 번역함에 있어 연구자가 5문장을 해석하지 않은 것이 나타나 재해석을 하였고, 의미를 더 정확하게 전하게 하기 위해 '사고 없음'의 문장을 '옷이나 침요에 실금하여 적시는 사고가 없음'으로 풀어서 설명하였고, '배뇨 사고 없음' 혹은 '배변 사고 없음'으로 번역하였다. 생활양식의 차이로 인해 크게 2가지 차이가 나타나 한국에서 이 도구를 사용하고자 할 때는 신뢰도 검증은 물론 다소의 변형이 불가피 한 것으로 나타났다. 2가지의 생활양식의 차이는 식습관의 차이와 온돌과 침대 문화의 차이였다. 첫째, 한국에서는 식사시에 포크 대신 젓가락을 사용한다. 그러나 손을 잘 사용하지 못하는 장애인의 경우 젓가락 대신 포크를 사용하게 되므로 이 때 포크 사용은 보조기로 고려되어서 측정 점수는 7점이 아닌 6점으로 측정되어야 할 것을 제안한다. 둘째, 한국 사람들은 온돌문화를 갖고 있어 전통 양식의 가옥에 거주하는 장애인의 경우 개조된 가옥에서는 휠체어를 사용 할 수 있지만 그렇지 않은 경우 휠체어 없이 앉아서 침대나 욕실 및 변기로 이동이 가능하다. 이런 경우 앉아서 이동할 수있는 환자들의 기능 정도를 정밀하게 검토하여 측정 가능한 점수로 환원해서 사용할 것을 제안한다.

  • PDF

도메인 특화 방법에 의한 영한 특허 자동 번역 시스템의 구축 (Construction of English-Korean Automatic Translation System for Patent Documents Based on Domain Customizing Method)

  • 최승권;권오욱;이기영;노윤형;박상규
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권2호
    • /
    • pp.95-103
    • /
    • 2007
  • 본 논문은 웹과 같은 일반적인 도메인의 영한 자동 번역기를 특정 도메인으로 특화하는 방법에 의해 구축된 영한 특허 자동번역 시스템을 기술하는 것을 목표로 한다. 특정 도메인으로서의 특허 자동번역기를 위한 특화 방법은 다음과 같은 단계로 이루어진다: 1) 대용량 특허 문서의 수집 및 언어학적 특성 분석, 2) 전문용어 추출 및 대역어 구축, 3) 기보유한 용어의 대역어 특화, 4) 특허 고유의 번역 패턴추출 및 구축, 5) 언어학적 특성 분석에 따른 기보유 번역 엔진 모듈의 특화 및 개선, 6) 특화된 번역 지식 및 번역 엔진 모듈에 따른 번역률 평가. 이와 같은 특화 절차에 따른 특허 영한 자동 번역기는 특허 전문번역가의 평가에 의해 전분야 평균 81.03%의 번역률을 내었으며, 분야별로는 기계(80.54%), 전기전자 (81.58%), 화학일반(79.92%), 의료위생(80.79%), 컴퓨터(82.29%)의 성능을 보였으며 계속 개선 중에 있다.

일본의 한일(韓日) 기계번역(機械飜譯) 시스템에 있어서의 오역(誤譯)과 그 언어환경 (Errors and Their Circumstances in Korean Japanese M/T Systems in Japan)

  • 강용희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.303-310
    • /
    • 1997
  • 일본의 한일(韓日) 기계번역(機械飜譯) 시스템을 평가한 결과 각기 다른 번역 시스템임에도 불구하고 오역(誤譯)의 패턴에 있어서는 유사(類似)한 점이 많았다. 이는 사전(辭典)의 입력 단위와 구문(構文)분석의 해석단계에서 오역(誤譯)의 언어환경에 대비하지 못한 점을 지적할 수 있다. 본 연구는 오역(誤譯)의 TYPE을 언어적 환경과 기계적 환경으로 구분하여 그 영향관계를 밝혀서 오역(誤譯)의 환경에 대비한 사전(辭典)과 그 모듈의 작성을 목적으로 삼는다.

  • PDF

중한 대화체 자동번역을 위한 중국어 긴축문 처리 (The Method of Chinese Ellipsis Component Restoration for Chinese Dialog Machine Translation)

  • 김운;오영순;권오욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.300-302
    • /
    • 2012
  • 긴축문은 형식 상 복문이지만 문장의 일부를 생략하여 단일문처럼 표현하기 때문에 의미상 논리적인 관계를 가지고 있는 비구문적인 복문으로서, 중국어 대화체 비정형 데이터의 대표적인 유형이다. 이는 비구문적인 문장에 취약한 대화체 자동번역 성능 향상의 걸림돌이 되고 있다. 이를 위해 본 논문에서는 패턴기반의 긴축문 추정과 긴축문 복원이라는 두 단계 처리 방법을 제안하며, 긴축문 처리의 필요성과 유효성을 자동번역 성능 향상 여부 실험을 통해 검증하였다. 실험 결과, 긴축문 추정은 95.5% 정확률을 보였으며, 전체 번역문의 번역성능은 2.21% 향상되는 결과를 보였다.

영한기계번역에서의 전처리에 관한 연구 (A Study on Preprocessing in English-Korean Machine Translation)

  • 김성동
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.249-253
    • /
    • 2010
  • 영한기계번역은 영어와 한국어 사이에 많은 언어적인 차이가 존재하며 이를 효과적으로 해결해야 한다. 규칙기반의 영한기계번역에서는 언어간의 차이를 어휘, 구문, 변환 등의 규칙을 이용하고 숙어 등의 사전정보를 활용하는 방법이 적용되고 있으나 한계가 있다. 본 논문에서는 두 언어간의 차이를 해소하는 방안으로 전처리를 적용하였으며 규칙기반의 영한기계번역에서 요구되는 전처리작업에 대해서 연구하였다. 전처리작업은 전처리문제와 해결방안으로 구성되는데, 언어간의 차이해소에 필요한 전처리문제를 조사하여 전처리문제가 영한기계번역의 어떤 단계에서 다루어져야 할지에 의해 문제들을 구분하였으며 이를 해결하기 위한 방안을 고안하여 본 논문에서 제시하였다.

  • PDF

( )

  • 김봉일
    • 정보과학회지
    • /
    • 제1권1호
    • /
    • pp.57-63
    • /
    • 1983
  • 여러 분야에서 computer의 이용이 활발해짐에 따라 computer에 대한 올 바른 이해와 일반이 널리 이용할 수 있는 편리한 사용법의 연구를 필요로 하여 본 연구소 전자계산실에서는 computer언어의 한글화를 착한하여 Automatic Language Translation과 이를 활용한 한글 program의 일반화를 시도하여 보았 다. computer에 의한 번역은 1950년부터 연구의 대상이 되어 1960년 Harvard 대 학의 Oettinger교수 team에 의한 Russian$\longrightarrow$English 번역을 계기로 현재 각 국에 서 활발히 연구 개발 중인 테-마이다. 특히 개발 도상에 있는 우리나라로써는 이 과제를 해결하여 선진국의 기술정보, 학술 논문, 참고 서적 등을 어학능력에 구애 됨이 없이, 광범위하게 접할 수 있게 된다면 국가적인 발전에 기여할 수 있음은 물론 교육적인 견지에서도 다대한 역할을 할 수 있을 것이다. 언어는 특수한 지 역의 환경과 공동 관심속에서 고래의 뿌리깊은 전통과 관습으로 계승되어온 의사 전달의 매개체로써 특종의 適否에 대한 외적 조건을 만족시켜야 한다는 점이 분 명하여 생성된 문장들이 그 언어를 사용하는 토박이에게 충분히 용납되어야 한다 는 점에서 한 언어를 다른 언어로 번역하는데는 허다한 난점이라는 가정하에 무 한수의 문장을 만들어 낼 수 있다는 가능성을 가진 것으로 일종의 반복 장치를 가지게 되면 무한수의 문장을 생성할 수 있다는 이론을 근거로 한글 program, 한 영 번역 및 영한 번역의 실험 작업 단계에서 그 중간 과정을 소개해 본다.

영한 기계 번역을 위한 혼합형 N-best 품사 태거 (A Hybrid N-best Part-of-Speech Tagger for English-Korean Machine Translation)

  • 임희석;권철중;이재원;오기은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-19
    • /
    • 1998
  • 기계 번역 시스템에서 품사 태거의 오류는 전체번역 정확률에 결정적인 영향을 미친다. 따라서 어휘 단계의 정보만으로는 중의성 해소가 불가능한 단어에 대해서는 중의성 해소에 충분한 정보를 얻을 수 있는 구문 분석이나 의미 분석 단계까지 완전한 중의성 해소를 유보하는 N-best 품사 태거가 요구된다. 또한 N-best 품사 태거는 단어에 할당되는 평균 품사 개수를 최소화함으로써 상위 단계의 부하를 줄이는 본연의 역할을 수행하여야 한다. 본 논문은 통계 기반 품사 태깅 방법을 이용하여 N-best 후보를 선정하고, 선정된 N-best 후보에 언어 규칙을 적용하여 중의성을 감소시키거나 오류를 보정하는 혼합형 N-best 품사 태깅 방법을 제안한다 제안된 N-best 품사 태거는 6만여 단어의 영어 코퍼스에서 실험한 결과, 단어 당 평균 1.09개의 품사를 할당할 때 0.43%의 오류율을 보인다.

  • PDF

MOSES를 이용한 한/일 양방향 통계기반 자동 번역 시스템 (A Bidirectional Korean-Japanese Statistical Machine Translation System by Using MOSES)

  • 이공주;이성욱;김지은
    • Journal of Advanced Marine Engineering and Technology
    • /
    • 제36권5호
    • /
    • pp.683-693
    • /
    • 2012
  • 통계기반 자동 번역 시스템은 구현과 유지보수의 용이함으로 최근 많은 관심을 받고 있다. 본 연구의 목적은 MOSES[1] 시스템을 이용하여 통계기반의 한/일 양방향 기계번역시스템을 구축하는 것이다. 한/일 문장단위 병렬 코퍼스를 구축하여 번역모델 학습에 이용하였고, 한/일 각각 대량의 원시 코퍼스를 이용하여 언어모델 학습에 이용하였다. 시스템 구축 결과 기존의 규칙기반 번역 시스템의 성능에 근접하는 결과를 얻었으며, 발생하는 오류의 대부분은 각 처리 단계에서 발생하는 노이즈에 기인하였다.

말뭉치 자원 희소성에 따른 통계적 수지 신호 번역 문제의 해결 (Addressing Low-Resource Problems in Statistical Machine Translation of Manual Signals in Sign Language)

  • 박한철;김정호;박종철
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.163-170
    • /
    • 2017
  • 통계적 기계 번역을 이용한 구어-수화 번역 연구가 활발해짐에도 불구하고 수화 말뭉치의 자원 희소성 문제는 해결되지 않고 있다. 본 연구는 수화 번역의 첫 번째 단계로써 통계적 기계 번역을 이용한 구어-수지 신호 번역에서 말뭉치 자원 희소성으로부터 기인하는 문제점들을 해결할 수 있는 세 가지 전처리 방법을 제안한다. 본 연구에서 제안하는 방법은 1) 구어 문장의 패러프레이징을 통한 말뭉치 확장 방법, 2) 구어 단어의 표제어화를 통한 개별 어휘 출현 빈도 증가 및 구어 표현의 번역 가능성을 향상시키는 방법, 그리고 3) 수지 표현으로 전사되지 않는 구어의 기능어 제거를 통한 구어-수지 표현 간 문장 성분을 일치시키는 방법이다. 서로 다른 특징을 지닌 영어-미국 수화 병렬 말뭉치들을 이용한 실험에서 각 방법론들이 단독으로 쓰일 때와 조합되어 함께 사용되었을 때 모두 말뭉치의 종류와 관계없이 번역 성능을 개선시킬 수 있다는 것을 확인할 수 있었다.