• Title/Summary/Keyword: translation probability

검색결과 28건 처리시간 0.032초

Discriminative Models for Automatic Acquisition of Translation Equivalences

  • Zhang, Chun-Xiang;Li, Sheng;Zhao, Tie-Jun
    • International Journal of Control, Automation, and Systems
    • /
    • 제5권1호
    • /
    • pp.99-103
    • /
    • 2007
  • Translation equivalence is very important for bilingual lexicography, machine translation system and cross-lingual information retrieval. Extraction of equivalences from bilingual sentence pairs belongs to data mining problem. In this paper, discriminative learning methods are employed to filter translation equivalences. Discriminative features including translation literality, phrase alignment probability, and phrase length ratio are used to evaluate equivalences. 1000 equivalences randomly selected are filtered and then evaluated. Experimental results indicate that its precision is 87.8% and recall is 89.8% for support vector machine.

언어 자원과 토픽 모델의 순차 매칭을 이용한 유사 문장 계산 기반의 위키피디아 한국어-영어 병렬 말뭉치 구축 (Building a Korean-English Parallel Corpus by Measuring Sentence Similarities Using Sequential Matching of Language Resources and Topic Modeling)

  • 천주룡;고영중
    • 정보과학회 논문지
    • /
    • 제42권7호
    • /
    • pp.901-909
    • /
    • 2015
  • 본 논문은 위키피디아로부터 한국어-영어 간 병렬 말뭉치를 구축하기 위한 연구이다. 이를 위해, 언어 자원과 토픽모델의 순차 매칭 기반의 유사 문장 계산 방법을 제안한다. 먼저, 언어자원의 매칭은 위키피디아 제목으로 구성된 위키 사전, 숫자, 다음 온라인 사전을 단어 매칭에 순차적으로 적용하였다. 또한, 위키피디아의 특성을 활용하기 위해 위키 사전에서 추정한 번역 확률을 단어 매칭에 추가 적용하였다. 그리고 토픽모델로부터 추출한 단어 분포를 유사도 계산에 적용함으로써 정확도를 향상시켰다. 실험에서, 선행연구의 언어자원만을 선형 결합한 유사 문장 계산은 F1-score 48.4%, 언어자원과 모든 단어 분포를 고려한 토픽모델의 결합은 51.6%의 성능을 보였으나, 본 논문에서 제안한 언어자원에 번역 확률을 추가하여 순차 매칭을 적용한 방법은 58.3%로 9.9%의 성능 향상을 얻었고, 여기에 중요한 단어 분포를 고려한 토픽모델을 적용한 방법이 59.1%로 7.5%의 성능 향상을 얻었다.

효율적인 영어 구문 분석을 위한 최대 엔트로피 모델에 의한 문장 분할 (Intra-Sentence Segmentation using Maximum Entropy Model for Efficient Parsing of English Sentences)

  • 김성동
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.385-395
    • /
    • 2005
  • 긴 문장 분석은 높은 분석 복잡도로 인해 기계 번역에서 매우 어려운 문제이다. 구문 분석의 복잡도를 줄이기 위하여 문장 분할 방법이 제안되었으며 본 논문에서는 문장 분할의 적용률과 정확도를 높이기 위한 최대 엔트로피 확률 모델 기반의 문장 분할 방법을 제시한다. 분할 위치의 어휘 문맥적 특징을 추출하여 후보 분할 위치를 선정하는 규칙을 학습을 통해 자동적으로 획득하고 각 후보 분할 위치에 분할 확률 값을 제공하는 확률 모델을 생성한다. 어휘 문맥은 문장 분할 위치가 표시된 말뭉치로부터 추출되며 최대 엔트로피 원리에 기반하여 확률 모델에 결합된다. Wall Street Journal의 문장을 추출하여 학습 데이타를 생성하는 말뭉치를 구축하고 네 개의 서로 다른 영역으로부터 문장을 추출하여 문장 분할 실험을 하였다. 실험을 통해 약 $88\%$의 문장 분할의 정확도와 약 $98\%$의 적용률을 보였다. 또한 문장 분할이 효율적인 파싱에 기여하는 정도를 측정하여 분석 시간 면에서 약 4.8배, 공간 면에서 약 3.6배의 분석 효율이 향상되었음을 확인하였다.

효율적인 예제 기반 기계번역을 위한 패턴의 사용 (An Use of the Patterns for an Efficient Example-Based Machine Translation)

  • 이기영;김한우
    • 전자공학회논문지CI
    • /
    • 제37권3호
    • /
    • pp.1-11
    • /
    • 2000
  • 예제 기반 기계번역 기법은 기존의 규칙 기반 기계번역에서 발생되는 다양한 문제점들을 해결하기 위해 제안된 새로운 기계번역 패러다임이다. 하지만 기존의 순수 예제 기반 기계번역의 경우 적당한 크기의 병렬 코퍼스를 사용하여 입력문과 거의 유사한 예문을 발견하는데는 한계가 있으며, 이러한 점이 번역문 생성 단계에서 부담으로 작용하게 된다. 본 논문에서는 예제 기반 기계번역 기법의 문제점을 보완하기 위한 새로운 대안으로서 패턴과 예문을 함께 사용하여 영한 변환을 수행하는 새로운 영한 변환 기법을 제안한다. 패턴은 크게 문장 패턴과 구 패턴으로 구분되며, 패턴의 메타 부분은 유사 예문 발견 확률을 높여서 예제 기반 기계 번역 기법을 보다 실용적으로 만들어준다. 실험 결과 기존의 표층 어휘 비교에 의한 순수 예제 기반 기계번역에 비해 비교적 적은 양의 예문을 가지고도 유사 예문 발견 확률이 높다는 것을 알 수 있었다.

  • PDF

영한 기계번역에서의 영어 품사결정 모델 (A Model of English Part-Of-Speech Determination for English-Korean Machine Translation)

  • 김성동;박성훈
    • 지능정보연구
    • /
    • 제15권3호
    • /
    • pp.53-65
    • /
    • 2009
  • 영한 기계번역에서 영어 단어의 품사결정은 번역할 문장에 사용된 어휘의 품사 모호성을 해소하기 위해 필요하다. 어휘의 품사 모호성은 구문 분석을 복잡하게 하고 정확한 번역을 생성하는 것을 어렵게 한다. 본 논문에서는 이러한 문제점을 해결하기 위해 어휘 분석 이후 구문 분석 이전에 품사 모호성을 해소하려 하였으며 품사 모호성을 해소하기 위한 CatAmRes 모델을 제안하고 다른 품사태깅 방법과 성능 비교를 하였다. CatAmRes는 Penn Treebank 말뭉치를 이용하여 Bayesian Network를 학습하여 얻은 확률 분포와 말뭉치에서 나타나는 통계 정보를 이용하여 영어 단어의 품사를 결정을 한다. 본 논문에서 제안한 영어 품사결정 모델 CatAmRes는 결정할 품사의 적정도 값을 계산하는 Calculator와 계산된 적정도 값에 근거하여 품사를 결정하는 POSDeterminer로 구성된다. 실험에서는 CatAmRes의 동작과 성능을 테스트 하기 위해 WSJ, Brown, IBM 영역의 말뭉치에서 추출한 테스트 데이터를 이용하여 품사결정의 정확도를 평가하였다.

  • PDF

영한 기계번역에서 구문 분석 정확성 향상을 위한 구문 범주 예측 (Syntactic Category Prediction for Improving Parsing Accuracy in English-Korean Machine Translation)

  • 김성동
    • 정보처리학회논문지B
    • /
    • 제13B권3호
    • /
    • pp.345-352
    • /
    • 2006
  • 실용적인 영한 기계번역 시스템은 긴 문장을 빠르고 정확하게 번역할 수 있어야 한다. 보다 빠른 번역을 위해 문장 분할을 이용한 부분 파싱 방법이 제안되어 속도 향상에 기여하였다. 본 논문에서는 보다 정확한 분석을 위해 결정 트리를 이용한 구문 범주 예측 방법을 제안한다. 문장 분할을 적용한 영어 분석에서 각각의 분할된 부분은 개별적으로 분석되며 각 분석 결과들이 결합되어 문장의 구조가 생성된다. 여기서 각 분할의 구문 범주를 미리 예측하여 부분 파싱 후에 보다 정확한 분석 결과를 선정하고 예측된 구문 범주에 근거하여 올바르게 다른 문장의 분할결과와 결합함으로써 문장 분석의 정확도를 향상시키는 것이 본 논문에서 제안한 방법의 목적이다. 본 논문에서는 Wall Street Journal의 파싱된 말뭉치에서 구문 범주 예측에 필요한 특성을 추출하고 결정 트리를 이용하여 구문 범주 예측을 위한 결정 트리를 생성하였다. 실험에서는 사람이 구축한 규칙을 이용한 방법, trigram 확률을 이용한 방법, 신경망을 이용한 방법 등에 의한 구문 범주 예측 성능을 측정, 비교하였으며 제안된 구문 범주 예측이 번역의 품질 향상에 기여한 정도를 제시하였다.

Characterization of some classes of distributions related to operator semi-stable distributions

  • 주상열;최경숙
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2002년도 추계 학술발표회 논문집
    • /
    • pp.221-225
    • /
    • 2002
  • For a positive integer m, operator m-semi-stability and the strict operator m-semi-stability of probability measures on $R^{d}$ are defined. The operator m-semi-stability is a generalization of the definition of operator semi- stability with exponent Q. Translation of strictly operator m-semi-stable distribution is discussed.

  • PDF

CHARACTERIZATION OF STRICTLY OPERATOR SEMI-STABLE DISTRIBUTIONS

  • Choi, Gyeong-Suk
    • 대한수학회지
    • /
    • 제38권1호
    • /
    • pp.101-123
    • /
    • 2001
  • For a linear operator Q from R(sup)d into R(sup)d and 0$\alpha$ and parameter b on the other. characterization of strictly (Q,b)-semi-stable distributions among (Q,b)-semi-stable distributions is made. Existence of (Q,b)-semi-stable distributions which are not translation of strictly (Q,b)-semi-stable distribution is discussed.

  • PDF

Characterization of Some Classes of Distributions Related to Operator Semi-stable Distributions

  • Joo, Sang Yeol;Yoo, Young Ho;Choi, Gyeong Suk
    • Communications for Statistical Applications and Methods
    • /
    • 제10권1호
    • /
    • pp.177-189
    • /
    • 2003
  • For a positive integer m, operator m-semi-stability and the strict operator m-semi-stability of probability measures on R^d$ are defined. The operator m-semi-stability is a generalization of the definition of operator semi-stability with exponent Q. Characterization of strictly operator na-semi-stable distributions among operator m-semi-stable distributions is given. Translation of strictly operator m-semi-stable distribution is discussed.

Influence of non-Gaussian characteristics of wind load on fatigue damage of wind turbine

  • Zhu, Ying;Shuang, Miao
    • Wind and Structures
    • /
    • 제31권3호
    • /
    • pp.217-227
    • /
    • 2020
  • Based on translation models, both Gaussian and non-Gaussian wind fields are generated using spectral representation method for investigating the influence of non-Gaussian characteristics and directivity effect of wind load on fatigue damage of wind turbine. Using the blade aerodynamic model and multi-body dynamics, dynamic responses are calculated. Using linear damage accumulation theory and linear crack propagation theory, crack initiation life and crack propagation life are discussed with consideration of the joint probability density distribution of the wind direction and mean wind speed in detail. The result shows that non-Gaussian characteristics of wind load have less influence on fatigue life of wind turbine in the area with smaller annual mean wind speeds. Whereas, the influence becomes significant with the increase of the annual mean wind speed. When the annual mean wind speeds are 7 m/s and 9 m/s at hub height of 90 m, the crack initiation lives under softening non-Gaussian wind decrease by 10% compared with Gaussian wind fields or at higher hub height. The study indicates that the consideration of the influence of softening non-Gaussian characteristics of wind inflows can significantly decrease the fatigue life, and, if neglected, it can result in non-conservative fatigue life estimates for the areas with higher annual mean wind speeds.