• 제목/요약/키워드: 대역어 선택

검색결과 18건 처리시간 0.025초

영-한 기계번역에서 문형에 의한 조사 및 대역어 선택 (Selection of Postpositions and Translated Words by Sentence Pattern in the English-Korean Machine Translation)

  • 박영진;김남수;이지선;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.105-109
    • /
    • 1999
  • 영-한 기계번역 중 변환 단계에서 한국어 문장을 생성하기 위해서는 구구조 변환 후 조사 및 대역어 선택으로 이루어진다. 그러나 하나의 영어 단어는 여러 개의 한국어 의미들을 가지고 있기 때문에 문장에서 사용된 영어의 정확한 의미에 해당하는 한국어 대역어를 선택하는 것은 번역의 질을 높이고 시스템의 성능에 매우 중요한 역할을 한다. 특히 용언 및 체언의 대역어 선택은 문장에서 서로 간의 의미적인 관계를 고려하여야 올바른 대역어를 선택할 수 있다. 기존에는 전자 사전에 용언과 체언간의 연어 정보(collocation information)를 구축하여 대역어 선택의 문제를 해결하려고 하였으나 연어 정보가 사전에 존재하지 않을 때 올바른 대역어를 선택할 수 없었다. 또한 용언과 체언의 관계를 나타내는 조사를 선택하기 위하여 격(case)을 세분화하여 사전을 구축하였으나 격의 분류 및 사전을 구축할 경우 격을 선택하는 어려움이 있었다. 이에 따라 본 논문에서는 문형(sentence pattern)에 의한 방법으로 용언의 대역어 및 용언이 갖는 필수격 체언의 조사와 대역어 선택방법을 제안한다. 문형의 구조적인 정보에는 용언과 체언의 의미적 역할(thematic role)을 하는 조사 및 용언이 갖는 필수격 체언의 의미 자질(semantic feature)을 갖고 있다. 이러한 의미 자질을 wordnet과 한/영 및 영/한 사전을 이용하여 의미 지표(semantic marker)를 갖는 문형 사전을 구축한다. 또한 의미 지표를 갖는 문형 사전을 기반으로 조사 및 대역어 선택 알고리즘을 개발한다.

  • PDF

벡터를 사용한 2단계 영한 대역어 선택 (2-Level English-Korean Target Word Selection Using Vectors)

  • 이기영;박상규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (상)
    • /
    • pp.473-476
    • /
    • 2003
  • 영한 자동번역 시스템에서 대역어 선택 모듈은 어휘 변환을 수행한다. 일반적으로 영어 단어는 다양한 한국어 단어로 번역될 수 있는 의미적 모호성을 지니고 있으며, 고품질의 영한 자동번역 결과를 제공하기 위해서는, 해당 문맥에 가장 적합한 한국어 단어가 선택되어야 한다. 본 논문에서는 영어의 명사 어휘에 대하여, 벡터를 사용하는 2 단계 영한 대역어 선택 기법을 제안한다. 벡터를 사용하는 2 단계 대역어 선택 방식은 첫 번째 단계에서, 원문에서 사용된 영어 명사의 의미를 결정하고, 두 번째 단계에서, 해당 의미를 지니는 유사 한국어 대역어 가운데, 생성될 한국어 문맥에 맞는 적합한 한국어 대역어를 선택한다. 또한 제안하는 방법의 타당성을 검증하기 위해 현재 우리가 개발중인 Tellus-EK 영한 자동번역 시스템에 적용한 결과를 논한다.

  • PDF

적절한 동사 대역어 선택을 위한 한영 변환 사전 구성 (The Composition of Korean-English Transfer Dictionary for Proper Selection of Verb Translation)

  • 송정근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.294-301
    • /
    • 2001
  • 기계번역이 인간의 언어 능력을 기계로 구현한다는 점에서 전산학적 성격이 강하다면, 변환 사전은 인간의 어휘부(lexicon) 정보를 그대로 기계에 표상한다는 점에서 언어학적 성격이 강하다. 여기서는 다양한 어휘부 정보 중에서 한영 기계번역에서 필요한 언어학적 정보를 추출하고 이러한 정보를 바탕으로 적절한 동사 대역어 선택을 위한 변환 사전의 모형을 만들어 보고자 하였다. 한영 기계번역에서 적절한 동사 대역어 선택의 어려움은 한국어 동형어 처리 문제와 한국어에서는 포착되지 않지만 영어로 번역하는 과정에서 발생하는 영어 표현의 특수성 때문에 기인한 것으로 볼 수 있다. 이 논문에서는 이러한 문제를 논항과 문법 형태소, 선택제약, 개별 어휘 등의 기초적인 언어학적 개념을 이용한 변환사전을 통해 해결한다. 또한 동사 대역어 선택에 영향을 미치는 이러한 개별적인 요인들은 실제 변환사전의 기술에 있어서는 복합적으로 적용됨을 동사 '먹다'의 기술을 통해 확인할 수 있다.

  • PDF

교차언어 문서검색에서 다국어 온톨로지에 기반한 한영 질의어 변환 (Korean-to-English Query Translation based on Multilingual Ontology in Cross-Language Text Retrieval)

  • 천정훈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.43-49
    • /
    • 1999
  • 본 논문에서는 교차언어 문서검색(CLTR: Cross-Language Text Retrieval)에서의 한-영 질의어 변환을 다룬다. 질의어 변환시 영어 대역어 획득과정에서는 다음 두 가지를 고려한다. 첫째, 한국어 질의어를 구성하는 단어가 한가지 개념을 기호화하지만 이에 대응되는 영어 대역어들이 하나 이상인 경우이다. 둘째, 질의어 구성 단어가 둘 이상의 개념들을 기호화하는 다의성을 지닌 경우이다. 전자의 경우는 영어 대역어들이 모두 동일한 개념, 또는 유사한 개념을 나타내므로 그대로 검색에 이용한다 해도 검색 성능을 크게 좌우하지 않지만, 후자의 경우는 모든 개념을 다 검색에 이용하게 되면 정확률(precision)이 크게 떨어지게 된다. 이에 본 연구에서는 개념 선택단계와 선택된 개념의 영어 대역어들에 가중치를 주는 가중치 부가단계로 나누어 질의어 변환을 수행한다. 본 논문의 질의어 변환에서 영어 대역어는 대역사전 대신 다국어 온톨로지인 KAIST 분류어휘표와 한영 음차복원 모듈을 통해 얻어진다.

  • PDF

다양한 지식을 사용한 영한 기계번역에서의 대역어 선택 (Target Word Selection for English-Korean Machine Translation System using Multiple Knowledge)

  • 이기영;김한우
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권5호
    • /
    • pp.75-86
    • /
    • 2006
  • 일반적으로 영어를 한국어로 번역할 때, 대부분의 영어 명사 어휘들은 해당 어휘가 사용되는 문맥에 따라 다양한 한국어 명사로 번역될 수 있다. 따라서 영어 원문이 갖는 의미를 손실 없이 번역문으로 전달하기 위해서는 문맥에 맞는 올바른 한국어 대역어를 선택할 수 있어야 한다. 본 논문에서는 동사구패턴, 공기 정보에 기반한 의미벡터, 공기 품사 정보 및 한국어 문맥 통계 정보 등의 다양한 지식을 사용하여 영어 명사 어휘의 대역어를 올바로 선택하는 방안을 제공한다. 동사구 패턴은 사전과 코퍼스를 사용하여 구축되었으며, 의미 벡터는 영어 어휘가 특정 한국어 어휘로 번역될 때 공기하는 정보들의 조건부 확률을 나타낸다. 한국어 문맥 통계 정보는 한국어 코퍼스로부터 추출된 N-그램 정보를 나타내며, 품사 공기 정보는 대역어 선택 모호성을 지니는 영어 어휘와 통계적으로 깊은 관련성을 지니는 품사를 나타낸다. 마지막으로 본 논문에서 제안한 대역어 선택 모호성 해소 방안을 평가하기 위한 실험을 수행하였으며, 실험 결과, 제안하는 방법이 기존의 방법보다 성능이 좋다는 것을 확인할 수 있었다.

  • PDF

영한 기계 번역에서 미가공 텍스트 데이터를 이용한 대역어 선택 중의성 해소 (Target Word Selection Disambiguation using Untagged Text Data in English-Korean Machine Translation)

  • 김유섭;장정호
    • 정보처리학회논문지B
    • /
    • 제11B권6호
    • /
    • pp.749-758
    • /
    • 2004
  • 본 논문에서는 미가공 말뭉치 데이터를 활용하여 영한 기계번역 시스템의 대역어 선택 시 발생하는 중의성을 해소하는 방법을 제안한다. 이를 위하여 은닉 의미 분석(Latent Semantic Analysis : LSA)과 확률적 은닉 의미 분석(Probabilistic LSA : PLSA)을 적용한다. 이 두 기법은 텍스트 문단과 같은 문맥 정보가 주어졌을 때, 이 문맥이 내포하고 있는 복잡한 의미 구조를 표현할 수 있다 본 논문에서는 이들을 사용하여 언어적인 의미 지식(Semantic Knowledge)을 구축하였으며 이 지식은 결국 영한 기계번역에서의 대역어 선택 시 발생하는 중의성을 해소하기 위하여 단어간 의미 유사도를 추정하는데 사용된다. 또한 대역어 선택을 위해서는 미리 사전에 저장된 문법 관계를 활용하여야 한다. 본 논문에서는 이러한 대역어 선택 시 발생하는 데이터 희소성 문제를 해소하기 위하여 k-최근점 학습 알고리즘을 사용한다. 그리고 위의 두 모델을 활용하여 k-최근점 학습에서 필요한 예제 간 거리를 추정하였다. 실험에서는, 두 기법에서의 은닉 의미 공간을 구성하기 위하여 TREC 데이터(AP news)론 활용하였고, 대역어 선택의 정확도를 평가하기 위하여 Wall Street Journal 말뭉치를 사용하였다. 그리고 은닉 의미 분석을 통하여 대역어 선택의 정확성이 디폴트 의미 선택과 비교하여 약 10% 향상되었으며 PLSA가 LSA보다 근소하게 더 좋은 성능을 보였다. 또한 은닉 공간에서의 축소된 벡터의 차원수와 k-최근점 학습에서의 k값이 대역어 선택의 정확도에 미치는 영향을 대역어 선택 정확도와의 상관관계를 계산함으로써 검증하였다.젝트의 성격에 맞도록 필요한 조정만을 통하여 품질보증 프로세스를 확립할 수 있다. 개발 된 패키지의 효율적인 활용이 내조직의 소프트웨어 품질보증 구축에 투입되는 공수 및 어려움을 줄일 것으로 기대된다.도가 증가할 때 구기자 열수 추출 농축액은 $1.6182{\sim}2.0543$, 혼합구기자 열수 추출 농축액은 $1.7057{\sim}2.1462{\times}10^7\;J/kg{\cdot}mol$로 증가하였다. 이와 같이 구기자 열수 추출 농축액과 혼합구기자 열수 추출 농축액의 리올리지적 특성에 큰 차이를 나타내지는 않았다. security simultaneously.% 첨가시 pH 5.0, 7.0 및 8.0에서 각각 대조구의 57, 413 및 315% 증진되었다. 거품의 열안정성은 15분 whipping시, pH 4.0(대조구, 30.2%) 및 5.0(대조구, 23.7%)에서 각각 $0{\sim}38.0$$0{\sim}57.0%$이었고 pH 7.0(대조구, 39.6%) 및 8.0(대조구, 43.6%)에서 각각 $0{\sim}59.4$$36.6{\sim}58.4%$이었으며 sodium alginate 첨가시가 가장 양호하였다. 전체적으로 보아 거품안정성이 높은 것은 열안정성도 높은 경향이며, 표면장력이 낮으면 거품형성능이 높아지고, 비점도가 높으면 거품안정성 및 열안정성이 높아지는 경향이 있었다.protocol.eractions between application agents that are developed using different

두단계 대역어선택 방식을 이용한 구단위 패턴기반 한영 기계번역 시스템 (Phrase-Pattern-based Korean-to-English Machine Translation System using Two Level Word Selection)

  • 김정재;박준식;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.209-214
    • /
    • 1999
  • 패턴기반기계번역방식은 원시언어패턴과 그에 대한 대역언어패턴들의 쌍을 이용하여 구문분석과 변환을 수행하는 기계번역방식이다. 패턴기반 기계번역방식은 번역할 때 발생하는 애매성을 해소하기 위해 패턴의 길이를 문장단위까지 늘이기 때문에, 패턴의 수가 급증하는 문제점을 가진다. 본 논문에서는 패턴의 단위를 구단위로 한정시킬 때 발생하는 애매성을 해소하는 방법으로 시소러스를 기반으로 한 두단계 대역어 선택 방식을 제안함으로써 효과적으로 애매성을 감소시키면서 패턴의 길이를 줄이는 모델을 제시한다. 두단계 대역어 선택 방식은 원시언어의 한 패턴에 대해 여러 가능한 목적언어의 대역패턴들이 있을 때, 첫 번째 단계에서는 원시언어 내에서의 제약조건에 맞는 몇가지 대역패턴들을 선택하고, 두번째 단계에서는 목적언어 내에서의 제약조건에 가장 적합한 하나의 대역패턴을 선택하는 방식이다. 또한 본 논문에서는 이와 같은 모델에서 패턴의 수가 코퍼스의 증가에 따른 수렴가능성을 논한다.

  • PDF

일한 기계번역에서 조동사 "-reru, -rareru"의 번역처리 (Translation of Auxiliary Verbs "-reru,-rareru" in Japanese-Korean Machine Translation)

  • 김정인;문경희;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.261-268
    • /
    • 1997
  • 일본어에서 조동사 "-reru, -rareru"는 '피동', '가능', '자발', '존경' 등의 의미로 두루 쓰이고 있다. 일한 번역에서 이들은 여러 가지 대역어로 나타나며 일정한 규칙이나 패턴을 취하지 않으므로, 기계 번역시 조동사 "-reru, -rareru"는 그 처리가 쉽지 않다. 더구나, 조동사 "-reru, -rareru"는 일본어에서 높은 빈도로 등장하여 무시하기 어렵고 의미별 분포가 고루 퍼져 있어, 대표적 대역어인 "-아/어/여 지다. -되다" 등으로만 대응시킬 경우의 번역 에러는 의외로 치명적이다. 따라서, "-reru, -rareru"의 번역을 고려한 특수 처리를 행할 필요가 있다. 먼저, 본 논문에서는 조동사 "-reru, -rareru"가 포함된 아사히 신문 가사의 5,800여 문장을 대상으로 각각의 의미에 대한 분포 및 한국어 대역어의 빈도를 조사하였다. 대역어는 크게 8종류의 형태로 나누었으며 각 동사별로 "-reru, -rareru"와 결합된 경우의 의미 출현 빈도를 참고하여 대응 가능한 대역어 형태들을 미리 결정하였다. 그리고, 대역어가 여러 개 존재하는 경우는 패턴 매칭을 통하여 적절한 대역어를 선택할 수 있도록 하였다. 그 결과, 약 87%의 "-reru, -rareru"가 적절한 대역어로 번역되어, 본 논문에서 제시한 의미 출현 빈도에 기반한 각 동사별 대역어 형태 결정 방법이 "-reru, -rareru"의 다의성 해소에 유효하다고 판단된다.

  • PDF

영한번역 시스템에서 연어 사용에 의한 실용적인 대역어 선택 (Practical Target Word Selection Using Collocation in English to Korean Machine Translation)

  • 김성묵
    • 한국산업정보학회논문지
    • /
    • 제5권2호
    • /
    • pp.56-61
    • /
    • 2000
  • 기계번역시스템에서 번역의 우수성은 중의성이 심한 동사의 대역어 선택에 좌우된다. 동사의 의미분별은 함께 어울려 사용되는 연어들에 의해 해소될 수 있지만, 이러한 연어들을 획득하기에는 많은 어려움과 비용의 문제가 발생한다. 이에 따라 기존의 많은 연구 중에서 실용성을 검토해 볼 필요가 있다. 본 논문에서는 영한번역시스템의 성능 향상을 위해 기존에 획득된 연어에 최소한의 명사 의미자질을 구축하여 계산한 의미거리(Semantic Distance)에 의한 실용적인 대역어 선택 방법을 기술하고자 한다.

  • PDF

다국어 기계번역시스템에서 부사격 조사의 올바른 대역어 선정을 위한 언어학적 모델링 (Linguistic Modeling for Target Word Selection of Korean Adverbial Postpositions in a Multilingual MT-System)

  • 홍문표;최승권
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.310-316
    • /
    • 2001
  • 이 논문은 '에서', '으로'와 같은 한국어의 부사격 조사들을 다국어 기계번역 시스템에서 다룰 때 올바른 역어 선택을 위한 3단계 변환 방식과 이를 위한 부사격 조사의 언어학적 모델링 방법을 제시한다. 3단계 변환 방식은 부사격 조사의 의미 모호성 해소, 의사 중간언어표상 (Quasi-Interlingua Representation)으로의 변환, 전치사 선택의 3단계로 구성되어 있다. 본 논문에서 중점적으로 다루게 될 세번째 단계, 즉 영어나 독일어에서 한국어의 부사격 조사에 대한 전치사 선택의 단계에서 올바른 대역어 선정 방법론의 핵심이 되는 부사격 조사에 대한 언어학적 모델링을 위해 Pustejovsky (1995)의 생성 어휘부 이론 (Generative Lexicon Theory)을 도입한다. 이 논문에서 제시한 방법론은 그 타당성의 수학적 검증을 위해 통합기반 기계번역 시스템인 CAT2에서 구현되었으나, 방법론 자체는 특정 시스템에 제한됨 없이 범용적으로 적용될 수 있을 것이다.

  • PDF