• 제목/요약/키워드: language translation

검색결과 565건 처리시간 0.027초

영한 기계 번역을 위한 혼합형 N-best 품사 태거 (A Hybrid N-best Part-of-Speech Tagger for English-Korean Machine Translation)

  • 임희석;권철중;이재원;오기은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.15-19
    • /
    • 1998
  • 기계 번역 시스템에서 품사 태거의 오류는 전체번역 정확률에 결정적인 영향을 미친다. 따라서 어휘 단계의 정보만으로는 중의성 해소가 불가능한 단어에 대해서는 중의성 해소에 충분한 정보를 얻을 수 있는 구문 분석이나 의미 분석 단계까지 완전한 중의성 해소를 유보하는 N-best 품사 태거가 요구된다. 또한 N-best 품사 태거는 단어에 할당되는 평균 품사 개수를 최소화함으로써 상위 단계의 부하를 줄이는 본연의 역할을 수행하여야 한다. 본 논문은 통계 기반 품사 태깅 방법을 이용하여 N-best 후보를 선정하고, 선정된 N-best 후보에 언어 규칙을 적용하여 중의성을 감소시키거나 오류를 보정하는 혼합형 N-best 품사 태깅 방법을 제안한다 제안된 N-best 품사 태거는 6만여 단어의 영어 코퍼스에서 실험한 결과, 단어 당 평균 1.09개의 품사를 할당할 때 0.43%의 오류율을 보인다.

  • PDF

코퍼스를 기반으로 한 어휘 과제가 고등학생의 영어 어휘 학습과 태도에 미치는 영향 (The effects of corpus-based vocabulary tasks on high school students' English vocabulary learning and attitude)

  • 이현진;이은주
    • 영어어문교육
    • /
    • 제16권4호
    • /
    • pp.239-265
    • /
    • 2010
  • This study investigates the effects of corpus-based vocabulary tasks on the acquisition of English vocabulary in an attempt to explore the influence of corpus use on EFL pedagogy. For this to be realized, a total of 40 Korean high school students participated in the study over a 4-week period. An experimental group used a set of corpus-based tasks for vocabulary learning, whereas a control group carried out a traditional task (i.e., the L1-L2 translation) for vocabulary learning. To assess learning gains, the students were asked to complete the pre- and post-treatment tests measuring the word form, meaning, and use aspects of target lexical items. Results of the study indicate that in the experimental group the corpus-based vocabulary tasks were beneficial for the learning of word forms and use. In particular, corpus-based benefits were greatest in the low-proficiency EFL learners' collocational aspects of vocabulary use. On the other hand, in the control group, the traditional vocabulary tasks benefited the meaning aspects of target vocabulary items the most. In addition, survey results revealed that most students were positive about the corpus-based learning experience although some expressed reservations about the heavy cognitive load and the time-consuming nature of the analysis of corpus data primarily due to learners' lack of language proficiency.

  • PDF

관계형 데이터베이스에서 XML 뷰 기반의 질의 처리 모델 (A Query Processing Model based on the XML View in Relational Databases)

  • 정채영;최규원;김영옥;김영균;강현석;배종민
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.221-232
    • /
    • 2003
  • 본 논문은 XML 기반의 데이터베이스 통합 방법론 중에서 관계형 데이터베이스 모델에 대한 랩퍼 시스템의 질의어 처리에 대하여 논한다. 관계형 데이터베이스의 내용은 W3C에서 제안된 XML Schema로 표현되며, 사용자는 XML Schema에 대하여 XML 질의어인 XQuery로써 질의를 한다. 그리고, 개발된 랩퍼 시스템은 사용자가 정의한 XML 뷰를 지원한다. XML 뷰 정의 언어는 XQuery이다. 이러한 환경에서 본 논문은 새로운 XML 질의 처리 모델을 제시한다. XML 뷰와 사용자 질의어의 합성 알고리즘, XQuery를 SQL로 변환하는 알고리즘, 그리고 XML 문서 생성을 위한 템플릿 구성 알고리즘을 제시한다.

한영 번역 시스템에서의 불특정 조사를 포함한 용언구 처리 (Predicative phrase processing including unexpectable JOSA in the Korean-English translation system)

  • 박홍원;심재석;이수진;석영민;오승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.523-529
    • /
    • 2001
  • 한국어의 용언구 중에서 [명사]+[불특정 조사]+[용언]의 형태를 보이는 '공부를 하다' '잠이나 자다'와 같은 어구는 [명사]와 [동사]의 결합이 비교적 자유로워 기계번역 시스템에서 이들을 처리하고자 할 때 몇가지 애로점이 있다. 우선, 기계번역 시스템의 특성상 이와 같은 용언구를 하나의 어구로 인식해서 역문을 생성해야 하는데 이들을 일일이 사전에 수록하기 어렵다는 점을 지적할 수 있다. 또한 이들 어구에 포함된 [명사] 부분이 [한정사]의 수식을 받을 때 영어 역문에서는 해당 수식어를 원래의 수식어의 의미 그대로 생성할 수 없다는 것도 중요한 문제점이다. 이러한 문제점을 해결하기 위하여 본 연구에서는 [명사] 부분과 [용언] 부분을 각각의 품사 사전에서 탐색하여 품사별로 인식한 후에 다시 통사적으로 하나의 용언으로 인식시켜 해당 역문을 생성하는 처리 방법을 제안한다. 또한, [한정사]의 수식을 올바로 생성하기 위하여 이런 종류의 용언구들을 분류하여 그 분류에 따라 [한정사]를 변형 생성하는 방법을 제시한다.

  • PDF

일-한 기계 번역에 있어서 한국어 술부의 생성과 평가 (Generation of Korean Predicates for Japanese-Korean Machine Translation System and its Evaluation)

  • 김정인;문경희;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.329-337
    • /
    • 1996
  • 일-한 기계 번역을 연구하는 많은 연구자들은 양국어의 문절-어절 단위의 어순 일치와 같은 구조적 유사성을 최대한 이용하기 위해 직접 번역 방식을 채택하고 있다. 그러나, 일본어와 한국어 술부간에는 대응하는 품사의 불일치 및 국부적인 어순의 불일치 등이 어려운 문제로 남아 있다. 본 논문에서는 이들 술부 표현의 불일치를 해결하기 위해 이미 제안하였던 "양상 테이블을 기반으로 한 한국어 술부의 생성 방법"에 대해 좀더 체계적인 평가를 하고자 한다. 이 방법은 술부만을 대상으로 하는 추상적이고 의미 기호적인 양상 자질(modality feature)을 테이블화(양상 테이블)하여, 양국어의 술부 표현의 피봇(pivot)으로 이용함으로써 술부 양상 표현의 효과적인 번역을 가능하게 하였다. 일본어 499 문을 대상으로 실제 술부의 번역처리를 시행해 본 결과, 약 97.7%가 자연스럽게 번역됨을 확인하였다. 특히, 술부의 생성 부분은 일본어에 의존하지 않는 양상 테이블을 도입함으로써 일-한뿐만 아니라 다른 언어로부터의 한국어 술부 생성에도 적용시킬 수 있을 것이다.

  • PDF

EER기반의 시각적 상품정보 모델링 에디터의 설계와 구현 (Design and implementation of a EER-based Visual Product Information Modeler)

  • 탁문희;김경화;심준호
    • 한국전자거래학회지
    • /
    • 제12권3호
    • /
    • pp.97-106
    • /
    • 2007
  • 시맨틱 웹을 가능하게 해주는 핵심 기술은 온톨로지이다. 표준 언어로 자리잡은 OWL 웹 온톨로지 언어로 도메인을 직접 표현하기 위해서는 전문적인 기술이 요구된다. 따라서, 전자카탈로그 도메인 컨셉의 기초적인 관계들을 분석한 경험을 바탕으로 하여, 상품 도메인을 위한 OWL 코드를 자동적으로 생성해내는 시각적 상품정보 모델링 에디터인 PROMOD를 개발하였다. 특히, 개념모델링을 위해 상품 도메인에 특화된 모델링 요소들이 추가된 EER을 사용하였다. 본 논문에서는 EER 모델에서 OWL 코드로의 변환 방법과 PROMOD의 설계 및 구현을 보인다. 또한, 필드에서 이 모델링 에디터의 유용성을 시현하기 위한 시나리오를 제공한다.

  • PDF

구 단위 패턴 기반 한영 기계 번역에서의 기능동사 구문의 중심어 선택 모델 (Selecting Model of Head in Support Verb Constructions for Phrase-Pattern-based Korean-to-English Machine Translation)

  • 김혜경;채영숙;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.203-208
    • /
    • 1999
  • 한국어는 잉여성과 중의성의 범 언어적인 특징과 함께 다른 언어에 비해 주어의 생략이 두드러지며 어순이 자유롭기 때문에 구문 형식의 지배를 덜 받는다는 개별적인 특성을 지닌다. 이러한 특성으로 인해 기계번역의 패턴을 추출할 때 서로 유사 가능성이 있는 패턴에 대한 고려가 없이는 같은 의미의 서로 다른 여러 개의 패턴을 모두 하나의 패턴으로 처리하는 오류를 범할 위험이 있다. 본 연구에서 사용되는 구 단위 패턴은 동사구, 명사구, 형용사구 그리고 부사구를 중심으로 한국어 패턴, 패턴 대표 카테고리, 한국어 패턴의 중심어 및 제약조건 대역영어패턴 의미코드로 나뉜다. 범 언어적인 특성의 한국어와 영어간 격차를 해소하기 위해 각각의 명사에 의미코드를 사용하여 다중 언어기반 체계를 구축하였으며. 한국어의 개별적인 특성으로 인해 발생하는 문제를 해소하기 위해 중심어 부과 자질을 사용하였다. 중심어 부과 자질에 있어서, 특히 술어기능명사를 중심어로 하는 기능동사 '하-' 구문은 다른 동사 구문의 형식과는 달리 논항의 수와 형태를 동사가 아닌 명사가 수행하게 된다. 이러한 특징에 대한 변별적인 자질 부여는 구문의 형태-통사적 특징 뿐만이 아니라 의미적인 고유의 특성까지도 잘 뒷받침하면서 패턴 추출에 월등한 효율성을 제시할 수 있다. 향후 이에 대한 연구는 전반적인 기능동사 구문뿐만이 아니라 개별적인 특징을 보이는 모든 구문에 대한 연구로 확대되어 패턴 기반 기계번역의 패턴 추출에 기본적인 정보의 역할을 담당해야 할 것이다.

  • PDF

영한기계번역에서 자질정보를 이용한 한국어 종속부사절의 연결어미 생성 (A Conjunctive Generation of Korean Subordinating Adverb Clause using Feature Information In English-Korean Machine Translation)

  • 이영우;안동언;정성종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.110-114
    • /
    • 1999
  • 영한기계번역에서 영문의 복합문중 종속부사절이 한국어로 생성될 때, 종속절의 주절에 대한 의미에 따라 다양한 한국어 연결어미를 생성하게 된다. 주절의 의미를 보완하는 종속절은 그 연결어미에 의해 그 역할이 결정되는 것이다. 종속부사절을 이끄는 부사어는 연결어미로 재현되는데 기존의 사전을 기반으로 하는 기계번역시스템에서 사전에 있는 부사어의 표층어만을 이용하였기 때문에 그 생성결과가 만족스럽지 않았다. 영문의 부사어중의 일부는 한국어로 생성될 때 의미적 구분에 따라 여러 가지의 연결어미로 생성이 되어야 하는데 영어 해석에서 종속절의 의미 정보를 충분히 분석하지 못하는 경우가 많다. 본 연구에서는 종속부사절을 이끄는 영어의 부사어와 각 부사어가 생성될 때 필요한 한국어 연결어미를 정리하였다. 또한, 형태소와 구문 자질정보를 이용하여 여러 연결어미를 갖는 부사어의 경우에 하나의 연결어미를 선택한다.

  • PDF

두단계 대역어선택 방식을 이용한 구단위 패턴기반 한영 기계번역 시스템 (Phrase-Pattern-based Korean-to-English Machine Translation System using Two Level Word Selection)

  • 김정재;박준식;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.209-214
    • /
    • 1999
  • 패턴기반기계번역방식은 원시언어패턴과 그에 대한 대역언어패턴들의 쌍을 이용하여 구문분석과 변환을 수행하는 기계번역방식이다. 패턴기반 기계번역방식은 번역할 때 발생하는 애매성을 해소하기 위해 패턴의 길이를 문장단위까지 늘이기 때문에, 패턴의 수가 급증하는 문제점을 가진다. 본 논문에서는 패턴의 단위를 구단위로 한정시킬 때 발생하는 애매성을 해소하는 방법으로 시소러스를 기반으로 한 두단계 대역어 선택 방식을 제안함으로써 효과적으로 애매성을 감소시키면서 패턴의 길이를 줄이는 모델을 제시한다. 두단계 대역어 선택 방식은 원시언어의 한 패턴에 대해 여러 가능한 목적언어의 대역패턴들이 있을 때, 첫 번째 단계에서는 원시언어 내에서의 제약조건에 맞는 몇가지 대역패턴들을 선택하고, 두번째 단계에서는 목적언어 내에서의 제약조건에 가장 적합한 하나의 대역패턴을 선택하는 방식이다. 또한 본 논문에서는 이와 같은 모델에서 패턴의 수가 코퍼스의 증가에 따른 수렴가능성을 논한다.

  • PDF

문장구조 유사도와 단어 유사도를 이용한 클러스터링 기반의 통계기계번역 (Integrated Clustering Method based on Syntactic Structure and Word Similarity for Statistical Machine Translation)

  • 김한경;나휘동;이금희;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.44-49
    • /
    • 2009
  • 통계기계번역에서 도메인에 특화된 번역을 시도하여 성능향상을 얻는 방법이 있다. 이를 위하여 문장의 유형이나 장르에 따라 클러스터링을 수행한다. 그러나 기존의 연구 중 문장의 유형 정보와 장르에 따른 정보를 동시에 사용한 경우는 없었다. 본 논문에서는 문장 사이의 문법적 구조 유사성으로 문장을 유형별로 분류하는 새로운 기법을 제시하였고, 단어 유사도 정보로 문서의 장르를 구분하여 기존의 두 기법을 통합하였다. 이렇게 분류된 말뭉치에서 추출한 모델과 전체 말뭉치에서 추출된 모델에서 보간법(interpolation)을 사용하여 통계기계번역의 성능을 향상하였다. 문장구조의 유사성과 단어 유사도 계산을 위하여 각각 커널과 코사인 유사도를 적용하였으며, 두 유사도를 적용하여 말뭉치를 분류하는 과정은 K-Means 알고리즘과 유사한 기계학습 기법을 사용하였다. 이를 일본어-영어의 특허문서에서 실험한 결과 최선의 경우 약 2.5%의 상대적인 성능 향상을 얻었다.

  • PDF