• 제목/요약/키워드: Rule-Based Translation

검색결과 33건 처리시간 0.017초

스키마 구조 데이타 매핑을 이용한 XML 구조변환 시스템 (An XML Structure Translation System using Schema Structure Data Mapping)

  • 송종철;김창수;정회경
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제10권5호
    • /
    • pp.406-418
    • /
    • 2004
  • 최근의 데이타 처리 환경은 빠르게 변화하고 있다. 특정 단체나, 기업 내에서 상호운용에 대한 고려 없이 서로 다른 목적에 의해서 개별적으로 도입되었던 여러 어플리케이션이나 시스템 등은 유연하고 빠른 처리를 위하여, 프로세스 차원에서 통합되고 연동되어야 할 필요성이 대두되고 있다. 추가 비용을 최소화하면서 통합에 대한 요구를 충족시킬 수 있는 좋은 방법 중 하나는 모든 플랫폼에서 사용 가능한 장치 비종속적인 데이타 형식이고 W3C(World Wide Web Consortium)의 문서 변환 표준인 XSLT (eXtensible Stylesheet Language Transformation)를 이용하여 필요에 따라 다른 형식의 데이타로 변환이 용이한 XML(extensible Markup Language)을 중심으로 통합하는 것이다. 이에 본 논문은 XML 문서의 구조적 정보를 정의하는 XML 스키마(Schema)를 통해 데이타를 제공하는 원본(Source)측과 데이타를 처리하고자 하는 목적(Destination)측의 구조를 나타내고, 이러한 구조정보와 데이타 매핑(Mapping)을 통해 원하는 형태의 구조관계를 정의하며, 정의된 정보를 기반으로 두 구조간의 변환 규칙을 정의한 XSLT 문서를 생성하는 XML 구조 변환 시스템을 설계하고 구현한다. 이렇게 생성된 XSLT 문서를 통해 데이타 처리를 필요로 하는 목적 측의 구조에 맞게 데이타가 재구성 되도록 변환한다. 이렇게, 특정 시스템이나 플랫폼과 관계없이 다양한 구조의 문서를 적용할 수 있게 되고 원하는 형태로의 의미 부여가 가능한 XSLT 문서를 생성하고, 이를 통한 문서간의 변환 처리를 제공하여 데이타의 상호 운용성(Interoperability) 및 확장성을 높이고 XML 문서처리 환경 구축에 기여하는데 목적을 두고 있다.

규칙에 기반한 한국어 부분 구문분석기의 구현 (Implementing Korean Partial Parser based on Rules)

  • 이공주;김재훈
    • 정보처리학회논문지B
    • /
    • 제10B권4호
    • /
    • pp.389-396
    • /
    • 2003
  • 본 논문에서는 문법검사기나 기계번역과 같은 실제 응용 시스템을 위한 한국어 부분 구문분석의 처리 대상을 정의하고, 규칙에 기반한 한국어 부분 구문분석기의 구현에 대해서 논의한다. 부분 구문분석기는 기본적으로 여러 개의 형태소나 단어가 구문적으로 하나의 구조에 속한 경우 이를 하나의 덩어리로 묶어주는 역할을 수행하며, 동시에 부가적인 작업을 수행할 수 있다. 또한 부분 구문분석기는 다양한 형태로 표현된 부분 구조를 표준 형태소 구조로 바꾸어 줌으로써, 상위 모듈의 처리에서 그 결과를 용이하게 사용할 수 있도록 한다. 본 논문에서는 한국어 부분 구문분석을 위해서 수동으로 작성된 140여 개의 규칙을 이용하였으며, 각 규칙은 일반적인 규칙과 마찬가지로 조건부와 행위부로 구성되었다. 부분 구문분석의 효율성을 관찰하기 위해서 일반적인 구문분석과 부분 구문분석을 포함한 구문분석을 비교하였다. 실험을 통해서 전자가 후자에 비해 약 두 배의 레코드 수가 요구됨을 알 수 있었다.

언어 정보가 반영된 문장 점수를 활용하는 삭제 기반 문장 압축 (Deletion-Based Sentence Compression Using Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.125-132
    • /
    • 2022
  • 문장 압축은 원본 문장의 중요한 의미는 유지하면서 길이가 축소된 압축 문장을 생성하는 자연어처리 태스크이다. 문법적으로 적절한 문장 압축을 위해, 초기 연구들은 사람이 정의한 언어 규칙을 활용하였다. 또한 시퀀스-투-시퀀스 모델이 기계 번역과 같은 다양한 자연어처리 태스크에서 좋은 성능을 보이면서, 이를 문장 압축에 활용하고자 하는 연구들도 존재했다. 하지만 언어 규칙을 활용하는 연구의 경우 모든 언어 규칙을 정의하는 데에 큰 비용이 들고, 시퀀스-투-시퀀스 모델 기반 연구의 경우 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 이를 해결할 수 있는 방법으로 사전 학습된 언어 모델인 BERT를 활용하는 문장 압축 모델인 Deleter가 제안되었다. Deleter는 BERT를 통해 계산된 perplexity를 활용하여 문장을 압축하기 때문에 문장 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않다는 장점이 있다. 하지만 Deleter는 perplexity만을 고려하여 문장을 압축하기 때문에, 문장에 속한 단어들의 언어 정보를 반영하여 문장을 압축하지 못한다. 또한, perplexity 측정을 위한 BERT의 사전 학습에 사용된 데이터가 압축 문장과 거리가 있어, 이를 통해 측정된 perplexity가 잘못된 문장 압축을 유도할 수 있다는 문제점이 있다. 이를 해결하기 위해 본 논문은 언어 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 계산에 반영하는 방법을 제안한다. 또한 고유명사가 자주 포함되어 있으며, 불필요한 수식어가 생략되는 경우가 많은 뉴스 기사 말뭉치로 BERT를 fine-tuning하여 문장 압축에 적절한 perplexity를 측정할 수 있도록 하였다. 영어 및 한국어 데이터에 대한 성능 평가를 위해 본 논문에서 제안하는 LI-Deleter와 비교 모델의 문장 압축 성능을 비교 실험을 진행하였고, 높은 문장 압축 성능을 보임을 확인하였다.