• 제목/요약/키워드: 다국어 문서

검색결과 25건 처리시간 0.028초

웹용 다국어 기계번역을 위한 전처리기 (A Preprocessing System for Multi-Lingual Machine Translation of Web Pages)

  • 이영우;안동원;서진원;정성종
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.204-206
    • /
    • 1998
  • 여러 언어들로 작성된 웹문서들을 다국어 기계번역기에서 번역하기 위해서는 우선 해당 웹문서가 어떠한 언어로 작성되었는지를 알아내야 한다. 코드 분석을 통하여 웹문서를 작성한 언어를 알게되면 해당 언어를 번역하는 기계번역기를 작동시킬 수 있다. 또한, 웹문서에서 기계번역의 대상은 HTML 태그를 제외한 일반 문장이다. 따라서, 웹용 기계번역의 전처리기에서 웹문서에서 HTML 태그를 분리하여야 하며 번역이 완료된 후 번역된 문서에 HTML 태그를 복원하여 웹브라우저에서 번역된 문서를 볼 수 있어야 한다. 본 논문에서는 웹용 다국어 기계번역을 위한 전처리기의 태그관리기와 코드인식기를 설명한다.

  • PDF

사건 어휘의 특성을 반영한 다국어 사건 연결 탐색 (Multilingual Story Link Detection based on Properties of Event Terms)

  • 이경순
    • 정보처리학회논문지B
    • /
    • 제12B권1호
    • /
    • pp.81-90
    • /
    • 2005
  • 본 논문에서는 다국어 뉴스에 대해서 '시간' 요소와 '언어 공간' 요소를 사건 어휘의 가중치 계산에 반영하는 다국어 사건 연결 탐색하는 방법을 제안한다. 시간의 흐름과 다국어 공간상에서 어휘의 분포 특성을 어휘의 가중치로 반영하여 사건 중심 어휘에 변별력을 줌으로써 같은 사건을 다루는 문서를 탐색하도록 한다. 시간상에서 어휘가중치는 전체 시간의 모든 문서집합에서의 어휘 분포와 특정 시간의 문서집합에서의 어휘 분포를 비교함으로써 계산하고, 그 특정 시간의 어휘의 가중치로 표현한다. 두 개의 언어는 하나의 언어에서보다 더 많은 정보를 줄 수 있기 때문에, 각 언어공간에서 어휘의 중요도를 측정하고, 다국어 처리에서 다른 언어 공간에서의 정보를 참조함으로써 언어 공간에서의 참조 역할을 하도록 한다. 본 논문의 실험에서는 같은 기간의 한국어와 일본어 신문기사에 대해서 사건 연결 탐색 성능을 평가하였다. 일반적인 가중치 기법인 tfidf 가중치 기법과의 비교 평가에서, 제안 방법이 단일언어 문서쌍에 대한 사건 연결 탐색은 $14.3{\%}$, 다국어 문서쌍에 대한 사건 연결 탐색에서는 $16.7{\%}$의 성능 향상을 보였다. 제안한 가중치 요소에 대한 유효성을 검증하기 위해, 공간 밀집도를 측정하였는데, 같은 사건을 나타내는 문서들의 그룹에서는 높은 밀집도를 나타냈고, 서로 다른 사건을 나타내는 문서들의 그룹에서는 낮은 밀집도를 나타냈다. 이 결과를 통해서 시간과 공간 요소를 반영한 사건 어휘 가중치 방법이 단일언어 사건 연결 탐색뿐만 아니라 다국어 사건 연결 탐색에 효과적이라고 볼 수 있다.

다국어 학습을 위한 XML기반 학습시스템의 설계 (Developing XML based multilingual language education system)

  • 정휘웅;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.407-412
    • /
    • 1999
  • XML은 언어정보의 재사용성 및 다른 유형의 정보로 변환이 용이하여 최근 그 사용이 급증하고 있다. 그러나 XML은 아직까지 일부 분야에 국한되어 이용되고 있으며, 국내에서도 XML을 실제 활용하여 개발되고 있는 시스템은 극히 미약하다. 본 연구에서는 XML의 이점을 살려 한글을 포함한 다국어간 언어학습 컨텐트를 쉽게 구성하고 가공할 수 있는 XML 문서 내의 다국어 표현 방법에 대해 연구하였다. 또한 다국어 정보를 웹 환경에서 구현하기 위한 XSL과 유사한 문서 변환 구조 및 이를 처리할 수 있는 XML 처리기의 구조에 대해서도 소개한다. 본 연구에서 소개하는 문서 변환 구조를 이용할 경우 문자로 표현 가능한 매체를 매개로 하여 다양한 멀티미디어 컨텐트를 쉽게 작성할 수 있다.

  • PDF

다국어 자동번역 기술 (Multilingual Machine Translation Technology)

  • 최승권;홍문표;박상규
    • 전자통신동향분석
    • /
    • 제20권5호통권95호
    • /
    • pp.16-27
    • /
    • 2005
  • W-CDMA 기술의 획기적인 발전과 보급은 향후 소규모 단말기를 통한 다국어 자동 통/번역에 대한 수요를 대폭 증가시킬 것으로 예상된다. 특히 북경올림픽을 기점으로 이와 같은 기술에 대한 수요는 매우 늘어날 것으로 예측되고 있다. 이에 대비하여 각국에서는 다국어 자동통역의 근간이 되는 다국어 자동번역 기술을 국가주도 하에 경쟁적으로 진행하고 있다. 독립 응용시스템에 적용되던 다국어 자동번역 기술은 인터넷의 발전 등과 더불어 이제는 문서에 관한 통합 프로세스를 담고 있는 응용시스템의 일부로서 적용되고 있는 추세이다. 본 논문에서는 다국어 자동번역 기술의 역사와 현황, 국내외 연구진들의 연구방향 등을 소개하고 향후 다국어 자동번역 기술 개발의 방향을 점검해보고자 한다.

콘텐츠 세계화 관리 시스템 (GMS:Globalization Management System)

  • 이영미;이경일
    • 정보처리학회지
    • /
    • 제11권2호
    • /
    • pp.57-63
    • /
    • 2004
  • GMS(Globalization Management System)는 기업의 문서, 데이터베이스, 기업용 프로그램, 웹 사이트, 매뉴얼 등에 있는 다국어 정보를 관리하는 기업용 프로그램이다. GMS는 기업 정보의 다국어, 다지역, 다문화별 관리를 가능하게 한다. 따라서 기본적으로 전세계에서 동시에 발생하는 수백개의 지역화(localization. LION) 프로젝트를 관리할 수 있어야 하며, 더 나아가 세계화(Globalization, G11N) 관리 기능을 제공해야 한다. 세계화 프로세스라는 면에서 볼 때. 소프트웨어 프로그램의 세계화 프로세스와 웹사이트의 세계화 프로세스는 성격이 달라서 접근 방법이나 요구되는 기술이 다르기에 본 논문에서는 웹사이트 세계화(이하, WG)중심의 GMS 이해를 목표로 내용을 전개하고자 한다.(중략)

  • PDF

다국어를 지원하는 XML 문서 검색 시스템: HyREX (HyREX: Universal XML Retrieval Engine for XML)

  • 한예지;채종대;김수희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1713-1716
    • /
    • 2002
  • HyREX는 연구용 프로토타입 XML 하이퍼미디어 문서 검색시스템으로 다국어를 지원하고 있다. HyREX는 검색을 위한 효율적인 접근 경로들을 처리하는 물리적 계층 HyPath와 질의어를 처리하는 논리적 계층 XIRQL 그리고 사용자 인터페이스인 HyGate 계층으로 이루어져 있다. 이 연구에서는 영어와 독일어 등의 검색을 지원하는 기존의 HyREX 시스템을 한글 XML 문서 검색시스템으로 확장하기 위해 먼저 한글 데이터타입을 위한 클래스를 구현하였다. 앞으로 한글 XML 문서 검색에서 정확율과 재현율을 향상하기 위해 각 문서의 인덱스에 대해 $tf{\cdot}idf$ 공식을 이용하여 가중치를 부여하고 이를 개발하고자 한다.

  • PDF

교차언어 문서검색에서 다국어 온톨로지에 기반한 한영 질의어 변환 (Korean-to-English Query Translation based on Multilingual Ontology in Cross-Language Text Retrieval)

  • 천정훈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.43-49
    • /
    • 1999
  • 본 논문에서는 교차언어 문서검색(CLTR: Cross-Language Text Retrieval)에서의 한-영 질의어 변환을 다룬다. 질의어 변환시 영어 대역어 획득과정에서는 다음 두 가지를 고려한다. 첫째, 한국어 질의어를 구성하는 단어가 한가지 개념을 기호화하지만 이에 대응되는 영어 대역어들이 하나 이상인 경우이다. 둘째, 질의어 구성 단어가 둘 이상의 개념들을 기호화하는 다의성을 지닌 경우이다. 전자의 경우는 영어 대역어들이 모두 동일한 개념, 또는 유사한 개념을 나타내므로 그대로 검색에 이용한다 해도 검색 성능을 크게 좌우하지 않지만, 후자의 경우는 모든 개념을 다 검색에 이용하게 되면 정확률(precision)이 크게 떨어지게 된다. 이에 본 연구에서는 개념 선택단계와 선택된 개념의 영어 대역어들에 가중치를 주는 가중치 부가단계로 나누어 질의어 변환을 수행한다. 본 논문의 질의어 변환에서 영어 대역어는 대역사전 대신 다국어 온톨로지인 KAIST 분류어휘표와 한영 음차복원 모듈을 통해 얻어진다.

  • PDF

Cadieux 모델에 기반한 Web Globalization 시스템 구현 (Implementation of Web Globalization System Based on Cadieux Model)

  • 이영미;서형국;이경일
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.252-258
    • /
    • 2003
  • Web Globalization(이하 WG)은 global e-biz의 핵심으로 인터넷에 남은 가장 큰 사업이라고 할 수 있다. WG은 국제 시장 대응을 위해 다국어 웹사이트를 구축 및 관리하는 일이며 업무의 복잡성으로 인해 다국어 프로세스 자동화와 관리 도구가 절실히 요구되는 분야이다. 이에 WG의 시장 및 기술 동향을 살펴보고, Cadieux 모델에 기반한 모비코앤시스메타(이하 MnS)의 새로운 WG 시스템을 설명하고자 한다. 본 연구에서는 e-biz 세계화의 가장 큰 특징인 빈번한 트랜잭션과 콘텐츠 번역 프로세스를 자동화함으로 높은 비용 효과 달성을 기본목표로 하였으며, 다국어 글로벌 커뮤니티 지원 기능과 복잡한 문서 및 동영상과 같은 멀티미디어 콘텐츠의 세계화가 가능하도록 설계되었다. 마지막으로 프로토타입인 iGLOBIZ 시스템을 실제 구현해 봄으로 기술 및 상업화 가능성을 확인하고 향후의 연구 방향을 모색해 보았다.

  • PDF

다중 언어로 작성된 문서 파일에 적용된 문자 인코딩 자동 인식 기법 (A Method for Automatic Detection of Character Encoding of Multi Language Document File)

  • 서민지;김명호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권4호
    • /
    • pp.170-177
    • /
    • 2016
  • 문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 각 언어별 자주 사용하는 단어를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 자주 사용하는 단어를 이용한 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 다국어 문서에서 기존의 방법보다 높은 문자 인코딩 인식률을 보인다. 주로 표현하는 언어의 비중이 20% 미만일 경우, 기존의 방법은 약 50%의 문자 인코딩 인식률을 보였으나, 제안하는 방법은 문자 인코딩에서 표현하는 언어의 비중과는 상관없이 96% 이상의 문자 인코딩 인식률을 보였다.

국어정보 질의응답을 위한 키워드 추출 (Keyword Extraction for Korean Language Q&A)

  • 전석종;이수인;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-215
    • /
    • 2015
  • 국립국어원 온라인가나다에서 제공되는 질의응답 문서를 이용한 국어정보에 대한 Q&A시스템은 언어 자체에 대한 질문과 답변의 특성으로 조사나 어미로 끝나는 표현이 주어로 등장하는 등의 특이한 문장이 자주 나타난다. 이러한 이유로 형태소 분석을 거쳐 명사를 키워드로 추출하는 일반적인 키워드 추출 방식은 좋은 성능을 얻기 어렵다. 본 논문에서는 국어정보 질의응답 문서의 특징에 맞는 키워드 추출 방법을 제안한다. 제안하는 방식에서는 문장 단위로 분할된 결과에서 연결어미로 문장을 추가로 분할한 뒤에 조사 앞에 나타나는 단어열을 키워드로 추출한다. 덧붙여 다자비교형 질의에서의 키워드 추출을 위해 편집거리를 이용한 키워드 추출 방법을 제안한다.

  • PDF