• 제목/요약/키워드: Translation-Based Language Model

검색결과 51건 처리시간 0.025초

European Integration Processes for the Development of Future Foreign Language Specialists in the Information Society

  • Lazarenko, Natalia;Zadorozhna, Olga;Prybora, Tetiana;Shevchuk, Аndrii;Sulym, Volodymyr;Rudnytska, Nataliya
    • International Journal of Computer Science & Network Security
    • /
    • 제21권12spc호
    • /
    • pp.427-436
    • /
    • 2021
  • The article reveals and theoretically substantiates the trends of foreign language teachers' professional training in universities of Ukraine in terms of European integration, which are systematized in three areas: macro-level (system of education), meso-level (universities) and micro-level (subjects of educational process). The article aims to substantiate the trends of foreign language teacher training in the context of European integration and the main directions of creative use of constructive ideas of European experience in the innovative development of education. The article lights up the system for improving foreign language teacher training in universities, which is based on updated goals, content and approaches to the implementation of basic concepts, principles and features of teacher training in European experience, enable us to improve the quality of teacher training, its competitiveness in the European labor market. In the article developed the conceptual model of strategic development of the university in the conditions of European integration. It is emphasized that information technologies provide great opportunities for the development of professional skills and intellectual potential of future professionals. At present, the computerization of the educational process in higher education institutions is considered as one of the first and most promising areas for improving the quality of education. The article offered directions of internationalization of educational activity of university in the conditions of European integration. Diagnostic tools for the development of the university in terms of integration into the European educational space, individual rating and ranking of structural units of the university have been developed; main directions of activity of the laboratory of the skill of the teacher of higher school and methodical recommendations on the creation and the organization of work of scientific laboratories.

Coronavirus Disease-19(COVID-19)에 특화된 인공신경망 기계번역기 (Neural Machine translation specialized for Coronavirus Disease-19(COVID-19))

  • 박찬준;김경희;박기남;임희석
    • 한국융합학회논문지
    • /
    • 제11권9호
    • /
    • pp.7-13
    • /
    • 2020
  • 최근 세계보건기구(WHO)의 Coronavirus Disease-19(COVID-19)에 대한 팬데믹 선언으로 COVID-19는 세계적인 관심사이며 많은 사망자가 속출하고 있다. 이를 극복하기 위하여 국가 간 정보 교환과 COVID-19 관련 대응 방안 등의 공유에 대한 필요성이 증대되고 있다. 하지만 언어적 경계로 인해 원활한 정보 교환 및 공유가 이루어지지 못하고 있는 실정이다. 이에 본 논문은 COVID-19 도메인에 특화 된 인공신경망 기반 기계번역(Neural Machine Translation(NMT)) 모델을 제안한다. 제안한 모델은 영어를 중심으로 프랑스어, 스페인어, 독일어, 이탈리아어, 러시아어, 중국어 지원이 가능한 Transformer 기반 양방향 모델이다. 실험결과 BLEU 점수를 기준으로 상용화 시스템과 비교하여 모든 언어 쌍에서 유의미한 높은 성능을 보였다.

관계형 데이터베이스에서 XML 뷰 기반의 질의 처리 모델 (A Query Processing Model based on the XML View in Relational Databases)

  • 정채영;최규원;김영옥;김영균;강현석;배종민
    • 정보처리학회논문지D
    • /
    • 제10D권2호
    • /
    • pp.221-232
    • /
    • 2003
  • 본 논문은 XML 기반의 데이터베이스 통합 방법론 중에서 관계형 데이터베이스 모델에 대한 랩퍼 시스템의 질의어 처리에 대하여 논한다. 관계형 데이터베이스의 내용은 W3C에서 제안된 XML Schema로 표현되며, 사용자는 XML Schema에 대하여 XML 질의어인 XQuery로써 질의를 한다. 그리고, 개발된 랩퍼 시스템은 사용자가 정의한 XML 뷰를 지원한다. XML 뷰 정의 언어는 XQuery이다. 이러한 환경에서 본 논문은 새로운 XML 질의 처리 모델을 제시한다. XML 뷰와 사용자 질의어의 합성 알고리즘, XQuery를 SQL로 변환하는 알고리즘, 그리고 XML 문서 생성을 위한 템플릿 구성 알고리즘을 제시한다.

The Use of MSVM and HMM for Sentence Alignment

  • Fattah, Mohamed Abdel
    • Journal of Information Processing Systems
    • /
    • 제8권2호
    • /
    • pp.301-314
    • /
    • 2012
  • In this paper, two new approaches to align English-Arabic sentences in bilingual parallel corpora based on the Multi-Class Support Vector Machine (MSVM) and the Hidden Markov Model (HMM) classifiers are presented. A feature vector is extracted from the text pair that is under consideration. This vector contains text features such as length, punctuation score, and cognate score values. A set of manually prepared training data was assigned to train the Multi-Class Support Vector Machine and Hidden Markov Model. Another set of data was used for testing. The results of the MSVM and HMM outperform the results of the length based approach. Moreover these new approaches are valid for any language pairs and are quite flexible since the feature vector may contain less, more, or different features, such as a lexical matching feature and Hanzi characters in Japanese-Chinese texts, than the ones used in the current research.

Spoken-to-written text conversion for enhancement of Korean-English readability and machine translation

  • HyunJung Choi;Muyeol Choi;Seonhui Kim;Yohan Lim;Minkyu Lee;Seung Yun;Donghyun Kim;Sang Hun Kim
    • ETRI Journal
    • /
    • 제46권1호
    • /
    • pp.127-136
    • /
    • 2024
  • The Korean language has written (formal) and spoken (phonetic) forms that differ in their application, which can lead to confusion, especially when dealing with numbers and embedded Western words and phrases. This fact makes it difficult to automate Korean speech recognition models due to the need for a complete transcription training dataset. Because such datasets are frequently constructed using broadcast audio and their accompanying transcriptions, they do not follow a discrete rule-based matching pattern. Furthermore, these mismatches are exacerbated over time due to changing tacit policies. To mitigate this problem, we introduce a data-driven Korean spoken-to-written transcription conversion technique that enhances the automatic conversion of numbers and Western phrases to improve automatic translation model performance.

A Study on the Performance Analysis of Entity Name Recognition Techniques Using Korean Patent Literature

  • Gim, Jangwon
    • 한국정보기술학회 영문논문지
    • /
    • 제10권2호
    • /
    • pp.139-151
    • /
    • 2020
  • Entity name recognition is a part of information extraction that extracts entity names from documents and classifies the types of extracted entity names. Entity name recognition technologies are widely used in natural language processing, such as information retrieval, machine translation, and query response systems. Various deep learning-based models exist to improve entity name recognition performance, but studies that compared and analyzed these models on Korean data are insufficient. In this paper, we compare and analyze the performance of CRF, LSTM-CRF, BiLSTM-CRF, and BERT, which are actively used to identify entity names using Korean data. Also, we compare and evaluate whether embedding models, which are variously used in recent natural language processing tasks, can affect the entity name recognition model's performance improvement. As a result of experiments on patent data and Korean corpus, it was confirmed that the BiLSTM-CRF using FastText method showed the highest performance.

SDL-92에서 객체지향 언어의 코드 생성을 위한 개념 변환 (Conceptual Transformation for Code Generation from SDL-92 to Object-oriented Languages)

  • 이시영;이동길;이준경;김승호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권5호
    • /
    • pp.473-487
    • /
    • 2000
  • 시스템의 명세 및 기술 언어인 SDL-92는 객체지향 개념의 도입에서 기존의 시스템 명세 및 설계 문서들과 사용자들을 포용하기 위해 프로세스와 시그널에 기반한 통신 방법을 고수하였다. 이러한 객체지향 개념의 도입은 메소드와 객체 기반의 객체지향 언어 프로그램의 자동 생성에 있어 대응 개념의 부재라는 문제점뿐만 아니라 이에 따르는 가시성 및 통신 방법과 같은 부수적인 문제점들까지 유발하고 있다. 따라서 본 논문에서는 메소드와 객체에 기반한 일반적인 객체지향 언어 모델을 제시한 후, SDL-92에서 제시된 모델로의 변환에서 발생하는 문제점들을 고찰하고 이를 해결할 수 있는 개념 변환 방법들을 제시한다. 제시된 변환 방법은 목적 언어의 구문으로의 사상 방법을 제공함으로써 객체들에 내장된 병렬성을 활용할 수 있고 변환된 프로그램에 대해 컴파일러 수준의 이식성을 보장할 수 있다.

  • PDF

유비쿼터스 메타서비스 온톨로지 자동 생성을 위한 번역기 개발 (Development of a Translator for Automatic Generation of Ubiquitous Metaservice Ontology)

  • 이미연;이정원;박승수;조위덕
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권1호
    • /
    • pp.191-203
    • /
    • 2009
  • 유비쿼터스 컴퓨팅 환경에서 실시간의 상황을 고려한 동적인 서비스를 제공하기 위하여 이전 연구를 통해 메타서비스 개념과 기술 규격, 메타서비스 라이브러리 구축 방법을 제안한 바 있다. 하지만, 제안한 프로세스는 각 단계에서 UML, OWL, OWL-S 기반의 분리된 모델을 생성하게 되고 모델간의 변환을 위한 일정한 체계를 제공하지 못하고 있다. 게다가, 다양한 온톨로지 언어와 온톨로지 편집 도구들, 제안한 메타서비스 규격에 대한 전문가의 개입을 전제로 한다. 본 연구에서는, 비전문가도 일관된 모델을 생성하고 메타서비스 라이브러리를 구축할 수 있도록 OWL 형식의 도메인 온톨로지에서 OWL-S 형식의 메타서비스 라이브러리로의 자동 변환 프로세스를 설계하고 이를 지원할 수 있는 시각 도구를 개발한다. 메타서비스 라이브러리 변환 프로세스는 일관성을 유지하면서 기존의 OWL 모델과 메타서비스모델을 조합하여 메타서비스 라이브러리에 대한 OWL-S 코드를 자동으로 생성하는 것을 목표로 한다.

Deep-Learning Approach for Text Detection Using Fully Convolutional Networks

  • Tung, Trieu Son;Lee, Gueesang
    • International Journal of Contents
    • /
    • 제14권1호
    • /
    • pp.1-6
    • /
    • 2018
  • Text, as one of the most influential inventions of humanity, has played an important role in human life since ancient times. The rich and precise information embodied in text is very useful in a wide range of vision-based applications such as the text data extracted from images that can provide information for automatic annotation, indexing, language translation, and the assistance systems for impaired persons. Therefore, natural-scene text detection with active research topics regarding computer vision and document analysis is very important. Previous methods have poor performances due to numerous false-positive and true-negative regions. In this paper, a fully-convolutional-network (FCN)-based method that uses supervised architecture is used to localize textual regions. The model was trained directly using images wherein pixel values were used as inputs and binary ground truth was used as label. The method was evaluated using ICDAR-2013 dataset and proved to be comparable to other feature-based methods. It could expedite research on text detection using deep-learning based approach in the future.

언어 정보가 반영된 문장 점수를 활용하는 삭제 기반 문장 압축 (Deletion-Based Sentence Compression Using Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.125-132
    • /
    • 2022
  • 문장 압축은 원본 문장의 중요한 의미는 유지하면서 길이가 축소된 압축 문장을 생성하는 자연어처리 태스크이다. 문법적으로 적절한 문장 압축을 위해, 초기 연구들은 사람이 정의한 언어 규칙을 활용하였다. 또한 시퀀스-투-시퀀스 모델이 기계 번역과 같은 다양한 자연어처리 태스크에서 좋은 성능을 보이면서, 이를 문장 압축에 활용하고자 하는 연구들도 존재했다. 하지만 언어 규칙을 활용하는 연구의 경우 모든 언어 규칙을 정의하는 데에 큰 비용이 들고, 시퀀스-투-시퀀스 모델 기반 연구의 경우 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 이를 해결할 수 있는 방법으로 사전 학습된 언어 모델인 BERT를 활용하는 문장 압축 모델인 Deleter가 제안되었다. Deleter는 BERT를 통해 계산된 perplexity를 활용하여 문장을 압축하기 때문에 문장 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않다는 장점이 있다. 하지만 Deleter는 perplexity만을 고려하여 문장을 압축하기 때문에, 문장에 속한 단어들의 언어 정보를 반영하여 문장을 압축하지 못한다. 또한, perplexity 측정을 위한 BERT의 사전 학습에 사용된 데이터가 압축 문장과 거리가 있어, 이를 통해 측정된 perplexity가 잘못된 문장 압축을 유도할 수 있다는 문제점이 있다. 이를 해결하기 위해 본 논문은 언어 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 계산에 반영하는 방법을 제안한다. 또한 고유명사가 자주 포함되어 있으며, 불필요한 수식어가 생략되는 경우가 많은 뉴스 기사 말뭉치로 BERT를 fine-tuning하여 문장 압축에 적절한 perplexity를 측정할 수 있도록 하였다. 영어 및 한국어 데이터에 대한 성능 평가를 위해 본 논문에서 제안하는 LI-Deleter와 비교 모델의 문장 압축 성능을 비교 실험을 진행하였고, 높은 문장 압축 성능을 보임을 확인하였다.