Search | Korea Science

Study on the development of automatic translation service system for Korean astronomical classics by artificial intelligence - Focused on system analysis and design step (천문 고문헌 특화 인공지능 자동번역 서비스 시스템 개발 연구 - 시스템 요구사항 분석 및 설계 위주)

Seo, Yoon Kyung;Kim, Sang Hyuk;Ahn, Young Sook;Choi, Go-Eun;Choi, Young Sil;Baik, Hangi;Sun, Bo Min;Kim, Hyun Jin;Lee, Sahng Woon
- The Bulletin of The Korean Astronomical Society
- /
- v.44 no.2
- /
- pp.62.2-62.2
- /
- 2019
한국의 고천문 자료는 삼국시대 이후 근대 조선까지 다수가 존재하여 세계적으로 드문 기록 문화를 보유하고 있으나, 한문 번역이 많이 이루어지지 않아 학술적 활용이 활발하지 못한 상태이다. 고문헌의 한문 문장 번역은 전문인력의 수작업에 의존하는 만큼 소요 시간이 길기에 투자대비 효율성이 떨어지는 편이다. 이에 최근 여러 분야에서 응용되는 인공지능의 적용을 대안으로 삼을 수 있으며, 초벌 번역 수준일지라도 자동번역기의 개발은 유용한 학술도구가 될 수 있다. 한국천문연구원은 한국정보화진흥원이 주관하는 2019년도 Information and Communication Technology 기반 공공서비스 촉진사업에 한국고전번역원과 공동 참여하여 인공신경망 기계학습이 적용된 고문헌 자동번역모델을 개발하고자 한다. 이 연구는 고천문 도메인에 특화된 인공지능 기계학습 기법으로 자동번역모델을 개발하여 이를 서비스하는 것을 목적으로 한다. 연구 방법은 크게 4가지 개발을 진행하는 것으로 나누어 볼 수 있다. 첫째, 인공지능의 학습 데이터에 해당되는 '코퍼스'를 구축하는 것이다. 이는 고문헌의 한자 원문과 한글 번역문이 쌍을 이루도록 만들어 줌으로써 학습에 최적화한 데이터를 최소 6만 개 이상 추출하는 것이다. 둘째, 추출된 학습 데이터 코퍼스를 다양한 인공지능 기계학습 기법에 적용하여 천문 분야 특수고전 도메인에 특화된 자동번역 모델을 생성하는 것이다. 셋째, 클라우드 기반에서 참여 기관별로 소장한 고문헌을 자동 번역 모델에 기반하여 도메인 특화된 모델로 도출 및 활용할 수 있는 대기관 서비스 플랫폼 구축이다. 넷째, 개발된 자동 번역기의 대국민 개방을 위해 웹과 모바일 메신저를 통해 자동 번역 서비스를 클라우드 기반으로 구축하는 것이다. 이 연구는 시스템 요구사항 분석과 정의를 바탕으로 설계가 진행 또는 일부 완료되어 구현 중에 있다. 추후 이 연구의 성능 평가는 자동번역모델 평가와 응용시스템 시험으로 나누어 진행된다. 자동번역모델은 평가용 테스트셋에 의한 자동 평가와 전문가에 의한 휴먼 평가에 따라 모델의 품질을 수치로 측정할 수 있다. 또한 응용시스템 시험은 소프트웨어 방법론의 개발 단계별 테스트를 적용한다. 이 연구를 통해 고천문 분야가 인공지능 자동번역 확산 플랫폼 시범의 첫 케이스라는 점에서 의의가 있다. 즉, 클라우드 기반으로 시스템을 구축함으로써 상대적으로 적은 초기 비용을 투자하여 활용성이 높은 한문 문장 자동 번역기라는 연구 인프라를 확보하는 첫 적용 학문 분야이다. 향후 이를 활용한 고천문 분야 학술 활동이 더욱 활발해질 것을 기대해 볼 수 있다.
PDF

Design of Translator for generating Java Bytecode in Distributed environment from Thread code of Multithreaded Models (다중스레드 모델의 스레드 코드를 분산환경에서 실행 가능한 자바 바이트 코드로 변환하기 위한 번역기 설계)

김기태;조선문;고훈준;이갑래;유원희
- Proceedings of the Korean Information Science Society Conference
- /
- 2001.04a
- /
- pp.49-51
- /
- 2001
다중스레드 모델은 데이터플로우 모델의 내부적인 병렬성, 비동기적 자료 가용성과 폰 노이만 모델의 실행 지역성을 결합하여 병렬처리 시스템의 성능을 향상시켰다. 이 모델은 프로그램의 실행을 위하여 컴파일러에 의해 생성된 스레드를 수행하며, 스레드의 생성 방법에 따라 자원 활용 빈도나 동기화 빈도와 같은 스레드의 질이 결정되는 특징이 있다. 하지만 다중스레드 모델은 실행 모델이 특정 플랫폼에 제한되는 단점을 가지고 있다. 이에 반해 자바는 플랫폼에 독립거인 특징을 가지고 있어 다중스레드 모델의 스레드 코드를 실행 단위인 자바 언어로 변환하여 다중스레드 모델의 특징을 여러 플랫폼에서 수정 없이 사용할 수 있게 된다. 자바는 분산된 환경에 적합한 언어이기 때문에 본 논문에서 제안한 번역기에 의해 다중스레드 모델의 스레드 코드를 자바 언어로 변환한 후 자바의 원격 매소드 호출을 이용하여 다중스레드 모델의 스레드 코드를 분산된 환경에서 처리하였다. 본 논문은 다중스레드 코드가 로컬 컴퓨터에서 여러 스레드를 생성하여 처리하던 것을 자바의 원격 메소드 호출을 이용하여 분산된 환경에서 실행 가능하도록 한다. 다중스레드 모델의 스레드 코드를 분산 환경에서 실행 가능한 자바 바이트 코드로 변환하는 번역기를 설계, 구현한다.

The Enhanced Thread Partitioning of Conditional Expressions of Non-Strict Programs (Non-Strict 프로그램 조건식의 향상된 스레드 분할)

Jo, Sun-Moon;Yang, Chang-Mo;Yoo, Weon-Hee
- Proceedings of the Korea Information Processing Society Conference
- /
- 2000.04a
- /
- pp.277-280
- /
- 2000
다중스레드 병렬기계(multithreaded parallel machine)를 위하여 함수 프로그램을 번역할 때 스레드 분할이란 수행 순서를 번역시간에 알 수 있어 정적 스케줄링이 가능한 프로그램의 부분을 식별하여 스레드로 모으는 작업을 말한다. 조건식에서 연산의 수행 순서는 판단식 -> 참실행식 또는 판단식 -> 거짓실행식이므로 번역시간에는 수행순서를 결정할 수 없다. 따라서 기존의 분할 알고리즘은 조건식의 판단식, 참실행식, 거짓실행식을 기본 블록으로 나누고 각각에 대하여 지역 분할을 적용한다. 이러한 제약은 스레드의 정의를 약간 수정하여 스레드 내에서의 분기를 허용한다면 좀더 좋은 분할을 얻을 수 있다. 스레드내에서의 분기는 병렬성을 감소시키거나 동기화의 횟수를 증가시키거나 또는 교착상태를 발생시키는 등의 스레드 분할의 기본 원칙을 어기지 않으며 오히려 스레드 길이를 증가시키거나 동기화 횟수를 줄이는 장점을 가질 수 있다. 본 논문에서는 조건식의 세 가지 기본 블록을 하나 또는 두 개의 기본 블록으로 병합함으로서 스레드 분할을 향상시키는 방법을 제안한다.
PDF

Target Word Selection for English-Korean Machine Translation System using Multiple Knowledge (다양한 지식을 사용한 영한 기계번역에서의 대역어 선택)

Lee, Ki-Young;Kim, Han-Woo
- Journal of the Korea Society of Computer and Information
- /
- v.11 no.5 s.43
- /
- pp.75-86
- /
- 2006
Target word selection is one of the most important and difficult tasks in English-Korean Machine Translation. It effects on the translation accuracy of machine translation systems. In this paper, we present a new approach to select Korean target word for an English noun with translation ambiguities using multiple knowledge such as verb frame patterns, sense vectors based on collocations, statistical Korean local context information and co-occurring POS information. Verb frame patterns constructed with dictionary and corpus play an important role in resolving the sparseness problem of collocation data. Sense vectors are a set of collocation data when an English word having target selection ambiguities is to be translated to specific Korean target word. Statistical Korean local context Information is an N-gram information generated using Korean corpus. The co-occurring POS information is a statistically significant POS clue which appears with ambiguous word. The experiment showed promising results for diverse sentences from web documents.
PDF

English-Korean Transfer Dictionary Extension Tool in English-Korean Machine Translation System (영한 기계번역 시스템의 영한 변환사전 확장 도구)

Kim, Sung-Dong
- KIPS Transactions on Software and Data Engineering
- /
- v.2 no.1
- /
- pp.35-42
- /
- 2013
Developing English-Korean machine translation system requires the construction of information about the languages, and the amount of information in English-Korean transfer dictionary is especially critical to the translation quality. Newly created words are out-of-vocabulary words and they appear as they are in the translated sentence, which decreases the translation quality. Also, compound nouns make lexical and syntactic analysis complex and it is difficult to accurately translate compound nouns due to the lack of information in the transfer dictionary. In order to improve the translation quality of English-Korean machine translation, we must continuously expand the information of the English-Korean transfer dictionary by collecting the out-of-vocabulary words and the compound nouns frequently used. This paper proposes a method for expanding of the transfer dictionary, which consists of constructing corpus from internet newspapers, extracting the words which are not in the existing dictionary and the frequently used compound nouns, attaching meaning to the extracted words, and integrating with the transfer dictionary. We also develop the tool supporting the expansion of the transfer dictionary. The expansion of the dictionary information is critical to improving the machine translation system but requires much human efforts. The developed tool can be useful for continuously expanding the transfer dictionary, and so it is expected to contribute to enhancing the translation quality.
https://doi.org/10.3745/KTSDE.2013.2.1.035 인용 PDF KSCI

해방 후의 일본번역극에 대한 고찰: 1980년대까지를 중심으로

Lee, Hong-Lee
- (The) Research of the performance art and culture
- /
- no.25
- /
- pp.183-210
- /
- 2012
이 조사는 해방 이후부터 1980년대까지 한국에서 공연된 일본번역극을 대상으로 하고 있다. 지금까지 서구연극의 번역에 대한 연구는 많았지만, 일본연극은 2000년대 이후에서야 거론되기 시작했다. 그 가장 큰 이유는 일제강점기 이후 정책적으로 일본문화를 차단시켜 일본연극을 접할 기회가 적었기 때문이다. 해방 후 최초로 원작명과 원작자의 이름이 밝혀진 상태로 번역 공연된 일본작품은 <고독한 영웅>(1969)이다. 이후 1982년에 이노우에 히사시 작의 <어미-화장->이 오태석의 연출로 무대에 올랐고, 85년에는 아베 고보의 <친구들>, 쓰카 고헤이의 <뜨거운 바다> 등이 소개되었다. 이 세 작품은 모두 재연이 되었는데, 특히 쓰카 고헤이의 작품은 본인의 연출에 의한 재연뿐 아니라, 한국연출가들에 의해 재해석되어 최근까지 재연이 이루어진 사례로, 가장 큰 영향력을 보였다고 할 수 있다. 일본문화개방 이전에 번안 각색된 일본연극이 많이 소개되었다고 하더라도, 일본연극의 '번역'으로, 그들의 다른 문화와 다른 연극 만들기 방식을 볼 수 있었던 것은 의의있는 체험이었다고 생각한다. 그것은 곧, 해방 전 절대적인 영향관계에 놓여있었던 한일 연극이 동등한 타자로서의 관계를 성립했음을 의미하기 때문이다. 그렇다면 서양 작품이 대부분인 번역극 중에서, 이들 작품은 한국의 제작 측과 관객으로부터 어떠한 기대를 받았을까? 번역된 작품들에서 공통점을 찾아내는 것은 어렵지만, 같은 시기 일본극단의 내한공연을 함께 살펴보면 재일교포의 이야기를 하거나 재일교포 작가의 작품이 다수 발견된다. 그러나 그 공연들이 곧 재일교포 문제에 대한 담론으로 이어지지는 않는다. 일본극단의 공연이 자막조차 제공하지 않은 채 진행된 경우가 많아 텍스트에 대한 비중이 상대적으로 낮았다는 점도 그 이유가 될 수 있겠지만, 번역극의 경우에서조차 텍스트 분석과 고찰이 제대로 이루어지지 못 했다. 그렇다면 결국 우리가 일본연극을 통해 보고자 했던 것은 무엇일까? 해방 후부터 1980년대까지, 어떤 일본작품이 우리에게 소개되었는지, 그리고 어떠한 방식으로 소개되었는지 검토하는 일은, 서구번역극과 차별되는 일본번역극을 통해 궁극적으로 당시 한국연극이 추구하던 방향을 되돌아볼 수 있는 또 하나의 방법이 될 것이라고 생각한다.

Treatment of Auxiliary verbs in analysis of Korean causative/passive sentence. (한국어 구문분석에서 사동/피동문 분석을 위한 보조용언의 처리)

Lee, Hyun-Ju;Kim, Kye-Sung;Jo, Jun-Mo;Lee, Sang-Jo
- Annual Conference on Human and Language Technology
- /
- 1996.10a
- /
- pp.497-506
- /
- 1996
한국어에서 보조용언은 본용언에 연속적으로 연결되어 나타나서 많은 문법적 기능을 담당하고 화자의 양태 관계를 나타낸다. 그 중에서 사동 보조 용언과 파동 보조 용언이 본용언에 결합되었을 때는 본용언의 하위 범주화 값이 달라지며 문장에서 각 성분들의 의미역할이 바뀌게 된다. 따라서 자연어 이해와 기계번역의 질적 향상을 위해 이들에 대한 정확한 분석이 요청된다. 본 논문에서는 한국어 구문분석에서 보조 용언 처리의 한 부분으로서 사동 보조 용언 '-게 하-'로 실현되는 사동문과 피동보조 용언 '-아/어 지-'로 실현되는 피동문의 구문분석 방법을 제안한다. 사동문에서는 오분석을 막기 위해 사동 보조 용언이 아닌 '-게 하-' 구성을 구별해 내고, 피동문에서는 '-아/어 지-'를 피동보조용언과 기동상으로 분리시킨다. 그리고 이들 보조 용언으로 실현되는 사동/피동문을 격표지 정보와 사동문 분석 규칙, 피동문 분석규칙을 이용하여 사동/피동문이 가지는 의미특성을 나타낸 구문분석 결과를 제시한다.
PDF

제18회 세계보건의 날 WHO제안문-우리의 지구,우리의 건강

KOREA ASSOCIATION OF HEALTH PROMOTION
- 건강소식
- /
- v.14 no.4 s.137
- /
- pp.20-23
- /
- 1990
WHO는 제18회 세계 보건의 날을 맞이하여 “우리의 지구, 우리의 건강-세계를 생각하고 주변에서 실천하자”라는 슬로건을 내걸고 날로 심각해져가는 지구상의 문제들-환경오염, 인구, 빈부의 격차 등-을 함께 해결하기 위해 각자가 무엇인가를 하자고 제안하고 있다. 본 글은 WHO가 몇가지 지구상의 문제들을 제시한 논단을 번역, 정리한 것이다.
PDF

제18회 세계보건의 날 WHO제안문-우리의 지구,우리의 건강

KOREA ASSOCIATION OF HEALTH PROMOTION
- 건강소식
- /
- v.14 no.5 s.138
- /
- pp.22-25
- /
- 1990
WHO는 제18회 세계 보건의 날을 맞이하여 "우리의 지구, 우리의 건강 - 세계를 생각하고 주변에서 실천하자"라는 슬로건을 내걸고 날로 심각해져가는 지구상의 문제들- 환경오염, 인구, 빈부의 격차 등-을 함께 해결하기 위해 각자가 무엇인가를 하자고 제안하고 있다. 본 글은 WHO가 몇가지 지구상의 문제들을 제시한 논단을 번역, 정리한 것이다.
PDF

Evaluation of Large Language Models' Korean-Text to SQL Capability (대형 언어 모델의 한국어 Text-to-SQL 변환 능력 평가)

Jooyoung Choi;Kyungkoo Min;Myoseop Sim;Haemin Jung;Minjun Park;Stanley Jungkyu Choi
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.171-176
- /
- 2023
최근 등장한 대규모 데이터로 사전학습된 자연어 생성 모델들은 대화 능력 및 코드 생성 태스크등에서 인상적인 성능을 보여주고 있어, 본 논문에서는 대형 언어 모델 (LLM)의 한국어 질문을 SQL 쿼리 (Text-to-SQL) 변환하는 성능을 평가하고자 한다. 먼저, 영어 Text-to-SQL 벤치마크 데이터셋을 활용하여 영어 질의문을 한국어 질의문으로 번역하여 한국어 Text-to-SQL 데이터셋으로 만들었다. 대형 생성형 모델 (GPT-3 davinci, GPT-3 turbo) 의 few-shot 세팅에서 성능 평가를 진행하며, fine-tuning 없이도 대형 언어 모델들의 경쟁력있는 한국어 Text-to-SQL 변환 성능을 확인한다. 또한, 에러 분석을 수행하여 한국어 문장을 데이터베이스 쿼리문으로 변환하는 과정에서 발생하는 다양한 문제와 프롬프트 기법을 활용한 가능한 해결책을 제시한다.
PDF

Search Result 134, Processing Time 0.023 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)