• 제목/요약/키워드: 번역기

검색결과 320건 처리시간 0.028초

천문 고문헌 특화 인공지능 자동번역 서비스 시스템 개발 연구 - 개발 결과 및 시험 운영 위주 (Study on the development of automatic translation service system for Korean astronomical classics by artificial intelligence - Focused on development results and test operation)

  • Seo, Yoon Kyung;Kim, Sang Hyuk;Ahn, Young Sook;Choi, Go-Eun;Choi, Young Sil;Baik, Hangi;Sun, Bo Min;Kim, Hyun Jin;Choi, Byung Sook;Lee, Sahng Woon;Park, Raejin
    • 천문학회보
    • /
    • 제45권1호
    • /
    • pp.56.1-56.1
    • /
    • 2020
  • 한국의 고문헌 중에는 다양한 고천문 기록들이 한문 형태로 존재하며, 이를 학술적으로 활용하기 위해서는 전문 번역가 투입에 따른 많은 비용과 시간이 요구된다. 이에 인공신경망 기계학습에 의한 인공지능 번역기를 개발하여 비록 초벌 번역 수준일지라도 문장 형태의 한문을 한글로 자동번역해 주는 학술 도구를 소개하고자 한다. 이 자동번역기는 한국천문연구원이 한국정보화진흥원이 주관하는 2019년도 Information and Communication Technology 기반 공공서비스 촉진사업에 한국고전번역원과 공동 참여하여 개발 완료한 것이다. 이 연구는 고천문 도메인에 특화된 인공지능 기계학습용 데이터인 천문 고전 코퍼스를 구축하여 이를 기반으로 천문 고전 특화 자동번역 모델을 개발하고 번역 서비스하는 것을 목적으로 한다. 이를 위해 구축되는 시스템은 크게 세 가지이다. 첫째, 로그인이 필요 없이 누구나 웹 접속을 통해 사용이 가능한 클라우드 기반의 고문헌 자동번역 대국민서비스 시스템이다. 둘째, 참여 기관별로 구축된 코퍼스와 도메인 특화된 번역 모델의 생성 및 관리할 수 있는 클라우드 기반의 대기관 서비스 플랫폼 구축이다. 셋째, 개발된 자동번역 Applied Programmable Interface를 활용한 한국천문연구원 내 자체 서비스가 가능한 AITHA 시스템이다. 연구 결과로서 먼저 구축된 천문 고전 코퍼스 60,760건에 대한 샘플링 검수 결과는 품질 순도 99.9% 이상이다. 아울러 도출된 천문 고전 특화 번역 모델 총 20개 중 대표 모델에 대한 성능 평가 결과는 기계 번역 텍스트 품질 평가 알고리즘인 Bilingual Evaluation Understudy 평가에서 40.02점이며, 전문가에 의한 휴먼 평가에서 5.0 만점 중 4.05점이다. 이는 당초 연구 목표로 삼았던 초벌 번역 수준에 충분하며, 현재 개발된 시스템들은 자체 시험 운영 중이다. 이 연구는 특수 고문헌에 해당되는 고천문 기록들의 번역 장벽을 낮춰 관련 연구자들의 학술적 접근 및 다양한 연구에 도움을 줄 수 있다는 점에서 의의가 있다. 또한 고천문 분야가 인공지능 자동번역 확산 플랫폼 시범의 첫 케이스로써 추후 타 학문 분야 참여 시 시너지 효과도 기대해 볼 수 있다. 고문헌 자동번역기는 점차 더 많은 학습 데이터와 학습량이 쌓일수록 더 좋은 학술 도구로 진화할 것이다.

  • PDF

OCR 기술을 활용한 점자 번역기 (Braille Translator Using Technology)

  • 장찬희;김덕원;장준기;조준희;박현주;김중재
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.566-569
    • /
    • 2019
  • 본 시스템은 시각 장애인들이 일반 책을 점자책처럼 읽을 수 있도록 페이지를 스캔해서 점자(점각)를 표현하는 기기이다. 카메라 모듈로 페이지를 스캔하면 프로그램은 페이지 위의 글자를 인식해 해석하고 이를 점자로 번역한다. 번역된 점자는 솔레노이드 모터를 통해 실제 시각 장애인이 읽을 수 있도록 점자를 표현한다.

OpenNMT를 활용한 한글 존댓말 변환기의 구현 (Implementation of Korean Honorific Converter Using OpenNMT)

  • 정준녕;김상영;김성태;이정재;정유철
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제63차 동계학술대회논문집 29권1호
    • /
    • pp.141-142
    • /
    • 2021
  • 최근 발전한 인공신경망 기반 기계 번역은 번역 시 더 자연스러운 번역을 제공한다. 본 논문에서는 기계번역기법을 이용하여 반말 표현을 존댓말 표현으로 변환하는 기법을 제안한다. 특히, 이를 위해 DCInside의 게시판을 크롤링하고 AI-HUB 데이터와 합쳐 약 20,000개의 자체 데이터 셋을 구축하였으며, 한글 전처리를 위한 4가지 기법 및 OpenNMT 프레임웍의 LSTM 및 Transformer 모듈을 활용하여 실험을 진행하였다. 이를 통해, 반말 표현을 높임 표현으로 변환하는 최적조합을 확인하였으며, 검증시 BLUE점수로 최대 66.53를 획득하였다.

  • PDF

영한 기계번역에서 전치사구를 해석하는 시스템 (An Analysis System of Prepositional Phrases in English-to-Korean Machine Translation)

  • 강원석
    • 한국정보처리학회논문지
    • /
    • 제3권7호
    • /
    • pp.1792-1802
    • /
    • 1996
  • 영한 기계번역에서 전치사구의 해석 부착의 문제(Attachment Problem)와 의미 해석의 문제, 그리고 해석에 필요한 정보 획득의 문제가 있다. 이 세 가지 문제를 해결하기 위하여 본 논문은 전치사구 해석 시스템을 제시한다. 이 시스템은 규칙 제어기와 신경망의 하이브리드 구문해석 시스템, 격의미 해석 시스템, 그리고 신경망 의 입력 정보를 자동으로 생성하는 의미속성 생성기로 구성한다. 의미속성 생성기는 시스템의 입력이 되는 의미속성을 자동으로 생성하는 방법으로 인위적인 방법의 단점 을보완하여 객관성 있는 전치사구 해석을 하게 한다. 격의미 해석 시스템은 영한 기계 번역에 맞는 격의미를 찾아내어 자연스런 한국어 생성을 하게 하고 구문해석 시스템은 규칙 방법의 장점과 신경망 방법의 장점을 취한 하이브리드 방식의 시스템으로 전치사 구 부착의 문제를 해결한다.

  • PDF

자바 프로그램을 위한 복합 디버깅 시스템의 설계 (Design of Hybrid Debugging System for Java Programs)

  • 고훈준
    • 한국콘텐츠학회논문지
    • /
    • 제9권1호
    • /
    • pp.81-88
    • /
    • 2009
  • 기존 연구에서는 자바 프로그램에서 논리적인 오류를 찾기 위한 기술로 HDTS를 제안했었다. HDTS는 알고리즈믹 프로그램 디버깅 기술을 이용하여 실행트리에서 오류를 포함하고 있는 메소드를 찾고, 단계적 프로그램 디버깅 기술을 이용하여 오류를 포함하고 있는 메소드에서 오류가 있는 문장을 찾아낸다. 그리고 분할 기술을 이용하여 오류를 포함하고 있는 메소드 내의 문장 중에서 디버깅에 관련이 없는 문장과 실행트리에서 불필요한 노드를 제거하여 노드의 수를 줄임으로서 사용자가 디버깅하는 횟수를 최소화할 수 있는 프로그램 디버깅 기술이다. 본 논문은 자바 프로그램을 디버깅할 수 있는 HDTS 시스템을 구현하기 위한 설계를 한다. 먼저, 자바의 부분언어를 정의하고 자바 원시 코드를 번역할 수 있는 번역기와 실행할 수 있는 가상머신을 설계한다. 그리고 사용자가 디버깅하기 위한 사용자 그래픽 인터페이스를 설계한다.

제한된 도메인을 위한 코퍼스 기반의 하이브리드 번역 시스템 (A Corpus-based Hybrid Translation System for Limited Domain)

  • 강운구;김성현;이병문;이영호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권11호
    • /
    • pp.826-836
    • /
    • 2010
  • 본 논문은 RBMT, SMT, PBMT를 활용한 직렬 연결 방식의 하이브리드 번역 시스템을 제안한다. 번역 시스템은 입력된 문장에 대하여 구문 분석을 진행한 후, 이 정보를 바탕으로 구문 변환과 개체명 인식을 한다. 이 결과값을 의사 문장으로 변형, 문장 분리 규칙이 적용 가능할 경우, 분리된 문장에 대하여 다중 디코딩을 수행하고, 후처리기에서 접합 규칙에 따라 번역문을 생성하였다. 실험을 통하여 어순 배치의 경우 distortion 모델에 의존하지 않고 구문 변환(rule-based syntactic transfer)규칙을 사용하는 것이 더욱 효과적인 것으로 나타났다.

영어 구문 분석의 효율 개선을 위한 3단계 구문 분석 (Three-Phase English Syntactic Analysis for Improving the Parsing Efficiency)

  • 김성동
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권1호
    • /
    • pp.21-28
    • /
    • 2016
  • 영어 구문 분석기는 영한 기계번역 시스템의 성능에 가장 큰 영향을 미치는 부분이다. 본 논문에서의 영어 구문 분석기는 규칙 기반 영한 기계번역 시스템의 한 부분으로서, 많은 구문 규칙을 구축하고 차트 파싱 기법으로 구문 분석을 수행한다. 구문 규칙의 수가 많기 때문에 구문 분석 과정에서 많은 구조가 생성되는데, 이로 인해 구문 분석 속도가 저하되고 많은 메모리를 필요로 하여 번역의 실용성이 떨어진다. 또한 쉼표를 포함하는 긴 문장들은 구문 분석 복잡도가 매우 높아 구문 분석 시간/공간 효율이 떨어지고 정확한 번역을 생성하기 매우 어렵다. 본 논문에서는 실제 생활에서 나타나는 긴 문장들을 효율적으로 번역하기 위해 문장 분할 방법을 적용한 3단계 구문 분석 방법을 제안한다. 구문 분석의 각 단계는 독립된 구문 규칙들을 적용하여 구문 분석을 수행함으로써 구문 분석의 복잡도를 줄이려 하였다. 이를 위해 구문 규칙을 3가지 부류로 분류하고 이를 이용한 3단계 구문 분석 알고리즘을 고안하였다. 특히 세 번째 부류의 구문 규칙은 쉼표로 구성되는 문장 구조에 대한 규칙으로 구성되는데, 이들 규칙들을 말뭉치의 분석을 통해 획득하는 방법을 제안하여 구문 분석의 적용률을 지속적으로 개선하고자 하였다. 실험을 통해 제안한 방법이 문장 분할만을 적용한 기존 2단계 구문 분석 방법에 비해 유사한 번역 품질을 유지하면서도 시간/공간 효율 면에서 우수함을 확인하였다.

다중스레드 모델의 스레드 코드를 안전한 자바 바이트코드로 변환하기 위한 번역기 설계 (Design of Translator for generating Secure Java Bytecode from Thread code of Multithreaded Models)

  • 김기태;유원희
    • 한국산업정보학회:학술대회논문집
    • /
    • 한국산업정보학회 2002년도 춘계학술대회 논문집
    • /
    • pp.148-155
    • /
    • 2002
  • 다중스레드 모델은 데이터플로우 모델의 내부적인 병렬성, 비동기적 자필 가용성과 폰 노이만 모델의 실행 지역성을 결합하여 병렬처리 시스템의 성능을 향상시켰다. 이 모델은 프로그램의 실행을 위하여 컴파일러에 의해 생성된 스레드를 수행하며, 스레드의 생성 방법에 따라 자원 활용 빈도나 동기화 빈도와 같은 스레드의 질이 결정되는 특징이 있다. 하지만 다중스레드 모델은 실행 모델이 특정 플랫폼에 제한되는 단점을 가지고 있다. 이에 반해 자바는 플랫폼에 독립적인 특징을 가지고 있어 다중스레드 모델의 스레드 코드를 실행 단위인 자바 언어로 변환하면 다중스레드 모델의 특징을 여러 플랫폼에서 수정 없이 사용할 수 있게 된다. 자바는 원시 언어를 중간 언어 형태의 바이트코드로 변환하여 각 아키텍처에 맞게 설계된 자바 가상 머신이 설치된 시스템에서 자바 언어를 수행한다. 이러한 자바 언어의 바이트코드는 번역기의 중간 언어와 같은 역할을 수행하고, 이때 자바 가상 머신은 번역기의 후위부와 같은 역할을 한다. 스레드 코드에서 번역된 자바 바이트코드는 다양한 플랫폼에서 실행될 수 있다는 장점은 있지만 신뢰할 수 없다는 만점이 있다. 또한 자바 언어 자체의 문제에 의해 안전하지 못한 코드가 생성 될 수도 있다. 본 논문은 다중스레드 코드가 플랫폼에 독립적인 특성을 갖출 수 있도록 다중스레드 코드를 자바 가상 머신에서 실행 가능하도록 한다. 또한 번역시에 자바에서 발생할 수 있는 문제들을 고려하여 안전한 바이트코드를 생성한다. 즉, 다중스레드 모델의 스레드 코드를 플랫폼에 독립적이고 외부 공격으로부터 안전한 자바 바이트코드로 변환하는 번역기를 선계, 구현한다.구센타와 병원간에 임상정보와 유전체 분석정보의 공유가 필수적으로 발생하게 됨으로, 유전체 정보와 임상정보의 통합은 미래 의료환경에 필수기능이 될 것이다. 3) 각 생명공학 연구소에서 사용하는 첨단 분석 장비와 생명공학 정보시스템의 자동 연계가 필요하다. 현재 국내에는 전국적인 초고속정보망이 가동되어 웹을 기반으로 하는 생명정보의 공유는 기술적으로 문제가 될 수 없으나 임상정보의 유전체연구에 그리고 유전체연구정보의 임상활용은 다양한 문제를 내포하고 있다. 이에 영상을 포함한 환자정보의 유전체연구센터와 병원정보시스템과의 효율적인 연계통합 운영을 위해 국내에서는 초기 도입단계에 있는 국제적인 보건의료정보의 표준인 Health Level 7 (textural information 공유), DICOM (image 및 wave 공유), 관련 ISO표준, WHO의 ICD9/10 (질병분류), LOINC (검사 및 관련용어), SNOMED International (의학용어) 등을 활용하여야 한다.matrix. The prediction system gives about 50% of sensitivity and 98% of specificity, Based on the PID matrix, we develop a system providing several interaction information-finding services in the Internet. The system, named PreDIN (Prediction-oriented Database of Interaction Network) provides interacting domain finding

  • PDF

FIM도구 및 지침서 번역과 타탕도 검증 연구 (Translation and Validity test of the FIM instrument and Guide)

  • 황옥남;조갑출
    • 재활간호학회지
    • /
    • 제4권2호
    • /
    • pp.232-239
    • /
    • 2001
  • 이 논문의 목적은 재활기능을 측정하는 FIM 도구(영문)를 한국어로 번역하고 한국 한국문화에 적합한지를 문화적 타당도를 검증하기 위함이다. 이를 위해 FIM 도구를 소개하고 타당도 검증을 위해 Flaherty et al.(1988) 등이 소개한 횡문화적 일치성 검증을 위한 5가지 단계 중 2가지 단계 즉 전문가 집단의 내용타당도 검증과 역번역 절차를 사용하였다. 연구 결과 FIM 도구는 사회 심리적 도구가 아닌 재활환자의 기능을 측정하기 위해 사용된 도구여서 여기에 사용된 용어나 문장들은 비교적 간결하고 번역에 혼동을 초래할 수 있는 형용사나 은유법은 거의 사용되지 않아서 의미는 일치한 수준으로 나타났다. 그러나 47쪽에 해당되는 방대한 도구를 번역함에 있어 연구자가 5문장을 해석하지 않은 것이 나타나 재해석을 하였고, 의미를 더 정확하게 전하게 하기 위해 '사고 없음'의 문장을 '옷이나 침요에 실금하여 적시는 사고가 없음'으로 풀어서 설명하였고, '배뇨 사고 없음' 혹은 '배변 사고 없음'으로 번역하였다. 생활양식의 차이로 인해 크게 2가지 차이가 나타나 한국에서 이 도구를 사용하고자 할 때는 신뢰도 검증은 물론 다소의 변형이 불가피 한 것으로 나타났다. 2가지의 생활양식의 차이는 식습관의 차이와 온돌과 침대 문화의 차이였다. 첫째, 한국에서는 식사시에 포크 대신 젓가락을 사용한다. 그러나 손을 잘 사용하지 못하는 장애인의 경우 젓가락 대신 포크를 사용하게 되므로 이 때 포크 사용은 보조기로 고려되어서 측정 점수는 7점이 아닌 6점으로 측정되어야 할 것을 제안한다. 둘째, 한국 사람들은 온돌문화를 갖고 있어 전통 양식의 가옥에 거주하는 장애인의 경우 개조된 가옥에서는 휠체어를 사용 할 수 있지만 그렇지 않은 경우 휠체어 없이 앉아서 침대나 욕실 및 변기로 이동이 가능하다. 이런 경우 앉아서 이동할 수있는 환자들의 기능 정도를 정밀하게 검토하여 측정 가능한 점수로 환원해서 사용할 것을 제안한다.

  • PDF

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF