• 제목/요약/키워드: text translation

검색결과 148건 처리시간 0.027초

시각장애인의 학습을 위한 텍스트 추출 및 점자 변환 시스템 (HunMinJeomUm: Text Extraction and Braille Conversion System for the Learning of the Blind)

  • 김채리;김지안;김용민;이예지;공기석
    • 한국인터넷방송통신학회논문지
    • /
    • 제21권5호
    • /
    • pp.53-60
    • /
    • 2021
  • 시각장애인의 수는 증가하고 있지만 시각장애인을 위한 점역 교재는 부족하여 본인의 의지에 관계 없이 교육권을 침해받는 경우가 많다. 본 논문에서는 시각장애인의 교육권을 보장하기 위해 점자책으로 나오지 않는 교재나 문서, 사진 등을 보호자의 도움 없이도 혼자 쉽게 공부할 수 있게끔 도와주는 학습 시스템을 다룬다. 장애인 접근성을 고려하여 어플리케이션과 웹페이지를 설계하고 점자 키트는 아두이노와 점자 모듈을 이용하여 제작한다. 이 시스템은 다음과 같은 기능들을 지원한다. 첫째, 원하는 문서 또는 사진을 선택해 OCR을 이용하여 텍스트를 추출한다. 둘째, 추출한 텍스트를 음성과 점자로 변환한다. 셋째, 회원가입 기능을 제공하여 추출된 텍스트를 다시 볼 수 있도록 한다. 다양한 실험을 통해 점자 출력, 음성 출력이 정상적으로 작동하는 것을 확인하고 높은 OCR 인식률을 제공하는 것을 알 수 있었다. 또한, 시각이 완전히 차단된 상태에서도 어플리케이션이 손쉽게 이용 가능하다는 것을 확인했다.

"의종금감(醫宗金鑑).산보명의방론(刪補名醫方論)"의 보기(補氣) 처방에 대한 연구;번역 및 "고금명의방론(古今名醫方論)"과의 비교고찰을 중심으로 (A Study on The Invigorative Prescriptions(補氣方劑) in "The Elimination & Supplement about The Famous Prescription Comments(刪補名醫方論)" of "The Golden Mirror of Medicine(醫宗金鑑)";focus on translation & comparative study with "The Famous Prescription Comments on Ancient and Modem Times (古今名醫方論)")

  • 김성환;이용범
    • 대한한의학원전학회지
    • /
    • 제20권1호
    • /
    • pp.65-74
    • /
    • 2007
  • "The Golden Mirror of Medicine(醫宗金鑑)" was compiled by the medical officers of the Qing government, headed by Wu-Qian(吳謙)."The Elimination &Supplement about the Famous Prescription Comments(刪補名醫方論)", a collection of notes written by famous scholars, is one part of "The Golden Mirror of Medicine(醫宗金鑑)" . Through the translation and comparative study of invigorative prescription(補氣方劑) in "The Elimination & Supplement about the Famous Prescription Comments(刪補名醫方論)" of "The Golden Mirror of Medicine(醫宗金鑑)" with "The Famous Prescription Comments on Ancient and Modem Times(古今名醫方論)" , we confirmed that many sentences of "The Famous Prescription Comments on Ancient and Modern Times(古今名醫方論)" were quoted, but that most of the text was not quoted as the same: it was revised and supplemented. In organization, invigoration prescriptions are placed at the head of the chapter, indicating their importance. In classification, prescriptions for reinforcing middle-jiao(中焦) and replenishing qi(補中益氣湯類 方劑) were usually included in the invigoration prescriptions(補氣方劑), which is explained in chapter II, thereby clearly distinguishing between treatments of deficiency of qi(氣虛) and combining it with the sinking of qi of middle-jiao(中氣下陷).

  • PDF

기록관리 분야에서 한국어 자연어 처리 기술을 적용하기 위한 고려사항 (Considerations for Applying Korean Natural Language Processing Technology in Records Management)

  • 김학래
    • 한국기록관리학회지
    • /
    • 제22권4호
    • /
    • pp.129-149
    • /
    • 2022
  • 기록물은 과거와 현재를 포함하는 시간적 특성, 특정 언어에 제한되지 않는 언어적 특성, 기록물이 갖고 있는 다양한 유형을 복합적으로 갖고 있다. 기록물의 생성, 보존, 활용에 이르는 생애주기에서 텍스트, 영상, 음성으로 구성된 데이터의 처리는 많은 노력과 비용을 수반한다. 기계번역, 문서요약, 개체명 인식, 이미지 인식 등 자연어 처리 분야의 주요 기술은 전자기록과 아날로그 형태의 디지털화에 광범위하게 적용할 수 있다. 특히, 딥러닝 기술이 적용된 한국어 자연어 처리 분야는 다양한 형식의 기록물을 인식하고, 기록관리 메타데이터를 생성하는데 효과적이다. 본 논문은 한국어 자연어 처리를 기술을 소개하고, 기록 관리 분야에서 자연어 처리 기술을 적용하기 위한 고려사항을 논의한다. 기계번역, 광학문자인식과 같은 자연어 처리 기술이 기록물의 디지털 변환에 적용되는 과정은 파이썬 환경에서 구현한 사례로 소개한다. 한편, 자연어 처리 기술의 활용을 위해 기록관리 분야에서 자연어 처리 기술을 적용하기 위한 환경적 요소와 기록물의 디지털화 지침을 개선하기 위한 방안을 제안한다.

A Unicode based Deep Handwritten Character Recognition model for Telugu to English Language Translation

  • BV Subba Rao;J. Nageswara Rao;Bandi Vamsi;Venkata Nagaraju Thatha;Katta Subba Rao
    • International Journal of Computer Science & Network Security
    • /
    • 제24권2호
    • /
    • pp.101-112
    • /
    • 2024
  • Telugu language is considered as fourth most used language in India especially in the regions of Andhra Pradesh, Telangana, Karnataka etc. In international recognized countries also, Telugu is widely growing spoken language. This language comprises of different dependent and independent vowels, consonants and digits. In this aspect, the enhancement of Telugu Handwritten Character Recognition (HCR) has not been propagated. HCR is a neural network technique of converting a documented image to edited text one which can be used for many other applications. This reduces time and effort without starting over from the beginning every time. In this work, a Unicode based Handwritten Character Recognition(U-HCR) is developed for translating the handwritten Telugu characters into English language. With the use of Centre of Gravity (CG) in our model we can easily divide a compound character into individual character with the help of Unicode values. For training this model, we have used both online and offline Telugu character datasets. To extract the features in the scanned image we used convolutional neural network along with Machine Learning classifiers like Random Forest and Support Vector Machine. Stochastic Gradient Descent (SGD), Root Mean Square Propagation (RMS-P) and Adaptative Moment Estimation (ADAM)optimizers are used in this work to enhance the performance of U-HCR and to reduce the loss function value. This loss value reduction can be possible with optimizers by using CNN. In both online and offline datasets, proposed model showed promising results by maintaining the accuracies with 90.28% for SGD, 96.97% for RMS-P and 93.57% for ADAM respectively.

앙상블 학습 기반 국내 도서의 해외 판매 굿셀러 예측 및 굿셀러 리뷰 키워드 분석 (Ensemble Learning-Based Prediction of Good Sellers in Overseas Sales of Domestic Books and Keyword Analysis of Reviews of the Good Sellers)

  • 김도영;김나연;김현희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권4호
    • /
    • pp.173-178
    • /
    • 2023
  • 한국 문학이 세계적으로 관심을 받게 됨에 따라 해외 출판시장에서의 수요가 지속적으로 증가하고 있다. 따라서 해외 출판시 도서 판매량의 예측과 과거 해외 독자들의 선호도가 높았던 도서들의 특징을 분석하는 것이 중요하다. 본 논문에서는 최근 5년간 해외 출간된 도서 중에서 굿셀러로 분류되는 누적 5천 부 이상 판매 여부 예측 모델을 제안하고 굿셀러의 요인이 되는 변수들을 분석하였다. 이를 위해, XGBoost, Gradient Boosting, Adaboost, LightGBM, Random Forest의 다섯 개 앙상블 학습 모델과 Support Vector Machine, Logistic Regression, Deep Learning을 적용한 결과, 불균형 데이터 문제 해결에 앙상블 알고리즘이 큰 효과를 보였음을 확인했으며, 그 중에서도 LightGMB 모델이 99.86%의 AUC 값을 얻어 가장 좋은 예측 성능을 보임을 검증하였다. 예측을 위해 사용된 변수 중 가장 중요한 변수는 작가의 해외 출간 횟수로 나타났으며, 평점 평균, 상위 출판 시장 규모를 가진 국가에서 출판 여부와 평점 참여자 수 등이 중요한 변수로 나타났다. 또한, 굿셀러 도서에 대한 독자들의 반응을 분석하기 위해서, 굿셀러 도서 중에서도 가장 많이 판매된 4권의 작품 리뷰에 대해 텍스트 마이닝을 실시하였다. 분석 결과 스토리, 등장인물, 작가 순으로 관심을 둔 리뷰가 많았음을 알 수 있었으며, 평점이 낮은 리뷰로부터 번역 키워드가 도출된 것으로 보아, 번역에 대한 지원을 확대하는 것이 필요할 것으로 보인다.

이중 언어 기반 패러프레이즈 추출을 위한 피봇 차별화 방법 (Pivot Discrimination Approach for Paraphrase Extraction from Bilingual Corpus)

  • 박에스더;이형규;김민정;임해창
    • 인지과학
    • /
    • 제22권1호
    • /
    • pp.57-78
    • /
    • 2011
  • 패러프레이즈는 같은 의미를 다른 단어를 사용하여 표현한 것을 말한다. 패러프레이즈는 일상적인 언어생활에서도 흔히 관측되며 자연어처리 분야에서 다양하게 활용할 수 있다. 특히 최근에는 통계적 기계 번역 분야에서 데이터 부족 문제를 보완하여 번역 성능을 향상시키기 위해 패러프레이즈를 활용한 연구가 많다. 이중 언어 병렬 말뭉치를 이용하는 패러프레이즈 추출 과정에서는 일반적으로 다른 언어를 피봇으로 사용하기 때문에 단어 정렬 및 구 정렬 과정을 두 번 거친다. 따라서 단어 정렬의 오류가 패러프레이즈로 전파될 수 있다. 특히 한국어와 영어와 같이 언어의 구조적인 차이가 큰 경우에는 단어 정렬 오류가 더 심각하기 때문에 피봇 프레이즈부터 잘못 추출되는 경우가 많아진다. 이러한 문제를 보완하기 위해 본 논문에서는 패러프레이즈 추출 과정에서 피봇 프레이즈를 차별화하는 방안으로서 어휘, 품사 정보를 이용해 올바른 피봇 프레이즈에 더 높은 가중치를 부여하는 방법을 제안한다. 실험 결과, 제안하는 피봇 가중치 부여 방법을 기존의 패러프레이즈 추출 방법에 추가했을 때 패러프레이즈 추출 정확률과 재현율이 모두 향상됨을 확인할 수 있었다. 또한, 제안하는 방법을 통해 추출한 패러프레이즈를 한영 기계 번역 시스템에서 활용하였을 때 번역률이 향상됨을 확인할 수 있었다.

  • PDF

대한민국 정부의 코로나 19 브리핑을 기반으로 구축된 수어 데이터셋 연구 (Sign Language Dataset Built from S. Korean Government Briefing on COVID-19)

  • 심호현;성호렬;이승재;조현중
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권8호
    • /
    • pp.325-330
    • /
    • 2022
  • 본 논문은 한국 수어에 대하여 수어 인식, 수어 번역, 수어 영상 시분할과 같은 수어에 관한 딥러닝 연구를 위한 데이터셋의 수집 및 실험을 진행하였다. 수어 연구를 위한 어려움은 2가지로 볼 수 있다. 첫째, 손의 움직임과 손의 방향, 표정 등의 종합적인 정보를 가지는 수어의 특성에 따른 인식의 어려움이 있다. 둘째, 딥러닝 연구를 진행하기 위한 학습데이터의 절대적 부재이다. 현재 알려진 문장 단위의 한국 수어 데이터셋은 KETI 데이터셋이 유일하다. 해외의 수어 딥러닝 연구를 위한 데이터셋은 Isolated 수어와 Continuous 수어 두 가지로 분류되어 수집되며 시간이 지날수록 더 많은 양의 수어 데이터가 수집되고 있다. 하지만 이러한 해외의 수어 데이터셋도 방대한 데이터셋을 필요로 하는 딥러닝 연구를 위해서는 부족한 상황이다. 본 연구에서는 한국 수어 딥러닝 연구를 진행하기 위한 대규모의 한국어-수어 데이터셋을 수집을 시도하였으며 베이스라인 모델을 이용하여 수어 번역 모델의 성능 평가 실험을 진행하였다. 본 논문을 위해 수집된 데이터셋은 총 11,402개의 영상과 텍스트로 구성되었다. 이를 이용하여 학습을 진행할 베이스라인 모델로는 수어 번역 분야에서 SOTA의 성능을 가지고 있는 TSPNet 모델을 이용하였다. 본 논문의 실험에서 수집된 데이터셋에 대한 특성을 정량적으로 보이고, 베이스라인 모델의 실험 결과로는 BLEU-4 score 3.63을 보였다. 또한, 향후 연구에서 보다 정확하게 데이터셋을 수집할 수 있도록, 한국어-수어 데이터셋 수집에 있어서 고려할 점을 평가 결과에 대한 고찰로 제시한다.

텍스트 마이닝(Text mining) 기법을 활용한 『제1차조선교육령』과 『조선교육요람』(1913, 1920)의영어번역본 분석 (Analysis on the English Translation of The First Chosen Educational Ordinance, Manual of Education of Koreans (1913), and Manual of Education in Chosen 1920 (1920) Using Text Mining Analytics)

  • 탁진영;곽은주;진실로;손민주;김동미
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.309-317
    • /
    • 2023
  • 본 논문의 목표는 1911년에 공포된 『제1차 조선교육령』, 1913년에 발행된 『조선교육요람』과 1920년에 발행된 『조선교육요람(1920)』의 영어 텍스트를 비교 분석하고, 이를 통해 조선총독부의 조선 통제 수단으로 활용된 식민지 교육정책을 추적하는 것이다. 본 논문은 조선총독부의 식민지 교육정책의 전체적인 흐름과 그 배경을 파악하기 위해 기존의 단편적이고 질적인 역사서 연구와는 달리 통시적·양적 연구를 시도하였다. 이를 위해 상위 50개 단어 빈도 순위와 워드 클라우드(Word Cloud)와 CONCOR(CONvergence of iteration CORrelation)의 텍스트 마이닝 기법을 활용하여 다음과 같은 결과를 도출하였다. 첫째, 1911년 『제1차 조선교육령』은 '전체적인 규정'이나 '교육과정 및 운영'에 초점을 두었고 둘째, 1913년의 『조선교육요람』은 '교육 방식 및 매체'와 전반적인 '교육 내용'에 대한 지침을 싣고 있었다. 그리고 마지막으로 1920년 『조선교육요람(1920)』은 교육의 구체적인 '교육 실행 및 교육의 주체'에 관한 내용을 담고 있었다.

문장 내 영 조응어 해석을 위한 영대명사의 조응성 결정 (Anaphoricity Determination of Zero Pronouns for Intra-sentential Zero Anaphora Resolution)

  • 김계성;박성배;박세영;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권12호
    • /
    • pp.928-935
    • /
    • 2010
  • 문서에서 생략된 요소가 지시하는 대상을 식별해 내는 작업은 기계 번역, 정보추출 등과 같은 자연언어처리 분야의 다양한 응용들을 위해 필요하다. 문장에서 생략된 요소들은 영조응사, 영대명사 등으로 불리며, 지시(reference)의 한 유형으로 간주되고 있지만, 모든 영형이 문서에서 명확하게 언급된 지시 대상을 지시하지는 않는다. 이에 영형의 조응성을 결정하려는 연구가 최근 진행되고 있으며, 본 논문에서는 한국어에서 가장 빈번하게 나타나는 영형 주어(subject zero pronouns)의 문장 내 조응성 결정에 초점을 맞춘다. 주어진 영형과 선행사 후보들 간의 쌍대 비교(pairwise comparison)에 기반한 기존 연구와 달리, 본 논문은 비조응적 혹은 문장 간에서 해결 가능한 영형이 나타난 절의 구조를 직접 학습함으로써 영형의 문장 내 조응성을 결정한다. 실험에서 제안한 방법은 베이스라인보다 나은 성능을 보였으며, 영형의 조응성 결정은 향후 영형 조응어 해석에 긍정적인 영향을 줄 수 있을 것으로 기대된다.

웹기반 청각장애인용 수화 웹페이지 제작 시스템 (Web-based Text-To-Sign Language Translating System)

  • 박성욱;왕보현
    • 한국지능시스템학회논문지
    • /
    • 제24권3호
    • /
    • pp.265-270
    • /
    • 2014
  • 소리가 잘 들리지 않는 청각장애인은 소리를 표시하는 글자를 익히고 복잡한 개념을 전달하는 글을 이해하는 데 어려움이 많다. 그래서 자연스럽게 표정, 몸짓, 손짓으로 의사를 전달하는 수화가 청각장애인들의 주요 의사소통수단으로 자리잡아왔지만 사회에서는 글과 말이 주요 정보전달 수단으로 이용되고 있어 청각장애인이 정보에 접근하고 지식을 넓혀 직업을 갖는데 큰 어려움이 있다. 특히 근래에 인터넷이 보편화됨에 따라 정상인의 정보 습득량은 크게 늘었지만, 글로 표현된 인터넷을 이해하기 어려운 청각장인들은 인터넷 정보에 접근하는데 어려움이 많다. 본 연구에서는 청각장애인을 위한 수화 웹페이지를 제작할 수 있는 수화 웹페이지 제작시스템을 개발하였다. 수화 웹페이지 제작 시스템은 청각장애인용 수화 웹페이지 제작자가 통상적인 인터넷 사용에 필요한 하드웨어 및 소프트웨어 환경만 갖추면 운영할 수 있도록 웹기반으로 개발하였다. 수화용 웹 페이지 제작자는 게시판 형태의 인터페이스를 이용하여 변역하고자하는 문장을 서버에 전송할 수 있다. 서버는 수신된 문장을 수화로 번역하여 3D 아바타 기반의 수화 그래픽 애니메이션을 랜더링한다. 수화 그래픽 애니메이션은 MP4 형식의 동영상으로 변환되며, 스트리밍 서버의 저장소에 보관된다. 저장된 수화 동영상의 이름과 주소는 수화 웹페이지 제작자가 처음 문장을 입력하였던 게시판에 표시되도록 하여 향후 청각장애인용 웹 페이지를 제작할 때 활용할 수 있도록 하였다. 또한 본 연구에서는 웹페이지 제작자가 공공기관의 웹페이지를 제작할 수 있도록, 이들 기관에서 현재 사용된 글들을 수화로 번역할 때 필요한 수화 단어를 수화 웹페이지 제작 시스템의 수화 사전에 추가하였다. 수화 단어를 추가함으로써 웹기반 수화 웹페이지 제작 시스템이 공공부문에 보다 더 많이 활용될 수 있을 것이다.