• 제목/요약/키워드: 숫자 번역

검색결과 13건 처리시간 0.036초

숫자 기호화를 통한 신경기계번역 성능 향상 (Symbolizing Numbers to Improve Neural Machine Translation)

  • 강청웅;노영헌;김지수;최희열
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권6호
    • /
    • pp.1161-1167
    • /
    • 2018
  • 기계 학습의 발전은 인간만이 할 수 있었던 섬세한 작업들을 기계가 할 수 있도록 이끌었고, 이에 따라 많은 기업체들은 기계 학습 기반의 번역기를 출시하였다. 현재 상용화된 번역기들은 우수한 성능을 보이지만 숫자 번역에서 문제가 발생하는 것을 발견했다. 번역기들은번역할문장에 큰숫자가 있을경우종종숫자를잘못번역하며, 같은문장에서숫자만바꿔번역할 때문장의구조를 완전히바꾸어 번역하기도 한다. 이러한 문제점은오번역의 가능성을 높이기 때문에해결해야 될 사안으로여겨진다. 본 논문에서는 Bidirectional RNN (Recurrent Neural Network), LSTM (Long Short Term Memory networks), Attention mechanism을 적용한 Neural Machine Translation 모델을 사용하여 데이터 클렌징, 사전 크기 변경을 통한 모델 최적화를 진행 하였고, 최적화된 모델에 숫자 기호화 알고리즘을 적용하여 상기 문제점을 해결하는 번역 시스템을 구현하였다. 본논문은 데이터 클렌징 방법과 사전 크기 변경, 그리고 숫자 기호화 알고리즘에 대해 서술하였으며, BLEU score (Bilingual Evaluation Understudy score) 를 이용하여 각 모델의 성능을 비교하였다.

구조화된 번역 메모리 기반 영한 메신저 자동 번역 시스템에 관한 연구 (A Study on English-Korean Messenger MT System based on Structured Translation Memory)

  • 최승권;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.361-364
    • /
    • 2011
  • 본 논문의 목표는 크게 두 가지이다. 하나는 2010년에 개발한 메신저 자동번역 시스템을 소개하는 것이고, 다른 하나는 메신저 대화체 문장을 더욱 고품질로 번역하기 위한 구조화된 번역 메모리(Structured Translation Memory)를 소개하는 것이다. 구조화된 번역 메모리는 기존의 문자열 기반의 번역 메모리와 자동 번역 시스템의 경계를 허무는 개념으로 구조를 표현하는 계층적 번역 메모리들로 구성된다. 구조화된 번역 메모리는 문자열 번역 메모리, 원형 어휘로 구성된 번역 메모리, 고유명사가 청킹된 번역 메모리, 날짜/숫자가 청킹된 번역 메모리, 기본명사구가 청킹된 번역 메모리, 문장 패턴 번역 메모리로 단계적으로 구성된다. 구조화된 번역 메모리를 적용하기 전의 2010년의 영한 메신저 자동 번역 시스템의 번역률이 81.67%였던 반면에, 구조화된 번역 메모리를 적용하려는 2011년의 영한 메신저 자동 번역 시스템의 시물레이션 번역률은 85.25%인 것으로 평가되었다. 따라서 구조화된 번역 메모리를 적용하였을 때는 기존의 번역률보다 3.58% 향상할 것으로 예측된다.

숫자 수화 인식을 위한 서포트 벡터 머신 기반의 HOG(Histogram of Oriented Gradients) 특징 벡터 연구 (The Study of Support Vector Machine-based HOG (Histogram of Oriented Gradients) Feature Vector for Recognition by Numerical Sign Language)

  • 이승환;유재천
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.271-272
    • /
    • 2019
  • 현재 4차 산업혁명으로 인해 많은 이들의 삶의 질이 이전보다 개선되었음에도 불구하고, 소외된 계층을 위한 개발은 타 분야에 비해서 더뎌지고 있는 실정이다. 현대의 청각 장애인과 언어 장애인들은 시각 언어인 수화를 이용하여 의사소통을 한다. 그러나 수화는 진입 장벽이 높기 때문에, 이를 사용하지 않는 사람들은 청각 장애인 및 언어 장애인과 의사소통을 하는데 어려움을 겪는다. 본 논문은 이러한 불편함을 줄이기 위해 서포트 벡터 머신(Support Vector Machine, SVM) 기반의 HOG(Histogram of Oriented Gradients) 특징 벡터를 이용하여 수화의 기본인 숫자를 분류할 수 있는 시스템을 구현하여 수화를 번역할 수 있는 가능성을 제안한다.

  • PDF

실용적인 영한 기계번역을 위한 전처리기의 설계 및 구현 (A Preprocessor for Practical English-to-Korean Machine Translation)

  • 여상화;정한민;채영숙;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.313-321
    • /
    • 1996
  • 본 논문에서는 실용적인 기계번역 시스템을 위하여 다양한 입력 형태에서 나타나는 여러 현상을 전처리하는 기법을 설명한다. 전처리기는 문장 분리, Title 및 나열문 인식, HTML Tag의 처리, 하이픈처리, 숫자 표현 처리, 대소문자의 정규화, 고유명사 인식, 복합단위 인식 등을 수행하여 형태소 분석기의 처리 부담을 줄인다.

  • PDF

청각장애인을 위한 작업 현장용 한국 수화 메시지 보드의 개발 (Development of a Korean Sign Language Message Board in Workplace for Deaf People)

  • 장효영;오영준;정성훈;박광현;변증남
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2007년도 학술대회 1부
    • /
    • pp.393-398
    • /
    • 2007
  • 본 논문은 작업 현장에서 청각장애인의 의사소통을 보조하는 한국 수화 메시지 보드의 개발에 대하여 다룬다. 청각 장애인은 일상적인 직업 현장에서 의사소통이 자유롭지 못하여 업무에 잘 적응하지 못하고 사내의 인간관계에 많은 어려움을 겪고 있다. 문자를 이용한 정보 전달을 통해 모든 의사소통을 대체할 수 있을 것이라는 일반적인 생각과는 달리, 청각장애인의 경우 비장애인과 비교하여 사물의 개념 습득에 어려움이 있을 수 있으며 마찬가지로 사용하는 어휘수도 제한적인 경우가 많아 문자를 통한 의사소통에는 명확한 한계가 존재한다. 실제로 청각 장애 근로자가 이직하는 사유로 의사소통이나 인간관계가 높은 비중을 차지한다. 수화 메시지 보드는 크게 사내 네트워크를 이용한 공지 사항 전달을 위한 용도와 복수 개의 메시지 보드 간 문자 송수신의 용도로 사용 가능하다. 비장애인이 청각장애인에게 문자 입력으로 의사를 전달하면, 전달된 문자는 문자-수화 번역기를 통해 자동으로 수화로 번역되어 아바타의 수화 동작으로 화면에 출력된다. 전체 시스템은 수화 아바타를 포함한 그래픽 유저 인터페이스 (GUI), 수화 데이터베이스 및 한글 형태소/문장 분석기를 포함하는 문자-수화 번역기, 그리고 TCP/IP 기반의 문자 전송기의 세 부분으로 나뉜다. 본 논문에서는 수화 데이터베이스의 단어 선정을 위한 대상 작업 현장을 청각 장애 근로자가 타 직업에 비해 많은 비중을 차지하는 전자 부품 조립 업체로 한정하였다. 수화 데이터베이스는 자음 14종, 모음 17종, 숫자 15종, 일상생활 용어 1000종, 전자 부품 조립 업체에 특화된 단어 50종 및 직업 교육 관련 용어 50종으로 이루어진 총 1146종의 수화 단어를 포함하며, 수화 데이터베이스에 등록되지 않은 단어에 대해서는 지화로 표현하도록 한다. 이 중 전자 부품 조립 업체 특화 단어와 관련하여서는, 현재 동일한 분야의 작업 현장이라 하더라도 각 사업장 간 사용되는 수화가 통일되지 않아 문헌 조사 및 현장 조사를 통해 사용 빈도가 높고 형태가 공통적인 50종을 추려내었다. 본 연구는 실제 업무현장에서 청각장애인이 겪는 의사소통의 문제를 효과적으로 해결함으로써, 청각장애인이 직업 현장에 보다 쉽게 적응하도록 도움을 줄 뿐만 아니라, 일을 통해 자아 실현을 하도록 돕는 방안이 될 수 있다는 점에서 중요한 의의를 갖는다.

  • PDF

자동 역점역을 가능하게 하는 한글점자 부호체계의 개선 (Improvement of korean Braille-Code System for Automatic Reverse Braille Translation)

  • 길태영;김석일;김홍기
    • 한국정보처리학회논문지
    • /
    • 제5권3호
    • /
    • pp.703-714
    • /
    • 1998
  • 기존의 점자 부호 체계에서 한글문장을 점자문장으로 번역하는 작업은 1 : 1의 대응관계가 있으므로 아무런 문제를 야기시키지 않는다. 그러나 점자문장을 한글문장으로 번역하는 작업은 점자부호와 한글부호간의 1 : N의 대응관계로 인하여 피할 수 없는 오류를 파생시킨다. 분석 결과, 점자 부호 체계에서는 한글 초성과 숫자와의 충돌, 한글 종성과 문장부호와의 충돌, 한글 소괄호 열기와 소괄호 닫기 부호를 동일한 부호로 처리하는 것, 영문 열기 및 닫기 부호와 한글 종성과의 충돌 등이 번역 오류의 중요한 원인임을 알 수 있다. 본 논문에서는 이러한 충돌을 해소하기 위한 역점역 규칙을 제정하여, 일차적으로 역점역시에 발생하는 애매성을 앞, 뒤 문맥에 따라 해결할 수 있는 경우에는 원래의 점자 부호를 사용하도록 하고, 만일 이 방법으로 해결되지 않을 경우에는 역점역시에 충돌을 근본적으로 방지하는 확장 점자 부호를 사용하도록 하였다. 여러 가지 파일에 대한 실험 결과, 기존의 점자 부호체계에서의 오류발생율이 평균 25%이었음에 비하여 확장된 점자 부호체계에서는 번역에 따른 오류가 발견되지 않았다.

  • PDF

패스워드 표기 방식이 패스워드 생성에 미치는 영향 (A Study of Interpretation Effect of Passwords to Password Generation)

  • 김승연;권태경
    • 정보보호학회논문지
    • /
    • 제25권5호
    • /
    • pp.1235-1243
    • /
    • 2015
  • 본 논문은 웹페이지의 로그인 또는 패스워드 변경 인터페이스에서 제공하는 패스워드 표기 방법이 국내 사용자의 패스워드 구성(composition)에 영향을 주는지 설문을 통해 살펴보고, 보안 향상을 위한 표기법을 제안한다. 특히 현재 혼용되고 있는 외국어 '패스워드' 표기와 이를 우리말로 번역한 '비밀번호' 표기는 의미적인 차이가 있다. 국내 S대학교 재학생 200명을 대상으로 설문조사를 통해 '비밀번호' 표기를 사용할 때 더 많은 학생들이 숫자 위주의 패스워드를 만드는 것을 확인하였다. 숫자 위주의 패스워드는 그렇지 않은 경우에 비해 가능한 조합의 수가 크게 감소하므로 이는 보안에 좋지 않은 영향을 줄 우려가 있다. 따라서 본 논문이 국내 사용자들의 패스워드 보안을 향상시킬 방법을 찾는 연구의 참고 자료로 활용될 수 있을 것이라 기대한다.

위키피디아로부터 한국어-영어 병렬 문장 추출 (Extracting Korean-English Parallel Sentences from Wikipedia)

  • 김성현;양선;고영중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제41권8호
    • /
    • pp.580-585
    • /
    • 2014
  • 본 연구는 '위키피디아 데이터를 이용한 병렬 문장 추출'이라는 주제에 대해서, 기존에 해외에서 사용되었던 다양한 방법을 한국어 위키피디아 데이터에 실제로 적용해보고 그 결과를 정리하여 보고한다. 실험 방식은 두 가지로 나눌 수 있는데, 첫 번째는 번역 확률을 이용하는 방법으로 세종 병렬 말뭉치 등의 기존 자원으로부터 번역 확률을 추출하여 사용한다. 두 번째는 사전을 이용하는 방법으로, 위키피디아 타이틀로 구성된 위키 사전(Wiki dictionary)을 기본으로 하여, MRD(machine readable dictionary) 정보와 숫자 사전을 추가로 사용한다. 실험 결과, 기존 자원만 이용한 경우보다 위키피디아 데이터를 결합하여 사용한 경우에 매우 큰 폭의 성능 향상을 얻어, 최종적으로 F1-score 57.6%의 우수한 성능을 산출하였다. 또한 토픽 모델(topic model)을 이용한 실험도 추가로 수행하였는데, F1-score 51.6%로 최종 성능 면에서는 낮았지만 비지도 학습 방법이라는 장점을 고려할 때 추가 연구에 대한 여지가 있다고 볼 수 있다.

언어 자원과 토픽 모델의 순차 매칭을 이용한 유사 문장 계산 기반의 위키피디아 한국어-영어 병렬 말뭉치 구축 (Building a Korean-English Parallel Corpus by Measuring Sentence Similarities Using Sequential Matching of Language Resources and Topic Modeling)

  • 천주룡;고영중
    • 정보과학회 논문지
    • /
    • 제42권7호
    • /
    • pp.901-909
    • /
    • 2015
  • 본 논문은 위키피디아로부터 한국어-영어 간 병렬 말뭉치를 구축하기 위한 연구이다. 이를 위해, 언어 자원과 토픽모델의 순차 매칭 기반의 유사 문장 계산 방법을 제안한다. 먼저, 언어자원의 매칭은 위키피디아 제목으로 구성된 위키 사전, 숫자, 다음 온라인 사전을 단어 매칭에 순차적으로 적용하였다. 또한, 위키피디아의 특성을 활용하기 위해 위키 사전에서 추정한 번역 확률을 단어 매칭에 추가 적용하였다. 그리고 토픽모델로부터 추출한 단어 분포를 유사도 계산에 적용함으로써 정확도를 향상시켰다. 실험에서, 선행연구의 언어자원만을 선형 결합한 유사 문장 계산은 F1-score 48.4%, 언어자원과 모든 단어 분포를 고려한 토픽모델의 결합은 51.6%의 성능을 보였으나, 본 논문에서 제안한 언어자원에 번역 확률을 추가하여 순차 매칭을 적용한 방법은 58.3%로 9.9%의 성능 향상을 얻었고, 여기에 중요한 단어 분포를 고려한 토픽모델을 적용한 방법이 59.1%로 7.5%의 성능 향상을 얻었다.

한국어 수학 문장제 문제 자동 풀이 (Solving Automatically Algebra Math Word Problem in Korean)

  • 우창협;권가진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.310-315
    • /
    • 2018
  • 본 논문에서는 한국어 수학 문장제 문제 자동 풀이를 위한 방법을 소개한다. 수학 문장제 문제란 수학적 관계가 언어와 숫자로 주어질 때, 문제에서 요구하는 정보를 도출하는 수학 문제로, 언어 의미 분석과 수학적 관계 추출이 요구된다. 본 논문에서는 이원 일차 연립 방정식을 포함한 514 문제의 영어 데이터셋을 번역해 한국어 문제를 확보하였다. 또한 한국어의 수학적 관계 표현과 언어 유형적 특성을 고려한 자질 추출을 제안하고, 템플릿 기반 Log-linear 모델이 정답 방정식을 분류하도록 학습하였다. 5겹 교차 검증을 실시한 결과, 영어 문제를 풀이한 선행 연구의 정답률 79.7% 대비 1%p 낮은 78.6%의 정답률을 보였다.

  • PDF