• 제목/요약/키워드: 고려 말

검색결과 1,134건 처리시간 0.028초

양보다 질? : 병렬 말뭉치의 양과 질이 인공신경망 기계번역에 미치는 효과 (Quality, not Quantity? : Effect of parallel corpus quantity and quality on Neural Machine Translation)

  • 박찬준;이연수;이찬희;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.363-368
    • /
    • 2020
  • 글로벌 시대를 맞이하여 언어의 장벽을 해소하기 위하여 기계번역 연구들이 전 세계적으로 이루어지고 있다. 딥러닝의 등장으로 기존 규칙 및 통계기반 방법론에 비하여 눈에 띄는 성능향상을 이루어내고 있으며 많은 연구들이 이루어지고 있다. 인공신경망 기반 기계번역 모델을 만들 때 가장 중요한 요소는 병렬 말뭉치의 양과 질이다. 본 논문은 한-영 대용량의 말뭉치를 수집하고 병렬 말뭉치 필터링 기법을 적용하여 데이터의 양과 질을 충족시켰으며 한-영 기계번역 관련 객관적인 테스트셋인 Iwslt 16, Iwslt 17을 기준으로 기존 한-영 기계번역 관련 연구 중 가장 좋은 성능을 보였다.

  • PDF

병렬 말뭉치 필터링을 적용한 Filter-mBART기반 기계번역 연구 (Filter-mBART Based Neural Machine Translation Using Parallel Corpus Filtering)

  • 문현석;박찬준;어수경;박정배;임희석
    • 한국융합학회논문지
    • /
    • 제12권5호
    • /
    • pp.1-7
    • /
    • 2021
  • 최신 기계번역 연구 동향을 살펴보면 대용량의 단일말뭉치를 통해 모델의 사전학습을 거친 후 병렬 말뭉치로 미세조정을 진행한다. 많은 연구에서 사전학습 단계에 이용되는 데이터의 양을 늘리는 추세이나, 기계번역 성능 향상을 위해 반드시 데이터의 양을 늘려야 한다고는 보기 어렵다. 본 연구에서는 병렬 말뭉치 필터링을 활용한 mBART 모델 기반의 실험을 통해, 더 적은 양의 데이터라도 고품질의 데이터라면 더 좋은 기계번역 성능을 낼 수 있음을 보인다. 실험결과 병렬 말뭉치 필터링을 거친 사전학습모델이 그렇지 않은 모델보다 더 좋은 성능을 보였다. 본 실험결과를 통해 데이터의 양보다 데이터의 질을 고려하는 것이 중요함을 보이고, 해당 프로세스를 통해 추후 말뭉치 구축에 있어 하나의 가이드라인으로 활용될 수 있음을 보였다.

문장 부호 자동 완성을 위한 한국어 말뭉치 구축 연구 (A Study on Building Korean Dialogue Corpus for Punctuation and Quotation Mark Filling)

  • 한승규;양기수;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.475-477
    • /
    • 2019
  • 문장 부호란, 글에서 문장의 구조를 잘 드러내거나 글쓴이의 의도를 쉽게 전달하기 위하여 사용되는 부호들로, 따옴표나 쉼표, 마침표 등이 있다. 대화 시스템과 같이 컴퓨터가 생성해 낸 문장을 인간이 이해해야 하는 경우나 음성 인식(Speech-To-Text) 결과물의 품질을 향상시키기 위해서는, 문장 부호의 올바른 삽입이 필요하다. 본 논문에서는 이를 수행하는 딥 러닝 기반 모델을 훈련할 때 필요로 하는 한국어 말뭉치를 구축한 내용을 소개한다. 이 말뭉치는 대한민국정부에서 장관급 이상이 발언한 각종 연설문에서 적절한 기준을 통해 선별된 고품질의 문장으로 구성되어 있다. 문장의 총 개수는 126,795개이고 1,633,817개의 단어들(조사는 합쳐서 한 단어로 계산한다)로 구성되어 있다. 마침표와 쉼표는 각각 121,256개, 67,097개씩이다.

  • PDF

인공신경망 기계번역에서 말뭉치 간의 균형성을 고려한 성능 향상 연구 (A study on performance improvement considering the balance between corpus in Neural Machine Translation)

  • 박찬준;박기남;문현석;어수경;임희석
    • 한국융합학회논문지
    • /
    • 제12권5호
    • /
    • pp.23-29
    • /
    • 2021
  • 최근 딥러닝 기반 자연언어처리 연구들은 다양한 출처의 대용량 데이터들을 함께 학습하여 성능을 올리고자 하는 연구들을 진행하고 있다. 그러나 다양한 출처의 데이터를 하나로 합쳐서 학습시키는 방법론은 성능 향상을 막게 될 가능성이 존재한다. 기계번역의 경우 병렬말뭉치 간의 번역투(의역, 직역), 어체(구어체, 문어체, 격식체 등), 도메인 등의 차이로 인하여 데이터 편차가 발생하게 되는데 이러한 말뭉치들을 하나로 합쳐서 학습을 시키게 되면 성능의 악영향을 미칠 수 있다. 이에 본 논문은 기계번역에서 병렬말뭉치 간의 균형성을 고려한 Corpus Weight Balance (CWB) 학습 방법론을 제안한다. 실험결과 말뭉치 간의 균형성을 고려한 모델이 그렇지 않은 모델보다 더 좋은 성능을 보였다. 더불어 단일 말뭉치로도 고품질의 병렬 말뭉치를 구축할 수 있는 휴먼번역 시장과의 상생이 가능한 말뭉치 구축 프로세스를 추가로 제안한다.

거리를 고려한 줄고누게임의 학습속도 개선 (An Improvement of the Learning Speed through Considered Distance on Jul-Gonu Game)

  • 신용우;정태충
    • 한국게임학회 논문지
    • /
    • 제10권1호
    • /
    • pp.105-113
    • /
    • 2010
  • 보드게임은 많은 수의 말들과 상태공간을 갖고 있다. 그래서 많은 시간동안 학습을 하여야 한다. 또한 상대방과의 대결이 1 대 1로 이루어지지 않고, 여러 말 대 여러 말로 이루어지므로 전략적인 사고가 필요하다. 그러므로 최적의 학습을 적용하여야 한다. 학습 도중에 동일한 최선 값이 있을 때, 줄고누의 문제 영역 지식을 활용한 휴리스틱을 사용해 학습의 속도 향상을 시도하였다. 강화학습을 이용한 말과 제안한 개선된 강화학습을 이용한 말을 비교하기 위해 줄고누게임을 제작하였다. 그래서 일방적으로 공격을 하는 말과 승부를 하게 하였다. 개선된 말은 거리를 고려하여 상대방 말을 공격하였다. 실험결과 개선된 강화학습을 이용한 말의 성능이 학습속도 측면에서 향상됨을 알 수 있었다.

한국어 음성인식 후처리기를 위한 학습 데이터 자동 생성 방안 (Automatic Generation of Training Data for Korean Speech Recognition Post-Processor)

  • 구선민;박찬준;문현석;서재형;어수경;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.465-469
    • /
    • 2022
  • 자동 음성 인식 (Automatic Speech Recognition) 기술이 발달함에 따라 자동 음성 인식 시스템의 성능을 높이기 위한 방법 중 하나로 자동 후처리기 연구(automatic post-processor)가 진행되어 왔다. 후처리기를 훈련시키기 위해서는 오류 유형이 포함되어 있는 병렬 말뭉치가 필요하다. 이를 만드는 간단한 방법 중 하나는 정답 문장에 오류를 삽입하여 오류 문장을 생성하여 pseudo 병렬 말뭉치를 만드는 것이다. 하지만 이는 실제적인 오류가 아닐 가능성이 존재한다. 이를 완화시키기 위하여 Back TranScription (BTS)을 이용하여 후처리기 모델 훈련을 위한 병렬 말뭉치를 생성하는 방법론이 존재한다. 그러나 해당 방법론으로 생성 할 경우 노이즈가 적을 수 있다는 관점이 존재하다. 이에 본 연구에서는 BTS 방법론과 인위적으로 노이즈 강도를 추가한 방법론 간의 성능을 비교한다. 이를 통해 BTS의 정량적 성능이 가장 높은 것을 확인했을 뿐만 아니라 정성적 분석을 통해 BTS 방법론을 활용하였을 때 실제 음성 인식 상황에서 발생할 수 있는 실제적인 오류를 더 많이 포함하여 병렬 말뭉치를 생성할 수 있음을 보여준다.

  • PDF

만화 영상에서 말풍선의 자동 생성 방법 (Automated Generation of Word Balloons in Comics)

  • 류동성;천봉경;박규태;조환규
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제13권1호
    • /
    • pp.33-36
    • /
    • 2007
  • 일반적으로 말풍선은 만화에서 대사와 주인공을 연결하는 매개체 역할을 한다. 또한 말풍선은 대사가 진행되는 순서를 고려하여 배치되기 때문에, 말풍선의 위치는 줄거리의 전개 과정을 표현하는 역할을 하기도 한다. 그러므로 말풍선을 생성하고 배치하는 작업은 중요한 작업이며, 이러한 작업은 주로 만화가의 수작업을 통해서 이루어진다. 본 논문에서는 만화가의 수작업으로 진행되는 말풍선의 생성과 배치 작업을 자동으로 수행하기 위한 방법에 관해 논의한다. 이를 위해서, 6가지 종류의 말풍선을 모델링하였으며, 이러한 말풍선들을 배치를 위해서, EPFLP 기반의 휴리스틱 알고리즘을 제시하였다. 또한, 말풍선의 참조점과 말꼬리의 방향을 고려해서, 수작업으로 생성되던 말꼬리를 자동으로 생성하는 방법을 제안한다.

  • PDF

미니맥스 알고리즘을 이용한 학습속도 개선을 위한 Q러닝 (Q-learning to improve learning speed using Minimax algorithm)

  • 신용우
    • 한국게임학회 논문지
    • /
    • 제18권4호
    • /
    • pp.99-106
    • /
    • 2018
  • 보드게임에서는 많은 경우의 수의 말들과 많은 상태공간들을 가지고 있다. 그러므로 게임은 학습을 오래 하여야 한다. 본 논문에서는 Q러닝 알고리즘을 이용했다. 그러나 강화학습은 학습초기에 학습속도가 느려지는 단점이 있다. 그러므로 학습을 하는 동안에 같은 최선의 값이 있을 때, 게임트리를 고려한 문제영역의 지식을 활용한 휴리스틱을 사용하여 학습의 속도향상을 시도하였다. 기존 구현된 말과 개선하여 구현된 말을 비교하기 위하여 보드게임을 제작했다. 그래서 일방적으로 공격하는 말과 승부를 겨루게 하였다. 개선된 말은 게임트리를 고려하여 상대방 말을 공격하였다. 실험결과 개선하여 구현된 말이 학습속도적인 면에서 향상됨 것을 알 수 있었다.

주취운전 단속에 관한 논의 (A Study on the enforcement for Driving Under the Influence)

  • 강맹진
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2016년도 춘계 종합학술대회 논문집
    • /
    • pp.119-120
    • /
    • 2016
  • 한국의 도로교통법에는 주취상태에서 운전을 하면 안 된다는 규정이 있다. 그런데 주취운전이라는 말보다 음주운전이라는 말이 더 널리 쓰이는 실정이다. 음주운전 역시 말 그대로 술을 마신 상태에서 하는 운전을 말한다. 우리나라를 비롯한 모든 나라에서는 주취운전의 위험성을 고려하여 이에 대한 단속 기준을 제시하고 있다. 한국은 혈중알콜농도를 확인하는데, 0.05를 단속 기준으로 삼고 있으며 현재 단속기준에 대한 논의가 이루어지고 있다. 경찰은 현재의 음주운전 단속 기준을 0.03%로 강화하는 것에 대하여 의견을 수렴 중이다.

  • PDF

말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템 (A Korean POS Tagging System with Handling Corpus Errors)

  • 설용수;김동주;김규상;김한우
    • 한국컴퓨터정보학회지
    • /
    • 제15권1호
    • /
    • pp.117-124
    • /
    • 2007
  • 통계 기반 접근 방법을 이용한 품사태깅에서 태깅 정확도는 훈련 데이터의 양에 좌우될 뿐 아니라, 말뭉치가 충분할지라도 수작업으로 구축한 말뭉치의 경우 항상 오류의 가능성을 내포하고 있으며 언어의 특성상 통계적으로 신뢰할만한 데이터의 수집에도 어려움이 따른다. 훈련 데이터로 사용되는 말뭉치는 많은 사람들이 수작업으로 구축하므로 작업자 중 일부가 언어에 대한 지식이 부족하다거나 주관적인 판단에 의한 태깅 실수를 포함할 수도 있기 때문에 단순한 저빈도와 관련된 잡음 외의 오류들이 포함될 수 있는데 이러한 오류들은 재추정이나 평탄화 기법으로 해결될 수 있는 문제가 아니다. 본 논문에서는 HMM(Hidden Markov Model)을 이용한 한국어 품사 태깅에서 재추정 후 여전히 존재하는 말뭉치의 잡음에 인한 태깅 오류 해결을 위해 비터비 알고리즘적용 단계에서 데이터 부족과 말뭉치의 오류로 인해 문제가 되는 부분을 찾아내고 규칙을 통해 수정을 하여 태깅 결과를 개선하는 방안을 제안한다. 실험결과는 오류가 존재하는 말뭉치를 사용하여 구현된 HMM과 비터비 알고리즘을 적용한 태깅 정확도에 비해 오류를 수정하는 과정을 거친 후 정확도가 향상됨을 보여준다.

  • PDF