• 제목/요약/키워드: 문장정렬

검색결과 36건 처리시간 0.021초

한영 병렬 코퍼스 구축을 위한 하이브리드 기반 문장 자동 정렬 방법 (A Hybrid Sentence Alignment Method for Building a Korean-English Parallel Corpus)

  • 박정열;차정원
    • 대한음성학회지:말소리
    • /
    • 제68권
    • /
    • pp.95-114
    • /
    • 2008
  • The recent growing popularity of statistical methods in machine translation requires much more large parallel corpora. A Korean-English parallel corpus, however, is not yet enoughly available, little research on this subject is being conducted. In this paper we present a hybrid method of aligning sentences for Korean-English parallel corpora. We use bilingual news wire web pages, reading comprehension materials for English learners, computer-related technical documents and help files of localized software for building a Korean-English parallel corpus. Our hybrid method combines sentence-length based and word-correspondence based methods. We show the results of experimentation and evaluate them. Alignment results from using a full translation model are very encouraging, especially when we apply alignment results to an SMT system: 0.66% for BLEU score and 9.94% for NIST score improvement compared to the previous method.

  • PDF

메신저 맞춤법 교정 병렬 말뭉치의 구축과 쟁점 (Construction of a Parallel Corpus for Instant Messenger Spelling Correction and Related Issues)

  • 황은하;안진산;남길임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.545-550
    • /
    • 2022
  • 본 연구의 목적은 2021년 메신저 언어 200만 어절을 대상으로 수행된 맞춤법 교정 병렬 말뭉치의 설계와 구축의 쟁점을 소개하고, 교정 말뭉치의 주요 교정 및 주석 내용을 기술함으로써 맞춤법 교정 병렬 말뭉치의 특성을 분석하는 것이다. 2021년 맞춤법 교정 병렬 말뭉치의 주요 목표는 메신저 언어의 특수성을 살림과 동시에 형태소 분석이나 기계 번역 등 한국어 처리 도구가 분석할 수 있는 수준으로 교정하는 다소 상충되는 목적을 구현하는 것이었는데, 이는 교정의 수준과 병렬의 단위 설정 등 상당한 쟁점을 내포한다. 본 연구에서는 말뭉치 구축 시점에서 미처 논의하지 못한 교정 수준의 쟁점과 교정 전후의 통계적 특성을 함께 논의하고자 하며, 다음과 같은 몇 가지 하위 내용을 중심으로 논의하고자 한다.첫째, 맞춤법 교정 병렬 말뭉치의 구조 설계와 구축 절차에 대한 논의로, 2022년 초 국내 최초로 공개된 한국어 맞춤법 교정 병렬 말뭉치('모두의 말뭉치'의 일부)의 구축 과정에서 논의되어 온 말뭉치 구조 설계와 구축 절차를 논의한다. 둘째, 문장 단위로 정렬된 맞춤법 교정 말뭉치에서 관찰 가능한 띄어쓰기, 미등재어, 부호형 이모티콘 등의 메신저 언어의 몇 가지 특성을 살펴본다. 마지막으로, 2021년 메신저 맞춤법 교정 말뭉치의 구축 단계에서 미처 논의되지 못한 남은 문제들을 각각 데이터 구조 설계와 구축 차원의 주요 쟁점을 중심으로 논의한다. 특히 메신저 맞춤법 병렬 말뭉치의 주요 목표인 사전학습 언어모델의 학습데이터로서의 가치와 메신저 언어 연구의 기반 자료 구축의 관점에서 맞춤법 교정 병렬 말뭉치 구축의 의의와 향후 과제를 논의하고자 한다.

  • PDF

경상 방언 내포문 의문사의 작용역 범주 지각 양상과 반응 속도 연구 (Patterns of categorical perception and response times in the matrix scope interpretation of embedded wh-phrases in Gyeongsang Korean)

  • 윤원희
    • 말소리와 음성과학
    • /
    • 제15권2호
    • /
    • pp.1-11
    • /
    • 2023
  • 경상 방언 내포문 의문사의 작용역 지각 반응 시간과 범주 지각의 양상을 분석하였다. 지각 실험을 위한 자극은 내포문 의문사가 모문 작용역을 갖는 문맥이 주어진 하나의 문장을 40명의 화자가 발화한 것으로, 지각 실험은 24명이 참가하였다. 피험자는 40개의 자극에 대해 모문 작용역(설명 의문문)인지 또는 내포문 작용역(판정 의문문)인지를 선택하게 하는 강제 선택 실험을 3회 진행하고 그 반응 시간을 기록하였다. 모문 작용역 응답 수를 기준으로 자극을 정렬한 후 작용역 응답에 따른 반응 시간을 정렬 순서에 따라 시각화한 결과 모문과 내포문 작용역 응답이 범주적 지각의 결과임이 분명히 나타났으나, 이에 따른 반응 시간의 차이는 크게 나타나지 않았다. 화자에 따른 범주 지각 양상으로 볼 때, 작용역 해석에 영향을 주는 요인은 형태/통사적 제약과 운율 구조적 완결성으로 보이며, 한 요인의 가중치는 다른 요인의 가중치와 반비례 관계에 있는 것으로 해석할 수 있다.

보편적 학습 설계에 근거한 영어과 디지털 교과서 개선 방안 (Prospective Changes of English Digital Textbook Based on the Universal Design for Learning)

  • 김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제15권7호
    • /
    • pp.674-683
    • /
    • 2015
  • 본 연구의 목적은 보편적 학습 설계 준거를 제시하고 이 준거를 활용하여 현재 실험학교에서 운용되고 있는 영어과 디지털교과서를 분석함에 있다. 보편적 학습 설계 준거를 기준으로 디지털 교과서가 학년과 학급급간에 의사소통기능별로 어떠한 양상을 보이고 있는지를 분석하여 디지털 교과서의 개선 방향을 모색하고자 한다. 디지털 교과서의 분석 결과를 살펴보면 우선 학습자들 중에 언어적 적성이 있는 학생들에게 친화적인 환경으로 구성되어 있고 다른 적성의 학생들은 불리하게 구성되어 있어서 이를 보완할 필요가 있다. 어휘의 계열성은 학년이 올라감에 따라서 적절하게 복잡도가 증가하고 있으나 통사적 복잡성은 중학교에서 갑자기 문장당 어휘수가 급격하게 올라가면서 보편적 학습 설계 준거를 만족시키지 못하고 있어서 이에 대한 보완이 시급하다. 서책형 교과서와 달리 디지털 교과서는 멀티미디어 자원의 통합이 용이하고 볼륨의 제한을 받지 않기 때문에 근본적으로 디지털 교과서를 구성할 때에 이를 사용하는 학습자들이 가진 언어적 적성 외에 다양한 적성을 고려할 필요가 있다.

의사소통식 영어 발음지도

  • 김정렬
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 1997년도 7월 학술대회지
    • /
    • pp.45-60
    • /
    • 1997
  • 의사소통식 영어교수법은 Widdowson (1978)이래, 과거 20여 년간의 여러 외국어 교수 방법들을 (침묵식 교수법, Gattegno; 자연적 교수법, Terrell & Krashen; 전신반웅 교수법, Asher; 집단언어 학습법, Curran; 암시적 교수법, Lozanov) 거치면 서, 이들 중에서 의사소통을 중심으로 한 여러 가지 방법을 총괄하여, 명실공히 외국어 교육 방법의 중심으로 그 자리를 갈수록 확고히 잡아가고 있다. 의사소통식 교수법은 우선 언어란 의사소통을 위한 수단이며, 의사소통은 사회 속에서 일어나는 사회 언어적 행위로 본다. 따라서, 외국어 교육의 목적을 무엇보다도 의사소통 기능의 숙달에 두는 것이다. 일반적인 의사소통 상황을 보면 발화내용의 문법적 정확성은 그 상황에 대한 내용의 적절성 여부에 비하면, 부수적인 것이다. 예를 들면, 사과를 하는 의사소통기능을 공부하면서, 사과하는 표현으로 Sorry라는 말을 썼다고 하자. 이때, 영어는 주어 생략 언어가 아니기 때문에, Sorry 대신에 문법적으로 완전한 문장인 I'm sorry 로 표현해야 한다는 문법적인 문제보다는 사과하는 표현이 그 상황에서 적절하게 쓰인 것인지를 묻는 것에 초점을 맞춘 것이 의사소통식 교수 방법이다. 현재, 초등학교 16 종 영어 교과서도 의사소통 기농들을 적절한 상황에 맞춰서 의사소통식 교수 방법의 정신을 비교적 잘 반영하고 있다. 그러나, 발음에서만큼은 아직도 의사소통식 교수방법을 무시하고, 정확한 발음의 명시적인 설명이나, 예시에 그치는 경향이 뚜렷하다. 이러한 경향은 교육부에서 고시한 제6차 교육과정과 이에 따른 해설서에서 되풀이되고 있다. 발음지도에 많은 관심을 기울여 많은 양의 지면을 할애하고 있음에도 불구하고, 전후에 흐르는 의사 소통식 영어교육의 맥을 완전히 끊고, 단지 정확한 발음의 해부학적 예시와 기술에 그 치고 있다 (임영재 외 1995). 이러한 발음기관의 단면도를 이용한 해부학적 발음의 예시는 특정 자음의 정확한 혀의 위치를 알려 줄 수는 있지만, 발음훈련을 대신하지는 못한다. 예를 들어, 자전거를 타고자 하는 사람이 자전거의 페달을 밟았을 때, 그 동력전달 과정을 자세히 소개한 책자를 읽었다고 해서, 자전거를 탈 수 있는 것은 아니다. 역시, 자전거를 타고자 하면, 실제로 타고 넘어지면서 배우게 되는 것이다. 그리고, 발음훈련의 경우 교재의 내용이나 의사소통 기능은 의사소통식으로 가르치면서도 발음만큼은 아직도 원어민의 입모양을 활용한 듣고 따라하기 식의 전통적인 방법의 발음훈련을 계속하고 있다. 이러한 전통적 발음훈련 방법은 구체적으로 다음 장에서 제시되겠지만, 초등학교에서 듣고 따라하기나 듣고 골라내기와 같은 방법으로 발음훈련을 하면, 많은 학생들이 쉽게 지루해 하고, 아마 영어시간 중에서 가장 싫어하는 시간이 발음연습 시간이 될 가능성이 많이 있다. 현재 의사소통식 교수 방법을 모태로 한 교과서에서도 의사소통식 발음지도법을 쓰지 않았다는 것은 새로이 시작하는 초등학교 영어교육에서 아쉬운 점이라 아니할 수 없다. 초등학교 학생들에 대한 발음 지도의 핵심은 그들의 지적, 정서적, 신체적 특징을 잘 고려해야 한다. 초등학교 학생은 지적, 정서적, 신체적으로 성장기에 있어서, 호기심이 많고, 모방성이 강하며, 감수성이 예민하여 마음에 상처를 받기도 쉽다. 그리고, 무엇보다도, 끊임없이 신체적으로 움직이고 싶어한다. 이러한 학생들의 특정 을 반영하여 발음을 지도하는 길은 역시 초등학교 교과서의 다른 영역들처럼, 학생들은 움직이는 활동을 하면서 재미를 느끼고, 교사는 이들 활동을 통해서 교수목표를 성취하는 쪽으로 맞추어야 한다. 본 논문에서는 먼저 발음지도가 필요한 이유와 요인을 살펴본다. 그리고, 전통적인 발음지도 방법을 일별해 보고, 의사소통식 발음지도법을 제시하는 순으로 논의를 전개하기로 한다.

  • PDF

자연어 처리 및 협업 필터링 기반의 전장상황 관련 문서 자동탐색 및 요약 기법연구 (A Study on Automatic Discovery and Summarization Method of Battlefield Situation Related Documents using Natural Language Processing and Collaborative Filtering)

  • 김건영;이정빈;손미애
    • 인터넷정보학회논문지
    • /
    • 제24권6호
    • /
    • pp.127-135
    • /
    • 2023
  • 정보통신기술이 발달함에 따라 전투공간에서 생산·공유되는 정보 및 체계 내 저장·관리되는 정보의 양이 폭발적으로 증가하였다. 이는 지휘관이 전장상황 인식 및 지휘결심을 수행하는 데에 활용할 수 있는 정보의 양이 증가하였음을 의미하지만, 한편으로는 지휘관의 정보 부담을 증가시킴으로써 신속한 지휘결심을 저해하는 요인이 되기도 한다. 이러한 한계를 극복하기 위해, 본 연구에서는 지휘관이 전장상황 보고 문서를 수신하였을 때, 체계 내 보유 문서 중에서 이를 해석하는 데에 도움을 줄 수 있는 문서들을 자동적으로 탐색 및 선별하고 요약하는 기법을 제안하였다. 첫째로, 개체명 인식 방법을 활용하여 수신된 전장상황 보고 문서로부터 개체들을 식별한다. 둘째로, 각 개체와 관련된 체계 내 보유 문서들을 탐색한다. 셋째로, 언어모델과 협업 필터링을 활용하여 이러한 문서들을 선별한다. 이때 언어모델은 수신된 보고 문서와 탐색된 문서 간의 유사도를 산출하기 위해 활용되고, 협업 필터링은 지휘관의 문서 열람 히스토리를 반영하기 위해 활용된다. 마지막으로, 선별된 문서들로부터 각 개체가 포함된 문장을 선별하고 이를 정렬한다. 실험은 군 문서와 비슷한 특성을 지니는 학술논문들을 활용하여 수행하였고, 제안된 방법의 타당성을 검증하였다.