• Title/Summary/Keyword: 언어적 오류

Search Result 380, Processing Time 0.024 seconds

분석의 최종 판단자로서의 구문 분석기 (Parser as An Analysis Finisher)

  • 여상화
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 춘계학술발표대회
    • /
    • pp.677-680
    • /
    • 2004
  • 통상적인 언어 처리의 분석 과정은 전처리, 형태소분석, 품사 태깅, 복합 단위 인식, 구문 분석, 그리고 의미 분석 등의 여러 단계로 이루어진다. 분석의 매 단계에서 중의성(Ambiguity)가 발생하며, 이를 해결하기 위한 노력으로 구문 분석 이전의 분석 단계에서도 정확률(Precision)을 높이기 위해, 어휘(Lexical) 정보, 품사정보 그리고 구문 정보 등을 이용한다. 각 단계에서 고급 정보로서의 구문 정보 이용은 구문분석의 중복성과 분석 지식의 중복성을 야기한다. 또한, 기존의 처리 흐름에서는 각 분석 단계에서의 결과는 최종적인 것으로, 이로 인해 다음 분석 단계에 분석 오류를 전파한다. 본 논문에서는 구문 분석기를 분석 결과의 최종 판단자로 이용할 것을 제안한다. 즉, 구문 분석 전단계의 모든 분석 정보는 구문 분석기에 제공되고, 구문분석기는 상향식 구문분석을 수행하면서 이들 정보들로부터 최종의 그리고 최적의 분석 후보를 결정한다. 이를 위해 구문분석기는 한 문장 단위를 입력 받는 기존의 제한을 따르지 않는다. 제안된 방법은 구문분석 앞 단계에서의 잘못된 정보 제공(예: 문장 분리 오류, 품사 오류, 복합단위 인식 오류 등)으로부터 자유로우며, 이를 통해 분석 실패의 가능성을 최대로 줄인다.

  • PDF

중한 이메일 자동번역시스템 (A Chinese-Korean E-Mail Translation System)

  • 김운;권오욱;오영순;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.225-230
    • /
    • 2009
  • 본 논문에서는 중국어의 이메일 특성을 이용한 중한 대화체 자동번역 방법에 대하여 기술한다. 본 논문에서는 중국어와 한국어와 같이 언어 간의 어순이 다르고 이메일과 같이 특정한 도메인의 언어적 자원도 제한적인 특성을 고려하여 중국어 이메일 특성을 이용한 규칙 기반의 번역 방법을 시도하였다. 이를 위해, 본 논문에서는 중국어의 굳어진 표현이 많고, 한글자 단어 많으며, 입력 오류 많고, 청유 및 경어가 많은 이메일 특성 분석을 통해 그에 대응되는 처리 방법을 제안하였다. 그리고, 그 방법의 타당성을 증명하기 위해 규칙기반의 중한 뉴스 자동번역 시스템과 비교 실험을 하였으며, 규칙기반과 통계적 방법의 타당성 실험을 위해 Gmail과도 비교 실험을 하였다. 두 가지 비교 실험 결과, 본 논문에서 접근한 방법이 모두 우수하였으며, 그 타당성을 증명하였다.

  • PDF

한국어 문법 오류 교정 모델을 위한 문장 단위 디노이징 학습법 (Sentence Unit De-noising Training Method for Korean Grammar Error Correction Model)

  • 김훈래;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.507-511
    • /
    • 2022
  • 문법 교정 모델은 입력된 텍스트에 존재하는 문법 오류를 탐지하여 이를 문법적으로 옳게 고치는 작업을 수행하며, 학습자에게 더 나은 학습 경험을 제공하기 위해 높은 정확도와 재현율을 필요로 한다. 이를 위해 최근 연구에서는 문단 단위 사전 학습을 완료한 모델을 맞춤법 교정 데이터셋으로 미세 조정하여 사용한다. 하지만 본 연구에서는 기존 사전 학습 방법이 문법 교정에 적합하지 않다고 판단하여 문단 단위 데이터셋을 문장 단위로 나눈 뒤 각 문장에 G2P 노이즈와 편집거리 기반 노이즈를 추가한 데이터셋을 제작하였다. 그리고 문단 단위 사전 학습한 모델에 해당 데이터셋으로 문장 단위 디노이징 사전 학습을 추가했고, 그 결과 성능이 향상되었다. 노이즈 없이 문장 단위로 분할된 데이터셋을 사용하여 디노이징 사전 학습한 모델을 통해 문장 단위 분할의 효과를 검증하고자 했고, 디노이징 사전 학습하지 않은 기존 모델보다 성능이 향상되는 것을 확인하였다. 또한 둘 중 하나의 노이즈만을 사용하여 디노이징 사전 학습한 두 모델의 성능이 큰 차이를 보이지 않는 것을 통해 인공적인 무작위 편집거리 노이즈만을 사용한 모델이 언어학적 지식이 필요한 G2P 노이즈만을 사용한 모델에 필적하는 성능을 보일 수 있다는 것을 확인할 수 있었다.

  • PDF

새싹: 초보자를 위한 한글 객체 지향 프로그래밍 언어 (Saesark: A Korean Object-Oriented Programming Language for Beginners)

  • 천준석;우균
    • 한국콘텐츠학회논문지
    • /
    • 제16권3호
    • /
    • pp.288-295
    • /
    • 2016
  • 컴퓨터가 일상생활에 널리 사용됨에 따라 프로그래밍은 필수 기술로 떠오르고 있다. 프로그래밍 교육을 지원하기 위해서 우리나라는 2018년까지 프로그래밍 정규 과목을 개발할 계획을 추진하고 있다. 하지만 대부분의 프로그래밍 언어가 영어를 기반으로 하고 있기 때문에 우리나라의 프로그래밍 교육은 어려워지고 있으며 학생들도 집중력을 쉽게 잃을 수 있다. 이 논문에서는 우리나라 학생들의 프로그래밍 교육에 효과적인 한글 프로그래밍 언어 새싹을 제안하고 있다. 새싹은 Java를 바탕으로 개발하였으며, 객체지향 프로그래밍과 람다 식을 지원한다. 새싹의 교육 적합성을 평가하기 위해서 우리는 새싹을 다른 한글 프로그래밍 언어와 세 가지 측면에서, 즉 문법적 특성, IDE 지원, 한국어 오류 메시지 측면에서 비교하였다. 비교 결과, 새싹이 다른 한글 프로그래밍 언어보다 더 교육에 적합함을 알 수 있었다. 특히, IDE 기능과 한글로 출력되는 오류 메시지는 프로그래밍 초보자에게 도움이 많이 될 것으로 예상된다.

언어습득 이후 난청 성인 인공와우이식자의 음소 지각과 오류 (Phoneme Recognition and Error in Postlingually Deafened Adults with Cochlear Implantation)

  • 최아현;허승덕
    • 재활복지공학회논문지
    • /
    • 제8권3호
    • /
    • pp.227-232
    • /
    • 2014
  • 이 연구는 언어습득 이후 난청 성인의 인공와우 이식 후 음소 지각과 음소 지각에 오류 양상 등을 알아보고자 한다. 일측 인공와우를 1년 이상 사용한 23 세부터 79($49{\pm}14$) 세 사이의 21 명(m:f=13:8)의 자음 지각 검사를 이용하였다. 자음 지각 성적은 11~86 ($60{\pm}17$)%로 관찰되었고, 인공와우 교정청력(p< .046)을 제외한 술 전 청력, 난청 기간, 인공와우 이식 연령, 술 후 사용기간 등은 유의한 관계가 나타나지 않았다. 이는 언어발달이 정상적인 경우 다른 요인들 보다는 청력의 개선을 통한 청각적 자극이 자음지각에 가장 중요하다는 것을 시사한다. 음소 정답률은 마찰음(/ㅅ, ㅆ, ㅎ/)과 파찰음(/ㅈ, ㅉ, ㅊ/)이 71~92 ($79{\pm}7$)%로 파열음(/ㅂ, ㅃ, ㅍ, ㄷ, ㄸ, ㅌ, ㄱ, ㄲ, ㅋ/)과 유음(/ㄹ/) 및 비음(/ㅁ, ㄴ/)의 33~80 ($50{\pm}13$)%보다 높게 관찰되었다. 오류 양상은 조음 방법이 같은 음소들을 서로 혼동하는 경향을 보였으며, 이는 주파수의 미세한 변화나 강도의 시간적 변화를 변별하지 못한 것으로 보인다.

  • PDF

Error Correction for Korean Speech Recognition using a LSTM-based Sequence-to-Sequence Model

  • Jin, Hye-won;Lee, A-Hyeon;Chae, Ye-Jin;Park, Su-Hyun;Kang, Yu-Jin;Lee, Soowon
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권10호
    • /
    • pp.1-7
    • /
    • 2021
  • 현재 대부분의 음성인식 오류 교정에 관한 연구는 영어를 기준으로 연구되어 한국어 음성인식에 대한 연구는 미비한 실정이다. 하지만 영어 음성인식에 비해 한국어 음성인식은 한국어의 언어적인 특성으로 인해 된소리, 연음 등의 발음이 있어, 비교적 많은 오류를 보이므로 한국어 음성인식에 대한 연구가 필요하다. 또한, 기존의 한국어 음성인식 연구는 주로 편집 거리 알고리즘과 음절 복원 규칙을 사용하기 때문에, 된소리와 연음의 오류 유형을 교정하기 어렵다. 본 연구에서는 된소리, 연음 등 발음으로 인한 한국어 음성인식 오류를 교정하기 위하여 LSTM을 기반으로 한 인공 신경망 모델 Sequence-to-Sequence와 Bahdanau Attention을 결합하는 문맥 기반 음성인식 후처리 모델을 제안한다. 실험 결과, 해당 모델을 사용함으로써 음성인식 성능은 된소리의 경우 64%에서 77%, 연음의 경우 74%에서 90%, 평균 69%에서 84%로 인식률이 향상되었다. 이를 바탕으로 음성인식을 기반으로 한 실제 응용 프로그램에도 본 연구에서 제안한 모델을 적용할 수 있다고 사료된다.

학교 숲을 활용한 산림치유프로그램 활동이 다문화배경 학생들의 언어습득 향상과 자아탄력성에 미치는 영향 (Effects of Forest Healing Programs Using School Forests on Language Acquisition and Ego-resilience of Multicultural Background Students)

  • 장철순;신창섭;장병순
    • 한국환경생태학회지
    • /
    • 제33권3호
    • /
    • pp.333-340
    • /
    • 2019
  • 다문화 배경 학생들이 늘어남에 따라 이들의 교육에 대한 관심이 높아지고 있다. 본 연구에서는 숲이 가지고 있는 산림치유인자들과 요인들을 활용하여 다문화 배경 학생들의 언어습득향상과 자아탄력성에 미치는 영향을 알아보고자 하였다. 실험대상은 청주시 ${\bigcirc}{\bigcirc}$동에 위치한 다문화예비학교 중학생 남녀 각각 10명을 대상으로 방과 후에 산림치유프로그램을 운영하였다. 실험기간은 2018년 4월12일부터 2018년 6월26일까지 매주 1회씩 12회기로 1시간 (60분)씩 실시하였다. 산림치유프로그램은 숲에 존재하는 다양한 환경요소를 활용하여 인체의 면역력을 높이고 신체적 정신적 건강을 회복시키는 활동이다. 프로그램 실시 전과 후에 자아탄력성의 차이를 알아보기 위해 대응표본 t-test를 실시하고 그 자료는 SPSS 18.0 프로그램으로 분석하였다. 그 결과 자아탄력성은 긍정사고능력, 문제해결능력, 친밀행동능력, 감정조절능력, 자율행동능력 등 하위요인 모두에서 통계적으로 유의미하게 향상되었다(p<.001). 언어능력향상은 기술통계로 알아본 결과 쓰기의 오류, 발음의 오류, 문장의 오류, 시제의 오류, 조사 접속사의 오류 모두에서 향상되었다. 본 연구결과가 향후 중도입국자녀들이나 다문화 배경 학생들의 자아탄력성과 언어습득향상에 기초자료로 활용되기를 기대한다.

열악한 환경의 음성 언어 이해를 위한 정보 추출 접근 방식 (An Information Extraction Approach for Spoken Language Understanding in a Hostile Environment.)

  • 은지현;이창기;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.20-24
    • /
    • 2004
  • 본 논문에서는 환경 잡음과 원거리 음성 입력 그리고 노인 발화 등의 열악한 음성 인식 환경에서의 음성 언어이해(spoken language understanding)를 위한 정보 추출 접근 방식에 대해 논하고 있다. 정보 추출의 목적은 미리 정의된 slot에 적절한 값을 찾는 것이다. 음성 언어 이해를 위한 정보 추출은 필수적인 요소만을 추출하는 것을 목적으로 하는 개념 집어내기(concept spotting) 접근 방식을 사용한다. 이러한 방식은 미리 정의된 개념 구조 slot에만 관심을 가지기 때문에. 음성 언어 이해에서 사용되는 정보 추출은 언어를 완전히 이해한다기보다는 부분적으로 이해하는 방식을 취하고 있다. 음성 입력 언어는 주로 열등한 인식 환경에서 이루어지기 때문에 많은 인식 오류를 가지고 이로 인해 텍스트 입력에 비해 이해하기 어렵다. 이러한 점을 고려하여, 특정 정보에 집중함으로써 음성 언어를 이해하고자 시도하였다. 도로 정보 안내 영역을 대상으로 한 실험에서 텍스트 입력(WER 0%)과 음성 입력(WER 39.0%)이 주어졌을 때, 개념 집어내기 방식의 F-measure 값은 각각 0.945, 0.823을 나타내었다.

  • PDF

중국어를 학습하는 한국어 모국어 화자의 중국어 성조 지각과 산출 (Perception and production of Mandarin lexical tones in Korean learners of Mandarin Chinese)

  • 고성실;최지연
    • 말소리와 음성과학
    • /
    • 제12권1호
    • /
    • pp.11-17
    • /
    • 2020
  • 비성조 모국어 화자가 성조 언어를 학습할 때 모국어에 없는 성조 체계 학습에 어려움을 보인다. 본 연구는 비성조 언어인 한국어 모국어 성인 화자가 중국어를 학습할 때 중국어 성조의 지각과 산출에서 어떤 어려움을 보이는지 규명하고자 하였다. 추가적으로 중국어 분절음이 한국어와 유사하지 않을 경우 초분절음인 성조 지각 및 산출에 어려움을 가중시키는지 알아보기 위해 중국어 자음의 한국어 자음과의 유사성을 조작하여 실험을 진행하였다. 실험 결과, 지각과 산출 간 정확도 및 반응시간이 각 성조 별로 차이를 보였다. 즉, 1성과 2성에서는 지각 과제에서 산출 과제에 비해 어려움을 보인 반면 3성에서는 산출 과제에서 지각 과제보다 어려움을 보였다. 오류 패턴 분석 결과, 지각 과제에서 2성과 3성을 서로 혼동을 하는 반면 산출 과제에서는 2성을 3성으로 산출하는 오류는 줄어들고 3성을 2성으로 산출하는 오류가 증가한 것을 보였다. 마지막으로, 한국어 유사성의 조작은 성조의 지각 및 산출에 영향을 주지 않았다.

한국어 환경에서 XML을 이용한 다국어정보 입력 (Multilanguage data input in Korean environments using XML)

  • 정휘웅;윤애선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.213-218
    • /
    • 2001
  • 최근 인터넷의 보급은 사용자들에게 많은 다국어 정보를 제공하게 되었다. 그러나 정작 각 국가의 언어를 입력하기 위해서는 자주 자판세트를 변경해야만 하며, 각 국가별 자판 세트가 다르기 때문에 많은 입력 오류를 감수해야 한다. 이를 위해 본 연구진에서는 과거 한국어 환경에서 다국어 지원을 위한 많은 보조 환경을 구축하였으나, 언어 코드의 특성으로 인해 상세한 환경 설정은 전산 전문가의 도움을 통해야 했고, 언어 환경 구축 및 자판 세트 교정에 많은 어려움을 겪었다. 이러한 문제점을 해결하기 위해 본 연구에서는 XML을 이용하여 일반 윈도우기반 컨트롤에서 다국어 정보를 손쉽게 입력할 수 있는 XML DTD와 입력 보조 클래스를 개발하였다. 본 연구결과물을 이용할 경우 일반 언어전문가들이 자신만의 자판 입력세트를 손쉽게 구성할 수 있으며, 이를 운영하는 시스템의 크기도 매우 줄어들어, 전체적인 컴퓨터 운영 효율성을 상승시키는 효과를 거둘 수 있다.

  • PDF