• 제목/요약/키워드: 언어적 오류

검색결과 385건 처리시간 0.025초

언어 지식과 통계 정보의 보완적 특성을 이용한 품사 태깅 (Part-of-Speech Tagging Using Complemental Characteristics of Linguistic Knowledge and Stochastic Information)

  • 임희석;김진동;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.102-108
    • /
    • 1997
  • 기존의 품사 태깅 방법에서 독립적으로 사용해온 언어 지식과 통계 정보는 품사 태깅의 정확도와 처리 범위의 향상을 위해서 상호 보완적인 특성을 갖는다. 이에 본 논문은 언어 지식과 통계 정보의 보완적 특성을 이용한 규칙 우선 직렬 품사 태깅 방법을 제안한다. 제안된 방법은 언어 지식에 의한 품사 태깅 결과를 선호함으로써 규칙 기반 품사 태깅의 정확도를 유지하며, 언어 지식에 의해서 모호성이 해소되지 않은 어절에 통계 정보에 의한 품사 태깅 결과를 할당함으로써 통계 기반 품사 태깅의 처리 범위를 유지한다. 또한, 수정 언어 지식에 의해 태깅 결과의 오류를 보정함으로써 품사 태깅의 정확도를 향상시킨다. 약 2만 어절 크기의 외부 평가 코퍼스에 대해 수행된 실험 결과, 규칙 우선 직렬 품사 태깅 시스템은 통계 정보만을 이용한 품사 태깅의 정확도보다 32.70% 향상된 95.43%의 정확도를 보였다.

  • PDF

로봇 프로그래밍 학습에서 문제해결력에 영향을 미치는 오류요소 (Influential Error Factors of Robot Programming Learning on the Problem Solving Skill)

  • 문외식
    • 정보교육학회논문지
    • /
    • 제12권2호
    • /
    • pp.195-202
    • /
    • 2008
  • 로봇을 이용한 프로그래밍 학습은 획일적이고 정형화된 기존 교육환경에서 벗어나 미래사회의 창의적 학습을 미리 경험할 수 있으며 수학 및 과학의 가장 기초가 되는 알고리즘을 이해하고 향상시키는데 가장 적절한 학습방법이다. 본 연구에서는 초등학생들이 로봇프로그래밍 시 나타날 수 있는 오류의 유형들을 제안하였으며 학습을 위한 교육과정을 개발한 후 초등학생 5, 6학생들을 대상으로 로봇프로그래밍 학습을 시켰다. 학습과정에서 발생한 오류들을 수집하고 분류하였으며 또한, 기존 연구된 컴퓨터기반 프로그래밍언어와 비교 분석하였다. 본 연구에서의 로봇프로그래밍 실행경험을 통해 컴퓨터기반 프로그래밍에서 창의성학습에 큰 장애요소로 평가된 오류요소들 즉, 프로그램사용 미숙으로 인한 오류, 단순한 오타, 문법오류 그리고 코딩실수 등을 전체 오류의 약 21%로 나타나 기존 컴퓨터기반 프로그래밍언어 학습에서 조사된 오류비율(약 53%)에 비해 현저하게 줄어드는 것으로 분석되었다. 이러한 오류의 감소는 초등학생들의 흥미도와 성취도 향상을 위한 주요요소로 판단된다. 따라서, 학습과정에서 보다 많은 논리 및 문제해결을 위한 요소들에 노출되어 있어 창의성 알고리즘 학습에 매우 효과적임을 알 수 있다.

  • PDF

최대 엔트로피 모델을 이용한 텍스트 단위화 학습 (Learning Text Chunking Using Maximum Entropy Models)

  • 박성배;장병탁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.130-137
    • /
    • 2001
  • 최대 엔트로피 모델(maximum entropy model)은 여러 가지 자연언어 문제를 학습하는데 성공적으로 적용되어 왔지만, 두 가지의 주요한 문제점을 가지고 있다. 그 첫번째 문제는 해당 언어에 대한 많은 사전 지식(prior knowledge)이 필요하다는 것이고, 두번째 문제는 계산량이 너무 많다는 것이다. 본 논문에서는 텍스트 단위화(text chunking)에 최대 엔트로피 모델을 적용하는 데 나타나는 이 문제점들을 해소하기 위해 새로운 방법을 제시한다. 사전 지식으로, 간단한 언어 모델로부터 쉽게 생성된 결정트리(decision tree)에서 자동적으로 만들어진 규칙을 사용한다. 따라서, 제시된 방법에서의 최대 엔트로피 모델은 결정트리를 보강하는 방법으로 간주될 수 있다. 계산론적 복잡도를 줄이기 위해서, 최대 엔트로피 모델을 학습할 때 일종의 능동 학습(active learning) 방법을 사용한다. 전체 학습 데이터가 아닌 일부분만을 사용함으로써 계산 비용은 크게 줄어 들 수 있다. 실험 결과, 제시된 방법으로 결정트리의 오류의 수가 반으로 줄었다. 대부분의 자연언어 데이터가 매우 불균형을 이루므로, 학습된 모델을 부스팅(boosting)으로 강화할 수 있다. 부스팅을 한 후 제시된 방법은 전문가에 의해 선택된 자질로 학습된 최대 엔트로피 모델보다 졸은 성능을 보이며 지금까지 보고된 기계 학습 알고리즘 중 가장 성능이 좋은 방법과 비슷한 성능을 보인다 텍스트 단위화가 일반적으로 전체 구문분석의 전 단계이고 이 단계에서의 오류가 다음 단계에서 복구될 수 없으므로 이 성능은 텍스트 단위화에서 매우 의미가 길다.

  • PDF

문장틀 기반 Sequence to Sequence 구어체 문장 문법 교정기 (Template Constrained Sequence to Sequence based Conversational Utterance Error Correction Method)

  • 정지수;원세연;서혜인;정상근;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.553-558
    • /
    • 2022
  • 최근, 구어체 데이터에 대한 자연어처리 응용 기술이 늘어나고 있다. 구어체 문장은 소통 방식 등의 형태로 인해 정제되지 않은 형태로써, 필연적으로 띄어쓰기, 문장 왜곡 등의 다양한 문법적 오류를 포함한다. 자동 문법 교정기는 이러한 구어체 데이터의 전처리 및 일차적 정제 도구로써 활용된다. 사전학습된 트랜스포머 기반 문장 생성 연구가 활발해지며, 이를 활용한 자동 문법 교정기 역시 연구되고 있다. 트랜스포머 기반 문장 교정 시, 교정의 필요 유무를 잘못 판단하여, 오류가 생기게 된다. 이러한 오류는 대체로 문맥에 혼동을 주는 단어의 등장으로 인해 발생한다. 본 논문은 트랜스포머 기반 문법 교정기의 오류를 보강하기 위한 방식으로써, 필요하지 않은 형태소인 고유명사를 마스킹한 입력 및 출력 문장틀 형태를 제안하며, 이러한 문장틀에 대해 고유명사를 복원한 경우 성능이 증강됨을 보인다.

  • PDF

IEC1131-3 표준언어 처리를 위한 지능적 소프트웨어 PLC 개발 (Development of an Intelligent Software Programmable Logic Controller for IEC1131-3 International Standard Languages)

  • 조영임
    • 한국지능시스템학회논문지
    • /
    • 제14권2호
    • /
    • pp.207-215
    • /
    • 2004
  • IEC1131-3의 PLC(Programmable Logic Controller) 프로그래밍 언어는 프로그래밍이 복잡하여 디버깅이 어려우며 범용성이 없을 뿐 아니라 국내는 PC기반 소프트웨어 PLC 연구개발이 매우 미약하다. 따라서 본 논문은 국제 PLC 표준언어로 제정된 5가지 언어 중 국내에서 90%이상을 사용하고 있는 PLC 언어인 LD언어에 대한 표준규격을 연구하고, LD를 기존 상용화된 편집기(Visual C++)에서 활용 가능한 C코드로 변환하여 LD에 익숙한 사용자나 고급언어에 익숙한 사용자 모두 사용할 수 있는 지능적 에이전트 기반의 통합 시스템 ISPLC(Intelligent Agent System based Software Programmable Logic Controller)를 개발하였다. ISPLC에서는 LD에서보다 C에서 논리오류 검출기능이 훨씬 효율적이며, GUI 기반 인터페이스를 제공하며 에이전트에 의한 프로그래밍 코드를 제공한다. ISPLC는 초보자는 물론 PLC에 익숙한 사용자들에게도 효율적인 프로그래밍 플랫폼을 제공한다. 이러한 LD에서 IL로, IL에서 C로의 코드변환체제에 관한 연구는 국내외적으로 처음 시도되는 연구이다. ISPLC를 실제 실시간 교통량 제어 시스템에 적용하여 시뮬레이션한 결과 ISPLC가 오류검색 뿐 아니라 프로그래밍 시간을 기존 소프트에어 PLC에 비해 단축시켜줌을 알 수 있었다.

띄어쓰기가 관형어절 이해에 미치는 영향 (Effects of Spacing Words on Reading Adnominal Eojeol)

  • 김지혜;남기춘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.251-254
    • /
    • 2009
  • 띄어쓰기는 한글 맞춤법에 명시되어 있는 규정에 따르면 되지만, 근본적으로 명확한 정의가 내려있지 않으며 복잡하고 애매모호한 기준들이 얽혀 사용자들이 혼란을 겪는 등 많은 오류를 일으키고 있다. 이에 맞춤법 오류에 대한 원인을 찾아 체계적인 교육이 이루어지거나, 맞춤법을 수정 및 보완할 필요성이 있다 하겠다. 본 연구는 사용자들의 편의성을 우선시하여 맞춤법에 있어 논리적 근거를 마련하고 한국어 정보처리의 양상을 살펴보는 것에 의의가 있다. 이에 비교적 띄어쓰기 기준이 명확한 관형어절에 초점을 두어 띄어쓰기가 읽기에 어떤 영향을 미치는지 알아보고자 실시하였다. '관형사 + 명사' 구조와 '~적 + 명사' 구조의 관형어절이 포함된 104개의 문장을 가지고 2개의 목록을 만들었다. 목록 간에는 띄어쓰기 여부가 반대이며 피험자는 목록 중 하나를 경험하였다. 하나의 문장을 끊어서 제시하여 피험자는 읽는 데로 space bar key를 누르는 자기 읽기 조절 과제를 시행하였고, 이어서 문장에 대한 질문을 통해 이해도 검사를 실시하였다. 관형어절을 읽는 평균 속도를 분석한 결과 미세한 차이가 있었으나, 유의미하지는 않았다. 이는 관형어절에 있어서 띄어쓰기의 영향이 크지 않음을 의미한다고 볼 수 있겠다.

  • PDF

음절단위 bigram정보를 이용한 한국어 단어인식모델 (A Statistical Model for Korean Text Segmentation Using Syllable-Level Bigrams)

  • 신중호;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.255-260
    • /
    • 1997
  • 일반적으로 한국어는 띄어쓰기 단위인 어절이 형태소 분석의 입력 단위로 쓰이고 있다. 그러나 실제 영역(real domain)에서 사용되는 텍스트에서는 띄어쓰기 오류와 같은 비문법적인 형태도 빈번히 쓰이고 있다. 따라서 형태소 분석 과정에 선행하여 적합한 형태소 분석의 단위를 인식하는 과정이 이루어져야 한다. 본 연구에서는 한국어의 음절 특성을 이용한 형태소분석을 위한 어절 인식 방법을 제안한다. 제안하는 방법은 사전에 기반하지 않고 원형코퍼스(raw corpus)로부터의 필요한 음절 정보 및 어휘정보를 추출하는 방법을 취하므로 오류가 포함된 문장에 대하여 견고한 분석이 가능하고 많은 시간과 노력이 요구되는 사전구축 및 관리 작업을 필요로 하지 않는다는 장점이 있다. 한국어 어절 인식을 위하여 본 논문에서는 세가지 확률 모텔과 동적 프로그래밍에 기반한 인식 알고리즘을 제안한다. 제안하는 모델들을 띄어쓰기 오류문제와 한국어 복합명사 분석 문제에 적용하여 실험한 결과 82-85%정도의 인식 정확도를 보였다.

  • PDF

확률 발음사전을 이용한 대어휘 연속음성인식 (Large Vocabulary Continuous Speech Recognition using Stochastic Pronunciatioin Lexicon Modeling)

  • 윤성진
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1998년도 제15회 음성통신 및 신호처리 워크샵(KSCSP 98 15권1호)
    • /
    • pp.315-319
    • /
    • 1998
  • 대어휘 연속음성인식을 위한 확률 발음사전 모델에 대해서 제안하였다. 제안된 확률 발음 사전은 연속음성과 같은 자연스런 발성에서 자주 발생되는 단어의 변이를 확률적인 subword-state로 이루어진 HMM으로 모델화 함으로써 단어의 발음 변이를 효과적으로 표현할 수 있으며, 단위 인식 시스템의 성능을 보다 높일 수 있도록 구성되었다. 확률 발음사전의 생성은 음성 자료와 음소 모델을 이용하여 단어 단위의 분할과 학습을 통해서 자동으로 생성되게 됨 음소와 같은 언어학적인 단위뿐만 아니라 PLU 이나 비언어학적인 인식 모델을 이용한 연속음성인식기에도 적용이 가능하다.연속음성인식실험결과 확률 발음사전을 사용함으로써 표준 발음 표기를 사용하는 인식 시스템에 비해 단어 오류율은 39.8%, 문장 오류율은 24.4%의 큰 폭으로 오류율을 감소시킬 수 있었다.

  • PDF

프랭크 게리의 조형 언어의 변천과정에 대한 분석 연구 (An Analytical Study on the Transformation Process of the Design Language of Frank O. Gehry)

  • 이영화
    • 디자인학연구
    • /
    • 제16권2호
    • /
    • pp.219-232
    • /
    • 2003
  • 본 연구는 조형언어의 변화가 심하여 일관성을 찾기 어려운 작가로 알려진 프랭크 게리의 조형작업 및 언어의 변천과정에 대한 분석 연구이다. 게리의 작업은 일관성이 없이 "우연"이나 "혁명적 변화" 혹은 "즉흥성"에만 의존하는 것으로 알려져 왔으나, 본 연구를 통하여 연구자는 그의 작업 및 조형언어의 변화는 오히려 일관된 주제를 가지고 하나의 방향으로 "필연적인 진화"를 하고 있음을 주장하였다. 게리의 작업시기를 4 시기로 분류하고 공시적, 통시적으로 그 특징들을 고찰, 분석한 결과 게리는 공시적 상황들을 주제로 하고 그것을 메타포를 통하여 가시화하기 위하여 재료와 형태를 수단으로 이용하고 있음을 알 수 있었다. 따라서 본 연구자는 이러한 필연적인 진화과정으로서의 형태언어를 지닌 게리를 해체주의자로 분류하는 것은 오류임을 지적하였다. 형태언어를 지닌 게리를 해체주의자로 분류하는 것은 오류임을 지적하였다.

  • PDF

수학 문장제 해결에 영향을 주는 언어적.인지적 요인 -혼합물 문제를 중심으로- (Linguistic and Cognitive Factors that Affect Word Problem Solving)

  • 김선희
    • 대한수학교육학회지:수학교육학연구
    • /
    • 제14권3호
    • /
    • pp.267-281
    • /
    • 2004
  • 방정식의 활용 문제로 다루어지는 문장제는 학생들의 흥미를 유도하고 수학의 유용성을 보여줄 수 있는 것이지만, 학생들이 해결하기에는 여러 어려움이 있다. 본 연구는 학생들이 수학 문장제를 해결하는데 영향을 줄 수 있는 요인들을 언어적 측면과 인지적 측면에서 조사하였다. 언어적 요인에는 텍스트 기반, 실세계, 상황 모델이 있었는데, 학생들은 문장의 텍스트 기반에서 방정식의 상황 모델로 해석하는 것을 어렵게 생각하고 있었으며, 상황 모델에서 학생들은 많은 오류를 보였다. 인지적 측면에서는 방정식을 세우는 스키마와 해결 전략, 식의 복잡성 수준을 조사하였는데, 방정식을 세울 때 학생들은 복잡성 수준을 고려하기보다는 교사의 지도 내용에 따라 전략을 선택하는 경향이 있었다. 그리고 설탕의 양이나 농도, 설탕물의 양을 혼동하는 경향이 강했다. 본 연구의 결과를 통해 문장제에서 학생들에게 제시되는 문제가 해결하기에 얼마나 복잡한지, 학생들이 주로 어떤 전략을 선택하는지, 방정식의 문제 유형별로 발생하는 오류에 대해 알 수 있었다.

  • PDF