• Title/Summary/Keyword: 분류의 오류

Search Result 653, Processing Time 0.026 seconds

Automatic Text Categorization Using Hybrid Multiple Model Schemes (하이브리드 다중모델 학습기법을 이용한 자동 문서 분류)

  • 명순희;김인철
    • Journal of the Korean Society for information Management
    • /
    • v.19 no.4
    • /
    • pp.35-51
    • /
    • 2002
  • Inductive learning and classification techniques have been employed in various research and applications that organize textual data to solve the problem of information access. In this study, we develop hybrid model combination methods which incorporate the concepts and techniques for multiple modeling algorithms to improve the accuracy of text classification, and conduct experiments to evaluate the performances of proposed schemes. Boosted stacking, one of the extended stacking schemes proposed in this study yields higher accuracy relative to the conventional model combination methods and single classifiers.

Comparison of Reading, Writing Fluency of the Underachieving Children and Stuttering Children and School-Aged Children (학령기 말더듬아동의 읽기유창성 및 쓰기유창성 비교연구)

  • Park, Jin-Won
    • The Journal of the Korea Contents Association
    • /
    • v.14 no.8
    • /
    • pp.476-484
    • /
    • 2014
  • The purpose of this study was to investigate the characteristics of reading, writing fluency of the underachieving children and stuttering children and school-aged children and frequency of errors. The participants were 15 underachieving children and 15 stuttering children and 15 school-aged children without disabilities. All participants were required to conduct reading, writing, speaking tasks. First, work for the reading tasks were different among the underachieving children and stuttering children and school-aged children. Second, writing tasks were not different among the groups in the writing fluency, but it was lacking in accuracy, which is stuttering, speaking fluency as well as their language fluency is suggesting the need for diagnosis and intervention. Third, this type of errors of writing tasks is showed higher levels of ommission, substitution, grammatical errors in the underachieving children group. The therapy of reading of stuttering also consider a treatment program that can be configured in the combined writing tasks.

Syntactic and Semantic Integration Processes during Korean Sentence Comprehension: using ERPs as an neurophysiological index (ERP로 확인된 한국어 문장 이해과정에서의 통사 및 의미 처리특성 연구)

  • Kim, Choong-Myung;Lee, Kyoung-Min
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.259-263
    • /
    • 2004
  • 본 연구는 머리어-후행언어(head-final language)로 분류되는 한국어의 통사 및 의미 처리 과정의 언어간(cross linguistic) 일반성과 언어내(intra-language) 특이성을 ERP(event- related potentials) 실험결과를 통해 알아보고자 하였다. 한국어 문장처리 과정에서의 통사 및 의미 처리특성은, 우선 이들을 지표하는 각각의 오류문을 통해 P600과 N400 이라는 언어일반의 처리과정을 보이면서도 각 성분의 영역분포는 오류가 출현된 위치에 따라 분기하고 있음을 관찰할 수 있었다. 곧, 문미위치의 술어오류에서 중심-두정 부위의 활성화 우세로 각 오류간 영역분화를 보이는 패턴을 새롭게 확인하였다. 이로써 오류의 유형별 재분류과정으로 드러난 오류출현 위치가 오류의 유형 내에 영향을 끼치는 한 변수가 될 수 있으며. 이는 이들 보어 및 술어를 구성하는 고유의 범주 특성으로 해석할 수 있는 근거가 될 수 있음도 아울러 확인하였다.

  • PDF

A method for morphological correction of ambiguous error (한글 문서에서 형태적 중의 오류의 교정)

  • Kim, Min-Ju;Jeong, Jun-Ho;Lee, Hyeon-Ju;Choe, Jae-Hyeok;Kim, Hang-Jun;Lee, Sang-Jo
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.41-48
    • /
    • 1998
  • 교정 시스템에 나타나는 오류 유형들 중에는 전체적인 교정률에 차지하는 비중은 적지만 출현할 때마다 틀릴 가능성이 아주 높은 오류들이 있다. 기존의 교정 시스템에서는 이러한 오류들에 대한 처리가 미흡한데, 철자 오류와 띄어쓰기 오류 중 형태가 비슷하거나 같은 형태가 다른 기능을 함으로써 발생하는 오류들이다. 이러한 오류는 일반 문서 작성자뿐만 아니라 한글 맞춤법에 대해 어느 정도 지식을 가진 사람의 경우에도 구분이 모호하다. 복합 명사와 미등록어를 제외한 오류 중 약 30%가 여기에 속한다. 따라서 본 논문에서는 이러한 오류 유형들을 분류하고, 이 중에서 빈번하게 출현하는 오류에 대한 교정을 시도하고, 오류 유형들이 문장 내에서 어떤 분포를 가지는지 알아본다. 약 617만 어절의 말뭉치를 이용하여 해당 형태와 다른 성분들과의 관련성을 조사하여 교정 방법을 제시하고, 형태소 분석을 하여 교정을 행한다. 코퍼스 655만 어절 대상으로 실험한 결과 84.6%의 교정률을 보였다. 본 논문에서 제시한 교정 방법은 기존의 교정 시스템에 추가되어 교정 시스템의 전체 교정률을 향상시킬 수 있다. 또한 이와 비슷한 유형의 다른 어휘 교정에 대한 기초 자료로 사용될 수 있을 것이다.

  • PDF

선박의 종류별 선원의 행동오류 추정과 예측에 관한 기초 연구

  • Im, Jeong-Bin;Lee, Chun-Gi;Jeong, Jae-Yong;Park, Deuk-Jin;Gang, Yu-Mi;Park, Cho-Hui
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2018.11a
    • /
    • pp.19-21
    • /
    • 2018
  • 선원의 행동오류는 해양사고를 야기하는 하나의 직접적인 원인이기 때문에 이를 이해하는 것은 해양사고 예방에 근본이 된다. 선원의 행동오류를 이해하기 위해서는 행동오류를 추정하고 예측할 수 있어야 한다. 본 연구에서는 은닉 마르코브 모델(Hidden Markov Model, HMM)을 이용하여 선원들의 행동오류를 추정하고 예측하였다. 아울러 5가지 선박의 종류 각각에 나타나는 선원들의 행동오류를 서로 비교 분석하였다. 모델에 사용한 데이터는 해양안전심판원의 해양사고 보고서에 기록된 내용을 SRKBB(Skill-, Rule- and Knowledge-Based Behavior) 모델을 기반으로 분류하고 관측 수열을 생성하며 라벨링 작업을 통해서 구축하였다. 구축한 데이터를 적용하여 HMM을 보정하고 파라미터를 획득하여 선원들의 행동오류에 관한 모델을 구축하였다. 실험 결과, 선박 종류별로 선원들의 행동오류의 패턴은 서로 다르고, 이를 통해서 선박종류별 해기사들의 행동오류의 추정과 예측이 가능함을 일차적으로 확인할 수 있었다. 추후 본 연구를 지속 전개하여 해양사고 예방을 위한 인적오류의 저감에 기여할 수 있는 방안을 모색할 에정이다.

  • PDF

Critical Error Span Detection Model of Korean Machine Translation (한국어 기계 번역에서의 품질 검증을 위한 치명적인 오류 범위 탐지 모델)

  • Dahyun Jung;Seungyoon Lee;Sugyeong Eo;Chanjun Park;Jaewook Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.80-85
    • /
    • 2023
  • 기계 번역에서 품질 검증은 정답 문장 없이 기계 번역 시스템에서 생성된 번역의 품질을 자동으로 추정하는 것을 목표로 한다. 일반적으로 이 작업은 상용화된 기계 번역 시스템에서 후처리 모듈 역할을 하여 사용자에게 잠재적인 번역 오류를 경고한다. 품질 검증의 하위 작업인 치명적인 오류 탐지는 번역의 오류 중에서도 정치, 경제, 사회적으로 문제를 일으킬 수 있을 만큼 심각한 오류를 찾는 것을 목표로 한다. 본 논문은 치명적인 오류의 유무를 분류하는 것을 넘어 문장에서 치명적인 오류가 존재하는 부분을 제시하기 위한 새로운 데이터셋과 모델을 제안한다. 이 데이터셋은 거대 언어 모델을 활용하는 구축 방식을 채택하여 오류의 구체적인 범위를 표시한다. 또한, 우리는 우리의 데이터를 효과적으로 활용할 수 있는 다중 작업 학습 모델을 제시하여 오류 범위 탐지에서 뛰어난 성능을 입증한다. 추가적으로 언어 모델을 활용하여 번역 오류를 삽입하는 데이터 증강 방법을 통해 보다 향상된 성능을 제시한다. 우리의 연구는 기계 번역의 품질을 향상시키고 치명적인 오류를 줄이는 실질적인 해결책을 제공할 것이다.

  • PDF

Adaptive Error Concealment Technique using a Variable Operating Region Algorithm based on MPEG-4 Coding (연산 영역 가변 알고리즘을 적용한 MPEG-4 부호화 기반의 적응적 오류 은닉 기법)

  • 김병주;권기구;이석환;권성근;김봉석;이건일
    • Journal of Korea Multimedia Society
    • /
    • v.6 no.1
    • /
    • pp.78-88
    • /
    • 2003
  • A novel adaptive error concealment technique is proposed using a variable operating region algorithm based on MPEG-4 coding. In the algorithm, a missing block is classified as flat or edge block based on local information from the surrounding blocks extracted using a Sobel operation in a variable operating region (VOR). In this case, the VOR is determined adaptively according to the number of edge directions in the missing block. 1;sing the classification, the flat blocks are then concealed by the Proposed mean based weighted bilinear interpolation (MWBLI) method, and the edge blocks by the boundary directional interpolation (BDI) method. Consequently, the use of the Proposed VOR improves the subjective performance in a curved edge region, while the adaptive processing based on block classification improves the objective performance. Experimental results confirmed that the proposed algorithm produced better results than conventional algorithms, both subjectively and objectively.

  • PDF

Performance Improvement in Speech Recognition by Weighting HMM Likelihood (은닉 마코프 모델 확률 보정을 이용한 음성 인식 성능 향상)

  • 권태희;고한석
    • The Journal of the Acoustical Society of Korea
    • /
    • v.22 no.2
    • /
    • pp.145-152
    • /
    • 2003
  • In this paper, assuming that the score of speech utterance is the product of HMM log likelihood and HMM weight, we propose a new method that HMM weights are adapted iteratively like the general MCE training. The proposed method adjusts HMM weights for better performance using delta coefficient defined in terms of misclassification measure. Therefore, the parameter estimation and the Viterbi algorithms of conventional 1:.um can be easily applied to the proposed model by constraining the sum of HMM weights to the number of HMMs in an HMM set. Comparing with the general segmental MCE training approach, computing time decreases by reducing the number of parameters to estimate and avoiding gradient calculation through the optimal state sequence. To evaluate the performance of HMM-based speech recognizer by weighting HMM likelihood, we perform Korean isolated digit recognition experiments. The experimental results show better performance than the MCE algorithm with state weighting.

Automatic Classification of Frequently Asked Questions Using Class Embedding and Attentive Recurrent Neural Network (클래스 임베딩과 주의 집중 순환 신경망을 이용한 자주 묻는 질문의 자동 분류)

  • Jang, Youngjin;Kim, Harksoo;Kim, Sebin;Kang, Dongho;Jang, Hyunki
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.367-370
    • /
    • 2018
  • 웹 또는 모바일 사용자는 고객 센터에 구축된 자주 묻는 질문을 이용하여 원하는 서비스를 제공받는다. 그러나 자주 묻는 질문은 사용자가 직접 핵심어를 입력하여 검색된 결과 중 필요한 정보를 찾아야 하는 어려움이 있다. 이러한 문제를 해결하기 위해 본 논문에서는 사용자 질의를 입력 받아 질의에 해당하는 클래스를 분류해주는 문장 분류 모델을 제안한다. 제안모델은 웹이나 모바일 환경의 오타나 맞춤법 오류에 대한 강건함을 위해 자소 단위 합성곱 신경망을 사용한다. 그리고 기계 번역 이외에도 자연어 처리 부분에서 큰 성능 향상을 보여주는 주의 집중 방법과 클래스 임베딩을 이용한 문장 분류 시스템을 사용한다. 457개의 클래스 분류와 769개의 클래스 분류에 대한 실험 결과 Micro F1 점수 기준 81.32%, 61.11%의 성능을 보였다.

  • PDF

A Study on Korean Printed Character Type Classification And Nonlinear Grapheme Segmentation (한글 인쇄체 문자의 형식 분류 및 비선형적 자소 분리에 관한 연구)

  • Park Yong-Min;Kim Do-Hyeon;Cha Eui-Young
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2006.05a
    • /
    • pp.784-787
    • /
    • 2006
  • In this paper, we propose a method for nonlinear grapheme segmentation in Korean printed character type classification. The characters are subdivided into six types based on character type information. The feature vector is consist of mesh features, vertical projection features and horizontal projection features which are extracted from gray-level images. We classify characters into 6 types using Back propagation. Character segmentation regions are determined based on character type information. Then, an optimal nonlinear grapheme segmentation path is found using multi-stage graph search algorithm. As the result, a proposed methodology is proper to classify character type and to find nonlinear char segmentation paths.

  • PDF