• Title/Summary/Keyword: 언어적 오류

Search Result 380, Processing Time 0.027 seconds

Detection of Soft 404 Errors based on Visual Characteristics of Web Page (웹 문서의 형태적 특징 인식에 기반한 SOFT 404 오류 판별)

  • Im, Jaehyeong;Choo, Seung-Hwa
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.382-385
    • /
    • 2018
  • Dead Link의 노출 최소화는 웹 검색 서비스의 품질 유지에 있어 매우 중요하다. 따라서 색인 내 Soft 404 오류의 정확한 판별은 필수적이지만, 리다이렉션 정보에 의존하거나 텍스트 혹은 HTML 자질 만을 고려하는 기존 방법의 활용만으로는 판별 가능한 Soft 404 오류의 유형이 한정될 수 있다는 문제가 있다. 이에 본 연구에서는 보다 범용성이 높은 Soft 404 오류 판별 기술의 개발을 위해, 404 오류 안내 페이지 고유의 형태적 특성을 오류 판별에 사용할 것을 제안한다. 제안 방법은 오류 안내 문서의 형태적 특성을 이미지 인식 모형에 기반해 학습한 후 이를 Soft 404 오류 판별에 사용하며, 리다이렉션 등 특정 정보에 의존하는 기존 방법에 비해 보다 폭넓게 적용 가능하다는 장점이 있다. 실험에서 제안 방법은 87.6%의 정확률과 92.7%의 재현율을 기록하는 등 높은 인식 성능을 보였다.

  • PDF

The Korean Part-of-speech Tagging Workbench for Tagged Corpus Construction (품사태그부착 코퍼스 구축을 위한 한국어 품사태깅 워크벤치)

  • Park, Young-C.;Kim, Nam-Il;Huh, Wook;Nam, Ki-Chun;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.94-101
    • /
    • 1997
  • 한국어의 언어분석을 위한 가공코퍼스의 하나인 품사부착 코퍼스는 형태소 언어분석의 기초가 되는 자료로서 각종 언어분석 모델의 학습자료와 관측자료 또는 검증자료로서 중요한 역할을 한다. 품사부착 코퍼스의 구축은 많은 노력과 시간이 요구되는 어려운 작업이다. 기존의 구축방법은 자동 태거의 결과를 일일이 사람이 확인해 가면 오류를 발견하고 수정하는 단순 작업이었다. 이러한 단순 작업은 한번 수정된 자동태거의 반복적 오류, 미등록어에 의한 오류 들을 계속적으로 수정해야하는 비효율성을 내포하고 있었다. 본 논문에서는 HMM기반의 자동 태거를 사용하여 1차적으로 한국어 문서를 자동 태깅한다. 자동 태깅 결과로부터 규칙기반의 오류 수정을 추가적으로 행한다. 이렇게 구축된 결과를 사용자에게 제시하여 최종 오류를 수정하고 이를 앞으로의 태깅작업에 반영하는 품사부착 워크벤치에 대해 기술한다.

  • PDF

A Study on Effectively Detecting and Correcting POS-Tagged Errors (효율적인 품사부착 오류 검출 및 수정에 관한 연구)

  • Choi, Myung-Gil;Seo, Hyeong-Won;Nam, Yoo-Rim;Kwon, Hong-Seok;Kim, Jae-Hoon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.132-137
    • /
    • 2012
  • 본 논문에서는 세종형태분석 말뭉치에 포함되어 있는 오류를 효율적으로 수정하기 위하여 오류 수정도구를 개발하였다. 세종형태분석 말뭉치에서 오류를 검출하기 위하여 형태소 생성과 자동 띄어쓰기 방법을 이용하였다. 검출된 오류를 수정하기 위하여 철자 오류 수정, 형태소 삭제 수정, 형태소 삽입 수정, 어절 재분석 방법을 사용하였다. 또한 최대한 반복적인 작업은 수행하지 않도록 설계하였다. 구현된 오류 수정 도구를 통하여 세종형태분석 말뭉치를 수정하였을 경우 텍스트 파일 형태의 말뭉치에서 오류를 수정하는 것보다 최소 9배 이상 빠른 작업이 가능하였으며, 사용자가 오류 수정 작업을 진행할수록 수정 속도가 빨라짐을 실험을 통해서 알 수 있었다.

  • PDF

KoCED: English-Korean Critical Error Detection Dataset (KoCED: 윤리 및 사회적 문제를 초래하는 기계번역 오류 탐지를 위한 학습 데이터셋)

  • Sugyeong Eo;Suwon Choi;Seonmin Koo;Dahyun Jung;Chanjun Park;Jaehyung Seo;Hyeonseok Moon;Jeongbae Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.225-231
    • /
    • 2022
  • 최근 기계번역 분야는 괄목할만한 발전을 보였으나, 번역 결과의 오류가 불완전한 의미의 왜곡으로 이어지면서 사용자로 하여금 불편한 반응을 야기하거나 사회적 파장을 초래하는 경우가 존재한다. 특히나 오역에 의해 변질된 의미로 인한 경제적 손실 및 위법 가능성, 안전에 대한 잘못된 정보 제공의 위험, 종교나 인종 또는 성차별적 발언에 의한 파장은 실생활과 문제가 직결된다. 이러한 문제를 완화하기 위해, 기계번역 품질 예측 분야에서는 치명적 오류 감지(Critical Error Detection, CED)에 대한 연구가 이루어지고 있다. 그러나 한국어에 관련해서는 연구가 존재하지 않으며, 관련 데이터셋 또한 공개된 바가 없다. AI 기술 수준이 높아지면서 다양한 사회, 윤리적 요소들을 고려하는 것은 필수이며, 한국어에서도 왜곡된 번역의 무분별한 증식을 낮출 수 있도록 CED 기술이 반드시 도입되어야 한다. 이에 본 논문에서는 영어-한국어 기계번역 분야에서의 치명적 오류를 감지하는 KoCED(English-Korean Critical Error Detection) 데이터셋을 구축 및 공개하고자 한다. 또한 구축한 KoCED 데이터셋에 대한 면밀한 통계 분석 및 다국어 언어모델을 활용한 데이터셋의 타당성 실험을 수행함으로써 제안하는 데이터셋의 효용성을 면밀하게 검증한다.

  • PDF

Grammatical Error Correction Using Generative Adversarial Network (적대적 생성 신경망을 이용한 문법 오류 교정)

  • Kwon, Soonchoul;Yu, Hwanjo;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.488-491
    • /
    • 2019
  • 문법 오류 교정은 문법적으로 오류가 있는 문장을 입력 받아 오류를 교정하는 시스템이다. 문법 오류 교정을 위해서는 문법 오류를 제거하는 것과 더불어 자연스러운 문장을 생성하는 것이 중요하다. 이 연구는 적대적 생성 신경망(GAN)을 이용하여 정답 문장과 구분이 되지 않을 만큼 자연스러운 문장을 생성하는 것을 목적으로 한다. 실험 결과 GAN을 이용한 문법 오류 교정은 MaxMatch F0.5 score 기준으로 0.4942을 달성하여 Baseline의 0.4462보다 높은 성능을 기록했다.

  • PDF

A Benchmark Test for Korean Spelling-Checking Programs (국어 철자검색 프로그램 키재기)

  • No, Yong-Kyoon;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.505-517
    • /
    • 1994
  • 국어 철자 검색 프로그램 세 개의 검색 능력을 비교하였다. 오류가 없는 파일, 타자시의 전형적인 오류를 포함하는 파일(자소별 오류율 1%), 그리고 광학적 문자인식 프로그램의 전형적인 오류를 포함하는 파일(자소별 오류율 $2.7{\sim}2.9%$) 등에 대하여 한글과 컴퓨터, 한국 마이크로소프트, 핸디 소프트의 워드프로세서에 도구로 포함된 철자검색 프로그램을 수행하였다. 이 세 프로그램 중에서 한글과 컴퓨터의 제품은 정방향 오판율과 오류율 낮은 파일에 대한 역방향 오판율이 낮았고 핸디 소프트의 제품은 오류율이 높은 파일에 대한 역방향 오판율이 낮았다. 세 프로그램 모두 역방향 오판율이 자소별 오류율의 10배 이상이라는 점에 있어서 심각한 문제를 안고 있는 것으로 판단된다.

  • PDF

Detection of Syntactic and Semantic Anomaly in Korean Sentences: an ERP study (언어이해과정에서의 구문/의미요소 분리에 대한 ERP특성연구)

  • 김충명;이경민
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.05a
    • /
    • pp.61-67
    • /
    • 2000
  • 본고는 텍스트로 제시된 한국어 문장의 형태통사론적 오류와 의미적 논항결합시 하위범주화요건을 위배하는 논항선택 오류의 인식 및 판단에 따른 ERP(Event-Related Potential)를 검출하여, 이에 대한 문장이해과정의 시간추이적 양상을 연구의 대상으로 하였다. 참여한 피험자로부터 각각의 유형에 대한 통계분석 결과, 통사적 오류 추출에서 의미적 오류 추출에 이르기까지 기존의 연구에서 제시된 오류패턴 요소들(ELAN, N400, P600)을 확인하였으며, 아울러 한국어 문장이해과정의 특이성을 관찰할 수 있었다. 이를 통해 문장묵독시 일어나는 여러 종류의 문법오류에 대한 개별적 성격규명과 함께, 이들의 문법틀 내에서의 상호관계에 대한 일련의 가설설정이 이루어질 수 있으며, 또한 문장이해 메커니즘의 신경적 기전의 특성 규명으로 부수될 인간지능 모사가능성에 생리학적 토대가 더해 질 것으로 추정되는 바, 언어이해와 대뇌기전지형을 결정짓는 또 다른 규준이 될 것이다.

  • PDF

Error Detection Method for Korean Compound Noun Decomposition (한국어 복합명사 분해 오류 탐지 기법)

  • Kang, Minkyu;Seungshik, Kang
    • Annual Conference on Human and Language Technology
    • /
    • 2009.10a
    • /
    • pp.181-185
    • /
    • 2009
  • 복합명사를 분해하는데 있어서 발생하는 분해오류들은 대부분 예외상황들로 취급된다. 전체적으로 차지하는 비중은 크지 않은데 오류 처리를 위해 들어가는 비용이 상대적으로 크기 때문이다. 하지만 분해된 데이터를 색인기나 문서분류기, 기계번역기 등에 실제로 적용해야 할 경우, 분해오류들을 수정해주어야 더 나은 성능을 보일 수 있기 때문에 분해오류를 찾아내고 수정하는 방법을 고안해야 한다. 본 논문에서는 복합명사 분해기에서 추출된 결과를 살펴보고, 주요 분해오류들이 가진 공통적인 특징을 파악하여 분해오류를 발견하는 방법을 생각해보고자 한다.

  • PDF

경직형과 이완형 운동구어장애자의 음운변동 특성

  • 이옥분;박상희
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.234-235
    • /
    • 2003
  • 목적 : 본 연구의 목적은 기질적 조음장애 중 운동구어장애자의 유형에 따른 음운변동 패턴을 연구하여 각 집단만의 신경학적 손상으로 인한 조음운동 패턴을 분석하고자 하는데 있다. 운동구어장애자의 조음 오류에 대해서 SDO(substitution, distortion, omission) 분석적 접근을 하는 것이 일반적이며 따라서 음운변동 분석을 함으로써 이들의 오류패턴의 유형을 찾고, 언어중재 시에 이들의 조음기관 관련 근운동의 훈련을 보다 체계적으로 실시할 수 있을 것이라고 본다. (중략)

  • PDF

일본인 화자의 한국어 모음 발음에 대한 음향음성학적인 연구

  • 조성문;오오까와다이스께
    • Proceedings of the KSLP Conference
    • /
    • 2003.11a
    • /
    • pp.141-141
    • /
    • 2003
  • 발음 교육은 의사소통적 교수법을 중시하는 최근의 언어 교육에서 약간 소홀히 다루어져 왔다. 그러나 외국어로서의 한국어 교육에서 정확한 발음 교육은 의사소통을 위해서 매우 중요한 역할을 한다고 볼 수 있다. 아무리 한국어 어휘와 문법을 정확하게 표현한다고 해도 잘못된 발음을 한다면 가장 기본적인 것에서 오류를 범하게 되기 때문이다. 다만 지금까지 일본인의 한국어 발음 오류에 대해서 조음음성학적이나 음운론적으로 어느 정도 연구가 되어 있다. 그러나 그 연구 결과들은 추상적인 단계에 머물러 있어서 아직까지 일본인의 한국어 모음 발음 문제를 명확하게 분석해 내지 못하고 있다. (중략)

  • PDF