• Title/Summary/Keyword: 오류가 포함된 데이터

검색결과 180건 처리시간 0.026초

말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템 (A Korean POS Tagging System with Handling Corpus Errors)

  • 설용수;김동주;김규상;김한우
    • 한국컴퓨터정보학회지
    • /
    • 제15권1호
    • /
    • pp.117-124
    • /
    • 2007
  • 통계 기반 접근 방법을 이용한 품사태깅에서 태깅 정확도는 훈련 데이터의 양에 좌우될 뿐 아니라, 말뭉치가 충분할지라도 수작업으로 구축한 말뭉치의 경우 항상 오류의 가능성을 내포하고 있으며 언어의 특성상 통계적으로 신뢰할만한 데이터의 수집에도 어려움이 따른다. 훈련 데이터로 사용되는 말뭉치는 많은 사람들이 수작업으로 구축하므로 작업자 중 일부가 언어에 대한 지식이 부족하다거나 주관적인 판단에 의한 태깅 실수를 포함할 수도 있기 때문에 단순한 저빈도와 관련된 잡음 외의 오류들이 포함될 수 있는데 이러한 오류들은 재추정이나 평탄화 기법으로 해결될 수 있는 문제가 아니다. 본 논문에서는 HMM(Hidden Markov Model)을 이용한 한국어 품사 태깅에서 재추정 후 여전히 존재하는 말뭉치의 잡음에 인한 태깅 오류 해결을 위해 비터비 알고리즘적용 단계에서 데이터 부족과 말뭉치의 오류로 인해 문제가 되는 부분을 찾아내고 규칙을 통해 수정을 하여 태깅 결과를 개선하는 방안을 제안한다. 실험결과는 오류가 존재하는 말뭉치를 사용하여 구현된 HMM과 비터비 알고리즘을 적용한 태깅 정확도에 비해 오류를 수정하는 과정을 거친 후 정확도가 향상됨을 보여준다.

  • PDF

종합목록 데이터의 오류 유형에 관한 연구 - KERIS종합목록의 학위논문 서지데이터를 중심으로 - (A Study on Error Data Types in the KERIS Union Catalog - Focused on Dissertation Bibliographic Database -)

  • 조순영
    • 한국문헌정보학회지
    • /
    • 제36권4호
    • /
    • pp.5-19
    • /
    • 2002
  • KERIS의 대학도서관 종합목록은 330개 대학도서관이 가입하여 570만 레코드를 보유하고 있는 국내 최대의 목록이다. 그러나 각 회원기관이 이미 구축한 DB를 짧은 기간 내 통합하면서 중복 및 오류 레코드가 많이 포함되어 있기 때문에 검색의 효율성이 떨어진다는 지적이 있다. 따라서 본 연구에서는 전체 자료의 10%를 차지하는 학위논문 데이터 1000건을 대상으로 오류 데이터의 유형을 분석함으로서 데이터의 품질을 측정하고 기계적으로 오류데이터를 색출할 수 있는 방안을 제시하였다. 분석 결과 오류데이터는 전체 표본 DB의 30%를 차지하였고 발생하는 주요 원인은 1)입력오류 2)MARC의 사용 오류 3)목록규칙의 적용 오류가 가장 큰 원인으로 나타났다.

해양사고 인적오류 예방을 위한 해심 주제어 분석에 관한 고찰

  • 장은진;강유미;임정빈
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2016년도 춘계학술대회
    • /
    • pp.196-198
    • /
    • 2016
  • 해양사고 원인의 대부분을 차지하는 인적오류 예방은 해양안전에 가장 중요하며 인적오류는 확률기반의 인적 모델을 구축하여 평가할 수 있다. 확률기반 인적 모델을 구축하기 위해 사건의 원인과 결과 사이에 연계성을 갖고 있는 통계 데이터가 필요하다. 이러한 데이터는 정부 공식통계로서 해양안전심판원에서 제공하는 재결서의 내용 분석을 통해 얻고자 하나, 측정변수가 너무 많아 계산량이 방대하다. 본 연구에서는 재결서 분석서의 원인판단에서 기준이 되는 해양안전심판원의 해양사고조사심판정보포털(이하 해심)에서 제공하는 재결서 내용의 핵심적인 내용으로 구성된 '주제어 '데이터를 활용하여 주제어에 포함된 핵심단어 분석절차를 수립하였다. 이들 단어가 구분형태별로 어떻게 분포된 상태인지 알아보고, 선박사고별로 최적으로 설명할 수 있는 단어 객체수를 검토해보고자 한다. 향후 축소된 차원으로도 해양사고 인적과실의 인과관계 설명이 가능하면, 인적모델의 측정변수를 결정하는 경우 쉽게 타당성을 확인 할 수 있어 해양안전을 위한 중요한 자료로 활용할 수 있다.

  • PDF

근사 함수에 기반한 대용량 3차원 모델 복원 알고리즘

  • 조현철;김선정;김창헌
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 2004년도 춘계학술대회 논문요약집
    • /
    • pp.307-307
    • /
    • 2004
  • 본 논문에서는 3차원 스캔기기에서 실제 모델을 측정하여 얻어지는 점 데이터로부터 모델의 표면을 생성하는 알고리즘을 제안한다. 3차원 스캔기기가 정밀해지고 스캔 규모도 커짐에 따라 측정 데이터의 크기도 증가되어, 이러한 대용량 측정 데이터의 복원 알고리즘이 필요로 되고 있다. 그리고 여러 다른 각도에서 스캔닝 된 점 데이터들은 이어지는 부분이 정확히 맞지 않아 중첩되어 표현되거나 기계적인 또는 환경적인 제약 등의 이유로 오류가 포함될 수도 있다. 그러므로 복원 알고리즘은 이러한 중첩된 표현을 정리하고 오류를 보정해 주어야 한다.(중략)

  • PDF

Support Vector Machine의 입력데이터 오류에 대한 Robustness분석 (Robustness Analysis of Support Vector Machines against Errors in Input Data)

  • 이상근;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.715-717
    • /
    • 2005
  • Support vector machine(SVM)은 최근 각광받는 기계학습 방법 중 하나로서, kernel function 이라는 사상(mapping)을 이용하여 입력 공간의 벡터를 classification이 용이한 특징 (feature) 공간의 벡터로 변환하는 것을 근간으로 한다. SVM은 이러한 특징 공간에서 두 클래스를 구분 짓는 hyperplane을 일련의 최적화 방법론을 사용하여 찾아내며, 주어진 문제가 convex problem 인 경우 항상 global optimal solution 을 보장하는 등의 장점을 지닌다. 한편 bioinformatics 연구에서 주로 사용되는 데이터는 측정 오류 등 일련의 오류를 포함하고 있으며, 이러한 오류는 기계학습 방법론이 어떤 decision boundary를 찾아내는가에 영향을 끼치게 된다. 특히 SVM의 경우 이러한 오류는 특징 공간 벡터간의 관계를 나타내는 Gram matrix를 변화로 나타나게 된다. 본 연구에서는 입력 공간에 오류가 발생할 때 그것이 SVM 의 decision boundary를 어떻게 변화시키는가를 대표적인 두 가지 kernel function, 즉 linear kernel과 Gaussian kernel에 대해 분석하였다. Wisconsin대학의 유방암(breast cancer) 데이터에 대해 실험한 결과, 데이터의 오류에 따른 SVM 의 classification 성능 변화 양상을 관찰하여 커널의 종류에 따라 SVM이 어떠한 특성을 보이는가를 밝혀낼 수 있었다. 또 흥미롭게도 어떤 조건 하에서는 오류가 크더라도 오히려 SVM 의 성능이 향상되는 것을 발견했는데, 이것은 바꾸어 생각하면 Gram matrix 의 일부를 변경하여 SVM 의 성능 향상을 꾀할 수 있음을 나타낸다.

  • PDF

다중 특징을 포함한 키 프레임 추출에 의한 장면 전환 검출 오류 자동 수정 기법 (An automatic fault correction technique in the scene change detection by the key frame extraction includes multiple features)

  • 윤주현;염성주;김우생
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.187-190
    • /
    • 2002
  • 본 논문은 다중 특징을 포함한 대표 키 프레임을 추출을 통해 장면 전환 검출 시 발생할 수 있는 검출 오류를 자동으로 인식하고 수정함으로써 빠르고 신뢰성 있는 장면 분할을 수행하는 새로운 기법을 제안한다. 이를 위해 개선된 고속 장면 전환 검출 기법에 의해 샷을 분할 하고 분할 된 샷으로부터 대표 키 프레임과 그것에 포함된 후보 키 프레임들의 다중 정보를 포함시킴으로써 샷의 전반에 대한 정보를 보다 잘 표현할 수 있도록 한다. 그리고 다중정보를 포함한 대표 키 프레임의 비교를 통해 샷 검출 오류를 자동으로 인식하여 적절히 수정할 수 있는 기법을 제안하며 실세계 동영상 데이터를 사용한 실험을 통해서 제안하는 기법에 의해 효율적으로 샷이 분할 될 수 있음을 보인다.

  • PDF

언어 사용환경에 적응적인 영어 문맥의존 철자오류 교정 기법 (Adaptive English Context-Sensitive Spelling Error Correction Techniques for Language Environments)

  • 김민호;김경식;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.133-136
    • /
    • 2015
  • 문서 교정기에서 문맥의존 철자오류를 교정하는 방법은 크게 규칙을 이용한 방법과 통계 정보를 이용한 방법으로 나뉜다. 한국어와 달리 영어는 오래전부터 통계 모형에 기반을 둔 문맥의존 철자오류 교정 연구가 활발히 이루어졌다. 그러나 대부분 연구가 문맥의존 철자오류 교정 문제를 특정 어휘 쌍을 이용한 분류 문제로 간주하기 때문에 실제 응용에는 한계가 있다. 또한, 대규모 말뭉치에서 추출한 통계 정보를 이용하지만, 통계 정보 자체에 오류가 있을 경우를 고려하지 않았다. 본 논문에서는 텍스트에 포함된 모든 단어에 대하여 문맥의존 철자오류 여부를 판단하고, 해당 단어가 오류일 경우 대치어를 제시하는 영어 문맥의존 철자오류 교정 기법을 제안한다. 또한, 통계 정보의 오류가 문맥의존 철자오류 교정에 미치는 영향과 오류 발생률의 변화가 철자오류 검색과 교정의 정확도와 재현율에 미치는 영향을 분석한다. 구글 웹데이터에서 추출한 통계 정보를 바탕으로 통계 모형을 구성하고 평가를 위해 브라운 말뭉치에서 무작위로 2,000문장을 추출하여 무작위로 문맥의존 철자오류를 생성하였다. 실험결과, 문맥의존 철자오류 검색의 정확도와 재현율은 각각 98.72%, 95.79%였으며, 문맥의존 철자오류 교정의 정확도와 재현률은 각각 71.94%, 69.81%였다.

  • PDF

인터넷에 비디오 데이터 전송시 강건한 오류 내성 기법 (A robust error resilient approach for video data transmission over Internet)

  • 김진옥;황대준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.481-483
    • /
    • 2002
  • 압축한 비디오데이타를 네트워크으로 전송 시 채널이 불안정한 경우 패킷이 분실될 우려가 있다. 패킷 분실은 대부분 버스트오류로 나타난다. 본 연구에서는 디코더에서 버스트오류를 효과적으로 은닉, 처리하는 방법으로 오류 내성 비디오 인코딩 방법을 제안한다. 이를 위해 공간적 오류은닉법으로 오류 패킷 분실을 야기시키는 손실 블록을 분리하는데 효과적인 블록 인터리빙을 적용한다. 시간적 오류 은닉에 대해서는 연속적인 내부프레임 또는 프레임간에 움직임벡터의 프레임간 패리티 비트를 삽입하는 구조를 적용한다. 비디오 인코딩 단계를 거쳐 디코더에서 수신한 블록들에 대해서는 쌍선형 보간법을 적용하여 전송시 발생한 국지적 오류를 적절하게 은닉 처리한다. 본 논문에서 제안한 인코딩 방법을 전송 블록에 부가 데이터로 포함하는 것은 표준 엔코더의 복잡도에 거의 영향을 미치지 않는다.

  • PDF

센서 오류를 이용한 USN 라우팅 알고리즘에 대한 연구 (A study of routing algorithm for USN using sensor error)

  • 김성진;옥지웅;김응모
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.1018-1020
    • /
    • 2007
  • 한정된 배터리 전원을 사용하는 무선 센서네트워크에서 노드의 수명유지를 위해 전력 소모량은 매우 중요한 문제이다. 이러한 문제를 해결하기 위해 계층적 클러스터링 기법을 적용한 라우팅 기법들이 연구되고 있다. 열악한 환경에서 작동하는 센서 노드의 오류는 전송에서 발생하는 오류뿐만 아니라 센서 자체의 오류도 포함하지만 기존의 라우팅 기법에서는 이를 배제하고 있다. 본 논문에서는 데이터마이닝을 이용하여 센서의 오류를 탐지하고 센서의 오류를 포함한 센서 노드를 클러스터 헤드로 사용하여 에너지 집약적인 기능을 담당하는 라우팅 알고리즘을 제안한다. 센서 노드의 빠른 교체가 이루어 질 수 없는 상황이나, 해당 센서 노드에서 수집되는 데이터가 교체 비용보다 효용성의 측면에서 떨어질 경우에는 일정기간 네트워크의 전력 소모를 전담하도록 하여 전체 센서네트워크의 생존성을 높일 수 있다.

실시간 운영체제에서 타이머를 이용한 TCP 오류 제어' (Error Control in TCP Using Timers on Real-Time Operating Systems)

  • 류현수;성영락;이철훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (C)
    • /
    • pp.232-234
    • /
    • 2003
  • TCP(Transmission Control Protocol)는 신뢰성 있는 전송계층 프로토콜이다. 이것은 데이터 스트림을 TCP 로 전달하는 응용프로그램이 전체 스트림을 순서에 맞고 오류 없이 전달하는 것을 의미한다. TCP 는 오류 제어를 이용하여 신뢰성을 제공하는데, 오류제어는 손상 세그먼트, 손실 세그먼트, 순서가 어긋난 세그먼트, 그리고 중복 세그먼트를 감지하는 메커니즘이 포함되며 특히 타이머(timer)를 이용한 오류제어를 본 내용에서 설명하고 있다.

  • PDF