• Title/Summary/Keyword: 오류가 포함된 데이터

Search Result 180, Processing Time 0.027 seconds

A Korean POS Tagging System with Handling Corpus Errors (말뭉치 오류를 고려한 HMM 한국어 품사 태깅 시스템)

  • Seol, Yong-Soo;Kim, Dong-Joo;Kim, Kyu-Sang;Kim, Han-Woo
    • KSCI Review
    • /
    • v.15 no.1
    • /
    • pp.117-124
    • /
    • 2007
  • 통계 기반 접근 방법을 이용한 품사태깅에서 태깅 정확도는 훈련 데이터의 양에 좌우될 뿐 아니라, 말뭉치가 충분할지라도 수작업으로 구축한 말뭉치의 경우 항상 오류의 가능성을 내포하고 있으며 언어의 특성상 통계적으로 신뢰할만한 데이터의 수집에도 어려움이 따른다. 훈련 데이터로 사용되는 말뭉치는 많은 사람들이 수작업으로 구축하므로 작업자 중 일부가 언어에 대한 지식이 부족하다거나 주관적인 판단에 의한 태깅 실수를 포함할 수도 있기 때문에 단순한 저빈도와 관련된 잡음 외의 오류들이 포함될 수 있는데 이러한 오류들은 재추정이나 평탄화 기법으로 해결될 수 있는 문제가 아니다. 본 논문에서는 HMM(Hidden Markov Model)을 이용한 한국어 품사 태깅에서 재추정 후 여전히 존재하는 말뭉치의 잡음에 인한 태깅 오류 해결을 위해 비터비 알고리즘적용 단계에서 데이터 부족과 말뭉치의 오류로 인해 문제가 되는 부분을 찾아내고 규칙을 통해 수정을 하여 태깅 결과를 개선하는 방안을 제안한다. 실험결과는 오류가 존재하는 말뭉치를 사용하여 구현된 HMM과 비터비 알고리즘을 적용한 태깅 정확도에 비해 오류를 수정하는 과정을 거친 후 정확도가 향상됨을 보여준다.

  • PDF

A Study on Error Data Types in the KERIS Union Catalog - Focused on Dissertation Bibliographic Database - (종합목록 데이터의 오류 유형에 관한 연구 - KERIS종합목록의 학위논문 서지데이터를 중심으로 -)

  • Cho, Sun-Yeong
    • Journal of the Korean Society for Library and Information Science
    • /
    • v.36 no.4
    • /
    • pp.5-19
    • /
    • 2002
  • The KERIS Union Catalog is the largest bibliographic database in Korea. It has over 5.7 million bibliographic records and at present 330 university libraries are participating in shared cataloging services. The database, however, includes various errors and a large number of duplicate data because separate databases from many university libraries were merged without proper quality control in a short period. This study intends to find error data types by analyzing dissertation bibliographic data. The results show that error data are mainly caused by input errors, and the mistakes in using MARC formats and cataloging rules.

해양사고 인적오류 예방을 위한 해심 주제어 분석에 관한 고찰

  • Jang, Eun-Jin;Gang, Yu-Mi;Im, Jeong-Bin
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2016.05a
    • /
    • pp.196-198
    • /
    • 2016
  • 해양사고 원인의 대부분을 차지하는 인적오류 예방은 해양안전에 가장 중요하며 인적오류는 확률기반의 인적 모델을 구축하여 평가할 수 있다. 확률기반 인적 모델을 구축하기 위해 사건의 원인과 결과 사이에 연계성을 갖고 있는 통계 데이터가 필요하다. 이러한 데이터는 정부 공식통계로서 해양안전심판원에서 제공하는 재결서의 내용 분석을 통해 얻고자 하나, 측정변수가 너무 많아 계산량이 방대하다. 본 연구에서는 재결서 분석서의 원인판단에서 기준이 되는 해양안전심판원의 해양사고조사심판정보포털(이하 해심)에서 제공하는 재결서 내용의 핵심적인 내용으로 구성된 '주제어 '데이터를 활용하여 주제어에 포함된 핵심단어 분석절차를 수립하였다. 이들 단어가 구분형태별로 어떻게 분포된 상태인지 알아보고, 선박사고별로 최적으로 설명할 수 있는 단어 객체수를 검토해보고자 한다. 향후 축소된 차원으로도 해양사고 인적과실의 인과관계 설명이 가능하면, 인적모델의 측정변수를 결정하는 경우 쉽게 타당성을 확인 할 수 있어 해양안전을 위한 중요한 자료로 활용할 수 있다.

  • PDF

근사 함수에 기반한 대용량 3차원 모델 복원 알고리즘

  • 조현철;김선정;김창헌
    • Proceedings of the Korean Society of Precision Engineering Conference
    • /
    • 2004.05a
    • /
    • pp.307-307
    • /
    • 2004
  • 본 논문에서는 3차원 스캔기기에서 실제 모델을 측정하여 얻어지는 점 데이터로부터 모델의 표면을 생성하는 알고리즘을 제안한다. 3차원 스캔기기가 정밀해지고 스캔 규모도 커짐에 따라 측정 데이터의 크기도 증가되어, 이러한 대용량 측정 데이터의 복원 알고리즘이 필요로 되고 있다. 그리고 여러 다른 각도에서 스캔닝 된 점 데이터들은 이어지는 부분이 정확히 맞지 않아 중첩되어 표현되거나 기계적인 또는 환경적인 제약 등의 이유로 오류가 포함될 수도 있다. 그러므로 복원 알고리즘은 이러한 중첩된 표현을 정리하고 오류를 보정해 주어야 한다.(중략)

  • PDF

Robustness Analysis of Support Vector Machines against Errors in Input Data (Support Vector Machine의 입력데이터 오류에 대한 Robustness분석)

  • Lee Sang-Kyun;Zhang Byoung-Tak
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.715-717
    • /
    • 2005
  • Support vector machine(SVM)은 최근 각광받는 기계학습 방법 중 하나로서, kernel function 이라는 사상(mapping)을 이용하여 입력 공간의 벡터를 classification이 용이한 특징 (feature) 공간의 벡터로 변환하는 것을 근간으로 한다. SVM은 이러한 특징 공간에서 두 클래스를 구분 짓는 hyperplane을 일련의 최적화 방법론을 사용하여 찾아내며, 주어진 문제가 convex problem 인 경우 항상 global optimal solution 을 보장하는 등의 장점을 지닌다. 한편 bioinformatics 연구에서 주로 사용되는 데이터는 측정 오류 등 일련의 오류를 포함하고 있으며, 이러한 오류는 기계학습 방법론이 어떤 decision boundary를 찾아내는가에 영향을 끼치게 된다. 특히 SVM의 경우 이러한 오류는 특징 공간 벡터간의 관계를 나타내는 Gram matrix를 변화로 나타나게 된다. 본 연구에서는 입력 공간에 오류가 발생할 때 그것이 SVM 의 decision boundary를 어떻게 변화시키는가를 대표적인 두 가지 kernel function, 즉 linear kernel과 Gaussian kernel에 대해 분석하였다. Wisconsin대학의 유방암(breast cancer) 데이터에 대해 실험한 결과, 데이터의 오류에 따른 SVM 의 classification 성능 변화 양상을 관찰하여 커널의 종류에 따라 SVM이 어떠한 특성을 보이는가를 밝혀낼 수 있었다. 또 흥미롭게도 어떤 조건 하에서는 오류가 크더라도 오히려 SVM 의 성능이 향상되는 것을 발견했는데, 이것은 바꾸어 생각하면 Gram matrix 의 일부를 변경하여 SVM 의 성능 향상을 꾀할 수 있음을 나타낸다.

  • PDF

An automatic fault correction technique in the scene change detection by the key frame extraction includes multiple features (다중 특징을 포함한 키 프레임 추출에 의한 장면 전환 검출 오류 자동 수정 기법)

  • Yoon, Ju-Hyun;Youm, Sung-Ju;Kim, Woo-Saeng
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.04a
    • /
    • pp.187-190
    • /
    • 2002
  • 본 논문은 다중 특징을 포함한 대표 키 프레임을 추출을 통해 장면 전환 검출 시 발생할 수 있는 검출 오류를 자동으로 인식하고 수정함으로써 빠르고 신뢰성 있는 장면 분할을 수행하는 새로운 기법을 제안한다. 이를 위해 개선된 고속 장면 전환 검출 기법에 의해 샷을 분할 하고 분할 된 샷으로부터 대표 키 프레임과 그것에 포함된 후보 키 프레임들의 다중 정보를 포함시킴으로써 샷의 전반에 대한 정보를 보다 잘 표현할 수 있도록 한다. 그리고 다중정보를 포함한 대표 키 프레임의 비교를 통해 샷 검출 오류를 자동으로 인식하여 적절히 수정할 수 있는 기법을 제안하며 실세계 동영상 데이터를 사용한 실험을 통해서 제안하는 기법에 의해 효율적으로 샷이 분할 될 수 있음을 보인다.

  • PDF

Adaptive English Context-Sensitive Spelling Error Correction Techniques for Language Environments (언어 사용환경에 적응적인 영어 문맥의존 철자오류 교정 기법)

  • Kim, Minho;Jin, Jingzhi;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.133-136
    • /
    • 2015
  • 문서 교정기에서 문맥의존 철자오류를 교정하는 방법은 크게 규칙을 이용한 방법과 통계 정보를 이용한 방법으로 나뉜다. 한국어와 달리 영어는 오래전부터 통계 모형에 기반을 둔 문맥의존 철자오류 교정 연구가 활발히 이루어졌다. 그러나 대부분 연구가 문맥의존 철자오류 교정 문제를 특정 어휘 쌍을 이용한 분류 문제로 간주하기 때문에 실제 응용에는 한계가 있다. 또한, 대규모 말뭉치에서 추출한 통계 정보를 이용하지만, 통계 정보 자체에 오류가 있을 경우를 고려하지 않았다. 본 논문에서는 텍스트에 포함된 모든 단어에 대하여 문맥의존 철자오류 여부를 판단하고, 해당 단어가 오류일 경우 대치어를 제시하는 영어 문맥의존 철자오류 교정 기법을 제안한다. 또한, 통계 정보의 오류가 문맥의존 철자오류 교정에 미치는 영향과 오류 발생률의 변화가 철자오류 검색과 교정의 정확도와 재현율에 미치는 영향을 분석한다. 구글 웹데이터에서 추출한 통계 정보를 바탕으로 통계 모형을 구성하고 평가를 위해 브라운 말뭉치에서 무작위로 2,000문장을 추출하여 무작위로 문맥의존 철자오류를 생성하였다. 실험결과, 문맥의존 철자오류 검색의 정확도와 재현율은 각각 98.72%, 95.79%였으며, 문맥의존 철자오류 교정의 정확도와 재현률은 각각 71.94%, 69.81%였다.

  • PDF

A robust error resilient approach for video data transmission over Internet (인터넷에 비디오 데이터 전송시 강건한 오류 내성 기법)

  • 김진옥;황대준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10e
    • /
    • pp.481-483
    • /
    • 2002
  • 압축한 비디오데이타를 네트워크으로 전송 시 채널이 불안정한 경우 패킷이 분실될 우려가 있다. 패킷 분실은 대부분 버스트오류로 나타난다. 본 연구에서는 디코더에서 버스트오류를 효과적으로 은닉, 처리하는 방법으로 오류 내성 비디오 인코딩 방법을 제안한다. 이를 위해 공간적 오류은닉법으로 오류 패킷 분실을 야기시키는 손실 블록을 분리하는데 효과적인 블록 인터리빙을 적용한다. 시간적 오류 은닉에 대해서는 연속적인 내부프레임 또는 프레임간에 움직임벡터의 프레임간 패리티 비트를 삽입하는 구조를 적용한다. 비디오 인코딩 단계를 거쳐 디코더에서 수신한 블록들에 대해서는 쌍선형 보간법을 적용하여 전송시 발생한 국지적 오류를 적절하게 은닉 처리한다. 본 논문에서 제안한 인코딩 방법을 전송 블록에 부가 데이터로 포함하는 것은 표준 엔코더의 복잡도에 거의 영향을 미치지 않는다.

  • PDF

A study of routing algorithm for USN using sensor error (센서 오류를 이용한 USN 라우팅 알고리즘에 대한 연구)

  • Kim, Sung-Jin;Ok, Jee-Woong;Kim, Ung-mo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.1018-1020
    • /
    • 2007
  • 한정된 배터리 전원을 사용하는 무선 센서네트워크에서 노드의 수명유지를 위해 전력 소모량은 매우 중요한 문제이다. 이러한 문제를 해결하기 위해 계층적 클러스터링 기법을 적용한 라우팅 기법들이 연구되고 있다. 열악한 환경에서 작동하는 센서 노드의 오류는 전송에서 발생하는 오류뿐만 아니라 센서 자체의 오류도 포함하지만 기존의 라우팅 기법에서는 이를 배제하고 있다. 본 논문에서는 데이터마이닝을 이용하여 센서의 오류를 탐지하고 센서의 오류를 포함한 센서 노드를 클러스터 헤드로 사용하여 에너지 집약적인 기능을 담당하는 라우팅 알고리즘을 제안한다. 센서 노드의 빠른 교체가 이루어 질 수 없는 상황이나, 해당 센서 노드에서 수집되는 데이터가 교체 비용보다 효용성의 측면에서 떨어질 경우에는 일정기간 네트워크의 전력 소모를 전담하도록 하여 전체 센서네트워크의 생존성을 높일 수 있다.

Error Control in TCP Using Timers on Real-Time Operating Systems (실시간 운영체제에서 타이머를 이용한 TCP 오류 제어')

  • 류현수;성영락;이철훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04d
    • /
    • pp.232-234
    • /
    • 2003
  • TCP(Transmission Control Protocol)는 신뢰성 있는 전송계층 프로토콜이다. 이것은 데이터 스트림을 TCP 로 전달하는 응용프로그램이 전체 스트림을 순서에 맞고 오류 없이 전달하는 것을 의미한다. TCP 는 오류 제어를 이용하여 신뢰성을 제공하는데, 오류제어는 손상 세그먼트, 손실 세그먼트, 순서가 어긋난 세그먼트, 그리고 중복 세그먼트를 감지하는 메커니즘이 포함되며 특히 타이머(timer)를 이용한 오류제어를 본 내용에서 설명하고 있다.

  • PDF