• Title/Summary/Keyword: 정보인식

Search Result 16,134, Processing Time 0.042 seconds

Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing (음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기)

  • Jeon, Nam-Youl;Park, Hyuk-Ro
    • Annual Conference on Human and Language Technology
    • /
    • 2000.10d
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

A Nested Named Entity Recognition Model Robust in Few-shot Learning Environments using Label Information (라벨 정보를 이용한 Few-shot Learning 환경에 강건한 중첩 개체명 인식 모델)

  • Hyunsun Hwang;Changki Lee;Wooyoung Go;Myungchul Kang
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.622-626
    • /
    • 2023
  • 중첩 개체명 인식(Nested Named Entity Recognition)은 하나의 개체명 표현 안에 다른 개체명 표현이 들어 있는 중첩 구조의 개체명을 인식하는 작업으로, 중첩 개체명 인식을 위한 학습데이터 구축 작업은 일반 개체명 인식 학습데이터 구축보다 어렵다는 문제가 있다. 본 논문에서는 이러한 문제를 해결하기 위해 Few-shot Learning 환경에 강건한 중첩 개체명 인식 모델을 제안한다. 이를 위해, 기존의 Biaffine 중첩 개체명 인식 모델의 출력 레이어를 라벨 의미 정보를 활용하도록 변경하여 학습데이터가 적은 환경에서 중첩 개체명 인식의 성능을 향상시키도록 하였다. 실험 결과 GENIA 중첩 개체명 인식 데이터의 5-shot, 10-shot, 20-shot 환경에서 기존의 Biaffine 모델보다 평균 10%p이상의 높은 F1-measure 성능을 보였다.

  • PDF

The Limit of Cognition and Mind (인식(認識)의 한계(限界)와 마음)

  • Lee, Dong-Han
    • Annual Conference on Human and Language Technology
    • /
    • 1991.10a
    • /
    • pp.147-154
    • /
    • 1991
  • 인간의 인식작용은 인식 주체로서 개인이 갖는 한계 속에서의 인식인바 인식의 근원인 <마음>이 작용하는 바를 도외시 하고는 옳바른 인식에 도달할 수 없겠으므로 인식문제를 다룸에 있어 언어와 논리적인 분석에만 그칠것이 아니라 <마음>의 작용에 대해 주목할 필요가 있다.

  • PDF

Image Recognition based on Image Compression (영상 압축 기법에 의한 영상 인식)

  • Cho, Jae-Hyun
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2017.01a
    • /
    • pp.189-190
    • /
    • 2017
  • 인공망막의 효율성을 높이기 위해 생물학적 인간의 시각정보과정에 여러 연구가 진행 중이다. 인간의 시각정보처리과정에는 시각정보를 축약하는 특성을 가지고 있다. 본 논문에서는 인간의 시각체계를 기반으로 영상 자체를 인식하지 않고 정보를 압축한 후 복원된 영상에 대한 인식 모델을 제안하고자 한다. 실험결과, 제안된 인식 모델과 일반적 인식모델과의 차이가 없음을 알 수 있었다.

  • PDF

Post Correction of Speech Recognition using Discourse Information (담화 정보를 이용한 음성 인식 후처리)

  • Kim, Ju-Hee;Kang, Sang-Woo;Seon, Choong-Nyoung;Seo, Jung-Yun
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.147-151
    • /
    • 2010
  • 본 연구는 대화 시스템에서 처리되는 사용자 발화의 의도 분석 기법과 담화 정보를 사용하여 음성 인식 결과로서의 인식 후보 문장들을 재순위하는 방법을 제안한다. 담화 정보는 사용자 발화의 의도 분석에 매우 중요한 자질로 사용되고 있기 때문에 음성 인식 결과들의 후보를 선택하는 문제에서도 담화 정보는 매우 중요한 자질로 사용될 수 있다. 음성 인식 결과의 후보 문장들을 모두 의도 분석 과정을 거치고 각각의 후보 의도들과 이전 담화 정보의 연관성을 이용하여 음성 인식 결과를 재순위화 한다. 실험을 통하여 재순위 과정을 수행한 결과 1순위 음성 인식 결과는 재순위 과정을 거치지 않는 결과에 비해 7.08%의 오류 감소율을 보였다.

  • PDF

The Postprocessing of a Korean OCR using the Output of the Word Recognition and the Statistical Information from a Corpus (문자 인식기의 특성과 말뭉치의 통계 정보를 이용한 문자 인식 결과의 후처리)

  • Son, Hoon-Seok;Choi, Sung-Pil;Kwon, Hyuk-Chul
    • Annual Conference on Human and Language Technology
    • /
    • 1997.10a
    • /
    • pp.188-193
    • /
    • 1997
  • 한국어 문자 인식 후처리는 인식기가 제공하는 후보 음절을 바탕으로 후처리를 하였다. 이 논문은 문자 인식기가 제공하는 후보 음절 대신에 인식기의 인식 결과를 분석하여 인식기의 오인식 통계 정보에 따라 인식 결과 음절의 후보 음절을 생성한다. 여기서 생성된 후보 어절을 각 음절의 확률 값을 이용하여 확률이 가장 놓은 어절을 선택한다. 이때 한국어 대용량 말뭉치에서 추출한 어절의 통계정보를 이용하여 그 어절의 확률 값을 구한다. 이 기법의 장점은 후보 음절의 조합으로 생성된 어절의 확률 값과 그 어절의 말뭉치상의 확률 값을 이용한 결과 말뭉치에 포함된 미등록어 정보에 따라 형태소 분석이 되지 않는 미등록어 처리가 가능하다. 또한 후보 어절 중 형태소 분석이 성공하는 어절이 두개 이상 있을 경우 실제 거의 쓰이지는 않지만 단지 음절의 확률 값이 높아 우선으로 선택되는 경우를 방지하였다. 실험은 약 1,000page 분량의 실험을 통해 오인식 결과를 수집하고, 4000만 원시 말뭉치에서 구한 어절의 통계정보를 이용하였다. 그 결과 문자 인식기의 98.05%의 어절 인식률을 후처리 결과 99.52%로 향상시켰다.

  • PDF

The Pupil Boundary and design of Neural Network structure for Recognition Rate improvement (인식률 향상을 위한 동공경계 및 신경망 구조 설계)

  • Kang, Kyung-A;Kang, Myung-A;Jung, Chae-Young
    • Annual Conference of KIPS
    • /
    • 2003.05a
    • /
    • pp.583-586
    • /
    • 2003
  • 보안이 점점 큰 의미를 가지는 요즘, 생체정보를 개인 신분 확인수단으로 이용하려는 연구가 많이 이루어지고 있다 생체정보를 이용한 분야로는 얼굴 인식, 지문 인식, 정맥 인식, 홍채 인식 등이 있는데 그 중에서도 홍채는 패턴의 불변성과 개인의 정보로 이용될 수 있을 정도로 다양한 패턴 형태를 이루고 있다. 이러한 홍채를 이용하여 신분을 인식하기 위해서는 불필요한 영역은 배제하고 인식을 위한 특징만을 가지고 있는 영역을 정확히 찾는 것이 중요하다고 하겠다. 또한 인식 시간의 단축을 위해서 특징 데이터의 크기를 줄이기 위한 방법도 고려되어야 한다. 이 두 가지 문제를 해결하기 위하여 본 논문에서는 홍채의 특징이 가장 많이 분포되어 있는 영역을 찾기 위한 전처리 기법과 인식을 위한 신경망에서 인식시간을 단축하면서 인식률을 높일 수 있는 최적의 신경망 구조를 찾아내는 방법을 제안한다.

  • PDF

Traffic Sign Recognition Using Color Information and Neural Network with Multi-layer Perceptron (컬러정보와 다층퍼셉트론 신경망을 이용한 교통표지판 인식)

  • Bang, Gul-Won;Kang, Dea-Yook;Kim, Byung-Ki;Cho, Wan-Hyun
    • Annual Conference of KIPS
    • /
    • 2007.05a
    • /
    • pp.305-308
    • /
    • 2007
  • 본 논문은 교통표지판을 자동으로 인식하는 방법에 관한 연구로 기존의 교통표지판 인식시스템에서는 인식하는데 걸리는 시간이 길고 잡음환경에서 인식률이 저하되며 변경된 교통표지판은 인식하지 못하는 문제점이 있다. 본 논문에서는 이와 같은 문제점을 해결하기위해 컬러정보를 이용하여 교통표지판 영역을 추출하고 추출된 이미지를 인식하는데 다층퍼셉트론 신경망 알고리즘을 적용하여 교통표지판 인식시스템을 제안한다. 제안된 방법은 교통표지판의 컬러를 분석하여 영상에서 교통표지판 영역을 추출한다. 영역을 추출하는 방법은 RGB 컬러 공간으로부터 YUV, YIQ, CMYK 컬러 공간이 가지는 특성을 이용한다. 형태처리는 교통표지판의 기하학적 특성을 이용하여 군집화한다. 교통표지판 인식은 학습이 가능한 다층퍼셉트론의 오류역전파알고리즘을 적용하여 인식한다. 다층퍼셉트론 신경망 알고리즘은 패턴인식 분야에서 우수한 성능이 입증 되었다.

How to Use Effective Dictionary Feature for Deep Learning based Named Entity Recognition (딥러닝 기반의 개체명 인식을 위한 효과적인 사전 자질 사용 방법)

  • Kim, Hong-Jin;Kim, Hark-Soo
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.293-296
    • /
    • 2019
  • 개체명 인식은 입력 문장에서 인명, 지명, 기관명, 날짜, 시간과 같이 고유한 의미를 갖는 단어들을 찾아 개체명을 부착하는 기술이다. 최근 개체명 인식기는 형태소 단위나 음절 단위의 입력을 사용하는 연구가 주로 진행되고 있다. 그러나 형태소 단위 개체명 인식은 미등록어를 처리하지 못하는 문제점이 존재하고 음절 단위 개체명 인식은 단어의 의미를 제대로 반영하지 못하는 문제점이 존재한다. 본 논문에서는 이 문제점을 보완하기 위해 품사 정보를 활용한 음절 단위 개체명 인식기를 제안한다. 또한 개체명 인식 성능에 큰 영향을 미치는 개체명 사전 자질을 더 효과적으로 사용할 수 있는 방법을 제안하며 이 방법을 사용했을 때 기존의 방법보다 향상된 개체명 인식 성능(F1-score 0.8576)을 보였다.

  • PDF

Context-Aware Middleware Design for Emotion Feedback of E-Learning Learners (이러닝 학습자의 감정 피드백을 위한 상황인식 미들웨어 설계)

  • Kim, Jin-Bong
    • Annual Conference of KIPS
    • /
    • 2022.11a
    • /
    • pp.670-672
    • /
    • 2022
  • 이러닝 시스템을 유용하게 활용하려면 학습자의 감정을 인식하여 학습자에게 적절한 피드백을 주는 것이 무엇보다 중요하다. 이러닝 시스템의 학습효율을 높이기 위해서는 학습자의 감정을 인식하여 그에 적절한 피드백을 제공하는 것이 중요하다. 본 논문에서는 학습자에 대한 적절한 피드백을 제공하기 위해서 상황인식 컴퓨팅 기술을 바탕으로 학습자의 감정표현단어를 상황정보로 사용하여 감정을 인식할 수 있는 상황인식 미들웨어로서 EF-CAM을 제안한다. EF-CAM은 감정표현단어의 범주화기술을 기반으로 온톨로지를 구축하여 학습자의 감정을 인식한다. 이러닝 학습자의 감정을 인식하기 위해서 학습자의 감정표현 단어를 상황정보로 사용하고, 학습자의 감정에 영향을 미칠 수 있는 환경정보(온도, 습도, 날씨 등)를 추가하여 인식한다. 학습자의 감정을 표현하기 위해서 OWL 언어를 사용하여 온톨로지를 구축하였다.