• 제목/요약/키워드: 문자언어

검색결과 394건 처리시간 0.036초

한영 혼용 문서에서의 효과적인 문자 분할을 위한 언어 인식에 관한 연구 (Language Recognition for Effective Character Segmentation in the mixed Korean-English Documents)

  • 최원효;양병석;성기준;강재우;하진영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.439-444
    • /
    • 2008
  • 본 논문은 한영 혼용 문서에서의 문자 분할을 위한 효율적인 언어 인식기를 고안하였다. 한영 혼용 문서를 스캔한 후, OCR(광학 문자 판독, Optical Character Recognition)을 할 때, 문자 분할의 중요성은 상당히 크다. 인식 없이 문자를 분할하는 external segmentation 방법에서는, 인식할 언어가 한글 혹은 영어인가에 따라 문자 분할 방법이 달라진다. 그러므로, 한영 혼용 이미지를 인식하기 위해서 문자 분할을 하기 전에 언어를 미리 결정해야 한다. 본 논문에서는 문자 분할 방법을 효율적으로 하기 위한 언어 인식기를 제안하고 그 방법을 적용하였다. 그 결과 한영 혼용된 책 이미지에서 94.09%의 문자 분할 성공률을 보였다.

  • PDF

다중 언어로 작성된 문서 파일에 적용된 문자 인코딩 자동 인식 기법 (A Method for Automatic Detection of Character Encoding of Multi Language Document File)

  • 서민지;김명호
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권4호
    • /
    • pp.170-177
    • /
    • 2016
  • 문자 인코딩은 문서를 컴퓨터에서 이용할 수 있도록 문자 코드 테이블을 이용하여 이진화하는 방법이다. 이진화된 문서를 읽기 위해서는, 문서에 적용된 문자 코드를 이용하여 문자 인코딩을 알아내야 한다. 본 논문에서는 문서의 문자 인코딩을 자동으로 판별하는 방법을 제시한다. 제안하는 방법은 이스케이프 문자를 이용한 판별법, 문서에 나타난 코드 값 범위 판별법, 문서에 나타난 코드 값의 특징 판별법, 각 언어별 자주 사용하는 단어를 이용한 판별법과 같은 여러 단계를 걸쳐 문서에 적용된 문자 인코딩을 판별한다. 자주 사용하는 단어를 이용한 방법은 문서를 언어별로 분류하여 문자 인코딩을 판별하기 때문에, 다국어 문서에서 기존의 방법보다 높은 문자 인코딩 인식률을 보인다. 주로 표현하는 언어의 비중이 20% 미만일 경우, 기존의 방법은 약 50%의 문자 인코딩 인식률을 보였으나, 제안하는 방법은 문자 인코딩에서 표현하는 언어의 비중과는 상관없이 96% 이상의 문자 인코딩 인식률을 보였다.

통계적 기법에 의한 한-영 문자열의 자동 전환 (Statistical Approach to the Automatic Korean-English String Conversion)

  • 안영훈;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-208
    • /
    • 2001
  • 한글 혹은 영어 문자열을 입력할 때 입력 모드를 수동으로 전환하지 않더라도 입력된 문자열이 한글인지, 영어인지를 자동으로 판단하여 해당 문자열로 변환하는 방법을 제안한다. 한글 문자열일 확률을 계산하기 위해 음절 구성 요건과 음절 빈도 정보를 이용하고, 영어 문자열일 확률을 계산하기 위해 영어 bigram 및 trigram 정보를 이용한다. 또한, 한글과 영어가 혼합된 문자열은 한글일 확률과 영어일 확률이 교차되는 경계 위치를 인식함으로써 혼합 문자열을 생성한다.

  • PDF

히스토그램을 이용한 문자 영역 추출 (character segmentation using histogram)

  • 김지은;정우영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.173-174
    • /
    • 2012
  • 문자 영역의 추출은 명함 등 문서의 정형화된 문자 인식, 비전 기반 감시 시스템에서의 간판, 부호 등의 자연영상에서의 문자 인식 등 다양한 분야에 활용될 수 있다. 우리가 관심을 갖는 문자는 간판이나 이름표 등 다른 이에게 정보를 전달해주는 기능을 하는 것으로 그 전배경의 구분이 명확하다. 이러한 특징은 히스토그램의 변화와 관련이 되어 있으며 본 논문에서는 그 변화를 분석함으로써 문자 영역 추출 방법을 제안한다.

  • PDF

문자 단위의 Neural Machine Translation (Character-Level Neural Machine Translation)

  • 이창기;김준석;이형규;이재송
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-118
    • /
    • 2015
  • Neural Machine Translation (NMT) 모델은 단일 신경망 구조만을 사용하는 End-to-end 방식의 기계번역 모델로, 기존의 Statistical Machine Translation (SMT) 모델에 비해서 높은 성능을 보이고, Feature Engineering이 필요 없으며, 번역 모델 및 언어 모델의 역할을 단일 신경망에서 수행하여 디코더의 구조가 간단하다는 장점이 있다. 그러나 NMT 모델은 출력 언어 사전(Target Vocabulary)의 크기에 비례해서 학습 및 디코딩의 속도가 느려지기 때문에 출력 언어 사전의 크기에 제한을 갖는다는 단점이 있다. 본 논문에서는 NMT 모델의 출력 언어 사전의 크기 제한 문제를 해결하기 위해서, 입력 언어는 단어 단위로 읽고(Encoding) 출력 언어를 문자(Character) 단위로 생성(Decoding)하는 방법을 제안한다. 출력 언어를 문자 단위로 생성하게 되면 NMT 모델의 출력 언어 사전에 모든 문자를 포함할 수 있게 되어 출력 언어의 Out-of-vocabulary(OOV) 문제가 사라지고 출력 언어의 사전 크기가 줄어들어 학습 및 디코딩 속도가 빨라지게 된다. 실험 결과, 본 논문에서 제안한 방법이 영어-일본어 및 한국어-일본어 기계번역에서 기존의 단어 단위의 NMT 모델보다 우수한 성능을 보였다.

  • PDF

시각적 MMN(vMMN)의 분석을 통한 한국어 글말의 무의식적인 인지과정 연구 (Automatic cognitive processing of korean written language as indexed by visual MMN(vMMN))

  • 이성은
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.67-72
    • /
    • 2009
  • ERP의 일종인 MMN(Mismatch Negativity)은 언어의 청각 인지정보 처리과정(central auditory processing)을 규명하는 데 유용한 수단으로 이용되어 왔다. 그런데, 최근의 연구들은 이러한 MMN이 청각 자극뿐만 아니라 시각 자극에 의해서도 검출될 수 있음을 밝혀냈다. 본 연구는 이러한 시각적 MMN을 이용하여 뇌에서 이루어지는 한국어 화자의 무의식적인 한국어 문자 정보처리과정을 규명하려고 시도하였다. 본 연구에서는 한국어의 글말 최소쌍 '므'/'모'와 '므'/'무', 이에 대응되는 비언어자극 '+ㅡ'/'+ㅗ'와 '+ㅡ'/'+ㅜ'(+표시의 아래에 모음을 붙여서 만든 인공문자, 그림1 참고)를 수동적(passive) Oddball paradigm으로 제시하고 언어 자극에 대한 EEG를 비언어자극과 비교 하에 측정, 분석하였다. 본 연구의 결과, 언어자극과 비언어자극 모두에서 시각적 MMN이 검출되었다. 하지만, 언어자극의 시각적 MMN이 비언어자극의 시각적 MMN보다 높게 나타남을 확인하였다. 이는 한국어 모국어화자들이 무의식적인 인지과정에서 언어자극이 갖는 물리적인 시각 정보뿐만 아니라 한국어 문자의 언어적 정보도 함께 처리하고 있음을 보여주는 것이다. 본 연구의 결과들은 한국어 글말의 무의식적인 인지처리과정을 밝혀주는 한편, 한국어 문자가 인지과학에서 갖는 중요한 지위를 보여줄 수 있을 것으로 기대된다.

  • PDF

음절 Bi-gram정보를 이용한 한국어 OCR 후처리용 자동 띄어쓰기 (Automatic Word-Spacing of Syllable Bi-gram Information for Korean OCR Postprocessing)

  • 전남열;박혁로
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-100
    • /
    • 2000
  • 문자 인식기를 가지고 스캔된 원문 이미지를 인식한 결과로 형태소 분석과 어절 분석을 통해 대용량의 문서 정보를 데이터베이스에 구축하고 전문 검색(full text retrieval)이 가능하도록 한다. 그러나, 입력문자가 오인식된 경우나 띄어쓰기가 잘못된 데이터는 형태소 분석이나 어절 분석에 그대로 사용할 수가 없다. 한글 문자 인식의 경우 문자 단위의 인식률은 약 90.5% 정도나 문자 인식 오류와 띄어쓰기 오류 등을 고려한 어절 단위의 인식률은 현저하게 떨어진다. 이를 위해 한국어의 음절 특성을 고려해서 사전을 기반하지 않고 학습이 잘된 말뭉치(corpus)와 음절 단위의 bigram 정보를 이용한 자동 띄어쓰기를 하여 실험한 결과 학습 코퍼스의 크기와 띄어쓰기 오류 위치 정보에 따라 다르지만 약 86.2%의 띄어쓰기 정확도를 보였다. 이 결과를 가지고 형태소 분석과 언어 평가 등을 이용한 문자 인식 후처리 과정을 거치면 문자 인식 시스템의 인식률 향상에 크게 영향을 미칠 것이다.

  • PDF

혼용문서에서의 유사문자 분류 (The Similar Character Classification in the Mixed Document)

  • 문경애;지수영;오원근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.485-492
    • /
    • 1993
  • 본 논문에서는 혼용문서에서 문자들의 유사성으로 인해 발생하는 오인식문자를 줄이기위해 대분류 단계에서 유사문자군을 찾고 이들 사이의 유사도를 계산, 분류하는 유사문자분류 방법을 제안하였다. 이 방법은 유사문자군내의 각 문자마다 그 문자만이 갖는 고유한 요인과 그 문자를 제외한 나머지 문자일 가능성이 있는 요인을 찾아 입력문자와 비교하여 유사도가 가장 큰 문자를 인식문자로 선택하는 알고리즘이다. 또한, 인식 후 오인식된 문자들에 대해 특징사전의 갱신을 통하여 인식률을 향상시켰다.

  • PDF

문자 없는 나라를 위한 문자 교육 시스템(소울)에 관한 연구 (A Study on the Education System for People Who Don't Have Their Own Letters, SOUL)

  • 함혜령;노용덕
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.377-380
    • /
    • 2010
  • 지식기반 사회에서 교육은 장기적인 발전을 위한 필수 요소이다. 교육을 위해서는 말하기, 듣기, 쓰기, 읽기 능력이 필요하다. 이 중 하나라도 충족하지 못한다면 제대로 된 교육을 받을 수 없다. 하지만 전 세계에 존재하는 약 6900여종의 언어 중 6600여종의 언어는 표기할 수 있는 고유 문자가 없다. 읽기 능력과 쓰기 능력을 기르기 위한 최소 조건조차 마련되어 있지 않은 것이다. 그래서 말은 있지만 문자는 없는 국가에 말을 표기할 수 있는 문자를 보급하여 지식기반 발전의 기반을 마련해 주는 소울(SOUL) 시스템을 제안한다. 소울(SOUL)은 두 가지 기능을 가지고 있다. 문자 교육 기능과, 지식 공유 공간 기능이다. 문자 교육 기능에서는 각 문자가 내는 소리와 조합방법, 그리고 각 문자의 표기법, 표기 순서 등을 익힘으로써 문자를 쉽게 익힐 수 있도록 하였다. SOUL은 말을 표기할 문자로 비교적 익히기 쉬운 언문인 한글을 채택하였다. 그리고 지식 공유 공간 기능에서는 문자를 익힌 사용자가 마치 위키피디아처럼 지식을 기록하고 공유할 수 있어 지식을 축적하도록 도와주도록 설계하였다. 여기서는 소울(SOUL) 시스템의 구조 및 구현을 보인다.

기계학습과 언어처리에 기반한 문자메시지 분류 (Text Message Classification based on Machine Learning)

  • 선주오;지명근;최범휘;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.492-495
    • /
    • 2019
  • 휴대전화 메시지로는 결제, 인증번호, 택배, 광고 등의 다양한 문자들이 수신된다. 이 문자들은 서로 섞여 있어 이용자가 찾고자 하는 문자를 찾는 데 어려움이 있다. 본 논문에서는 기계학습과 단어 임베딩을 통해 메시지들을 카테고리로 분류하는 방법을 제안하고, 이를 구현한 안드로이드 앱을 소개한다. 앱에서는 택배, 카드, 인증, 공공기관, 통신사, 대화, 기타의 7개의 분류로 메시지를 분류하며, 자동 분류에서는 수동 태깅한 5802건의 문자메시지를 사용한다. 앱에서는 저장된 문자메시지간 유사도에 기반한 오프라인에 서의 자동 분류를 지원하여 개인정보 노출에 대한 거부감이 있는 사용자의 요구를 반영한다.

  • PDF