• 제목/요약/키워드: 문자 구조적 특징

검색결과 70건 처리시간 0.024초

접미어 트리 구조를 이용한 효율적인 XML 경로 인덱싱 (A Suffix Tree Approach for Efficient XML Path Indexing)

  • 이덕형;원정임;노관준;윤지희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.88-90
    • /
    • 2002
  • 최근 인터넷 상에서 XML 문서의 사용이 급속도로 보편화, 일반화됨 따라 정보 검색을 위한 다양한 XML 질의 언어가 제안되고 있다. XML 질의의 공통 특징으로서 ‘*’ 문자 등을 사용한 정규화 경로식(regular path expression)에 의한 손쉬운 구조정보 검색 기능을 들 수 있다. 본 논문에서는 접미어 트리(suffix tree)를 이용한 새로운 경로 인덱싱 기법을 제안한다. 제안하는 기법에서는 XML 문서상의 각 경로를 축약된 유일한 문자열로 인코딩하며, 인코딩 된 각 문자열의 모든 접미어 정보를 인덱스에 저장한다. 본 기법은 일반 정규화 경로식을 포함하는 구조질의를 매우 효율적으로 처리하며, 또한 경로 정보가 부정확하게 기술된 경우에도 관사 질의 처리를 효과적으로 처리할 수 있다.

  • PDF

차량후면부 차량특징정보 검출을 통한 차량정보인식 및 자동과금시스템 (Vehicle Information Recognition and Electronic Toll Collection System with Detection of Vehicle feature Information in the Rear-Side of Vehicle)

  • 이응주
    • 한국멀티미디어학회논문지
    • /
    • 제7권1호
    • /
    • pp.35-43
    • /
    • 2004
  • 본 논문에서는 고속도로나 도심 진입 차량의 무인 자동과금 및 주요시설 출입 차량의 통제와 관리를 위하여 차량번호판 인식뿐만 아니라 차량 표시 문자와 제조사 식별자 검출 분류하여 차량의 정보를 판독하는 차량정보인식 및 자동과금시스템을 제안하였다. 제안한 알고리즘은 차량 후면부에서 획득된 영상으로부터 잡음제거, 세선화 등의 전처리 과정을 수행하고 템플릿 마스킹 및 레이블링 연산처리를 수행하여 차량표시문자, 제조사 표식자 및 번호판 영역을 각각 검출하였다. 또한, 검출된 특징 영역으로부터 특징자의 구조적 특징 및 패턴정보를 이용하여 표시문자와 제조사 표식자를 분류하였고, 하이브리드 패턴벡터와 세븐세그먼트 패턴벡터를 사용하여 차량번호판의 문자 및 숫자를 각각 인식하였다. 실험에서는 실제 고속도로상에서 제안한 차량인식 시스템에서 획득된 실 영상을 사용하여 인식 성능을 수행하였다. 실험 결과 제안한 알고리즘이 잡음, 외부환경, 차량의 크기에 무관하게 차량 특징자를 정확히 검출 분류하였으며 제안한 시스템은 범죄차량 단속, 차량자동과금 및 관공서 등의 차량입출력 관리의 무인화에 적용이 가능하다.

  • PDF

자소 클래스 인식에 의한 off-line 필기체 한글 문자 분할 (Consonant-Vowel Classification Based Segmentation Technique for Handwritten Off-Line Hangul)

  • 황순자;김문현
    • 한국정보처리학회논문지
    • /
    • 제3권4호
    • /
    • pp.1002-1013
    • /
    • 1996
  • 문자 분할은 필기체 문서 서식의 자동 인식 과정에서 중요한 부분이다. 본 연구는 off-line 필기체 한글로부터 문자를 분할하기 위한 방법을 제안한다. 제안한 방법은 한글의 구조적 특성에 기반을 두고 있다. 먼저 투영에 의하여 입력 단어로 부터 분할 을 위한 특징과 연결 화소, 획을 추출한다. 두 번째 단계에서 획의 모양과 위치, 획과 획과의 관계를 이용하여 한글의 기본 자소 클래스 영역을 찾는다. 세 번째 단계는 분할 과정으로 WRC(While Run Column)다음에 초성이나 수평 모음이 오는 경우 이 WRC에서 수직으로 분할하며, 분할된 세그먼트의 길이가 임계값 이상아면 자소 클래 스와 문자의 칼럼에 대한 특징을 이용하여 예상 분할 영역을 찾고, 이 영역에 있는 획을 따라 요철 형태로 분할한다.

  • PDF

위상회전에 의한 필기체 한글의 자동인식 (Automatic Recognition of Hand-written Hangout by the Phase Rotation)

  • 이주근;김홍기
    • 대한전자공학회논문지
    • /
    • 제13권1호
    • /
    • pp.23-30
    • /
    • 1976
  • 이 논문에서는 위상회전에 의한 오목구조의 짐출로서 필기체 한글을 인식하는 한 방법을 검토한다. 문자 Pattern를 오목구조적인 기본 Segment로 분해하여 집합으로 분류하고, 그들 집함에 대한 각 Segment의 폐상태와 위상특징을 logic으로 표현한다. 다음 그들 logic pattern의 위상회전으로서 오목구조의 topological성질과 위상특징을 검출하여 문자를 결정한다. 이 방법은 필기체의 변화와 문자의 대소, 경사 띤 위치 변위에 대한 식별의 유연성을 가지며, 인식율이 높다. In this paper, a method is proposed for the recognition of hand-written Hangeul. This is peiformed by extraction of the concave structural segments by phase rotation. Character patterns can be decomposed into the fundamental concave structural segments which are also categorized into segment sects, and the closure and phase features of each segment in set is represented by logics. By rotating the logic pattern, the topological and phase features of segment are extracted for the reliable recognition of the character. It is also evaluated that this method applies to a wide variety of shape, position and declination of the character.

  • PDF

다중 인식기 및 검증기를 갖는 거버문자 인식 시스템 (A Gerber-Character Recognition System with Multiple Recognizers and a Verifier)

  • 오혜원;박태형
    • 한국지능시스템학회논문지
    • /
    • 제14권1호
    • /
    • pp.20-27
    • /
    • 2004
  • 인쇄회로기판 제작에 사용되는 국제표준규격의 거버 파일로부터 부품 위치 이름을 자동으로 추출하기 위한 문자인식 시스템을 제안한다. 거버 파일은 벡터형식의 그림파일로서, 각종도형 및 기호가 문자와 혼합되어 있으며, 가로쓰기와 세로쓰기 및 역 세로쓰기가 병용된다. 거버문자인식 시스템은 거버 파일에서 문자패턴을 추출하여 분리하는 전 처리 단계와 추출된 패턴을 인식하는 인식단계 및 인식된 문자와 숫자를 조합하여 부품위치이름을 구성하는 후 처리단계로 구성된다. 특히 인식률 향상을 위하여 신경회로망에 의한 다중인식기 및 구조적 특징을 이용한 검증기를 개발한다. 본 논문에서 개발된 거버문자 인식시스템은 인쇄회로기판 조립 및 검사 장비를 위한 자동 프로그래밍 시스템에 사용되어, 전자제품 제조시스템의 생산성 향상에 기여할 수 있다.

듀얼 SMS 스팸 필터링: 그래프 기반 자질 가중치 기법 (Dual SMS SPAM Filtering: A Graph-based Feature Weighting Method)

  • 황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-99
    • /
    • 2014
  • 본 논문에서는 최근 급속히 증가하여 사회적 이슈가 되고 있는 SMS 스팸 필터링을 위한 듀얼 SMS 스팸필터링 기법을 제안한다. 지속적으로 증가하고 새롭게 변형되는 SMS 문자 필터링을 위해서는 패턴 및 스팸 단어 사전을 통한 필터링은 많은 수작업을 요구하여 부적합하다. 그리하여 기계 학습을 이용한 자동화 시스템 구축이 요구되고 있으며, 효과적인 기계 학습을 위해서는 자질 선택과 자질의 가중치 책정 방법이 중요하다. 하지만 SMS 문자 특성상 문장들이 짧기 때문에 출현하는 자질의 수가 적어 분류의 어려움을 겪게 된다. 이 같은 문제를 개선하기 위하여 본 논문에서는 슬라이딩 윈도우 기반 N-gram 확장을 통해 자질을 확장하고, 확장된 자질로 그래프를 구축하여 얕은 구조적 특징을 표현한다. 학습 데이터에 출현한 N-gram 자질을 정점(Vertex)으로, 자질의 출현 빈도를 그래프의 간선(Edge)의 가중치로 설정하여 햄(HAM)과 스팸(SPAM) 그래프를 각각 구성한다. 이렇게 구성된 그래프를 바탕으로 노드의 중요도와 간선의 가중치를 활용하여 최종적인 자질의 가중치를 결정한다. 입력 문자가 도착하면 스팸과 햄의 그래프를 각각 이용하여 입력 문자의 2개의 자질 벡터(Vector)를 생성한다. 생성된 자질 벡터를 지지 벡터 기계(Support Vector Machine)를 이용하여 각 SVM 확률 값(Probability Score)을 얻어 스팸 여부를 결정한다. 3가지의 실험환경에서 바이그램 자질과 이진 가중치를 사용한 기본 시스템보다 F1-Score의 약 최대 2.7%, 최소 0.5%까지 향상되었으며, 결과적으로 평균 약 1.35%의 성능 향상을 얻을 수 있었다.

  • PDF

문자-에지 맵의 패턴 히스토그램을 이용한 자연이미지에서의 텍스트 영역 추출 (Text Region Extraction using Pattern Histogram of Character-Edge Map in Natural Images)

  • 박종천;황동국;이우람;권교현;전병민
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2006년도 추계학술발표논문집
    • /
    • pp.220-224
    • /
    • 2006
  • 자연이미지에 포함된 텍스트는 많은 중요한 정보를 포함하고 있다. 그러므로 자연이미지에서 텍스트를 추출할 수 있다면 다양한 분야에서 활용될 수 있다. 본 논문에서는 문자-에지 맵 패턴 히스토그램 분석함으로서 텍스트 영역을 추출하는 방법을 제안한다. 캐니-에지 검출기로 에지를 추출하여 16가지 에지 맵을 생성하고, 에지 맵을 조합하여 문자 특징을 갖는 8가지 문자-에지 맵을 생성한다. 8가지 문자-에지 맵과 16가지 에지 맵을 이용하여 텍스트 후보 영역을 추출하고, 문자-에지 맵의 패턴 히스토그램 및 텍스트 영역의 구조적 특징을 이용하여 텍스트 후보 영역에 대한 검증을 수행하였다. 제안한 방법은 다양한 종류의 자연이미지를 대상으로 실험하였고, 복잡한 배경, 다양한 글꼴, 다양한 텍스트 컬러로 구성된 자연이미지에서 텍스트 영역을 효과적으로 추출하였다.

  • PDF

인쇄체 한글 및 한자의 인식에 관한 연구 (A Study on the Printed Korean and Chinese Character Recognition)

  • 김정우;이세행
    • 한국통신학회논문지
    • /
    • 제17권11호
    • /
    • pp.1175-1184
    • /
    • 1992
  • 본 논문에서는 한자를 포함하는 한글 문서 인식을 위한 인쇄체 한글, 한자의 구분과 인식 방법에 대하여 연구하였다. 제안된 한글, 한자 구분 방법은 한글의 수직모음과 수평모음의 구조적 특징을 이용하였다. 한글은 6가지 형태로 분류하고 분류된 각 형태에 대하여 세선화 과정을 거치지 않고 모음 우선추출에 의한 자모분리를 행하고 분리된 자음에 대하여 변형된 교차거리 특징을 이용하여 인식하였다. 한자에 대해서는 획교차수의 평균치를 이용하여 전체 한자 대상문자에 대해 분류를 하였으며, 문자의 획교차수와 흑점비율 특징을 이용하여 인식하였다. 한글과 한자의 구분에서는 90.5%의 분류율을 얻었다. 한글인식에 있어서는 대상문자 명조체 2512자에 대하여 90.0%의 형태 분류율을 얻었다. 인식 결과 실험 데이타 1278자에 대하여 92.2%의 인식율을 얻었다. 한자인식에 있어서는 대상문자 4585자에 대하여 분류한 결과 최대밀집 구간은 124자로서 약 1/40 정도로 분류되었음을 알 수 있었고, 인식실험 결과 89.2%의 인식율을 얻었다.

  • PDF

반복레이블링기법을 이용한 통합차량번호판의 문자영역화에 관한 연구 (A Study on Vehicle License Plate Segmentation using Iterative Labeling)

  • 구경모;정호영;윤희주;차의영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.923-926
    • /
    • 2004
  • 본 논문에서는 현재까지 도입된 세 가지 종류의 차량번호판의 구조적 특징을 파악하여 이를 구분하고, 반복레이블링기법을 이용하여 각각의 번호판에서 일련번호를 영역화하는 기법을 제안한다. 또한 차량번호판이 가지는 구조적인 특징을 이용하여 용도기호, 차종기초 및 지역명을 영역화하는 기법을 제안한다.

  • PDF

TV 제어 메뉴의 다국적 언어 인식을 위한 특징 선정 기법 (A Feature Selection Technique for Multi-lingual Character Recognition)

  • 강근석;박현정;김호준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2005년도 학술대회
    • /
    • pp.199-202
    • /
    • 2005
  • TV OSD(On Screen Display) 메뉴 자동검증 시스템에서 다국적 언어의 문자 인식은 표준패턴의 구조적 분석이 쉽지 않을 뿐만 아니라 학습패턴 집합의 규모와 특징의 수가 증가함으로 인하여 특징추출 및 인식 과정에서 방대한 계산량이 요구된다. 이에 본 연구에서는 학습 데이터에 포함되는 다량의 특징 집합으로부터 인식에 필요한 효과적인 특징을 선별함으로써 패턴 분류기의 효율성을 개선하기 위한 방법론을 고찰한다. 이를 위하여 수정된 형태의 Adaboost 기법을 제안하고 이를 적용한 실험 결과로부터 그 유용성을 고찰한다. 제안된 알고리즘은 초기의 특징 집합을 취약한 성능을 갖는 다수의 분류기(classifier)로서 고려하며, 이로부터 반복학습을 통하여 개선된 분류기를 점진적으로 선별해 나가게 된다. 학습의 원리는 주어진 학습패턴 집합에 기초하여 일종의 교사학습(supervised learning) 방식으로 이루어진다. 각 패턴에 할당된 가중치 값은 각 단계에서 산출되는 분류결과에 따라 적응적으로 수정되어 반복학습이 진행됨에 따라 점차 보완적 성능을 갖는 분류기를 선택할 수 있게 한다. 즉, 주어진 각 학습패턴에 대하여 초기에 균등한 가중치가 부여되며, 반복학습의 각 단계에서 적용되는 분류기의 출력을 분석하여 오분류된 패턴의 가중치 분포를 증가시켜 나간다. 본 연구에서는 실제 응용으로서 OSD 메뉴검증 시스템을 대상으로 제안된 이론을 적용하고 그 타당성을 평가한다.

  • PDF