• 제목/요약/키워드: 문자집합

검색결과 87건 처리시간 0.03초

다중바이트 문자집합 텍스트에서의 문자열 검색 알고리즘 (String Matching Algorithm on Multi-byte Character Set Texts)

  • 김은상;김진욱;박근수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권10호
    • /
    • pp.1015-1019
    • /
    • 2010
  • 문자열 완전일치 검색 알고리즘용 지금까지 많은 연구가 되어왔지만, EUC-KR 용 다중바이트 문자집합에 대해서는 연구원 것이 부족한 상황이다. 이 논문에서는 기존의 KMP 알고리즘을 사용할 때 EUC-KR과 같은 다중바이트 문자집합 텍스트에서 오검색이 발생할 수 있음을 보이며, 문자 단위의 접두사 함수를 적용하여 오검색이 발생하지 않도록 개선한 KMP 알고리즘을 제안한다. 또한, 널리 사용되고 있는 편집기인 Vim과 Emacs의 검색 알고리즘 및 기존의 오토마타 방식의 연구 결과에 비해 논문에서 제안한 알고리즘이 더 빠른 속도를 보이는 실험 결과를 제시한다.

거리반경기반 대표문자열 문제의 NP-완전 (The Consensus String Problem based on Radius is NP-complete)

  • 나중채;심정섭
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권3호
    • /
    • pp.135-139
    • /
    • 2009
  • 여러 문자열들을 비교하여 유사성 또는 거리(오차)를 계산하는 문제는 패턴매칭, 웹검색 바이오인포매틱스, 컴퓨터 보안 등 다양한 응용 분야와의 연관성으로 인해 활발히 연구되어 왔다. 주어진 문자열 집합 내의 여러 문자열들의 거리를 비교하기 위해 주어진 집합 내의 모든 문자열들을 대표하는 한 문자열(대표문자열)을 찾는 방법이 있다. 대표문자열 방법은 주어진 문자열 집합과 가장 유사한 한 문자열을 찾는 방법으로 주로 이용되는 목적함수는 거리반경과 거리합이 있다. 거리반경은 집합 내의 문자열들과 특정 문자열과의 거리들의 최대값으로 정의되며, 모든 문자열들 중에서 최소의 거리반경을 만드는 문자열을 주어진 문자열 집합에 대한 거리반경기반 대표문자열이라 한다. 거리합은 집합 내의 문자열들과 특정 문자열과의 거리들의 합으로 정의되며, 모든 문자열들 중에서 최소의 거리합을 만드는 문자열을 주어진 문자열집합에 대한 거리합기반 대표문자열이라 한다. 본 논문에서는 메트릭 거리함수에 대해 거리반경기반 대표문자열 문제가 NP-완전임을 증명한다.

Wildcard character를 포함하는 String Data 사이의 Subsumption 관계 확인을 위한 효율적인 알고리즘 (An effective algorithm for checking subsumption relation on string data containing wildcard characters)

  • 김도한;박희진;백은옥
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (1)
    • /
    • pp.712-714
    • /
    • 2004
  • 본 논문에서는 wildcard character를 포함하는 문자열의 집합을 대상으로, 이들 사이의 subsumption 관계를 파악하여 더 구체적인 정보를 가지는 문자열들의 집합을 구하고자 하는 것이다. 이를 위해 기존의 suffix tree 알고리즘이 wildcard character를 포함하는 문자열을 처리할 수 있도록 단순 적용한 방법과 trie의 집합을 이용하여 wildcard character를 포함한 문자열을 처리하는 두 가지 방법을 고려하였다

  • PDF

DNA스트링에 효율적인 써픽스 배열 구축 알고리즘 (An Efficient Algorithm for Constructing Suffix Arrays for DNA String)

  • 조준하;박회진;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.961-963
    • /
    • 2004
  • 써픽스 배열은 텍스트의 써픽스들을 사전적 순서대로 저장하여 검색을 효율적으로 할 수 있는 자료구조이다. 생물학에서의 DNA 스트링과 같이 긴 텍스트에 대해 써픽스 배열을 이용하면 빠르게 검색할 수 있다. 써픽스 배열은 유사한 자료구조인 써픽스 트리에 비해 적은 공간을 차지하기 때문에 생물학에서 사용하는 긴 텍스트의 처리에 유리하다. 최근, 텍스트에서 바로 써픽스 배열을 선형시간에 구축하는 알고리즘들이 발표되었다. 그러나 이들 알고리즘은 정수 문자집합을 위한 알고리즘들이었다. 본 논문에서는 고정길이 문자집합에 대해 써픽스 배열을 빠르게 구축하는 알고리즘을 소개한다. 그리고 실험을 통해서 DNA 스트링과 같은 고정길이 문자집합에 대해서 다른 알고리즘들과 구축시간을 비교하여 속도 향상이 있음을 보인다.

  • PDF

홍용 문자 코드 집합을 위한 계층적 다중문자 인식기 (Hierarchical Multi-Classifier for the Mixed Character Code Set)

  • 김도현;박재현;김철기;차의영
    • 한국정보통신학회논문지
    • /
    • 제11권10호
    • /
    • pp.1977-1985
    • /
    • 2007
  • 문자 인식은 인공지능의 한 분야로써 자동화 시스템, 로봇, HCI 분야에서 그 응용성 이 증대되고 있는 첨단 기술이다. 본 논문에서는 숫자, 기호, 영어, 한글이 여러 가지 형태로 조합되어 사용될 수 있는 영역에서의 문자 인식을 위해 인식 문자 집합과 대표 문자를 도입하였다. 여러 가지 조합의 언어 집합에 따른 소규모 인식기를 계층적으로 조합하여 인식 결과의 정확성을 높이고 시간 비용을 줄일 수 있는 효율적인 인식기 구조를 제안하였다. 그리고 학습 성능이 우수한 Delta-bar-delta 알고리즘을 이용하여 개별 소규모 인식기를 학습한 다음 다양한 개별 문자를 대상으로 그 인식 성능을 살펴본 결과 99%의 인식률을 획득함으로써 혼용 언어 문자 인식의 효율성과 신뢰성을 증명하였다.

유전 알고리즘을 이용한 특징 결합과 선택 (Feature Combination and Selection Using Genetic Algorithm for Character Recognition)

  • 이진선
    • 한국콘텐츠학회논문지
    • /
    • 제5권5호
    • /
    • pp.152-158
    • /
    • 2005
  • 문자 패턴에서 추출한 서로 다른 특징 집합을 결합함으로써 문자 인식 시스템의 성능을 향상시킬 수 있다. 이때 결합된 특징 벡터의 차원을 줄이기 위해 특징 선택을 수행해야 한다. 이 논문은 문자 인식 문제에서 특징 결합과 선택을 위한 일반적인 틀을 제시한다. 또한 필기 숫자 인식을 위한 설계와 구현을 제시한다. 이 설계에서는 필기 숫자 패턴에서 DDD 특징 집합과 AGD 특징 집합을 추출하며 특징 선택을 위해 유전 알고리즘을 사용한다. 실험 결과 CENPARMI 필기 숫자 데이터베이스에 대해 0.7%의 정확률 향상을 얻었다.

  • PDF

유형의 상대적 크기를 고려한 한글문자의 유형 분류 (Tyue Classification of Korean Characters Considering Relative Type Size)

  • 김병기
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권6호
    • /
    • pp.99-106
    • /
    • 2006
  • 한글과 같이 문자집합이 큰 조합 문자의 인식을 위해서는 문제공간을 줄여주는 유형분류가 큰 도움이 된다. 기존 연구들이 한글 구성원리에 치중하여 한글 유형을 정한 결과 복모음 문자에 대한 정확한 분류가 어려웠고 문자집합이 상대적으로 큰 종성 있는 문자들에 대한 세분류가 부족하여 문제공간의 분배에 어려움이 많았다. 본 논문에서는 이러한 문제들을 해결하고자 수평 투영 프로파일을 이용하여 안정적 추출이 가능한 횡모음을 우선 추출하고. 수평 투영 프로파일과 연결요소를 이용하여 종성 있는 문자들에 대하여 종성을 5가지 그룹 중 하나로 세분류 하는 유형분류 방법을 제안하였다. 기존의 유형분류 방법들이 유형간 크기 불균형을 갖는 6개 혹은 15개의 유형을 가진 반면에 제안한 방법은 균형 있고 안정적 분류가 가능한 19개의 유형을 갖는다. 한글 잦기순 1.000자에 대한 7개의 상용 글꼴자료를 사용하여 분류 시스템을 만들고 월간지에서 스캔(Scan)한 30.614자에 대한 유형 분류 실험을 통하여 제안한 방법이 다양한 글꼴과 큰 문자집합을 갖는 한글 문자의 유형분류에 효율적임을 확인하였다.

  • PDF

효율적인 유사문자열 검색을 위한 역리스트 탐색 기법 (Efficient Approximate String Searches with Inverted Lists through Search Range Reduction)

  • 이은석;김종익
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1310-1313
    • /
    • 2011
  • 유사문자열 검색이란 문자열 집합에서 주어진 문자열과 유사한 문자열들을 검색하는 것으로 정보검색, 데이터 클리닝 등의 분야에서 활용되고 있다. 효율적인 유사문자열 검색을 위해 사전에 문자열 집합에 대한 역리스트를 구성하고 문자열이 주어졌을 때, 주어진 문자열에 관련된 역리스트를 병합하여 유사도 기준을 만족하는 문자열을 찾는다. 이때 비용을 줄이기 위해 일부의 역리스트만 병합하고 나머지 역리스트에 대해서는 이진탐색을 하는 방법이 있다. 본 논문에서는 역리스트를 이진탐색할 때, 불필요한 탐색구간을 제거하여 역리스트 탐색 비용을 줄이는 방법을 제안한다.

영상처리기술을 이용한 핵 연료봉 문자 자동인식시스템 개발 (Development of Automatic Nuclear Fuel Rod Character Recognition System Based on Image Processing Technique)

  • Woong Ki Kim;Yong Bum Lee;Jong Min Lee;Sung IL Chien
    • Nuclear Engineering and Technology
    • /
    • 제25권3호
    • /
    • pp.424-429
    • /
    • 1993
  • 핵연료 소결체가 장전되는 핵연료봉의 끝부분에는 각각의 핵연료봉을 구분해주는 고유의 문자가 인쇄되어 있다. 핵연료 집합체 제조 과정에서 각각의 핵연료봉은 고유 문자에 의해 구분되어 체계적으로 관리되고 있으며 아울러 핵연료 연소 이상상태 감시 및 사용후 핵연료 검사 분야에서 핵연료봉 제조과정 추적에 이용되고 있다. 핵연료봉 문자 자동인식은 핵연료 집합체 제조과정의 자동화를 위한 핵심 기술이다. 본 연구에서는 핵연료봉 문자인식 시스템을 개발하여, 핵 연료봉단에 기록된 각 문자로 부터 추출한 메쉬 특징값을 데이타베이스에 저장된 특정 문자의 특징값과 비교하여 자동으로 문자인식을 수행하도록 하였다. 실험 결과, 95.83 퍼센트의 양호한 인식률을 기록하였다.

  • PDF

적응 학습 능력을 가진 SEJONG-NET (Adaptive SEJONG-NET)

  • 박혜영;이일병
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1995년도 제7회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.164-168
    • /
    • 1995
  • SEJONG-NET은 시각 문자패턴의 인식 과정을 설명 할 수 있는 적절한 패러다임을 제공하기 위해 척추동물의 시신경계 구조와 기능을 모방하여 만든 문자인식 모형이다. 초기에는 온라인 한글 인식을 위하여 설계되었으며, 이후 다양한 문자 집합이나 오프라인 한글 문자를 위한 모뎀들이 개발되었다. 현재까지 개발된 여러 SEJONG-NET 모델이 가지고 있는 문제점은 정직성이라고 할 수 있다. 즉, 설계 초기에 고려한 인식 대상 문자 집합과 문자 패턴에 대해서만 인식이 가능하고, 변형된 패턴을 기존의 패턴으로 근사화하여 해석하거나 새로운 패턴에 대하여 그것을 추가 학습하는 것이 불가능하다. 따라서 본 논문은 SEJONG-NET의 이러한 제약점을 해결하여 한글 인식 문제에 일반적으로 적용될 수 있도록 개선하는 것을 목적으로 한다. 이를 위해 상위층에서는 인간이 가지고 있는 문자에 대한 구조적인 지식을 표현하고 학습을 통해 추가적으로 습득할 수 있는 형태로 구현하였고, 하위층에서는 상위층에서 쓰이는 구조적인 지식을 표현하는데 적합한 특징을 추출해 낼 수 있도록 구현하였다. 특히 하위층에서는 인간의 초기 시각 피질에서 감지되는 특징들을 추출하도록 구현하여 사용되는 특징이 일반성을 가질 수 있도록 하였다. 이러한 방법을 기반으로 하여 본 논문에서는 변형된 패턴에 대한 적응 학습 능력을 가지며 인지과학적인 사실에 보다 충실하도록 개선된, 온라인 한글 인식을 위한 SEJONG-NET 모델을 제안한다.

  • PDF