• 제목/요약/키워드: 부분문자열

검색결과 67건 처리시간 0.023초

개선된 퍼지 ART 기반 RBF 네트워크와 PCA 알고리즘을 이용한 여권 인식 및 얼굴 인증 (A Passport Recognition and face Verification Using Enhanced fuzzy ART Based RBF Network and PCA Algorithm)

  • 김광백
    • 지능정보연구
    • /
    • 제12권1호
    • /
    • pp.17-31
    • /
    • 2006
  • 본 논문에서는 출입국자 관리의 효율성과 체계적인 출입국 관리를 위하여 여권 코드를 자동으로 인식하고 위조 여권을 판별할 수 있는 여권 인식 및 얼굴 인증 방법을 제안한다. 여권 이미지가 기울어진 상태로 스캔되어 획득되어질 경우에는 개별 코드 인식과 얼굴 인증에 많은 영향을 미칠 수도 있으므로 기울기 보정은 문자 분할 및 인식, 얼굴 인증에 있어 매우 중요하다. 따라서 본 논문에서는 여권 영상을 스미어링한 후, 추출된 문자열 중에서 가장 긴 문자열을 선택하고 이 문자열의 좌측과 우측 부분의 두께 중심을 연결하는 직선과 수평선과의 기울기를 이용하여 여권 영상에 대한 각도 보정을 수행한다. 여권 코드 추출은 소벨 연산자와 수평 스미어링, 8 방향 윤곽선 추적 알고리즘을 적용하여 여권 코드의 문자열 영역을 추출하고, 추출된 여권 코드 문자열 영역에 대해 반복 이진화 알고리즘을 적용하여 코드의 문자열 영역을 이진화한다. 이진화된 문자열 영역에 대해 CDM 마스크를 적용하여 문자열의 코드들을 복원하고 8 방향 윤곽선 추적 알고리즘을 적용하여 개별 코드를 추출한다. 추출된 개별 코드 인식은 개선된 RBF 네트워크를 제안하여 적용한다. 개선된 퍼지 ART 기반 RBF 네트워크는 퍼지 논리 접속 연산자를 이용하여 경계 변수를 동적으로 조정하는 퍼지 ART 알고리즘을 제안하여 RBF 네트워크의 중간층으로 적용한다. 얼굴 인증을 위해서는 얼굴 인증에 가장 보편적으로 사용되는 PCA 알고리즘을 적용한다. PCA 알고리즘은 고차원의 벡터를 저 차원의 벡터로 감량하여 전체 입력 영상들의 직교적인 공분산 행렬을 계산한 후, 그것의 고유 값에 따라 각 영상의 고유 벡터를 구한다. 따라서 본 논문에서는 PCA 알고리즘을 적용하여 얼굴의 고유 벡터를 구한 후, 특징 벡터를 추출한다. 그리고 여권 영상에서 획득되어진 얼굴 영상의 특징 벡터와 데이터베이스에 있는 얼굴 영상의 특징 벡터와의 거리 값을 계산하여 사진 위조 여부를 판별한다. 제안된 여권 인식 및 얼굴 인증 방법의 성능을 평가를 위하여 원본 여권에서 얼굴 부분을 위조한 여권과 기울어진 여권 영상을 대상으로 실험한 결과, 제안된 방법이 여권의 코드 인식 및 얼굴 인증에 있어서 우수한 성능이 있음을 확인하였다.

  • PDF

화학 데이타베이스에서 부분구조 검색을 위한 인덱스 구조 (An Index Structure for Substructure Searching In Chemical Databases)

  • 이환구;차재혁
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권6호
    • /
    • pp.641-649
    • /
    • 2004
  • 약물의 화학적 구조와 그 약물의 약리작용간의 연관성은, 'Medicinal Chemistry' 분야에서 활발히 연구된다. 이는 화학구조를 기반으로 하여 신약을 설계하려는 시도로서, 약학자는 신약 개발 시 만들고자 하는 약물과 비슷한 화학구조를 가지고 있는 기존 약물들에는 어떠한 것들이 있는지 조사하며, 특정 화학구조가 어떤 약물들에서 나타나는지 신속히 검색하기를 원한다. 이처럼 어떤 화차구조에서, 특정한 부분구조가 존재하는지를 검사하는 것을 부분구조검색(Substructure Searching)이라 하며, 이는 그래프 이론에서 NP-complete인 동형성 판정(Subgraph Isomorphism) 문제로 귀결된다. 검색 시간을 단축시키고자 여러 다른 전근방법들이 연구되었는데, 1990년대에는 구조에 대한 인덱스를 미리 만들어 RDBMS에 저장한 후, 검색시 이론 이용하여 성능을 높이는 방법으로 미국 특허를 획득한 RS3 시스템(http://www.acelrys.com/rs3)이 현재 상용화되어 쓰이고 있다. 본 논문에서는 RS3 시스템의 문제점을 규명하고, 이의 개선방안으로서 새로운 인덱스를 제안한다 RS3 시스템은 각 원자를 중심으로 다른 원자와의 구조를 문자연로 표현하고, 부분구조검색 쿼리를 부분문자열 검색을 실행함으로써 수행하는데, 이의 화학구조를 기술하는 인덱스에는 동일 원자, 동릴 결합에 대한 정렬이 불가능하여 재현율(Recall)과 정도(Precision)가 낮다. 이론 개선하기 위하여 본 논문에서는 2차원의 화학구조를 나누어 1차원의 구조 단편으로 만들고 이를 문자열로 기술하는 방안을 제시하며 구체적인 방법으로 한 인자를 중심으로 최소비용신장트리를 구성한 다음 레벨별로 경로를 나누어 기술하는 방안을 제안하며, 이와 같은 방법의 새로운 인덱스로 재현율과 정도가 급격히 향상됨을 보인다.

순위다중패턴매칭을 위한 해싱기반 알고리즘의 이동테이블 병렬계산 (Parellel Computation of the Shift Table of a Hashing-Based Algorithm for the Order-Preserving Multiple Pattern Matching)

  • 박정훈;김영호;권상훈;심정섭
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.36-39
    • /
    • 2017
  • 길이가 같은 두 문자열의 같은 위치에 있는 문자의 순위가 모두 일치할 때, 두 문자열은 순위동형이라 한다. 순위다중패턴매칭문제는 텍스트 T와 k개의 패턴들의 집합 $P^{\prime}=\{P_1,P_2{\ldots},P_k\}$이 주어졌을 때, P'의 패턴들과 순위동형인 T의 모든 부분문자열의 위치를 찾는 문제이다. 최근 전처리단계에서 P'에 대한 이동테이블을 O(kmqlogq) 시간에 계산하여 순위다중패턴매칭문제를 해결하는 해싱기반 알고리즘이 제시되었다. 이때 P'에서 가장 짧은 패턴의 길이를 m, q-그램의 길이를 q라고 한다. 본 논문에서는 P'이 주어졌을 때, 이동테이블을 O(mqlogq) 시간에 계산하는 병렬알고리즘을 제시한다. 실험결과, 본 논문에서 제시하는 병렬알고리즘은 k개의 스레드를 이용하여 m=100, q=5에 대해 k=100일때와 k=1,000일 때 순차알고리즘보다 각각 약 12.9배, 약 215배 빠른 수행시간을 보였다.

컬러 영상 위에서 DCT 기반의 빠른 문자 열 구간 분리 모델 (Fast Text Line Segmentation Model Based on DCT for Color Image)

  • 신현경
    • 정보처리학회논문지D
    • /
    • 제17D권6호
    • /
    • pp.463-470
    • /
    • 2010
  • 본 논문에서는 DCT 데이터에서 영상 데이터로의 해독 및 이진화 과정을 생략하고 컬러 영상의 DCT 관련 원자료를 사용하는 방법에 기반을 둔 매우 빠르고 안정적인 문자열 구간 분리 모형을 제안하였다. DCT 블록에 저장된 DC 및 3개의 주요 AC 변수들을 조합하여 축소된 저해상도 회색 영상을 만들고 횡렬 및 종렬 투영법을 통해 얻어진 픽셀 값의 히스토그램을 분석하여 문자 열 구간 사이에 존재하는 백색의 띠 공간을 찾아내었다. 이 과정 중 탐색되지 않은 문자 열 구간은 마코프 모델을 사용하여 숨겨진 주기를 찾아내어 복원하였다. 본 논문에 실험 결과를 제시하였으며 기존의 방법보다 약 40 - 100배 빠른 방법임을 입증하였다.

확장 사전 환경에서의 한국어 형태소 해석과 생성 (Morphological Processing in an Expanded Dictionary Environment)

  • 조영환;차희준;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1993년도 제5회 한글 및 한국어정보처리 학술대회
    • /
    • pp.355-368
    • /
    • 1993
  • 형태소 처리의 기본 원칙은 사전의 표제어를 형태소 수준으로 함으로써 사전의 크기를 줄이고, 중복되는 정보의 양을 최소화하는 것이다. 본 논문에서는 형태소 처리를 위한 여러 환경 요소들 중에서 특별히 확장된 사전 표제어를 기본으로 하는 환경을 제안한다. 확장 사전 환경은 어휘에 대한 사전 표제어와 사전 정보의 분리를 기본으로 한다. 기본 사전 표제어에 대하여 어휘의 활용형을 사전 작성의 후처리인 사전 표제어에 대한 색인구조 구성시에 자동으로 확장함으로써 용언의 불규칙 활용과 음운 축약 현상에 대처한다. 확장 사전 환경의 장점은 형태소 해석과 생성시에 필요한 불규칙 활용에 대한 처리를 사전 확장 시간으로 앞당기고, 어절의 부분문자열과 사전 표제어간의 직접 대응성을 제공하여 여러 응용에 쉽게 적용이 가능하다는 것이다.

  • PDF

RF통신을 이용한 전광판 시스템의 구현 (An Implementation of Dot Matrix using RF communication)

  • 권철우;최성일;정구일;황희융
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2001년도 춘계학술대회 발표논문집
    • /
    • pp.115-118
    • /
    • 2001
  • 최근 많은 분야에서 사용되고 있는 RF(Radio Frequency)를 이용하여 원거리에서 무선으로 소형전광판에 문자 데이터를 보낼 수 있도록 하여 손쉽게 문구를 바꿀 수 있는 광고용 전광판을 구현하였다. 구현된 전광판은 소프트웨어 부분과 하드웨어 부분으로 나누어서 살펴보면, 사용자로부터 전광판에 표시하려는 문장을 IBM PC에 입력 받아서 전광판으로 송신하도록 하는 윈도우용 프로그램과 전광판에 표시될 데이터를 무선으로 수신 받아서 전광판에 표시하도록 해주는 프로그램이 전광판에 사용되는 소프트웨어가 되겠다. IBM PC에서 전광판으로 데이터를 보내고 전광판에서 그 데이터를 받기 위해서 RF모듈을 사용하였고, 전광판에 수신된 데이터를 전광판에 표시하기 위해서 마이크로컨트롤러를 사용하였다. 구현된 전광판은 16×16크기의 도트 매트릭스를 각각 12개씩 사용하여 문자열 2줄을 표시할 수 있도록 제작하였다. 한 문자를 표현하는데 한 개의 도트매트릭스가 사용되므로 표시될 문자는 16×16도트에 맞는 문자 폰트를 가지며, 문자 폰트를 나타내는 방법은 완성형과 조합형이 있으나 프로그램을 간단히 하기 위해서 완성형을 사용하였다.

한글 상호(商號)를 로마자로 변환하기 위한 고속 부분문자열 분석 알고리즘 (High Speed Substring Analysis Algorithm for Converting from the Korean Company Name to Roman Characters)

  • 황명진;조선호;권혁철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.168-170
    • /
    • 2008
  • 한글 상호(商號) 로마자 변환기는 한글로 만들어진 상호를 로마자로 자동 변환하는 시스템이다. 이 변환기는 기사용 로마자 상호명과 업종명, 그리고 표준 한글 로마자 변환 규칙에 의해 생성한 로마자를 조합하여 로마자 상호를 생성한다. 이때, 조합을 위한 알고리즘이 필요한데, 기존에 비슷한 용도에 사용되었던 stack 알고리즘을 적용할 경우 비효율적이다. 본 논문은 이를 대체할 새 알고리즘을 제안한다. 새 알고리즘은 기존 stack 알고리즘을 사용할 때에 비해 복잡도를 O(bd)에서 O(b*d)로 줄여 성능을 높인다.

부분표절구간 검출을 위한 질의문서의 분할 및 탐색 기법 (A Fragmentation and Search Method of Query Document for Partially Plagiarized Section Detection)

  • 옥창석;서종규;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.586-589
    • /
    • 2012
  • 표절과 관련된 이슈가 주목받고 있는 상황에서 표절을 검출하는 방법에 대한 연구가 활발히 진행되고 있다. 일반적으로 표절구간 검출을 위해 복잡한 자연어처리와 같은 의미론적 접근방법이 아닌 비교적 단순한 어휘기반의 문자열 처리 방법을 사용한다. 대표적인 방법으로는 지문법 (Fingerprinting)과 서열정렬 (Sequence alignment) 등이 있다. 하지만 이 방법들을 이용하여 대용량 문서에 대한 표절검사를 수행하기에는 시공간적 복잡도의 문제가 발생한다. 본 논문에서는 이러한 단점을 극복하기 위해 NGS (Next Generation Sequencing)에서 사용하는 BWT (Burrows-Wheeler Transform)[1]를 이용한 탐색방법을 응용한다. 또한 부분표절구간을 검출하고 정확도를 향상시키기 위해 질의문서를 분할하여 작은 조각으로 만든 뒤, 조각들에 대한 질의탐색을 수행한다. 본 논문에서는 질의문서를 분할하는 두 가지 방법을 소개한다. 두 가지 방법은 k-mer analysis를 이용한 방법과 random-split analysis를 이용한 방법으로, 각 방법의 장단점을 실험을 통해 분석하고 실제 부분표절구간의 검출 정확도를 측정하였다.

한국어 의학 문서에 대한 영문 MeSH 키워드의 자동 부여 - 띄어쓰기 변이 처리 효과를 중심으로 (Automatic English MeSH keywords assignment to Korean medical documents - spacing variant effect)

  • 이재성;김미숙;이영성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.82-89
    • /
    • 2004
  • 본 논문에서는 한국어 의학 논문의 요약문으로부터 자동 영문 MeSH 키워드 제안 시스템을 소개하고, 띄어쓰기 변이(spacing variant) 문제를 해결할 수 있는 방법을 제안한다. 띄어쓰기 변이란 표준 한글 맞춤법에 비해 다르게 띄어쓰기된 것을 말한다. 이를 위해 시소러스에는 생성 가능한 모든 띄어쓰기 변이 대신에 최대 띄어쓰기 어구만을 저장하고, 문서에서 K-MeSH 용어를 찾기 위해 음절단위 부분문자열 검색을 사용한다. 이 방법으로 한국어 의학 논문의 요약문에서 K-MeSH 용어를 추출한 후, TF-IDF 순위 함수를 이용하여 상위 10위내의 키워드를 저자가 선정한 영문 키워드와 비교한 결과 58%가 일치하였다. 이는 기존 방법에 비해 42%정도의 시소러스 크기가 축소되었고, 상위 10위내에서 영문 MeSH 키워드 추천 재현률이 약 7.8% 증가한 것으로 효과적인 방법임을 보여주었다.

  • PDF

제한된 곡률을 갖는 최단경로에 대한 기하학적 증명 (A Geometric Proof on Shortest Paths of Bounded Curvature)

  • 안희갑;배상원;정지원
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제34권4호
    • /
    • pp.132-137
    • /
    • 2007
  • 평면상에서 이동하는 자동차와 같은 로봇은 이동방향을 변경할 때 제한된 곡률(curvature)로 서서히 방향을 바꿀 수밖에 없다. 본 논문은 물체의 동선의 곡률이 제한되어 있을 경우, 한 구성에서 출발하여 목표점에 이르는 최단경로는 CC 혹은 CS 타입(C는 원호(circular arc), S는 선분(line segment)을 의미한다), 혹은 이들의 부분문자열 타입이 된다는 사실을 기하학적 성질만을 이용하여 증명하였다. 본 연구결과를 이용하여, 시작점 구성에서 출발하여 목표점, 혹은 목표다각형에 도달하는 최단경로는 다각형의 공간복잡도의 선형시간에 계산 가능하다.