• 제목/요약/키워드: 문자열 알고리즘

검색결과 164건 처리시간 0.029초

문자열 유사도 알고리즘을 이용한 공종명 인식의 자연어처리 연구 - 공종명 문자열 유사도 알고리즘의 비교 - (Comparing String Similarity Algorithms for Recognizing Task Names Found in Construction Documents)

  • 정상원;정기창
    • 한국건설관리학회논문집
    • /
    • 제21권6호
    • /
    • pp.125-134
    • /
    • 2020
  • 시공 서류에서 접하는 자연어는 당국에서 권장하는 언어와 크게 다르다. 일관성이 부족한 이러한 관행은 자동화를 통한 통합 연구를 방해하고 장기적으로 업계의 생산성을 저하시킬 것이다. 이 연구는 여러 문자열 유사성(문자열 일치) 알고리즘을 비교하여 여러 다른 방법으로 작성된 동일한 작업 이름을 인식하는 각 알고리즘의 성능을 비교하는 것을 목표로 한다. 우리는 또한 앞서 언급 한 편차가 얼마나 널리 퍼져 있는지에 대한 토론을 시작하는 것을 목표로 한다. 마지막으로, 우리는 실제로 발견된 시공 작업 이름을 형식에 비해 덜 복잡한 해당 작업 이름과 연결하는 작은 데이터 세트를 구성했다. 이 데이터 세트를 사용하여 미래의 자연어 처리 접근방식을 검증 할 수 있을 것으로 기대한다.

Python 을 사용한 유전 알고리즘 구현 (Genetic Algorithm Implementation in Python)

  • 이원재;김학영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.473-476
    • /
    • 2005
  • 본 논문에서는 Python 을 사용한 유전 알고리즘 구현을 다룬다. 유전 알고리즘은 생물의 진화과정에서 일어나는 자연선택과 같은 유전법칙을 모방한 확률적 탐색기법이다. 유전 알고리즘에서는 염색체를 하나의 리스트 혹은 문자열로써 다룬다. 리스트나 문자열 처리 위주인 유전 알고리즘의 경우, 기존의 C/C++/Java 보다 표현력이 풍부한 Python 으로 프로그래밍할 경우 별도의 라이브러리 없이 쉽게 구현이 가능하다. 본 논문에서는 Python 을 사용한 유전 알고리즘 구현 방법에 대해 소개하고, 추가적으로 높은 성능을 얻기 위한 방법들에 대해 논의한다.

  • PDF

PCA 기반 얼굴 인증과 SOM 알고리즘을 이용한 여권 인식 (Passport Recognition using PCA-based Face Verification and SOM Algorithm)

  • 이상수;장도원;김광백
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2006년도 춘계종합학술대회
    • /
    • pp.285-290
    • /
    • 2006
  • 본 논문에서는 출입국자 관리의 효율성과 체계적인 출입국 관리를 위하여 여권 코드를 자동으로 인식하고 위조 여권을 판별할 수 있는 여권 인식 및 얼굴 인증 방법을 제안한다. 본 논문의 구성은 여권 인식과 얼굴 인증 부분으로 구성되며, 여권 인식 부분에서는 소벨 연산자, 수평 최소값 필터 등을 적용한 후, 8 방향 윤곽선 추적 알고리즘을 적용하여 코드의 문자열 영역을 추출하고 기울기를 보정한다. 추출된 문자열은 반복 이진화 방법을 적용하여 코드의 문자열 영역을 이진화 한다. 이진화된 문자열 영역에 대해 8 방향 윤곽선 추적 알고리즘을 적용하여 개별 코드를 추출한 후에 SOM(Self-Organizing Maps) 알고리즘을 적용하여 여권 코드를 인식한다. 얼굴 인증 부분에서는 여권 사진 영역의 특징을 이용하여 얼굴 후보 영역을 추출한 후, RGB와 YCbCr 색공간에서 피부색 정보를 이용하여 얼굴 영역을 추출한다. 추출된 얼굴 영역은 PCA(Principal Component Analysis) 알고리즘을 적용하여 특징 벡터를 구하고 여권 코드가 인식된 결과를 바탕으로 여권 소지자의 데이터 베이스에 있는 얼굴 영상의 특징벡터와의 거리 값을 계산하여 사진 위조 여부를 판별한다. 제안된 여권 인식 및 얼굴 인증 방법의 성능 평가를 위하여 원본 여권의 얼굴 부분을 위조한 여권과 기울어진 여권 영상을 대상으로 실험한 결과, 제안된 방법이 여권의 코드 인식 및 얼굴 인증에 있어서 우수한 성능이 있음을 확인하였다.

  • PDF

ART2 알고리즘과 얼굴 인증을 이용한 여권 인식 (Passports Recognition using ART2 Algorithm and Face Verification)

  • 장도원;김광백
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 춘계학술대회
    • /
    • pp.190-197
    • /
    • 2005
  • 본 논문에서는 출입국자 관리의 효율성과 체계적인 출입국 관리를 위하여 여권 코드를 자동으로 인식하고 위조 여권을 판별할 수 있는 여권 인식 및 얼굴 인증 방법을 제안한다. 여권 이미지는 기울어진 상태로 스캔되어 획득되어질 수도 있으므로 기울기 보정은 문자 분할 및 인식, 얼굴 인증에 있어 매우 중요하다. 따라서 본 논문에서는 여권 영상을 스미어링한 후, 추출된 문자열 중에서 가장 긴 문자열을 선택하고 이 문자열의 좌측과 우측 부분의 두께 중심을 연결하는 직선과 수평선과의 기울기를 이용하여 여권 여상에 대한 각도 보정을 수행한다. 여권 코드 추출은 소벨 연산자와 수평 스미어링, 8방향 윤곽선 추적 알고리즘을 적용하여 여권 코드의 문자열 영역을 추출하고, 추출된 여권 코드 문자열 영역에 대해 반복 이지화 방법을 적용하여 코드의 문자열 영역을 이진화한다. 이진화된 문자열 영역에 대해 CDM 마스크를 적용하여 문자열의 코드들을 복원하고 8방향 윤곽선 추적 알고리즘을 적용하여 개별 코드를 추출한다. 추출된 개별 코드는 ART2 알고리즘을 적용하여 인식한다. 얼굴 인증을 위해 템플릿 매칭 알고리즘을 이용하여 얼굴 템플릿 데이터베이스를 구축하고 여권에서 추출된 얼굴 영역과의 유사도 측정을 통하여 여권 얼굴 영역의 위조 여부를 판별한다. 얼굴 인증을 위해서 Hue, YIQ-I, YCbCr-Cb 특징들의 유사도를 종합적으로 분석하여 얼굴 인증에 적용한다. 제안된 여권 인식 및 얼굴 인증 방법의 성능을 평가를 위하여 원본 여권에 얼굴 부분을 위조한 여권과 노이즈, 대비 증가 및 감소, 밝기 증가 및 감소 및 여권 영상을 흐리게 하여 실험한 결과, 제안된 방법이 여권 코드 인식 및 얼굴 인증에 있어서 우수한 성능이 있음을 확인하였다.권 영상에서 획득되어진 얼굴 영상의 특징벡터와 데이터베이스에 있는 얼굴 영상의 특징벡터와의 거리 값을 계산하여 사진 위조 여부를 판별한다. 제안된 여권 인식 및 얼굴 인증 방법의 성능을 평가를 위하여 원본 여권에서 얼굴 부분을 위조한 여권과 기울어진 여권 영상을 대상으로 실험한 결과, 제안된 방법이 여권의 코드 인식 및 얼굴 인증에 있어서 우수한 성능이 있음을 확인하였다.진행하고 있다.태도와 유아의 창의성간에는 상관이 없는 것으로 나타났고, 일반 유아의 아버지 양육태도와 유아의 창의성간의 상관에서는 아버지 양육태도의 성취-비성취 요인에서와 창의성제목의 추상성요인에서 상관이 있는 것으로 나타났다. 따라서 창의성이 높은 아동의 아버지의 양육태도는 일반 유아의 아버지와 보다 더 애정적이며 자율성이 높지만 창의성이 높은 아동의 집단내에서 창의성에 특별한 영향을 더 미치는 아버지의 양육방식은 발견되지 않았다. 반면 일반 유아의 경우 아버지의 성취지향성이 낮을 때 자녀의 창의성을 향상시킬 수 있는 것으로 나타났다. 이상에서 자녀의 창의성을 향상시키는 중요한 양육차원은 애정성이나 비성취지향성으로 나타나고 있어 정서적인 측면의 지원인 것으로 밝혀졌다.징에서 나타나는 AD-SR맥락의 반성적 탐구가 자주 나타났다. 반성적 탐구 척도 두 그룹을 비교 했을 때 CON 상호작용의 특징이 낮게 나타나는 N그룹이 양적으로 그리고 내용적으로 더 의미 있는 반성적 탐구를 했다용을 지원하는 홈페이지를 만들어 자료 제공 사이트에 대한 메타 자료를 데이터베이스화했으며 이를 통해 학생들이 원하는 실시간 자료를 검색하여 찾을 수 있고 홈페이지를 방분했을 때 이해하기 어려운 그래프나 각 홈페이지가 제공하는 자료들에 대한 처리 방법을 도움말로 제공받을 수 있게 했다. 실

  • PDF

한글에 대한 편집 거리 문제 (Edit Distance Problem for the Korean Alphabet)

  • 노강호;김진욱;김은상;박근수;조환규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권2호
    • /
    • pp.103-109
    • /
    • 2010
  • 문자열에 대한 편집 거리 문제는 하나의 문자열을 다른 문자열로 변환할 때 필요한 최소한의 연산의 개수를 구하는 문제이다. 편집 거리 문제는 오랫동안 연구가 진행되어 왔으며, 영어와 같이 1차원 문자열에 대해서는 최적해를 찾는 여러 가지 알고리즘이 개발되어 왔다. 그러나 한글 또는 한자와 같이 좀 더 복잡한 언어에 대한 편집 거리에 대해서는 많은 연구가 진행되지 못했다. 본 논문에서는 한글이 갖는 특징을 반영한 편집 거리를 정의하고, 한글 문자열에 대한 편집 거리를 구하는 알고리즘을 제안한다.

외부 메모리에서 문자열을 효율적으로 탐색하기 위한 인덱스 자료 구조 (An Index Data Structure for String Search in External Memory)

  • 나중채;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제32권11_12호
    • /
    • pp.598-607
    • /
    • 2005
  • 본 논문에서는 새로운 외부 메모리 인덱스 자료 구조인 접미사 B-tree를 제안한다. 접미사 B-tree는 String B-tree와 마찬가지로 문자열을 키로 가지는 B-tree이다. String B-tree의 노드는 복잡한 Patricia ie로 구현된 반면, 접미사 B-tree의 노드는 일반적인 B-tree처럼 배열로 구현되어 보다 간단하고 구현하기 쉽다. 그럼에도 불구하고 접미사 B-tree에서 배열을 이용하여 String B-tree만큼 효율적으로 분기를 찾을 수 있다. 결과적으로 문자열 알고리즘 분야에서 기본적이고 중요한 문제인 문자열 매칭을 String B-tree와 동일한 디스크 접근을 사용하여 수행할 수 있다.

4-러시안 알고리즘 기반의 편집거리 병렬계산 (Parallel Computation For The Edit Distance Based On The Four-Russians' Algorithm)

  • 김영호;정주희;강대웅;심정섭
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권2호
    • /
    • pp.67-74
    • /
    • 2013
  • 근사문자열매칭 문제는 다양한 분야에서 연구되어 왔다. 최근에는 차세대염기서열분석의 비용과 시간을 줄이기 위해 빠른 근사문자열매칭 알고리즘들이 이용되고 있다. 근사문자열매칭은 문자열들의 오차를 측정하기 위해 편집거리와 같은 거리함수를 이용한다. 알파벳 ${\Sigma}$에 대한 길이가 각각 m, n인 두 문자열 X와 Y의 편집거리는 X를 Y로 변환하기 위해 필요한 최소 편집연산의 수로 정의된다. 두 문자열의 편집거리는 잘 알려진 동적프로그래밍을 이용하여 O(mn) 시간과 공간에 계산할 수 있으며, 4-러시안 알고리즘을 이용해서도 계산할 수 있다. 4-러시안 알고리즘은 블록 크기를 t라 할 때, 전처리 단계에서 $O((3{\mid}{\Sigma}{\mid})^{2t}t^2)$ 시간과 $O((3{\mid}{\Sigma}{\mid})^{2t}t)$ 공간이 필요하며, 계산 단계에서 O(mn/t) 시간과 O(mn) 공간을 이용하여 편집거리를 계산하는 알고리즘이다. 본 논문에서는 4-러시안 알고리즘의 계산 단계를 병렬화하고 실험을 통해 CPU 기반의 순차적 알고리즘과 CUDA로 구현한 GPU 기반의 병렬 알고리즘의 수행시간을 비교한다. 본 논문에서 제시하는 4-러시안 알고리즘의 계산단계는 m/t개의 쓰레드를 사용하여 O(m+n) 시간에 편집거리를 계산한다. GPU 기반의 알고리즘이 CPU 기반의 알고리즘 보다 t = 1일 때 약 10배 빠르고, t = 2일 때 약 3배 빠른 결과를 보였다.

개선된 퍼지 RBF 네트워크를 이용한 여권 인식 (Recognition of the Passport by Using Enhanced Fuzzy RBF Networks)

  • 류재욱;김태경;김광백
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 춘계 학술대회 학술발표 논문집
    • /
    • pp.147-152
    • /
    • 2003
  • 출입국 관리 시스템은 위조 여권 소지자, 수배자, 출입국 금지자 또는 불법 체류자 등의 출입국 부적격자를 검색하여 출입국자를 관리하고 있다. 이러한 출입국 관리 시스템은 위조 여권 판별이 중요하므로 위조 여권을 판별하는 전 단계로 퍼지 RBF 네트워크 제안하여 여권을 인식하는 방법을 제안한다. 제안된 여권 인식 방법은 소벨 연산자와 수평 스미어링, 윤곽선 추적 알고리즘을 적용하여 코드의 문자열 영역을 추출한다. 추출된 문자열 영역을 사다리꼴 타입의 소속 함수를 이용한 퍼지 이진화 방법을 제안하여 이진화하고 이진화된 문자열 영역에 대해서 개별 코드의 문자들을 복원하기 위하여 CDM 마스크를 적용한 후에 수직 스미어링을 적용하여 개별 코드의 문자를 추출한다. 개별 코드의 인식은 퍼지 ART 알고리즘을 개선하여 RBF 네트워크의 중간층으로 적용하는 퍼지 RBF 네트워크를 제안하여 적용한다. 제안된 방법의 성능을 확인하기 위해서 실제 여권영상을 대상으로 실험한 결과, 제안된 방법이 여권 인식에 우수한 성능이 있음을 확인하였다.

  • PDF

효율적인 써픽스 배열 합병 알고리즘과 응용 (Efficient Merging Algorithms for Suffix Arrays and their Application)

  • 전정은;박희진;김동규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.973-975
    • /
    • 2004
  • 대표적인 인덱스 자료 구조인 써픽스 트리와 써픽스 배열은 긴 문자열에서 임의의 패턴을 검색하는 데 효율적이다. 써픽스 트리는 써픽스 배열보다 큰공간을 차지하지만, 이미 구축된 써픽스 트리의 정보를 이용하여 쉽게 합병할 수 있다. 본 논문에서는 문자열 A와 B에 대한 써픽스 배열이 구축되어 있을 때 A#B$의 일반화된 써픽스 배열을 구축하기 위한 합병 알고리즘을 두 가지 제시하였다. 이 알고리즘을 사용하면 기존의 유전체 서열 써픽스 배열을 재사용하는 방식으로 합병하여, 빠른 시간 안에 효율적으로 합병된 써픽스 배열을 만들 수 있다. 실험 결과, 합병 알고리즘은 일반화된 써픽스 배열을 다시 구축하는 것보다 5배정도 빠른 속도를 보였다.

  • PDF

다중 태그 식별을 위한 개선된 질의 트리 충돌방지 알고리즘 (Enhanced Query Tree Based Anti-Collision Algorithm for Multiple Tag Identification)

  • 임인택
    • 한국멀티미디어학회논문지
    • /
    • 제9권3호
    • /
    • pp.307-314
    • /
    • 2006
  • 본 논문에서는 RFID 시스템에서 다중 태그 식별을 위하여 질의 트리 기반의 QT_rev 알고리즘을 제안한다. QT 알고리즘에서는 질의 문자열이 식별코드의 처음 비트들과 일치하는 태그는 전체의 식별코드로 응답한다. 반면, 본 논문에서 제안한 QT_rev 알고리즘에서는 식별코드 중에서 질의 문자열을 제외한 나머지 비트들로만 응답한다. 또한 리더는 태그들의 응답 문자열 중에서 충돌이 발생한 비트 위치를 알 수 있으므로 충돌이 발생한 위치가 태그 식별코드의 마지막 비트이면 리더는 더 이상의 질의가 없이 두 개의 태그를 동시에 식별할 수 있다 성능 분석의 결과, 본 논문에서 제안한 QT_rev 알고리즘은 QT 알고리즘에 비하여 리더의 질의 횟수와 태그의 응답 비트 수가 월등히 적음을 알 수 있었다.

  • PDF