• 제목/요약/키워드: 문자열 탐색

검색결과 37건 처리시간 0.025초

계층적 군집화를 이용한 근사 단어 필터링 기법 (Proximate Word Filtering by Hierarchical Clustering)

  • 김성환;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1101-1104
    • /
    • 2012
  • 단어 필터링은 유해정보를 차단위한 기본적인 기능이다. 그러나 악의적인 사용자는 필터링 시스템을 우회하기 위하여 금지 단어에 의도적인 변형을 가한다. 이에 대응하기 위해 일정 오류를 허용하여 필터링을 수행하는 근사 단어 필터링이 있다. 근사 단어를 검색하기 위한 문자열 색인 방법으로는 주로 기준 단어(Pivot)을 이용한 유클리드 공간에의 사상을 이용하는데, 이는 단어 필터링에 응용하기에는 근본적인 구조상의 한계점이 있다. 본 논문에서는 필터링 대상이 되는 단어 집합 내에서 군집화를 수행하여 계층적인 자료구조를 구성하고, 단어 필터링을 위한 필터링 질의(Filtering query)를 정의한 뒤 그에 적합한 탐색 상의 적용에 관하여 설명한다. 실험 결과 기존의 기준 단어(Pivot)을 이용한 색인 기법에 비하여 16.9%~26.6%의 탐색 속도 향상을 확인할 수 있었다.

카메라 영상 위에서의 문자 영역 추출 및 OCR (Text Region Extraction and OCR on Camera Based Images)

  • 신현경
    • 정보처리학회논문지D
    • /
    • 제17D권1호
    • /
    • pp.59-66
    • /
    • 2010
  • 기존의 OCR 엔진은 보정된 환경에서 읽혀진 서류 영상에 맞게 설계되어있다. 스마트 폰을 비롯한 검정 화면 거리가 보정되지 않은 기기에서 읽혀진 영상에서는 삼차원 원근 투시에 의한 찌그러짐 또는 곡면상에서의 찌그러짐 등이 핵심적인 문제점들로 여겨진다. 휴대용 단말기에서 읽혀진 영상들에서의 OCR 기능에 대한 요구가 증가일로에 있는 시점에서, 본 논문에서는 문제점들을 세 가지로 구분하고 - 회전에 무관한 문자 영역 추출, 폰트 등의 크기에 무관한 문자 선 영역 추출, 3차원 매핑 이론 - 이를 해결하기위한 방법을 제시하였다. 이러한 방법론을 통합하여 카메라 영상 위에서의 OCR을 개발하였다.

비트맵 필터를 이용한 효율적인 역 리스트 탐색 기법 (Efficient Inverted List Search Technique using Bitmap Filters)

  • 권인택;김종익
    • 정보처리학회논문지D
    • /
    • 제18D권6호
    • /
    • pp.415-422
    • /
    • 2011
  • 텍스트 데이터는 표현 방식의 차이, 타이핑 오류 등을 포함하고 있어 정확히 일치하는 검색으로는 유용한 정보를 얻기 어렵다. 따라서 유사도 기반 검색 방법이 많이 연구되고 있으며 효율적인 유사도 기반 검색을 위해 텍스트 데이터에 대한 역 리스트를 구성한다. 그리고 이를 병합하여 질의와 일정 기준 이상 유사한 데이터를 찾는다. 본 논문에서는 Suffix 필터링 과정에서 역 리스트의 탐색 비용을 줄이기 위해 역 리스트의 통계 정보인 비트맵 필터를 사용하는 기법을 제안한다. 제안하는 기법은 비트맵 필터를 사용하여 Suffix 필터링 과정에서 역 리스트의 탐색 여부를 결정하여 불필요한 역 리스트 탐색을 회피함으로써 역 리스트 병합 비용을 줄인다. 실험을 통하여 제안된 기법이 기존의 연구에서 제안된 Suffix 필터링 알고리즘보다 더 효율적임을 보인다.

서열 정렬 알고리즘을 이용한 주가 패턴 탐색 시스템 개발 (Developing Stock Pattern Searching System using Sequence Alignment Algorithm)

  • 김형준;조환규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권6호
    • /
    • pp.354-367
    • /
    • 2010
  • 시계열 데이터에서 패턴을 분석하는 기법은 많은 발전이 이루어져 오고 있다. 그러나 주식시장의 경우 시계열 데이터임에도 불구하고 패턴 분석 및 예측은 많은 연구가 이루어지지 않고 있으며 예측도가 매우 낮다. 그 이유는 주가의 등락 자체가 본질적으로 무작위하다고 하면 어떠한 과학적 방법으로도 그 예측은 불가능하다. 본 연구에서는 주가의 등락이 보여주는 무작위성의 정도를 Kolmogorov 복잡도를 이용해 측정하여 그 무작위의 정도와 본 논문에서 제시한 반 전역정렬(semi-global alignment)로 예측할 수 있는 주가의 예측의 정확간의 깊은 상관관계가 있음을 보인다. 이를 위해서 주가지수의 등락을 양자화된 문자열로 변환하고 그 문자열의 Kolmogorov 복잡도를 이용해 주가 변동의 무작위성을 측정하였다. 우리는 KOSPI 주식 데이터 28년 690개의 데이터를 수집하여 이를 실험용 데이터로 사용하여 본 논문에서 제시한 방법의 의미를 평가하였다. 그 결과 Kolmogorov 복잡도가 높은 경우에는 변동 예측이 어려우며, Kolmogorov 복잡도가 낮은 경우에는 주식 변동 예측은 가능하나 3종류의 예측율에 대해서 투자자들이 관심이 많은 등락 예측율은 단기 예측은 12% 이상의 예측율을 보일 수 없으며, 장기 예측의 경우 54%의 예측율로 수렴함을 확인하였다.

부분표절구간 검출을 위한 질의문서의 분할 및 탐색 기법 (A Fragmentation and Search Method of Query Document for Partially Plagiarized Section Detection)

  • 옥창석;서종규;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 추계학술발표대회
    • /
    • pp.586-589
    • /
    • 2012
  • 표절과 관련된 이슈가 주목받고 있는 상황에서 표절을 검출하는 방법에 대한 연구가 활발히 진행되고 있다. 일반적으로 표절구간 검출을 위해 복잡한 자연어처리와 같은 의미론적 접근방법이 아닌 비교적 단순한 어휘기반의 문자열 처리 방법을 사용한다. 대표적인 방법으로는 지문법 (Fingerprinting)과 서열정렬 (Sequence alignment) 등이 있다. 하지만 이 방법들을 이용하여 대용량 문서에 대한 표절검사를 수행하기에는 시공간적 복잡도의 문제가 발생한다. 본 논문에서는 이러한 단점을 극복하기 위해 NGS (Next Generation Sequencing)에서 사용하는 BWT (Burrows-Wheeler Transform)[1]를 이용한 탐색방법을 응용한다. 또한 부분표절구간을 검출하고 정확도를 향상시키기 위해 질의문서를 분할하여 작은 조각으로 만든 뒤, 조각들에 대한 질의탐색을 수행한다. 본 논문에서는 질의문서를 분할하는 두 가지 방법을 소개한다. 두 가지 방법은 k-mer analysis를 이용한 방법과 random-split analysis를 이용한 방법으로, 각 방법의 장단점을 실험을 통해 분석하고 실제 부분표절구간의 검출 정확도를 측정하였다.

유전자 알고리즘을 이용한 혼합 네트워크에서의 Chinese Postman Problem 해법 (A Genetic Algorithm for the Chinese Postman Problem on the Mixed Networks)

  • 전병현;강명주;한치근
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권1호
    • /
    • pp.181-188
    • /
    • 2005
  • Chinese Postman Problem(CPP)는 주어진 네트워크에서 모든 에지나 아크를 적어도 한번씩 경유하는 최단 경로를 찾는 문제이다. 혼합네트워크에서의 CPP(MCPP)는 기존의 CPP를 일반화시킨 문제로 현실 세계에서 많은 응용 부분들을 가지고 있으며, MCPP는 NP-Complete로 알려져 있다. 본 논문에서는 Floyd 알고리즘을 이용하여 구성된 가상 아크를 이용하여 혼합네트워크를 대칭네트워크로 변환 후 근사최적해를 탐색하는데 효율적인 유전자 알고리즘을 적용한다. 본 논문에서는 유전자 알고리즘에 적용하기 위해 경로 문자열과 에지, 아크를 구분하기 위한 문자열의 쌍으로 구성된 염색체 구조, 인코딩 및 디코딩 방법을 제안한다. 또한 보정 방법으로 Power Law 보정 방법과 Logarithmic 보정 방법을 사용하고 비교 분석하였다 본 논문에서는 기존의 MIXED2 알고리즘과 제안된 유전자 알고리즘과의 성능 비교를 하였다. 에지가 많은 혼합 네트워크인 경우 제안된 유전자 알고리즘이 좋은 결과를 얻고, Logarithmic 보정 방법 보다 Power Law보정 방법을 사용할 경우 좋은 결과를 얻을 수 있음을 알 수 있었다.

  • PDF

Self-Attention 기반의 변분 오토인코더를 활용한 신약 디자인 (De Novo Drug Design Using Self-Attention Based Variational Autoencoder)

  • ;최종환;서상민;김경훈;박상현
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권1호
    • /
    • pp.11-18
    • /
    • 2022
  • 신약 디자인은 단백질 수용체와 같은 생물학적 표적과 상호작용할 수 있는 약물 후보물질을 식별하는 과정이다. 전통적인 신약 디자인 연구는 약물 후보 물질 탐색과 약물 개발 단계로 구성되어 있으나, 하나의 신약을 개발하기 위해서는 10년 이상의 장시간이 요구된다. 이러한 기간을 단축하고 효율적으로 신약 후보 물질을 발굴하기 위하여 심층 학습 기반의 방법들이 연구되고 있다. 많은 심층학습 기반의 모델들은 SMILES 문자열로 표현된 화합물을 재귀신경망을 통해 학습 및 생성하고 있으나, 재귀신경망은 훈련시간이 길고 복잡한 분자식의 규칙을 학습시키기 어려운 단점이 있어서 개선의 여지가 남아있다. 본 연구에서는 self-attention과 variational autoencoder를 활용하여 SMILES 문자열을 생성하는 딥러닝 모델을 제안한다. 제안된 모델은 최신 신약 디자인 모델 대비 훈련 시간을 1/26로 단축하는 것뿐만 아니라 유효한 SMILES를 더 많이 생성하는 것을 확인하였다.

재귀적 지역정렬을 이용한 프로그램 표절 탐색 (Source code Plagiarism Detection with Recursive Local Alignments)

  • 전명재;이평준;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.946-948
    • /
    • 2004
  • 지역정렬(local alignment)과 전체정렬(global alignment)로 대표되는 정렬 문제는 전산학 분야의 전형적인 문제로, 두 서열의 전체적인 또는 부문적인 유사성(similarity)을 찾아 주기 위한 방법이다. 특히 정렬은 두 문자열에서 유사하게 나타나는 유사 서브스트링을 찾아내는 문제라든가 근래의 생물정보학에서 두 DNA시퀀스간의 유사도를 판별하는 문제 등에서 매우 중요란 기법이다. 본 논문에서는 두 서열들을 유사하게 매칭 시켜 주는 기존의 정렬 방법을 응용, 변형하여 C, C++. JAVA등으로 짜여진 프로그램 소스들의 유사도를 측정하는 방법을 제시하였다. 실제로 이런 프로그램 소스의 표절은 대학교육 수업과정 등에서 빈번하게 발생되는 문제점으로서 본 논문에서는 프로그램 소스표절을 검사, 탐지할 수 있는 방법론 및 구체적인 프로그램과 그 결과를 제시하고 있다. 아울러 두 프로그램간의 유사성을 비교하기 위해 기존의 지역정렬 방법을 보다 효율적으로 적절히 변형시키는 방법을 제시하고 있다.

  • PDF

형상 유사도 기반의 유전 알고리즘을 활용한 이종 수치지도 간의 면 객체 집합 정합 알고리즘 개발 (Development of polygon object set matching algorithm between heterogeneous digital maps - using the genetic algorithm based on the shape similarities)

  • 허용;이재빈
    • 한국측량학회지
    • /
    • 제31권1호
    • /
    • pp.1-9
    • /
    • 2013
  • 본 연구는 유전 알고리즘을 이용하여 다대다 면 객체 정합을 수행하는 방법을 제안한다. 동일한 지형 지물을 표현하는 객체 집합의 형상은 서로 동일하다는 가정 하에 형상 유사도를 최적화하는 객체 집합을 두 지도 사이에서 탐색함으로써 정합을 수행한다. 이 때 어떤 객체가 객체 집합에 포함되는지의 여부를 이진 부호로 표현하고, 이진 부호들을 결합한 이진 문자열로 후보해를 표현한다. 초기 후보해들로 해집단을 생성한 뒤, 유전 알고리즘에 의하여 점진적으로 해집단의 품질을 개선함으로써 최적해를 탐색하였다. 제안된 방법을 평가하기 위하여 수원시 도심지역의 수치지형도와 지적도에서 가구계 대응 면 객체 집합을 탐색하였으며 제안된 알고리즘의 효용성을 확인할 수 있었다. 또한 수작업에 의한 탐색결과를 이용하여 평가한 결과 0.946의 정확도를 얻었다.

딥러닝 모형을 사용한 한국어 음성인식 (Korean speech recognition using deep learning)

  • 이수지;한석진;박세원;이경원;이재용
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.213-227
    • /
    • 2019
  • 본 논문에서는 베이즈 신경망을 결합한 종단 간 딥러닝 모형을 한국어 음성인식에 적용하였다. 논문에서는 종단 간 학습 모형으로 연결성 시계열 분류기(connectionist temporal classification), 주의 기제, 그리고 주의 기제에 연결성 시계열 분류기를 결합한 모형을 사용하였으며. 각 모형은 순환신경망(recurrent neural network) 혹은 합성곱신경망(convolutional neural network)을 기반으로 하였다. 추가적으로 디코딩 과정에서 빔 탐색과 유한 상태 오토마타를 활용하여 자모음 순서를 조정한 최적의 문자열을 도출하였다. 또한 베이즈 신경망을 각 종단 간 모형에 적용하여 일반적인 점 추정치와 몬테카를로 추정치를 구하였으며 이를 기존 종단 간 모형의 결괏값과 비교하였다. 최종적으로 본 논문에 제안된 모형 중에 가장 성능이 우수한 모형을 선택하여 현재 상용되고 있는 Application Programming Interface (API)들과 성능을 비교하였다. 우리말샘 온라인 사전 훈련 데이터에 한하여 비교한 결과, 제안된 모형의 word error rate (WER)와 label error rate (LER)는 각각 26.4%와 4.58%로서 76%의 WER와 29.88%의 LER 값을 보인 Google API보다 월등히 개선된 성능을 보였다.