• Title/Summary/Keyword: 문자열비교

Search Result 100, Processing Time 0.028 seconds

Image restoration using 4-neighborhood mask (4방향 마스크를 이용한 영상 복원)

  • 최선아;강동구;차의영
    • Proceedings of the Korea Multimedia Society Conference
    • /
    • 2002.05c
    • /
    • pp.219-222
    • /
    • 2002
  • 본 논문에서는 잘못된 인쇄로 인한 문서상의 잡영이 생기거나 문자 훼손이 있는 문서영상을 복원 하고자 한다. 제안하는 방법은 문서영상을 스캐너로 읽어들여 잡영을 제거 한 뒤 훼손된 숫자 영상에 대해서 프로젝션을 이용하여 숫자 열을 낱낱의 숫자로 분할한다. 각각의 숫자에 대해서 크기가 일정하도록 정규화를 시킨 다음, Backpropagation을 이용하여 훼손된 숫자를 학습하였다. 학습시킨 다음 원 영상과 훼손된 영상을 각 픽셀단위로 비교하여 4-방향 마스크를 이용하여 원래의 숫자 영상으로 복원하도록 한다.

  • PDF

A Study on XSS Attacks Characters, Sample of Using Efficient the Regular Expressions (효율적인 정규식 표현을 이용한 XSS 공격 특징점 추출 연구)

  • Huh, Seung-Pyo;Lee, Dae-Sung;Kim, Gui-Nam
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2009.11a
    • /
    • pp.663-664
    • /
    • 2009
  • OWASP에서 발표한 2007년 웹 애플리케이션 취약점 중 하나인 XSS 공격이 사용자 브라우저에서 스크립트를 실행하게 함으로써 사용자의 세션을 가로채거나 웜을 업로드하여 악성코드를 삽입하는 공격이다[2]. 하지만 많은 XSS 방어 기법에서는 단순 스크립트 우회기법과 강제적인 스크립트 차단 방법을 채택하고 있다. 또한 강제적인 XSS 필터 적용으로 과탐지로 인한 정상적인 웹 페이지가 출력 되지 않는 사례가 나타나고 있다. 따라서 본 연구는 효율적인 정규식을 이용하여 XSS 공격 특징을 분석하여 특징점들을 추출하고 이 특징점들을 기반으로 특정한 규칙을 가진 문자열들을 모든 문자가 유효한지 확인할 수 있는 정규식 표현 방법을 이용하여 다양한 응용프로그램에 적용할 수 있는 기술을 연구하고자 한다. 또한 이를 기반으로 포털 사이트와 브라우저에서 제공하는 XSS 필터들과 비교하여 과탐지율 및 오탐지율 서로 비교하여 본 연구가 효율성 면에서 효과가 있는지 우위를 둘 것이며, 브라우저 벤더, 포털 사이트, 개인 PC 등 충분한 시험 평가와 수정을 통해서 응용할 수 있는 계기를 마련할 것이다

A Genetic Algorithm for the Chinese Postman Problem on the Mixed Networks (유전자 알고리즘을 이용한 혼합 네트워크에서의 Chinese Postman Problem 해법)

  • Jun Byung Hyun;Kang Myung Ju;Han Chi Geun
    • Journal of the Korea Society of Computer and Information
    • /
    • v.10 no.1 s.33
    • /
    • pp.181-188
    • /
    • 2005
  • Chinese Postman Problem (CPP) is a problem that finds a shortest tour traversing all edges or arcs at least once in a given network. The Chinese Postman Problem on Mixed networks (MCPP) is a Practical generalization of the classical CPP and it has many real-world applications. The MCPP has been shown to be NP-complete. In this paper, we transform a mixed network into a symmetric network using virtual arcs that are shortest paths by Floyd's algorithm. With the transformed network, we propose a Genetic Algorithm (GA) that converges to a near optimal solution quickly by a multi-directional search technique. We study the chromosome structure used in the GA and it consists of a path string and an encoding string. An encoding method, a decoding method, and some genetic operators that are needed when the MCPP is solved using the Proposed GA are studied. . In addition, two scaling methods are used in proposed GA. We compare the performance of the GA with an existing Modified MDXED2 algorithm (Pearn et al. , 1995) In the simulation results, the proposed method is better than the existing methods in case the network has many edges, the Power Law scaling method is better than the Logarithmic scaling method.

  • PDF

Keyword Retrieval-Based Korean Text Command System Using Morphological Analyzer (형태소 분석기를 이용한 키워드 검색 기반 한국어 텍스트 명령 시스템)

  • Park, Dae-Geun;Lee, Wan-Bok
    • Journal of the Korea Convergence Society
    • /
    • v.10 no.2
    • /
    • pp.159-165
    • /
    • 2019
  • Based on deep learning technology, speech recognition method has began to be applied to commercial products, but it is still difficult to be used in the area of VR contents, since there is no easy and efficient way to process the recognized text after the speech recognition module. In this paper, we propose a Korean Language Command System, which can efficiently recognize and respond to Korean speech commands. The system consists of two components. One is a morphological analyzer to analyze sentence morphemes and the other is a retrieval based model which is usually used to develop a chatbot system. Experimental results shows that the proposed system requires only 16% commands to achieve the same level of performance when compared with the conventional string comparison method. Furthermore, when working with Google Cloud Speech module, it revealed 60.1% of success rate. Experimental results show that the proposed system is more efficient than the conventional string comparison method.

CUDA Implementation for the Four-Russian Algorithm (4-러시안 알고리즘의 CUDA 구현)

  • Kim, Young Ho;Jeong, Ju-Hui;Kang, Dae Woong;Sim, Jeong Seop;Kim, Minho;Park, Soo-jun;Lim, Myungeun;Jung, Ho-Youl
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.04a
    • /
    • pp.261-264
    • /
    • 2012
  • 상수 크기의 알파벳 ${\Sigma}$에 대해 길이가 각각 m, n인 두 문자열 X와 Y의 편집거리는 X를 Y로 변환하기 위해 필요한 최소 편집연산의 수로 정의된다. 두 문자열의 편집거리는 잘 알려진 동적프로그래밍을 이용하여 O(mn) 시간과 공간에 계산할 수 있으며, 4-러시안 알고리즘을 이용해도 계산할 수 있다. 4-러시안 알고리즘은 블록 크기를 상수 t라 할 때, 전처리 단계에서 $O\((3{\mid}{\Sigma}{\mid})^{2t}t^2\)$ 시간과 $O\((3{\mid}{\Sigma}{\mid})^{2t}t^2\)$ 공간이 필요하며, 계산 단계에서 O(mn/t) 시간과 O(mn) 공간을 이용하여 편집거리를 계산하는 알고리즘이다. 본 논문에서는 4-러시안 알고리즘의 계산 단계를 CUDA를 이용하여 구현하고 실험을 통해 CPU 기반의 순차적인 수행시간과 GPU 기반의 병렬적인 수행시간의 비교결과를 제시한다. 본 논문의 병렬알고리즘은 m/t개의 쓰레드를 사용하여 O(m+n) 시간에 편집거리를 계산한다. GPU 기반의 알고리즘이 CPU 기반의 알고리즘 보다 t=1일 때 약 10배 빠르고, t=2일 때 약 3배 빠른 결과를 보였다.

Difference State Number of CHMM Model to Improve the Performance of SCCRS (한국어 음성/문자 공용인식기의 성능향상을 위한 가변 상태수 CHMM모델의 구성)

  • Suk Soo-Young;Kim Min-Jung;Kim Kwang-Soo;Jung Ho-Youl;Chung Hyun-Yeol
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.95-98
    • /
    • 2002
  • 문자인식 또는 음성인식을 위해 사용되어지는 CHMM(Continuous Hidden Markov Model)모델은 일반적으로 모델의 상태수를 일정한 수로 고정하는 고정 상태수 모델 구조를 가지고 있으나, 이는 개별적인 인식 단위의 특성을 고려하지 않은 경우로써 이를 고려한 가변 상태수 모델을 사용할 경우 인식률 향상을 기대할 수 있다. 개별적인 인식 단위에 적합한 모델 상태수를 결정하는 방법으로 파라미터 히스토그램 방법과, BIC(Bayesian Information Criterion)방법을 사용하는 것이 대표적이다. 이들 방법들은 개별적인 인식단위의 우도값만을 향상시키기 위한 방법으로 전체인식률과 직접적으로 비례하지는 않는다. 따라서, 본 논문에서는 고정 상태수를 갖는 모델 적용 방법과 인식단위별 상태수 변화에 따른 인식률을 비교하였으며, 이를 바탕으로 각 모델별 상태수를 달리하는 가변 상태수 CHMM모델 구성 방법을 제안한다. 제안된 가변상태수 모델의 유효성을 확인하기 위해 음성/문자 공용인식기 중 필기체 문자 인식에 적용한 결과 제안한 LM(Local Maximum)으로 구성된 가변 상태수 모델이 MLE와 BIC로 구성된 모델과 인식률 면에서는 거의 동일한 성능을 유지하면서 전체 상태수는 MLE 모델에 비해 $31\%$, BIC로 구성된 모델에 비해 $22\%$ 감소를 나타내어 제안한 모델의 유효성을 확인할 수 있었다.

  • PDF

Measuring Similarity of Korean Sentences based on BERT (BERT 기반 한국어 문장의 유사도 측정 방법)

  • Hyeon, Jonghwan;Choi, Ho-Jin
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.383-387
    • /
    • 2019
  • 자연어 문장의 자동 평가는 생성된 문장과 정답 문장을 자동으로 비교 및 평가하여, 두 문장 사이의 의미 유사도를 측정하는 기술이다. 이러한 자연어 문장 자동 평가는 기계 번역, 자연어 요약, 패러프레이징 등의 분야에서 자연어 생성 모델의 성능을 평가하는데 활용될 수 있다. 기존 자연어 문장의 유사도 측정 방법은 n-gram 기반의 문자열 비교를 수행하여 유사도를 산출한다. 이러한 방식은 계산 과정이 매우 간단하지만, 자연어의 다양한 특성을 반영할 수 없다. 본 논문에서는 BERT를 활용한 한국어 문장의 유사도 측정 방법을 제안하며, 이를 위해 ETRI에서 한국어 말뭉치를 대상으로 사전 학습하여 공개한 어절 단위의 KorBERT를 활용한다. 그 결과, 기존 자연어 문장의 유사도 평가 방법과 비교했을 때, 약 13%의 성능 향상을 확인할 수 있었다.

  • PDF

An Empirical Study of Base Pivot Choosing Method for Approximate Word Searching (근사 단어 검색 효율성 개선을 위한 기준 Pivot 선택방법 실험적 연구)

  • Yoon, Tai-Jin;Chung, Woo-Keun;Cho, Hwan-Gue
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2010.06c
    • /
    • pp.271-274
    • /
    • 2010
  • 한글 근사 단어 검색 시스템은 사용자의 오류를 포함한 검색 질의에 효과적으로 대응할 수 있는 방법이나 검색 속도가 매우 느려서 실제 사용에 큰 어려움이 있다. 일반적으로 DNA 검색에 사용하는 서열 정렬 기법을 사용할 경우 데이터 베이스의 모든 문자열과 비교가 이루어져야 하기 때문에 많은 검색 시간이 걸리게 된다. 이것을 해결하기 위해 우리는 편집거리가 metric space를 만족하는 성질을 이용한 한글 근사단어 검색 시스템을 사용하여 실제 서열정렬을 사용하여 비교가 필요한 후보 단어를 거르게 된다. 이 한글 근사 단어 검색 시스템에서 가장 중요한 것은 기준축의 역할을 하는 Base-Pivot의 선택 방법이다. 본 논문에서는 이 Base-Pivot의 효율적인 선택방법을 실험을 통해서 분석하도록 한다.

  • PDF

The system of collecting and judgement of harmful site in SNS (SNS기반 유해사이트 판단 및 수집 시스템)

  • Chang, Jeong-Hyun;Aziz, Nasridinov
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2017.04a
    • /
    • pp.812-815
    • /
    • 2017
  • 소셜 미디어를 이용하는 사용자의 수가 증가함에 따라 소셜 미디어에서 공유되고 있는 유해 정보(불법, 음란)의 심각성의 대두되고 있다. 기존의 단어 DB기반의 유해 사이트 판별 방법은 단어 DB의 갱신 문제점과 유해 정보와 낮은 연관성을 가진 단어가 DB에 저장되는 문제점을 가지고 있었다. 또한 링크 주소를 짧게 해주는 Short URL 서비스를 고려하지 않아 잘못된 웹 문서를 판별 대상으로 삼을 수 있는 문제점이 있다. 본 논문에서 제안하는 유해 사이트 판별 방법은 기 구축한 유해 단어 DB에서 유해 단어를 추출하고, 추출된 단어를 포함하는 소셜 미디어상의 유해 게시물을 조회한다. 유해 단어 DB를 구축하는 방법으로, 유해 게시물 조회시 내용에 포함되는 해시태그를 저장하는 방법을 사용하여 게시물 수집과 동시에 유해 단어 DB를 갱신시킨다. 또한 유해 게시물 내용에 있는 URL 링크의 웹 문서를 문자열로 치환하여, 해당 문자열내의 유해 단어 DB에 있는 유해 단어의 등장 빈도 수를 계산하고 이를 기준치와 비교하여 유해도를 판단한다. Short URL을 사용한 URL 링크인 경우 HTTP 응답 메시지의 헤더 부에 존재하는 실제 목적지 URL 주소를 가져와 유해도 검사를 실시한다.

(A Method to Classify and Recognize Spelling Changes between Morphemes of a Korean Word) (한국어 어절의 철자변화 현상 분류와 인식 방법)

  • 김덕봉
    • Journal of KIISE:Software and Applications
    • /
    • v.30 no.5_6
    • /
    • pp.476-486
    • /
    • 2003
  • There is no explicit spelling change information in part-of-speech tagged corpora of Korean. It causes some difficulties in acquiring the data to study Korean morphology, i.e. automatically in constructing a dictionary for morphological analysis and systematically in collecting the phenomena of the spelling changes from the corpora. To solve this problem, this paper presents a method to recognize spelling changes between morphemes of a Korean word in tagged corpora, only using a string matching, without using a dictionary and phonological rules. This method not only has an ability to robustly recognize the spelling changes because it doesn't use any phonological rules, but also can be implemented with few cost. This method has been experimented with a large tagged corpus of Korean, and recognized the 100% of spelling changes in the corpus with accuracy.