• 제목/요약/키워드: 문자열 탐지

검색결과 42건 처리시간 0.031초

YOLO, EAST: 신경망 모델을 이용한 문자열 위치 검출 성능 비교 (YOLO, EAST : Comparison of Scene Text Detection Performance, Using a Neural Network Model)

  • 박찬용;임영민;정승대;조영혁;이병철;이규현;김진욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.115-124
    • /
    • 2022
  • 본 논문에서는 최근 다양한 분야에서 많이 활용되고 있는 YOLO와 EAST 신경망을 이미지 속 문자열 탐지문제에 적용해보고 이들의 성능을 비교분석 해 보았다. YOLO 신경망은 일반적으로 이미지 속 문자영역 탐지에 낮은 성능을 보인다고 알려졌으나, 실험결과 YOLOv3는 문자열 탐지에 비교적 약점을 보이지만 최근 출시된 YOLOv4와 YOLOv5의 경우 다양한 형태의 이미지 속에 있는 한글과 영문 문자열 탐지에 뛰어난 성능을 보여줌을 확인하였다. 따라서, 이들 YOLO 신경망 기반 문자열 탐지방법이 향후 문자 인식 분야에서 많이 활용될 것으로 전망한다.

딥러닝을 이용한 비정상 문자 조합으로 구성된 스팸 문자 탐지 기법 (A Technique to Detect Spam SMS with Composed of Abnormal Character Composition Using Deep Learning)

  • 김가현 ;유헌창
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.583-586
    • /
    • 2023
  • 대량 문자서비스를 통한 스팸 문자가 계속 증가하면서 이로 인해 도박, 불법대출 등의 광고성 스팸 문자에 의한 피해가 지속되고 있다. 이러한 문제점을 해결하기 위해 다양한 방법들이 연구되어 왔지만 기존의 방법들은 주로 사전 정의된 키워드나 자주 나오는 단어의 출현 빈도수를 기반으로 스팸 문자를 검출한다. 이는 광고성 문자들이 시스템에서 자동으로 필터링 되는 것을 회피하기 위해 비정상 문자를 조합하여 스팸 문자의 주요 키워드를 의도적으로 변형해 표현하는 경우에는 탐지가 어렵다는 한계가 있다. 따라서, 본 논문에서는 이러한 문제점을 해결하기 위해 딥러닝 기반 객체 탐지 및 OCR 기술을 활용하여 스팸 문자에 사용된 변형된 문자열을 정상 문자열로 복원하고, 변환된 정상 문자열을 문장 수준 이해를 기반으로 하는 자연어 처리 모델을 이용해 스팸 문자 콘텐츠를 분류하는 방법을 제안한다. 그리고 기존 스팸 필터링 시스템에 가장 많이 사용되는 키워드 기반 필터링, 나이브 베이즈를 적용한 방식과의 비교를 통해 성능 향상이 이루어짐을 확인하였다.

이미지 속 문자열 탐지에 대한 YOLO와 EAST 신경망의 성능 비교 (A Comparison of Deep Neural Network based Scene Text Detection with YOLO and EAST)

  • 박찬용;이규현;임영민;정승대;조영혁;김진욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 춘계학술발표대회
    • /
    • pp.422-425
    • /
    • 2021
  • 본 논문에서는 최근 다양한 분야에서 많이 활용되고 있는 YOLO와 EAST 신경망을 이미지 속 문자열 탐지문제에 적용해보고 이들의 성능을 비교분석 해 보았다. YOLO 신경망은 v3 이전 모델까지는 이미지 속 문자영역 탐지에 낮은 성능을 보인다고 알려졌으나, 최근 출시된 YOLOv4와 YOLOv5의 경우 다양한 형태의 이미지 속에 있는 한글과 영문 문자열 탐지에 뛰어난 성능을 보여줌을 확인하고 향후 문자 인식 분야에서 많이 활용될 것으로 기대된다.

네트워크 침입 탐지 시스템에서 고속 패턴 매칭기의 설계 및 구현 (Design and Implementation of High-Speed Pattern Matcher in Network Intrusion Detection System)

  • 윤여찬;황선영
    • 한국통신학회논문지
    • /
    • 제33권11B호
    • /
    • pp.1020-1029
    • /
    • 2008
  • 본 논문은 네트워크 침입 탐지 시스템에서 고속 패턴 매칭 알고리듬과 그 구조를 제안한다. 제안된 알고리듬은 실시간 입력 패킷에서 특정 패턴을 검사하며 정확한 문자열, 문자열 값의 범위, 그리고 문자열 값의 조합 등을 검색한다. 본 연구에서는 입력 패킷과 패턴은 동시에 겹치는 문자열들을 검색하기 위해 상태 전이 그래프로 모델링 하였으며 상태 전이 그래프는 구현 복잡도를 줄이기 위해 입력 임플리컨트 단위로 분할하였다. 제안된 패턴 매칭구조는 상태 전이 그래프와 입력된 문자열을 입력으로 사용한다. 제안된 패턴 매칭기는 VHDL 언어로 모델링하여 구현하였으며, 성능 분석을 통하여 제안된 기법의 적절성을 검증하였다.

모바일 게임용 안드로이드 에뮬레이터 탐지 기법 (Nox와 LD Player 탐지 기법 중심으로) (Detecting Android Emulators for Mobile Games (Focusing on Detecting Nox and LD Player))

  • 김남수;김성호;박민수;조성제
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제17권1호
    • /
    • pp.41-50
    • /
    • 2021
  • 많은 게임 앱이나 금융 앱들의 경우, 동적 역공학 공격을 방어하기 위해 에뮬레이터 탐지 기능을 탑재하고 있다. 그러나 기존 안드로이드 에뮬레이터 탐지 방법들은, 실제 기기와 유사해진 최신 모바일 게임용 에뮬레이터를 탐지하는데 한계가 있다. 이에 본 논문에서는 Houdini 모듈과 라이브러리 문자열 기반으로 모바일 게임용 에뮬레이터를 효과적으로 탐지하는 기법을 제안한다. 구체적으로, bionic의 libc 라이브러리에 포함된 특정 문자열, Houdini 관련된 시스템 콜 수행과정 분석과 메모리 매핑을 통해, 잘 알려진 Nox와 LD Player 에뮬레이터를 탐지하는 기법을 제시한다.

문자열 비교 기법을 이용한 악성코드 탐지 및 분류 연구 (A Study of Malware Detection and Classification by Comparing Extracted Strings)

  • 이진경;임채태;정현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.1245-1248
    • /
    • 2010
  • 최근 급격하게 증가하고 있는 악성코드에 비해 이들을 분석하기 위한 전문 인력은 매우 부족하다. 다행히 양산되는 악성코드의 대부분은 기존의 것을 수정한 변종이기 때문에 이들에 대해서는 자동분석시스템을 활용해서 분석하는 것이 효율적이다. 악성코드 자동분석에는 동적 분석과 정적 분석 모두가 사용되지만 정적 분석은 여러 가지 한계점 때문에 아직까지도 개선된 연구를 필요로 한다. 본 논문은 문자열 비교를 통해 두 실행파일에 대한 유사도를 측정함으로써 악성코드 판별 및 분류를 도와주는 정적 분석기법을 제안한다. 제안된 방법은 비교 문자열의 수와 종류에 따라 그 성능이 결정되기 때문에 문자열들을 정제하는 과정이 선행된다. 또한 유사도 측정에 있어서 악성코드가 가지는 문자열들의 특성을 고려한 개선된 비교방법을 보인다.

네트워크 침입 탐지 시스템에서 다중 엔트리 동시 비교기를 이용한 고속패턴 매칭기의 설계 및 구현 (Design and Implementation of High-Speed Pattern Matcher Using Multi-Entry Simultaneous Comparator in Network Intrusion Detection System)

  • 전명재;황선영
    • 한국통신학회논문지
    • /
    • 제40권11호
    • /
    • pp.2169-2177
    • /
    • 2015
  • 본 논문은 네트워크 침입 탐지 시스템에서 CAM 및 해시 구조 기반 알고리듬의 비용 한계를 극복하기 위해 RAM을 이용한다. RAM을 이용한 기존 알고리듬의 다중 엔트리 처리 시 실시간 처리속도 지연 문제를 보완한 새로운 패턴 매칭기를 제안한다. 제안된 패턴 매칭기는 Merge FSM 알고리듬을 적용하여 스테이트의 수를 줄이고, RAM을 사용하기 위해 스테이트 블록과 엔트리 블록을 포함한다. 입력된 문자열과 비교할 엔트리문자열이 여러개 존재할 때 엔트리 블록에서 입력된 문자열과 엔트리 문자열들을 동시에 비교한다. 제안된 패턴 매칭기는 Snort 2.9 규칙을 이용하여 검증하였다. 실험결과 기존 탐색 방법과 비교하여 메모리 접근 빈도가 15.8% 감소하였고, 전체 메모리 크기는 2.6% 증가하였으며, 처리속도는 47.1% 증가하였다.

파일 바이러스 복제 특성을 이용한 바이러스 탐지 및 복구1) (Virus Detection and Recovery Using File Virus Self-Reproduction Characteristic)

  • 서용석;이성욱;홍만표;조시행
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.724-726
    • /
    • 2001
  • 본 논문에서는 컴퓨터 바이러스의 자기 복제 특성을 용한 바이러스 탐지 및 복구 방안을 제안한다. 바이러스의 행동 패턴은 바이러스의 종류 만큼 다양하지만 파일 바이러스의 경우, 자기 복제 행동 패턴은 대부분의 바이러스가 유사하다. 파일 바이러스가 시스템 감염시키기 위해서는 기생할 실행파일을 열고, 자기 자신을 그 실행 파일에 복사해야 한다. 이와 같은 자기 복제 행위를 통해 바이러스가 광범위하게 선과될 때 피 피해도 커지게 된다. 바이러스치 자기 복제 특성을 감안하여 본 연구에서 제안하는 바이러스 탐지 알고리즘은 다음과 같은 득징을 가진다. 첫째, 바이러스의 자기복세 행동 패턴은 파일 입출력 이벤트로 표현하여 바이러스의 행동 패턴으로 일반화시켰다. 둘째, 바이러스의 1차 감염행위는 허용하고 2차 이후 감염 행위부터 탐지하고, 탐지되기 이전에 감염되었던, 파일들을 복구한다. 이는 일반적인 바이러스들이 자기 복제를 지속적으로 수행한다는 점에 착안하여 false-positive 오류를 줄이기 위한 것이다. 본 고에서 제안하는 방법을 사용함으로써 특정 문자열에 의한 바이러스 탐지 및 복구 방법의 단점을 보안할 수 있을 것으로 기대된다.

  • PDF

네트워크 트래픽 분석을 위한 Snort Content 규칙 자동 생성 (Automatic Generation of Snort Content Rule for Network Traffic Analysis)

  • 심규석;윤성호;이수강;김성민;정우석;김명섭
    • 한국통신학회논문지
    • /
    • 제40권4호
    • /
    • pp.666-677
    • /
    • 2015
  • 효과적인 네트워크 관리를 위해 응용 트래픽 분석의 중요성이 강조되고 있다. Snort는 트래픽 탐지를 위해 사용되는 보편적인 엔진으로써 기 정의된 규칙을 기반으로 트래픽을 차단하거나 로그를 기록한다. 하지만 Snort 규칙을 생성하기 위해서는 탐지 대상 트래픽을 전수 조사해야하기 때문에 많은 한계점이 존재할 뿐만 아니라 생성된 규칙의 정확성을 보장하기 어렵다. 본 논문에서는 순차 패턴 알고리즘을 활용하여 입력된 트래픽에서 최소 지지도를 만족하는 문자열을 찾는 방법을 제안한다. 또한, 추출된 문자열을 사용한 규칙을 입력 트래픽에 적용하여 트래픽에서 해당 문자열이 존재하는 위치 정보 및 헤더 정보를 추출한다. 이렇게 추출된 문자열과 위치정보, 그리고 헤더 정보를 조합하여 Snort 규칙을 자동 생성하는 방법을 제안한다. 생성된 규칙을 이용하여 다시 트래픽 분석을 실시했을 때 대부분의 응용이 97%이상 탐지되는 것을 확인하였다.

문자열 정보를 활용한 텍스트 마이닝 기반 악성코드 분석 기술 연구 (Research on text mining based malware analysis technology using string information)

  • 하지희;이태진
    • 인터넷정보학회논문지
    • /
    • 제21권1호
    • /
    • pp.45-55
    • /
    • 2020
  • 정보 통신 기술의 발달로 인해 매년 신종/변종 악성코드가 급격히 증가하고 있으며 최근 사물 인터넷과 클라우드 컴퓨팅 기술의 발전으로 다양한 형태의 악성코드가 확산되고 있는 추세이다. 본 논문에서는 운영체제 환경에 관계없이 활용 가능하며 악성행위와 관련된 라이브러리 호출 정보를 나타내는 문자열 정보를 기반으로 한 악성코드 분석 기법을 제안한다. 공격자는 기존 코드를 활용하거나 자동화된 제작 도구를 사용하여 악성코드를 손쉽게 제작할 수 있으며 생성된 악성코드는 기존 악성코드와 유사한 방식으로 동작하게 된다. 악성 코드에서 추출 할 수 있는 대부분의 문자열은 악성 동작과 밀접한 관련이 있는 정보로 구성되어 있기 때문에 텍스트 마이닝 기반 방식을 활용하여 데이터 특징에 가중치를 부여해 악성코드 분석을 위한 효과적인 Feature로 가공한다. 가공된 데이터를 기반으로 악성여부 탐지와 악성 그룹분류에 대한 실험을 수행하기 위해 다양한 Machine Learning 알고리즘을 이용해 모델을 구축한다. 데이터는 Windows 및 Linux 운영체제에 사용되는 파일 모두에 대해 비교 및 검증하였으며 악성탐지에서는 약93.5%의 정확도와 그룹분류에서는 약 90%의 정확도를 도출하였다. 제안된 기법은 악성 그룹을 분류시 각 그룹에 대한 모델을 구축할 필요가 없기 때문에 단일 모델로서 비교적 간단하고 빠르며 운영체제와 독립적이므로 광범위한 응용 분야를 가진다. 또한 문자열 정보는 정적분석을 통해 추출되므로 코드를 직접 실행하는 분석 방법에 비해 신속하게 처리가능하다.