• 제목/요약/키워드: 문자열비교

검색결과 100건 처리시간 0.041초

재귀적 지역정렬을 이용한 프로그램 표절 탐색 (Source code Plagiarism Detection with Recursive Local Alignments)

  • 전명재;이평준;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.946-948
    • /
    • 2004
  • 지역정렬(local alignment)과 전체정렬(global alignment)로 대표되는 정렬 문제는 전산학 분야의 전형적인 문제로, 두 서열의 전체적인 또는 부문적인 유사성(similarity)을 찾아 주기 위한 방법이다. 특히 정렬은 두 문자열에서 유사하게 나타나는 유사 서브스트링을 찾아내는 문제라든가 근래의 생물정보학에서 두 DNA시퀀스간의 유사도를 판별하는 문제 등에서 매우 중요란 기법이다. 본 논문에서는 두 서열들을 유사하게 매칭 시켜 주는 기존의 정렬 방법을 응용, 변형하여 C, C++. JAVA등으로 짜여진 프로그램 소스들의 유사도를 측정하는 방법을 제시하였다. 실제로 이런 프로그램 소스의 표절은 대학교육 수업과정 등에서 빈번하게 발생되는 문제점으로서 본 논문에서는 프로그램 소스표절을 검사, 탐지할 수 있는 방법론 및 구체적인 프로그램과 그 결과를 제시하고 있다. 아울러 두 프로그램간의 유사성을 비교하기 위해 기존의 지역정렬 방법을 보다 효율적으로 적절히 변형시키는 방법을 제시하고 있다.

  • PDF

퍼베이시브 컴퓨팅을 위한 가상기계의 디스어셈블러 (Disassembler of Virtual Machine for Pervasive Computing)

  • 최유리;이창환;오세만
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2006년도 추계학술발표대회
    • /
    • pp.585-588
    • /
    • 2006
  • 최근 모든 공간에서 컴퓨터를 사용할 수 있게 되는 퍼베이시브 컴퓨팅 환경에 대한 관심이 급증하고 있다. 이러한 퍼베이시브 컴퓨팅 환경을 실현하기 위해 실행 환경의 호환성이 요구된다. 이를 해결하기 위해서는 다양한 가상기계들이 필요하다. 그러나 기존의 비교적 큰 임베디드 시스템을 위한 가상 기계는 퍼베이시브 컴퓨팅 환경에서 사용하는 작은 기기에 적합하지 않으며, 소규모 장치에 내장하기 어렵기 때문에 퍼베이시브 컴퓨팅 환경에 맞는 새로운 가상기계 플랫폼이 필요하다. 본 논문에서는 임베디드 시스템을 위한 가상기계에 사용되는 디스어셈블러를 개선하여 퍼베이시브 컴퓨팅 환경에 맞는 가상기계를 위한 디스어셈블러를 설계하고 구현한다. 소규모 가상기계에 적합하도록 EVM의 객체 지향 특성을 제고하고 불필요한 명령어의 축약, 실행 파일에서 메타데이터를 제거한다. 이러한 수정된 새로운 가상기계를 위한 디스어셈블러를 통해서 SIL 명령어 바이트 스트림을 완전한 형태의 문자열로 변환하고, EFF의 메타데이터를 SAF 형식으로 생성한다.

  • PDF

Banded Smith-Waterman 알고리즘을 이용하여 정규화된 부분배치를 찾는 새로운 알고리즘 (A new algorithm for finding normalized local alignment using handed Smith-Waterman algorithm)

  • 김상태;심정섭;박희진;박근수;박현석;서정선
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.592-594
    • /
    • 2001
  • 두 문자열의 부분배치(local alignment)를 찾는 대표적인 알고리즘인 Smith-Waterman 알고리즘(SW 알고리즘)은 정규화된 최적부분배치를 찾지 못하는 단점이 있다. 최근에 fractional programming 기법을 이용하여 여러 번의 SW 알고리즘을 수행함으로써 정규화된 최적부분배티를 찾는 알고리즘이 제시되었지만 이는 매우 많은 시간이 걸린다. 본 논문에서는 fractional programming 기법을 이용하여 정규화된 최적부분배치를 찾는 알고리즘에, 완전매치(Exact Match)을 이용한 휴리스틱 기법인 Banded SW 알고리즘을 적용하여, 낮은 오차를 가지면서 실용적으로 매우 빠른 정규화된 최적부분배치를 찾는 알고리즘을 제시하고 이 알고리즘과 제시하고 이 알고리즘과 기존의 알고리즘을 직접 구현하여 실험한 결과를 비교 분석한다.

  • PDF

건설분야 텍스트 인식시스템의 매칭알고리즘 개발 (Development of Matching Algorism for System Recognizing Text in the Construction Field)

  • 송종관;정숙
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.1525-1527
    • /
    • 2011
  • 현재 모든 분야에 IT산업이 융합되어 있지만 건설분야에서는 IT산업과의 융합이 많이 시도되고 있음에도 불구하고 타 산업에 비해 미비한 실정이다. 특히, 설계단계 공사비정보는 설계자의 의사결정을 지원하는 중요한 자료원임에도 불구하고 작성자에 따라 내역서에 쓰이는 작업항목 및 규격의 표현방식이 다르고 외래어 표음 및 오타, 그리고 부가정보 표기로 인해 단가축적의 시스템 및 DB화 가 이루어지지 않고 있다. 따라서 본 연구는 시공단계에서 발생된 실적단가를 설계단계에서 효과적으로 활용하기 위해 동일한 작업항목의 상이한 표현을 동일하게 인식할 수 있는 텍스트 인식시스템의 알고리즘을 제시한다. 텍스트 인식알고리즘에는 "유사어 및 단어테이블", "기준작업항목 테이블", "인식된 작업항목 테이블" 등으로 구성된 DB, 최소의미단위 단어를 비교 분절하기 위한 문자열 매칭 알고리즘, 그리고 동일하지 않은 텍스트를 인식하고 사용자의 의사결정을 지원하기 위한 유사도 계산으로 구성하였다.

이진 코드 변환을 이용한 효과적인 버퍼 오버플로우 방지기법 (Efficient Buffer-Overflow Prevention Technique Using Binary Rewriting)

  • 김윤삼;조은선
    • 정보처리학회논문지C
    • /
    • 제12C권3호
    • /
    • pp.323-330
    • /
    • 2005
  • 버퍼 오버플로우 공격은 가장 흔하고 위협적인 취약점 중의 하나이다. 최근 이러한 버퍼 오버플로우 공격을 막기 위하여 많은 연구가 이루어지고 있으나 실행시 발생하는 오버헤드 때문에 이를 적용하는 문제가 있다. 본 논문은 이진코드 형태의 파일에서 사용자 정의 함수를 변환하여 리턴 주소의 복사본을 스택의 특정 구역에 저장하고 공격 위험이 있는 문자열 함수를 재작성하고, 재작성된 함수 종료시 리턴 주소와 복사된 리턴 주소의 비교와 ebp 레지스터 값의 비교를 통해 오버플로우 공격을 탐지하는 방법을 제안한다.

CCD 기반 바코드 관심대상영역 고속 추출에 관한 연구 (A Study on the High-Speed Extraction of Bar Code ROI based on the CCD)

  • 박문성;최호석;김진석;김혜규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (하)
    • /
    • pp.1103-1106
    • /
    • 2002
  • 현재, 컨베이어 벨트시스템에 소포를 직재하고, 우편번호를 운영자가 입력하여 구분한다. 구분된 소포 중에서 기록관리 대상의 경우에는 바코드를 판독하여 처리하고 있다. 이에 따라, 본 논문에서는 2m/sec 이내로 이송되는 소포를 라인 CCD(Charged Coupled Device) 카메라에 의해 이미지 획득한 후, 바코드 ROI 추출 방법을 위해 $32{\times}32$ 미세블룩 검사 방법을 적용하였다. ROI 추출 절차는 최대-최소 차이값과 동적 인계값 기준으로 바탕면 제거, 문자열과 바코드 영역을 판단하기 위한 대각선(diagonal) 검사방법 적용, 바코드 영역인지 검증하기 위해 수평으로 5 라인을 검사하고 에지의 수와 폭의 변화량 비교 등의 과정으로 수행하였다. 그리고 바코드 ROI 추출은 레이블링 과정에 의해 바코드 영역의 보정과 그룹크기 비교에 의한 ROI 영역의 구체화와 정보 해석을 위하여 ROI 외곽좌표 8개중에서 가장 간 중심축 라인으로 생성하는 방법 등을 적용하였다. ROI 추출과 중심축 시험결과에 의하면 $50{\sim}180msec$이내에 가능하게 되었다. 그리고, ROI 추출의 정확도는 99.994% 이상을 만족한다.

  • PDF

키 입력 시간차이를 이용한 새로운 접속인증 시스템 소개 (A New Access Certification System with Temporal Key Stroke Information)

  • 최원용;김성진;허강인;문규
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제5권4호
    • /
    • pp.45-53
    • /
    • 2015
  • 본 논문은 키 입력 시간차이를 이용한 새로운 접속인증 시스템을 소개한다. 새로운 인증 시스템은 기존의 문자열을 비교하여 인증하던 방식에 비추어 키 입력의 시간정보를 이용하여 문자정보 이외의 미리 설정된 시간정보도 동시에 비교함으로서 보안성을 간단히 극대화하는 신개념 인증 시스템이다. 키 입력 시간정보는 최대/최소의 조건이 있으며, 최대의 경우 시간 이내에 다음 키를 입력해야 하며, 최소의 경우 시간 이상을 기다렸다 다음 키를 입력해야 인증이 된다. 최대/최소 조건이 없는 경우는 기존의 인증 시스템과 차이 없이 동작된다. 프로토타입이 개발 되어 실험 되었으며 숫자로 이루어진 4자리 비밀번호의 경우 총 104 (1만 가지) 가지를 가지는데 비하여 본 기술은 10자리 이상의 보안효과를 갖게 된다. 본 기술의 효과로는 문자비밀번호를 그대로 두고 시간정보만을 변경함으로서 관리자와 사용자 모두에게 간단하게 접근인증 또는 개인 비밀번호의 보안성을 극대화 하는 효과가 있다. 시연 모델과 더불어 간단한 동작 원리를 선보였으며, 예상되는 기대효과에 대해서도 기술하였다.

딥러닝 모형을 사용한 한국어 음성인식 (Korean speech recognition using deep learning)

  • 이수지;한석진;박세원;이경원;이재용
    • 응용통계연구
    • /
    • 제32권2호
    • /
    • pp.213-227
    • /
    • 2019
  • 본 논문에서는 베이즈 신경망을 결합한 종단 간 딥러닝 모형을 한국어 음성인식에 적용하였다. 논문에서는 종단 간 학습 모형으로 연결성 시계열 분류기(connectionist temporal classification), 주의 기제, 그리고 주의 기제에 연결성 시계열 분류기를 결합한 모형을 사용하였으며. 각 모형은 순환신경망(recurrent neural network) 혹은 합성곱신경망(convolutional neural network)을 기반으로 하였다. 추가적으로 디코딩 과정에서 빔 탐색과 유한 상태 오토마타를 활용하여 자모음 순서를 조정한 최적의 문자열을 도출하였다. 또한 베이즈 신경망을 각 종단 간 모형에 적용하여 일반적인 점 추정치와 몬테카를로 추정치를 구하였으며 이를 기존 종단 간 모형의 결괏값과 비교하였다. 최종적으로 본 논문에 제안된 모형 중에 가장 성능이 우수한 모형을 선택하여 현재 상용되고 있는 Application Programming Interface (API)들과 성능을 비교하였다. 우리말샘 온라인 사전 훈련 데이터에 한하여 비교한 결과, 제안된 모형의 word error rate (WER)와 label error rate (LER)는 각각 26.4%와 4.58%로서 76%의 WER와 29.88%의 LER 값을 보인 Google API보다 월등히 개선된 성능을 보였다.

내용기반 웹 서비스 검색 엔진의 개발

  • 손승범;이규철
    • 한국정보기술응용학회:학술대회논문집
    • /
    • 한국정보기술응용학회 2006년도 춘계학술대회
    • /
    • pp.656-699
    • /
    • 2006
  • 웹 서비스는 사용자가 다양한 인터페이스 정의와 교환 메시지 형식을 가지는 서비스를 개발하는데 있어 보다 효과적이고 단일화된 방법을 제공한다. 웹 서비스에서 인터페이스 정의와 교환 메시지 형식은 WSDL 통해 정의되며, 이 WSDL 문서를 통해 이용할 서비스의 인터페이스와 교환 메시지 형식을 파악하여 빠르게 해당 서비스를 이용할 수 있도록 한다. 이러한 웹 서비스의 등록과 검색을 위해서는 레지스트리 방식을 이용한다. 개발된 서비스에 관한 설명 정보는 서비스 제공자에 의해 작성되어 레지스트리에 등록되며, 서비스 요청자는 레지스트리로부터 필요한 서비스를 검색하여 이용한다. UDDI는 웹 서비스를 위한 분산 레지스트리 표준으로 웹 서비스를 위한 등록과 검색 메커니즘을 제공한다. UDDI에서 지원하는 검색 메커니즘은 크게 키워드 검색과 비즈니스와 서비스에 대한 카테고리별 검색으로 구분된다. 키워드 기반 검색은 SQL LIKE 연산을 통해 비즈니스와 서비스의 이름에 대하여 부분 문자열이 일치하는지 검사하는 방식으로 이루어진다. 이러한 UDDI 의 키워드 기반 검색은 등록된 서비스의 이름 이외의 내용 정보에 대한 검색을 지원하지 못하므로 효과적인 검색을 지원하지 못하는 단점을 가진다. 또한 UDDI는 WSDL 문서의 내용에 대한 검색은 지원하지 못하는 단점을 가진다. 이에 따라 현대의 서비스 검색은 서비스의 이름에 대한 검색만을 지원한다. 이러한 현재의 웹 서비스 검색에서의 문제점을 해결하기 위해서는 UDDI 에 등록된 설명 정보와 WSDL 문서 모두에 대한 내용 기반의 검색을 지원하고 검색 결과를 순위화 (ranking)하여 제시할 수 있는 검색 엔진이 요구된다. 이 논문은 이러한 문제점들을 해결할 수 있도록 내용 기반 검색을 지원할 수 있는 웹 서비스를 위 한 검색 엔진을 제안한다. 제안한 검색 엔진은 UDDI 등록 정보에 대하여 내용 기반 검색을 수행할 수 있도록 벡터 공간 모델을 활용한 유사도 비교 방법을 이용한다. 또한 UDDI 등록 정보 외에 실질 적인 서비스의 인터페이스와 교환 메시지 형식에 대한 비교의 수행을 위하여 WSDL 문서에 대한 유사도 비교를 수행한다. 유사도 측정시 UDDI 등록 정보와 WSDL 문서와 같은 계층적인 문서 구조를 검색 결과에 반영할 수 있는 방법을 지원한다. 지원하는 검색 방법은 두 가지로 키워드 검색과 함께 텀플릿 검색을 지원한다. 템플릿 검색은 서비스의 등록 정보 외에 인터페이스 정의가 얼마나 일치하는지를 비교하기 위해 WSDL 문서에 대한 유사도를 비교할 수 있도록 한다. 이러한 검색의 지원을 통해 제안한 웹 서비스를 위한 검색 엔진은 기존의 레지스트리를 이용한 검 색 방법보다 정확한 검색 결과를 제공한다.

  • PDF

비정형 빅데이터의 실시간 복합 이벤트 탐지를 위한 기법 (The Method for Real-time Complex Event Detection of Unstructured Big data)

  • 이준희;백성하;이순조;배해영
    • Spatial Information Research
    • /
    • 제20권5호
    • /
    • pp.99-109
    • /
    • 2012
  • 최근 소셜 미디어의 발달과 스마트폰의 확산으로 SNS(Social Network Service)가 활성화가 되면서 데이터양이 폭발적으로 증가하였다. 이에 맞춰 빅데이터 개념이 새롭게 대두되었으며, 빅데이터를 활용하기 위한 많은 방안이 연구되고 있다. 여러 기업이 보유한 빅데이터의 가치창출을 극대화하기 위해 기존 데이터와의 융합이 필요하며, 물리적, 논리적 저장구조가 다른 이기종 데이터 소스를 통합하고 관리하기 위한 시스템이 필요하다. 빅데이터를 처리하기 위한 시스템인 맵리듀스는 분산처리를 활용하여 빠른게 데이터를 처리한다는 이점이 있으나 모든 키워드에 대해 시스템을 구축하여 저장 및 검색 등의 과정을 거치므로 실시간 처리에 어려움이 따른다. 또한, 이기종 데이터를 처리하는 구조가 없어 복합 이벤트를 처리하는데 추가 비용이 발생할 수 있다. 이를 해결하는 방안으로 기존에 연구된 복합 이벤트 처리 시스템을 활용하여 실시간 복합 이벤트 탐지를 위한 기법을 제안하고자 한다. 복합 이벤트 처리 시스템은 서로 다른 이기종 데이터 소스로부터 각각의 데이터들을 통합하고 이벤트들의 조합이 가능하며 스트림 데이터를 즉시 처리할 수 있어 실시간 처리에 유용하다. 그러나 SNS, 인터넷 기사 등 텍스트 기반의 비정형 데이터를 텍스트형으로 관리하고 있어 빅데이터에 대한 질의가 요청될 때마다 문자열 비교를 해야 하므로 성능저하가 발생할 여지가 있다. 따라서 복합 이벤트 처리 시스템에서 비정형 데이터를 관리하고 질의처리가 가능하도록 문자열의 논리적 스키마를 부여하고 데이터 통합 기능을 제안한다. 그리고 키워드 셋을 이용한 필터링 기능으로 문자열의 키워드를 정수형으로 변환함으로써 반복적인 비교 연산을 줄인다. 또한, 복합 이벤트 처리 시스템을 활용하면 인 메모리(In-memory)에서 실시간 스트림 데이터를 처리함으로써 디스크에 저장하고 불러들이는 시간을 줄여 성능 향상을 가져온다.