• 제목/요약/키워드: 문자열 유사도

검색결과 69건 처리시간 0.028초

사이트 기반의 URL 정규화 평가 (Evaluating Site-based URL Normalization)

  • 정효숙;김성진;이상호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.28-30
    • /
    • 2005
  • URL 정규화는 다양하게 표현된 동일 URL들을 하나의 통일된(cannonical) 형태의 URL로 변환하는 과정이다. 동일문서에 대한 중복된 URL 표현은 URL 정규화를 통하여 제거된다. 표준 정규화는 잘못된 긍정(동일하지 않는 URL들을 동일 문자열로 변환)이 없도록 개발되었다. 그러나 표준 정규화는 많은 잘못된 부정이 발생하게 되므로, 잘못된 긍정을 일부 허용하면서 잘못된 부정을 현격히 줄일 수 있는 확장 정규화가 제기되고 연구되어 왔다. 본 논문에서는 동일 사이트 내의 URL들에 대한 확장 정규화의 적용 결과가 유사한 정도를 보임으로써, 한 사이트 내의 URL에 대한 임의의 확장 정규화 결과 정보가 동일 사이트 내의 다른 URL들의 정규화에 효과적으로 사용될 수 있음을 보인다. 이를 위하여, 한 사이트의 확장 정규화 결과 동일성 척도와 사이트 기반의 확장 정규화 평가 척도를 제안한다. 20,000만개의 실제 국내 웹 사이트에서 추출된 25만개의 URL에 대해 6가지 확장 정규화가 평가된다.

  • PDF

파일 바이러스 복제 특성을 이용한 바이러스 탐지 및 복구1) (Virus Detection and Recovery Using File Virus Self-Reproduction Characteristic)

  • 서용석;이성욱;홍만표;조시행
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.724-726
    • /
    • 2001
  • 본 논문에서는 컴퓨터 바이러스의 자기 복제 특성을 용한 바이러스 탐지 및 복구 방안을 제안한다. 바이러스의 행동 패턴은 바이러스의 종류 만큼 다양하지만 파일 바이러스의 경우, 자기 복제 행동 패턴은 대부분의 바이러스가 유사하다. 파일 바이러스가 시스템 감염시키기 위해서는 기생할 실행파일을 열고, 자기 자신을 그 실행 파일에 복사해야 한다. 이와 같은 자기 복제 행위를 통해 바이러스가 광범위하게 선과될 때 피 피해도 커지게 된다. 바이러스치 자기 복제 특성을 감안하여 본 연구에서 제안하는 바이러스 탐지 알고리즘은 다음과 같은 득징을 가진다. 첫째, 바이러스의 자기복세 행동 패턴은 파일 입출력 이벤트로 표현하여 바이러스의 행동 패턴으로 일반화시켰다. 둘째, 바이러스의 1차 감염행위는 허용하고 2차 이후 감염 행위부터 탐지하고, 탐지되기 이전에 감염되었던, 파일들을 복구한다. 이는 일반적인 바이러스들이 자기 복제를 지속적으로 수행한다는 점에 착안하여 false-positive 오류를 줄이기 위한 것이다. 본 고에서 제안하는 방법을 사용함으로써 특정 문자열에 의한 바이러스 탐지 및 복구 방법의 단점을 보안할 수 있을 것으로 기대된다.

  • PDF

형태소분석에 기초한 수화영상변환시스템에 관한 연구 (Sign Language Transformation System based on a Morpheme Analysis)

  • 이용동;김형근;정운달
    • 한국음향학회지
    • /
    • 제15권6호
    • /
    • pp.90-98
    • /
    • 1996
  • 본 논문에서는 한글의 형태소 분석에 기초한 청각장애자용 수화영상 변환시스템을 제안하였다. 제안된 시스템은 입력 문자열에 대해 형태소 분석에 의한 음운성분과 접속정보를 추출한 다음, 이에 대응한 수화영상을 구축된 수화영상 데이터베이스를 통하여 정확히 출력한다. 효과적인 수화영상변환을 위해 입력문자열에 대한 형태소 분석부와 수화패턴 참조를 위한 수화언어기술부로 이루어진 언어정보기술사전을 구성하였다. 수화패턴은 중복을 피하기 위해 기본수화, 복합수화 그리고 유사수화단어로 분류하여 작성하였으며, 실험을 통해 제안된 시스템의 유용성을 확인하였다.

  • PDF

N과 X를 포함하는 DNA 서열을 위한 효율적인 지역정렬 알고리즘 (An Efficient Local Alignment Algorithm for DNA Sequences including N and X)

  • 김진욱
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권3호
    • /
    • pp.275-280
    • /
    • 2010
  • 지역정렬(local alignment) 알고리즘은 주어진 두 서열에서 서로 유사한 부분 문자열을 찾아내는 알고리즘이다. DNA 서열은 A, C, G, T 외에 N과 X도 가질 수 있는데, N과 X는 DNA로부터 염기배열 정보를 뽑아낼 때 실험적인 이유로 혹은 다른 이유로 일부 배열 정보를 잃어버린 경우에 사용된다. 본 논문에서는 A, C, G, T 이외에 N과 X를 모두 갖는 DNA 서열의 affine gap penalty metric에 대한 지역정렬을 찾는 효율적인 알고리즘을 제시한다. 이는 N만 처리할 수 있는 Kim-Park 알고리즘을 N과 X를 모두 처리할 수 있도록 성공적으로 확장한 결과이며, 더불어 새로운 문자가 추가되더라도 바로 적용이 가능한 일반화된 결과이다.

AMI/HDB-3 회선부호화 및 HDLC FLAG를 고려한 KS × 1001 정보 교환용 로마문자 부호체계고찰 (Consideration of Roman Character in KS × 1001 Code System for Information Interchange considered AMI/HDB-3 and HDLC FLAG)

  • 홍완표
    • 한국전자통신학회논문지
    • /
    • 제8권7호
    • /
    • pp.1017-1023
    • /
    • 2013
  • 데이터를 원거리에 전송하는 회선부호화 방식으로는 AMI방식을 사용한다. AMI방식의 단점은 원천부호에 일정한 개수 이상의 0의 비트가 존재할 경우 비트동기를 상실하게 되는 것이다. 이 단점을 보완하기 위해 스크램블링 기술을 적용한다. HDB-3 스크램블링 방식은 원천부호에 비트 0이 네 개 이상 연속하여 있을 때 이것을 인위적으로 변환시킨다. 그러므로 원천 부호 중에 연속하여 네 개 이상의 0의 비트로 구성된 부호가 많을 경우, 회선부호화 과정 중에서 데이터전송효율을 감소시키게 된다. 한편 HDLC 통신규약에서는 플래그 비트열과 유사한 비트열의 오인을 방지위해 비트 또는 문자 스터핑 방식을 사용한다. 본 논문은 이러한 관점에서 $KS{\times}1001$에 포함된 로마문자용 부호집합을 분석대상으로 하였다. 이러한 분석결과를 토대로 하여 데이터의 전송효율을 제고시키는 최적의 로마문자 원천부호체계를 제시하였다. 본 연구에는 문자의 ($4{\times}4$)비트 원천 부호화 규칙과 영어 알파벳의 사용빈도 통계를 적용하였다. 연구결과 본 논문에서 제시하는 로마문자용 부호집합체계를 적용할 경우에 약134%의 데이터처리 효율을 제고시키는 것으로 나타났다.

음절 복원 알고리즘을 이용한 핵심어 오류 보정 시스템 (Key-word Error Correction System using Syllable Restoration Algorithm)

  • 안찬식;오상엽
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권10호
    • /
    • pp.165-172
    • /
    • 2010
  • 어휘 인식 시스템의 오류 보정방법으로는 오류 패턴매칭 기반 방법과 어휘의미 패턴 기반방법이있으며, 이들 방법에서는 오류 보정을 위해 핵심어를 의미적으로 분석하지 못하는 문제점을 가지고 있다. 이를 개선하기 위해 본 논문에서는 음절 복원 알고리즘을 이용한 핵심어 오류 보정 시스템을 제안한다. 인식된 음소 열을 의미 분석 과정을 거쳐 음소가 갖는 의미를 파악하고 음절 복원 알고리즘을 통해 음운 변동이 적용되기 이전의 문자열로 복원하므로 핵심어를 명확히 분석하고 오인식을 줄일 수 있다. 시스템 분석을 위해 음소 유사율과 신뢰도를 이용하여 오류 보정율을 구하였으며, 어휘 인식 과정에서 오류로 판명된 어휘에 대하여 오류 보정을 수행하였다. 에러 패턴 학습을 이용한 방법과 오류 패턴 매칭 기반 방법, 어휘 의미 패턴 기반 방법의 성능 평가 결과 3.0%의 인식 향상율을 보였다.

형상 유사도 기반의 유전 알고리즘을 활용한 이종 수치지도 간의 면 객체 집합 정합 알고리즘 개발 (Development of polygon object set matching algorithm between heterogeneous digital maps - using the genetic algorithm based on the shape similarities)

  • 허용;이재빈
    • 한국측량학회지
    • /
    • 제31권1호
    • /
    • pp.1-9
    • /
    • 2013
  • 본 연구는 유전 알고리즘을 이용하여 다대다 면 객체 정합을 수행하는 방법을 제안한다. 동일한 지형 지물을 표현하는 객체 집합의 형상은 서로 동일하다는 가정 하에 형상 유사도를 최적화하는 객체 집합을 두 지도 사이에서 탐색함으로써 정합을 수행한다. 이 때 어떤 객체가 객체 집합에 포함되는지의 여부를 이진 부호로 표현하고, 이진 부호들을 결합한 이진 문자열로 후보해를 표현한다. 초기 후보해들로 해집단을 생성한 뒤, 유전 알고리즘에 의하여 점진적으로 해집단의 품질을 개선함으로써 최적해를 탐색하였다. 제안된 방법을 평가하기 위하여 수원시 도심지역의 수치지형도와 지적도에서 가구계 대응 면 객체 집합을 탐색하였으며 제안된 알고리즘의 효용성을 확인할 수 있었다. 또한 수작업에 의한 탐색결과를 이용하여 평가한 결과 0.946의 정확도를 얻었다.

Trie 구조를 이용한 비디오 인덱스 생성 및 검색 (Video Index Generation and Search using Trie Structure)

  • 현기호;김정엽;박상현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.610-617
    • /
    • 2003
  • 비디오 데이타베이스에서 유사도 정합은 비디오 클러스터링과 비디오 라이브러리 등과 같은 많은 새로운 응용분야에서 중요성이 증가하고 있다. 대용량 데이타베이스에서 효과적인 접근을 제공하기 위하여 다양한 공간과 시간에 대한 특징치를 이용한 비디오 인덱싱 분야의 많은 연구노력이 있어왔다. 그러나 대부분의 기존 방법들은 순차적인 정합방법 또는 메모리 기반의 역 파일 기법 등에 의존하므로 대용량 데이타베이스에는 적합하지 않다. 이러한 문제를 해결하기 위하여 본 논문에서는 효과적이고 스케일 조정가능한 인덱싱 기법을 제안하기 위하여, 문자열 정합을 위해 제안된 trio를 인덱스 구조로 이용하였다. 인덱스 구성을 위하여 윈도우 순서 휴리스틱을 이용하여 각 프레임을 기호 시퀀스로 변환하고, 기호 시퀀스의 집합으로부터 디스크 상주 trio를 구성하였다 질의 처리를 위하여 trio 상에서 깊이-우선 검색과 시간 축분할을 실시하였으며, 제안한 방법의 성능을 검증하기 위하여 실제와 합성 데이터 집합에 대한 실험을 수행하였다. 제안한 방법은 지속적으로 순차적 스캔 방법보다 우수한 성능을 보였고, 성능이득은 대용량 비디오 데이타베이스에서도 유지되었다.

AI를 활용한 메타데이터 추출 및 웹서비스용 메타데이터 고도화 연구 (Metadata extraction using AI and advanced metadata research for web services)

  • 박성환
    • 문화기술의 융합
    • /
    • 제10권2호
    • /
    • pp.499-503
    • /
    • 2024
  • 방송 프로그램은 자체 방송 송출 외에도 인터넷 다시 보기, OTT, IPTV 서비스 등 다양한 매체에 제공되고 있다. 이 경우 콘텐츠 특성을 잘 나타내는 검색용 키워드 제공은 필수적이다. 방송사에서는 제작 단계, 아카이브 단계 등에서 주요 키워드를 수동으로 입력하는 방법을 주로 사용한다. 이 방식은 양적으로는 핵심 메타데이터 확보에 부족하고, 내용 면에서도 타 매체 서비스에서 콘텐츠 추천과 검색에 한계를 드러낸다. 본 연구는 EBS에서 개발한 DTV 자막방송 서버를 통해 사전 아카이빙 된 폐쇄형 자막 데이터를 활용하여 다수의 메타데이터를 확보하는 방법을 구현했다. 먼저 구글의 자연어 처리 AI 기술을 적용하여 핵심 메타데이터를 자동으로 추출하였다. 다음 단계는 핵심 연구 내용으로 우선순위와 콘텐츠 특성을 반영하여 핵심 메타데이터를 찾는 방법을 제안한다. 차별화된 메타데이터 가중치를 구하는 기술로는 TF-IDF 계산법을 응용하여 중요도를 분류했다. 실험 결과 성공적인 가중치 데이터를 얻었다. 이 연구로 확보한 문자열 메타데이터는 추후 문자열 유사도 측정 연구와 결합하면 타 매체에 제공하는 콘텐츠 서비스에서 정교한 콘텐츠 추천용 메타데이터를 확보하는 기반이 된다.

SHRT : 유사 단어를 활용한 URL 단축 기법 (SHRT : New Method of URL Shortening including Relative Word of Target URL)

  • 윤수진;박정은;최창국;김승주
    • 한국통신학회논문지
    • /
    • 제38B권6호
    • /
    • pp.473-484
    • /
    • 2013
  • 단축 URL은 짧은 URL을 긴 URL 대신에 사용하는 방식으로, 짧은 URL이 긴 URL에 리다이렉션되는 방식이다. 단축 URL은 생성과 사용이 간편하고, 글자수가 제한된 마이크로 블로깅 서비스의 사용이 증가함에 따라 폭발적으로 사용량이 증가하였다. 단축 URL의 사용이 간편하기 때문에, 메일, SMS, 책에서도 많이 사용되고 있다. 그러나 대부분의 단축 URL은 연결된 URL과의 어떠한 연관성도 없어, 사용자는 단축 URL에 직접 확인하기 전까지는 무엇에 관한 URL인지 모른다. 연결된 URL을 알 수 없다는 점을 악용하여, 단축 URL은 피싱 사이트나 악성코드 유포 등에 쓰인다. 기존에 이러한 문제를 극복하기 위해 단축 URL 서비스 사이트의 이름을 바꾸거나, 웹사이트의 정보를 반영하거나, 지역 이름의 줄임말 같은 단축어 사용 등의 시도가 있었으나, 각각의 방법에는 자동화의 어려움, 상대적으로 긴 단축 URL 길이, 적용 범위 한계가 각각의 문제점으로 적용하였다. 앞선 문제점을 보완하기 위하여, 본 논문은 아랍어의 모음이 없는 문자 시스템에서 착안하여 URL 사이트 이름에서 모음을 탈락시킨 유사한 문자열을 이용하여 단축 URL 방식 SHRT를 제안한다.