• 제목/요약/키워드: String Similarity

검색결과 48건 처리시간 0.025초

컬러 분포와 WordNet상의 유사도 측정을 이용한 의미적 이미지 검색 (Semantic Image Retrieval Using Color Distribution and Similarity Measurement in WordNet)

  • 최준호;조미영;김판구
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.509-516
    • /
    • 2004
  • 의미기반 이미지 검색에서의 의미적 내용 인식은 주석 위주의 텍스트 정보를 이용하는 것이 일반적이다. 이러한 텍스트 정보 기반 이미지 검색은 전통적인 검색 방법인 키워드 검색 기술을 그대로 사하여 쉽게 구현할 수 있으나, 텍스트의 개념적 매칭이 아닌 스트링 매칭이므로 주석 처리된 단어와 정확한 매칭이 없다면 검색할 수 없는 단점이 있었다. 이에 본 논문에서는 Ontology의 일종인 WordNet을 이용하여 깊이, 정보량, 링크 타입, 밀도 등을 고려한 단어간 의미 유사도를 측정하여 패턴 매칭의 문제점을 해결하고자 한다. 또한, 이미지의 컬러 분포 유사도를 측정하여 저차원 특징과 결합한 의미적 이미지 검색이 가능하도록 설계하였다. 제안된 검색 방안에 대해 'Microsoft Design Gallery Live'의 주석을 포함한 이미지를 대상으로 실험한 결과, 기존 의미기반 검색 시스템보다 향상된 결과를 확인하였다.

구문트리 비고를 통한 프로그램 유형 복제 검사 (A Program-Plagiarism Checker using Abstract Syntax Tree)

  • 김영철;김성근;염세훈;최종명;유재우
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.792-802
    • /
    • 2003
  • 기존의 프로그램 유형 복제 검사 시스템들은 단순한 텍스트 기반의 프로그램 복제 검사나, 속성 및 토큰 스트링을 이용하여 복제 검사를 수행한다. 이 시스템들은 들여쓰기, 여백, 설명문과 같은 프로그램의 구문과 상관없는 프로그램 스타일에 어려움을 갖고 있다. 본 연구에서는 서로 다른 두 프로그램의 구문트리를 이용하여 복제 검사를 수행하는 모델을 제시한다. 구문트리를 이용한 프로그램 유형 복제 검사는 프로그램 스타일에 취약한 기존의 복제 검사 시스템의 단점을 극복할 수 있으며, 구문분석과 의미분석을 통해 프로그램의 구조적인 검사까지 수행할 수 있다는 장점을 가지고 있다. 또한 본 시스템은 인터넷이나 사이버 교육 체제에서 대량의 C/C+. 언어의 프로그램 복제 검사를 수행하기 위하여 AST 생성, 역파서 및 유사도 검사 알고리즘을 제시하며, 프로그램 복제 유형에 대해서 평가한다.

구조 및 의미 정보를 활용한 파스 트리 커널 기반의 온톨로지 정렬 방법 (Ontology Alignment based on Parse Tree Kernel usig Structural and Semantic Information)

  • 손정우;박성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.329-334
    • /
    • 2009
  • 기존 온톨로지 정렬 기법은 두가지 문제점을 가지고 있다. 먼저 자질을 해당 분야 전문가가 정의하기 때문에 중요한 자질들이 자질셋에 포함되지 않을 수 있다는 것이다. 다음으로는 온톨로지의 의미 정보와 구조 정보를 이용하여 유사도를 따로 계산한 후, 각각의 실험에 의해 정의된 가중치를 이용하여 전체 유사도를 계산한다. 하지만 온톨로지 상에 나타나는 의미 정보와 구조정보의 상대적인 가중치가 실험적인 방법 혹은 사용자에 의해 결정되기 때문에 시스템이 특정 온톨로지에 한정되거나 성능이 떨어질 수 있어 문제이다. 본 논문에서는 온톨로지 정렬을 위한 파스 트리 커널을 제안한다. 온톨로지 상의 개체에 대한 유사도를 계산하기 위해 먼저 온톨로지를 트리 구조로 변환한다 그 후, 변환된 트리 간의 유사도는 온톨로지 정렬을 위해 수정된 파스트리 커널을 이용하여 계산한다. 이때 자질은 명시적으로 나열하지 않는다. 유사도 계산시, 파스 트리 커널에 근사 스트링 매칭 기법을 적용하여 의미 정보를 반영한다. 검증 위한 실험에서 제안한 방법은 기존의 온톨로지 정렬 기법보다 나은 성능을 보였다.

외국어 음차 표기의 음성적 유사도 비교 알고리즘 (Phonetic Similarity Meausre for the Korean Transliterations of Foreign Words)

  • 강병주;이재성;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1237-1246
    • /
    • 1999
  • 최근 모든 분야에서 외국과의 교류가 증대됨에 따라서 한국어 문서에는 점점 더 많은 외국어 음차 표기가 사용되는 경향이 있다. 하지만 같은 외국어에 대한 음차 표기에 개인차가 심하여 이들 음차 표기를 포함한 문서들에 대한 검색을 어렵게 만드는 원인이 되고 있다. 한 가지 해결 방법은 색인 시에 같은 외국어에서 온 음차 표기들을 등가부류로 묶어서 색인해 놓았다가 질의 시에 확장하는 방법이다. 본 논문에서는 외국어 음차 표기들의 등가부류를 만드는데 필요한 음차 표기의 음성적 유사도 비교 알고리즘인 Kodex를 제안한다. Kodex 방법은 기존의 스트링 비교 방법인 비음성적 방법에 비해 음차 표기들을 등가부류로 클러스터링하는데 있어 더 나은 성능을 보이면서도, 계산이 간단하여 훨씬 효율적으로 구현될 수 있는 장점이 있다.Abstract With the advent of digital communication technologies, as Koreans communicate with foreigners more frequently, more foreign word transliterations are being used in Korean documents more than ever before. The transliterations of foreign words are very various among individuals. This makes text retrieval tasks about these documents very difficult. In this paper we propose a new method, called Kodex, of measuring the phonetic similarity among foreign word transliterations. Kodex can be used to generate the equivalence classes of the transliterations while indexing and conflate the equivalent transliterations at the querying stage. We show that Kodex gives higher precision at the similar recall level and is more efficient in computation than non-phonetic methods based on string similarity measure.

A Novel Cryptosystem Based on Steganography and Automata Technique for Searchable Encryption

  • Truong, Nguyen Huy
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권5호
    • /
    • pp.2258-2274
    • /
    • 2020
  • In this paper we first propose a new cryptosystem based on our data hiding scheme (2,9,8) introduced in 2019 with high security, where encrypting and hiding are done at once, the ciphertext does not depend on the input image size as existing hybrid techniques of cryptography and steganography. We then exploit our automata approach presented in 2019 to design two algorithms for exact and approximate pattern matching on secret data encrypted by our cryptosystem. Theoretical analyses remark that these algorithms both have O(n) time complexity in the worst case, where for the approximate algorithm, we assume that it uses ⌈(1-ε)m)⌉ processors, where ε, m and n are the error of our string similarity measure and lengths of the pattern and secret data, respectively. In searchable encryption, our cryptosystem is used by users and our pattern matching algorithms are performed by cloud providers.

자동 질의수정을 통한 통합의학언어 시스템 검색 (The Method of Searching Unified Medical Language System Using Automatic Modified a Query)

  • 김종광;하원식;이정현
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 컴퓨터소사이어티 추계학술대회논문집
    • /
    • pp.129-132
    • /
    • 2003
  • The metathesaurus(UMLS, 2003AA edition) supports multi language and includes 875, 233 concepts, 2, 146, 897 concept names. It is impossible for PubMed or NLM serve searching of the metatheaurus to retrieval using a query that is not to be text, a fault sentence structure or a part of concept name. That means the user notice correctly suitable medical words in order to get correct answer, otherwise she or he can't find information that they want to find I propose that the method of searching unified medical language system using automatic modified a query for problem that I mentioned. This method use dictionary that is standard for automation of modified query gauge similarity between query and dictionary using string comparison algorithm. And then, the tested term converse the form of metathesaurus for optimized result. For the evaluation of method, I select some query and I contrast NLM method that renewed Aug. 2003.

  • PDF

VASM 알고리즘을 이용한 건축물 CAD 자료의 수치지도 건물 객체와의 형상 정합 및 지도좌표 부여 방법의 제안 (A Proposal of a Shape Matching and Geo-referencing method for Building Features in Construction CAD Data to Digital Map using a Vertex Attributed String Matching algorithm)

  • 허용;유기윤;김형태
    • 한국측량학회지
    • /
    • 제26권4호
    • /
    • pp.387-396
    • /
    • 2008
  • 건설 CAD 자료와 GIS 자료를 연계하기 위해서는 임의의 좌표체계로 표현되거나 경우에 따라 좌표정보를 가지고 있지 않은 CAD 자료에 지도좌표를 부여하는 과정이 필요하다. 일반적으로 이러한 과정들은 수작업에 의하여 결정된 공액 꼭지점을 이용하지만 많은 시간이 소요되는 문제점을 가지고 있다. 본 연구는 VASM 알고리즘을 이용하여 건설 CAD 자료와 수치지도에서 건물 객체의 형상 정합을 수행함으로써 공액 꼭지점을 반자동 추출할 수 있는 기법을 제안한다. 이렇게 추출된 공액 꼭지점을 이용하여 상사변환에 기반한 지도좌표 부여 함수를 유도할 수 있었다. 본 연구에서 제안한 기법을 이용하여 지도좌표가 부여된 서울대학교 공과대학 건물들의 건설 CAD 도면을 수치지도에 중첩해보았고, 그 결과를 바탕으로 제안된 기법을 평가해 보았다.

Trie 구조를 이용한 비디오 인덱스 생성 및 검색 (Video Index Generation and Search using Trie Structure)

  • 현기호;김정엽;박상현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.610-617
    • /
    • 2003
  • 비디오 데이타베이스에서 유사도 정합은 비디오 클러스터링과 비디오 라이브러리 등과 같은 많은 새로운 응용분야에서 중요성이 증가하고 있다. 대용량 데이타베이스에서 효과적인 접근을 제공하기 위하여 다양한 공간과 시간에 대한 특징치를 이용한 비디오 인덱싱 분야의 많은 연구노력이 있어왔다. 그러나 대부분의 기존 방법들은 순차적인 정합방법 또는 메모리 기반의 역 파일 기법 등에 의존하므로 대용량 데이타베이스에는 적합하지 않다. 이러한 문제를 해결하기 위하여 본 논문에서는 효과적이고 스케일 조정가능한 인덱싱 기법을 제안하기 위하여, 문자열 정합을 위해 제안된 trio를 인덱스 구조로 이용하였다. 인덱스 구성을 위하여 윈도우 순서 휴리스틱을 이용하여 각 프레임을 기호 시퀀스로 변환하고, 기호 시퀀스의 집합으로부터 디스크 상주 trio를 구성하였다 질의 처리를 위하여 trio 상에서 깊이-우선 검색과 시간 축분할을 실시하였으며, 제안한 방법의 성능을 검증하기 위하여 실제와 합성 데이터 집합에 대한 실험을 수행하였다. 제안한 방법은 지속적으로 순차적 스캔 방법보다 우수한 성능을 보였고, 성능이득은 대용량 비디오 데이타베이스에서도 유지되었다.

노년여성의 한복 및 양장 착용과 관찰자의 연령이 인상형성에 미치는 영향 (Effect of Korean and Western Attire of Eldery Women and Perceiver's Age on Impression Formation)

  • 이명희
    • 복식
    • /
    • 제43권
    • /
    • pp.187-202
    • /
    • 1999
  • The objectives of this study were to analyze the effect of dress(Korean traditional dress and suit) of elderly Women and situation on impression formation. The experimental design was $10\times{2}\times{2(dress}\times{perceiver's age}\times{situation)}$ factorial design by 3 independent variables. The stimuli of color photographs of female in her 60's model and the semantic differential scale were used. Six variables of impression formation were used: preference: elegance: potency: activity: feminine: and modernity. Samples were 400 women 200 were in their twenties and 200 in their forties and fifties. The data were analyzed by $\alpha$-reliability t-test ANOVA and duncan's multiple range test. The Korean traditional dress with the combination of Korean traditional color(light blue upper dress with dark red purple collar and string.dark blue skit) had the most positive effect on impression of elegance. Pink traditional dress and light blue traditional dress had a negative effect on impression of potency activity and modernity. Red purple suit had a positive effect on potency and modernity. The interaction between dress perceiver's age and stituation was significant for the impression of activity. Women in their 40's and 50's perceived the activity of red purple suit positively in the situation of alumnae meeting more than in the wedding ceremony. The perceived age of the stimulus person was different according to dresses. Traditional dresses was perceived older than suits were. Women in their 40's and 50's evaluated preferences of the dresses positively more than 20's did. This means that 40's and 50's feel similarity with the stimulus person more than 20's as the age of model was in their 60's The result supports the theory that similarity is basic factor in interpersonal attraction.

  • PDF

개선된 동적 타임 워핑 알고리즘을 이용한 효율적인 필기문자 감정 (Efficient Handwritten Character Verification Using an Improved Dynamic Time Warping Algorithm)

  • 장석우;박영재;김계영
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권7호
    • /
    • pp.19-26
    • /
    • 2010
  • 본 논문에서는 온라인 환경에서 필기 문자열을 입력받고, 입력된 문자열의 유사성을 자동으로 분석하여 두 필적이 동일인에 의해 작성된 것인지를 판단하는 새로운 필적 감정 방법을 제안한다. 제안된 방법에서는 먼저 온라인으로 입력된 문자열에 회전 프로젝션(circular projection) 방법을 적용하여 모양, 방향 등과 같이 문자열이 가진 고유의 특징을 추출하여 벡터의 형태로 저장한다. 그런 다음, 문자 인식 분야에서 많이 사용되는 기존의 동적 타임 워핑 알고리즘을 개선하여, 이를 입력된 두 문자열의 특징 벡터의 유사성을 추출하는데 적용한다. 본 논문에서 개선된 동적 타임 워핑 알고리즘은 최적화 문제에서 좋은 결과를 산출한다고 알려진 분기한정법(branch and bound)의 개념을 기존의 동적 타임 워핑 알고리즘에 효과적으로 결합함으로써 기존의 동적 타임 워핑 알고리즘의 효율을 향상시켰다. 제안된 필기 문자열 감정 알고리즘의 성능을 확인하기 위한 실험에서는 다양하게 입력된 필기 문자열을 가지고 제안된 방법의 성능을 비교 하였으며, 그 결과 제안된 방법이 기존의 알고리즘에 비해 보다 효율적으로 필적을 감정하였음을 검증하였다.