• 제목/요약/키워드: Similarity Query

검색결과 246건 처리시간 0.028초

규칙기반 역공학 도구의 구현 및 평가 (A implementation and evaluation of Rule-Based Reverse-Engineering Tool)

  • 진영배
    • 한국컴퓨터정보학회논문지
    • /
    • 제9권3호
    • /
    • pp.135-141
    • /
    • 2004
  • 소프트웨어의 종류가 다양하고, 커짐에 따라서 유지 보수 문제는 더욱 복잡하고 어렵게 되고, 프로그램 에러의 교정이나 요구 사항의 변경, 사용자에 대한 요구가 점차 증가되면서 소프트웨어의 유지 보수가 소프트웨어 생명 주기에서 가장 비용을 많이 차지하는 부분이 되었다. 본 논문에서는 객체지향 시스템에서 소프트웨어 재구성 환경을 위한 역공학 도구를 설계, 구현하였다. 이 도구는 클래스 정보를 이용한 규칙기반 역공학 도구이다. 프로그램 유지보수자가 프롤로그를 이용한 시스템 쿼리를 사용할 수 있도록 하였다. 대부분의 유사한 클래스를 추출하기 위한 재구조화 방법과 변수와 함수 사이의 관계에 근거를 둔 방법을 사용하였다. 추출된 클래스의 가시성이 자동적으로 산출되고, 논리언어를 이용한 쿼리를 사용함으로서 실질적인 유지보수가 이루어지도록 하였다. 또한 이 도구를 평가하는 방법을 제안하였다.

  • PDF

디지털 도서관 이용자의 검색행태 연구 - 검색 로그 데이터의 네트워크 분석을 중심으로 - (A Study on the Search Behavior of Digital Library Users: Focus on the Network Analysis of Search Log Data)

  • 이수상;위성광
    • 한국도서관정보학회지
    • /
    • 제40권4호
    • /
    • pp.139-158
    • /
    • 2009
  • 본 논문에서는 검색로그 데이터의 네트워크 분석방법을 통해 검색자들의 검색행위에 나타난 다양한 특성을 살펴보았다. 이러한 작업을 통해 얻어진 결과는 다음과 같다. 첫째, 검색자들은 검색어의 유사성에 따라 네트워크라는 연결구조를 나타내었다. 둘째, 특정한 검색자 네트워크에서 중심적인 위치를 차지하는 검색자들이 존재하였다. 셋째, 중심 검색자들은 다른 검색자들과 검색 키워드를 공유하고 있었다. 넷째, 전체 검색자들은 다수의 하위 집단으로 군집되어 있다. 이 연구의 결과는 네트워크 분석 방법에 의한 연관된 검색자와 검색어를 추천하는 알고리즘을 개발하는데 활용이 가능할 것이다.

  • PDF

Prediction of an Essential Gene with Potential Drug Target Property in Streptococcus suis Using Comparative Genomics

  • Zaman, Aubhishek
    • Interdisciplinary Bio Central
    • /
    • 제4권4호
    • /
    • pp.11.1-11.8
    • /
    • 2012
  • Genes that are indispensable for survival are referred to as essential gene. Due to the momentous significance of these genes for cellular activity they can be selected potentially as drug targets. Here in this study, an essential gene for Streptococcus suis was predicted using coherent statistical analysis and powerful genome comparison computational method. At first the whole genome protein scatter plot was generated and subsequently, on the basis of statistical significance, a reference genome was chosen. The parameters set forth for selecting the reference genome was that the genome of the query (Streptococcus suis) and subject must fall in the same genus and yet they must vary to a good degree. Streptococcus pneumoniae was found to be suitable as the reference genome. A whole genome comparison was performed for the reference (Streptococcus pneumoniae) and the query genome (Streptococcus suis) and 14 conserved proteins from them were subjected to a screen for potential essential gene property. Among those 14 only one essential gene was found to be with impressive similarity score between reference and query. The essential gene encodes for a type of 'Clp protease'. Clp proteases play major roles in degrading misfolded proteins. Results found here should help formulating a drug against Strptococcus suis which is responsible for mild to severe clinical conditions in human. However, like many other computational studies, the study has to be validated furthermore through in vitro assays for concrete proof.

Optimization Driven MapReduce Framework for Indexing and Retrieval of Big Data

  • Abdalla, Hemn Barzan;Ahmed, Awder Mohammed;Al Sibahee, Mustafa A.
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권5호
    • /
    • pp.1886-1908
    • /
    • 2020
  • With the technical advances, the amount of big data is increasing day-by-day such that the traditional software tools face a burden in handling them. Additionally, the presence of the imbalance data in big data is a massive concern to the research industry. In order to assure the effective management of big data and to deal with the imbalanced data, this paper proposes a new indexing algorithm for retrieving big data in the MapReduce framework. In mappers, the data clustering is done based on the Sparse Fuzzy-c-means (Sparse FCM) algorithm. The reducer combines the clusters generated by the mapper and again performs data clustering with the Sparse FCM algorithm. The two-level query matching is performed for determining the requested data. The first level query matching is performed for determining the cluster, and the second level query matching is done for accessing the requested data. The ranking of data is performed using the proposed Monarch chaotic whale optimization algorithm (M-CWOA), which is designed by combining Monarch butterfly optimization (MBO) [22] and chaotic whale optimization algorithm (CWOA) [21]. Here, the Parametric Enabled-Similarity Measure (PESM) is adapted for matching the similarities between two datasets. The proposed M-CWOA outperformed other methods with maximal precision of 0.9237, recall of 0.9371, F1-score of 0.9223, respectively.

질의분해 적합성 피드백을 이용한 정보검색에 관한 연구 (A Study on Information Retrieval Using Query Splitting Relevance Feedback)

  • 김영천;박병권;이성주
    • 한국지능시스템학회논문지
    • /
    • 제11권3호
    • /
    • pp.252-257
    • /
    • 2001
  • 순수한 부울 검색 시스템은 문서와 질의 사이의 유사도를 나타내는 문서값을 계산할 수 없기 때문에, 검색된 문서들을 질의를 만족하는 정보에 따라 정렬할 수 없다. 부울 검색 시스템의 이러한 단점을 보완하는 방법으로 MMM 모델, Paice 모델, P-norm 모델이 개발되었다. 이러한 방법들은 부울 연산자를 유연하게 연산하는 공통된 특성을 지니고 있다. 본 논문에서는 높은 검색 효과를 제공하는 질의분해 적합성 피드백(QSRF)를 이용한 정보 검색 모델을 제안한다. 질의 분해 적합성 피드백 모델의 연산 특성이 MMM, Paice, P-norm 모델보다 우수함을 설명하고, 또한 성능 비교를 통하여 이를 입증한다.

  • PDF

GORank: Gene Ontology를 이용한 유전자 산물의 의미적 유사성 검색 (GORank: Semantic Similarity Search for Gene Products using Gene Ontology)

  • 김기성;유상원;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권7호
    • /
    • pp.682-692
    • /
    • 2006
  • 유사한 생물학적 특성을 가진 유전자 산물을 검색하는 것은 생물정보학 연구에 필수적인 기술이다. 현재 대부분의 생물학 데이타베이스에서 Gene Ontology의 용어를 사용하여 유전자 산물의 생물학적 특성을 기술하고 있다. 본 논문에서는 이런 유전자 산물의 주석 정보를 사용해 의미적으로 유사한 유전자 산물을 검색하는 방법을 제안한다. 이를 위해 우선 정보 이론에 기반한 유전자 산물간의 의미적 유사도를 정의하였다. 그리고 이 유사도를 이용한 의미적 유사성 검색 알고리즘을 제안하였다. 의미적 유사성 검색을 처리하기 위해 Fagin의 문턱값 알고리즘(threshold algorithm)을 다음과 같이 변형한 기법을 사용하였다. 우선 사용하는 유사도 함수가 단조 증가 성질을 갖지 않기 때문에 유사도 함수에 맞는 문턱값을 재정의 하였다. 또 역색인 리스트의 구조를 사용하여 중간 검색을 생략할 수 있는 클러스터 스키핑 기법과 역색인 리스트 액세스 순서를 제안하였다. 실제 GO와 주석 정보를 이용하여 성능 평가를 했으며 제안한 알고리즘은 효율적인 알고리즘임을 보였다.

워드 임베딩 기반 근사 Top-k 레이블 서브그래프 매칭 기법 (Approximate Top-k Labeled Subgraph Matching Scheme Based on Word Embedding)

  • 최도진;오영호;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권8호
    • /
    • pp.33-43
    • /
    • 2022
  • 지식 그래프 및 단백질 상호 작용과 같은 실제 데이터에서 개체들과 개체들의 관계 및 구조를 나타내기 위해 레이블 그래프를 사용한다. IT의 급속한 발전과 데이터의 폭발적인 증가로 사용자에게 관심 있는 정보를 제공하기 위한 서브 그래프 매칭 기술이 필요하다. 본 논문은 레이블의 의미적 유사성과 그래프 구조 차이를 고려한 근사 Top-k 서브 그래프 매칭 기법을 제안한다. 제안하는 기법은 레이블 의미적 유사도를 고려하기 위하여 FastText을 활용한 학습 모델을 이용한다. 레이블 간 의미적 유사도를 미리 계산한 LSG(Label Similarity Graph)를 통해 처리 속도의 효율을 높인다. LSG를 통해 레이블이 정확하게 일치해야 확장이 가능한 기존 연구의 한계를 해결한다. 2-hop까지 탐색을 수행함으로써 질의 그래프에 대한 구조적 유사성을 지원한다. 매칭된 서브 그래프는 유사도 값 기반으로 Top-k 결과를 제공한다. 제안하는 기법의 우수성을 보이기 위하여 다양한 성능평가를 수행한다.

WWW에서 칼라특징을 이용한 내용기반 화상검색 시스템의 설계 및 구현 (Design and Implementation of the Content-Based Image Retrieval System using Color Features on the World Wide Web)

  • 최현섭;최기호
    • 한국정보처리학회논문지
    • /
    • 제4권9호
    • /
    • pp.2315-2332
    • /
    • 1997
  • In this paper, we implement a content based image retrieval system for image searching by visual features from the image databases on WWW (world wide web). The image retrieval system finds the images that contain the most similar color regions after the system automatically extracts color features from the input image. We can select one of two query methods which use a full image of $4{\times}4$ 16 sketched color region. The image similarity is calculated on the histogram intersection distance and the histogram Euclidean distance. As the experimental results show that the two different query types provide the precision/recall 0.84/0.92 and 0.85/0.93 respectively, this retrieval system has been able to obtain high performance and validity.

  • PDF

내용 기반 이미지 검색을 위한 복합 질의문 계획 생성 기법 (Generating Combined Query Plan for Content-Based Image Retrieval)

  • 박미화;엄기현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제27권4호
    • /
    • pp.562-571
    • /
    • 2000
  • 이미지 데이터는 텍스트 데이터와는 달리 다양한 색상과 모양, 질감과 같은 비정형적인 특징을 가진다. 따라서 이미지 데이터베이스는 텍스트 기반의 전통 데이터베이스와는 다른 모델링 방법과 질의, 검색 방법을 사용한. 특히, 내용 기반 이미지 검색에서의 검색 속도와 정확도를 향상시키기 위해서는 새로운 복합 질의문 계획 생성 기법이 필요하다. 본 논문에서는 이를 위해 먼저, 단일 조건을 갖는 시각 질의에 대한 처리 기법들을 토대로 여러 조건을 갖는 복합 질의를 처리하기 위한 복합 질의문 계획 생성기법인 SSCC(Similarity Search for Conjunction Combination Query) 알고리즘을 제안한다. SSCC는 이미지 데이터베이스 검색 시스템에서 복합 질의를 처리하기 위한 질의 최적화 과정에서 질의 수행 시간과 투플 I/O를 최소화하는 질의문 계획을 생성하기 위해 사용된다. SSCC 알고리즘은 복합질의를 단일 질의들로 준해하고 퍼지 집합 이론을 도입하여 단일 질의의 결과들을 통합한다. 논문에서 연구된 내용 기반 복합 질의문 계획 생성 기법은 특정 이미지 영역에 국한되지 않으며 다양한 종류의 시각 질의를 수행하기 위한 효율적인 질의문 계획 생성 기법으로 사용될 수 있다.

  • PDF

유사 질의 매칭 기반 데이터베이스 캐쉬 엔진 설계 및 구현 (Design and Implementation of Database Cache engine based on Similarity Query Matching)

  • 한윤희;이정준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.119-124
    • /
    • 2007
  • 인터넷 웹사이트의 급격한 증가와 함께 이용자도 증가하고 있으며, 이용 목적은 주로 자료검색과 조회서비스 이다. 조회 요청이 많을수록 질의의 증가를 야기하며, 데이터베이스 서버의 질의 분석(Parse), 질의 실행 계획(Query Execution Plan)을 과도하게 발생시킨다. 즉 데이터베이스 서버에서 처리하는 작업량의 과부하로 인하여 병목현상을 초래한다. 데이터베이스 서버의 조회를 위한 질의처리량을 감소시키는 작업이 필요하다. 그리고 조회 대상이 데이터는 웹사이트에서 자주 갱신되지 않거나, 데이터가 주기적으로 갱신되는 특징이 있다. 이 데이터를 대상으로 데이터베이스 캐쉬 엔진을 구성하면 데이터베이스 서버의 과부하률 해소 할 수 있다. 본 논문에서는 유사 질의 매칭 기반 데이터베이스 캐친 엔진을 설계하고 구현한다. 유사 질의 매칭 기반으로 하여 적중률을 높여 데이터베이스 병목현상을 해결하여, 검색서비스에 더욱 효과적일 것으로 사료되며, 웹사이트의 성능 향상을 기대한다.

  • PDF