• 제목/요약/키워드: Semantic similarity search

검색결과 54건 처리시간 0.02초

GORank: Gene Ontology를 이용한 유전자 산물의 의미적 유사성 검색 (GORank: Semantic Similarity Search for Gene Products using Gene Ontology)

  • 김기성;유상원;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권7호
    • /
    • pp.682-692
    • /
    • 2006
  • 유사한 생물학적 특성을 가진 유전자 산물을 검색하는 것은 생물정보학 연구에 필수적인 기술이다. 현재 대부분의 생물학 데이타베이스에서 Gene Ontology의 용어를 사용하여 유전자 산물의 생물학적 특성을 기술하고 있다. 본 논문에서는 이런 유전자 산물의 주석 정보를 사용해 의미적으로 유사한 유전자 산물을 검색하는 방법을 제안한다. 이를 위해 우선 정보 이론에 기반한 유전자 산물간의 의미적 유사도를 정의하였다. 그리고 이 유사도를 이용한 의미적 유사성 검색 알고리즘을 제안하였다. 의미적 유사성 검색을 처리하기 위해 Fagin의 문턱값 알고리즘(threshold algorithm)을 다음과 같이 변형한 기법을 사용하였다. 우선 사용하는 유사도 함수가 단조 증가 성질을 갖지 않기 때문에 유사도 함수에 맞는 문턱값을 재정의 하였다. 또 역색인 리스트의 구조를 사용하여 중간 검색을 생략할 수 있는 클러스터 스키핑 기법과 역색인 리스트 액세스 순서를 제안하였다. 실제 GO와 주석 정보를 이용하여 성능 평가를 했으며 제안한 알고리즘은 효율적인 알고리즘임을 보였다.

구조 및 의미 검색을 지원하는 비디오 데이타의 모델링 (Video Data Modeling for Supporting Structural and Semantic Retrieval)

  • 복경수;유재수;조기형
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.237-251
    • /
    • 2003
  • 이 논문에서는 비디오 데이타의 논리적 구조와 의미적 내용을 효과적으로 검색하기 위한 비디오 검색 시스템을 제안한다. 제안하는 검색 시스템은 비정형화된 비디오 데이타를 원시 데이타 계층, 내용 계층 그리고 키프레임 계층의 세 계층으로 구성하는 계층화된 모델링을 사용한다. 계층화된 모델링에 존재하는 내용 계층은 비디오 데이타에 대한 논리적인 계층 구조와 의미적 내용을 표현한다. 제안하는 검색 시스템은 모델링에 따라 텍스트 기반의 검색은 물론 시각적인 특징 기반의 유사도 검색을 지원한다. 또한 시공간 관계에 기반한 의미적 내용 검색과 유사도 검색을 지원한다.

Semantic Conceptual Relational Similarity Based Web Document Clustering for Efficient Information Retrieval Using Semantic Ontology

  • Selvalakshmi, B;Subramaniam, M;Sathiyasekar, K
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권9호
    • /
    • pp.3102-3119
    • /
    • 2021
  • In the modern rapid growing web era, the scope of web publication is about accessing the web resources. Due to the increased size of web, the search engines face many challenges, in indexing the web pages as well as producing result to the user query. Methodologies discussed in literatures towards clustering web documents suffer in producing higher clustering accuracy. Problem is mitigated using, the proposed scheme, Semantic Conceptual Relational Similarity (SCRS) based clustering algorithm which, considers the relationship of any document in two ways, to measure the similarity. One is with the number of semantic relations of any document class covered by the input document and the second is the number of conceptual relation the input document covers towards any document class. With a given data set Ds, the method estimates the SCRS measure for each document Di towards available class of documents. As a result, a class with maximum SCRS is identified and the document is indexed on the selected class. The SCRS measure is measured according to the semantic relevancy of input document towards each document of any class. Similarly, the input query has been measured for Query Relational Semantic Score (QRSS) towards each class of documents. Based on the value of QRSS measure, the document class is identified, retrieved and ranked based on the QRSS measure to produce final population. In both the way, the semantic measures are estimated based on the concepts available in semantic ontology. The proposed method had risen efficient result in indexing as well as search efficiency also has been improved.

Development of the Recommender System of Arabic Books Based on the Content Similarity

  • Alotaibi, Shaykhah Hajed;Khan, Muhammad Badruddin
    • International Journal of Computer Science & Network Security
    • /
    • 제22권8호
    • /
    • pp.175-186
    • /
    • 2022
  • This research article develops an Arabic books' recommendation system, which is based on the content similarity that assists users to search for the right book and predict the appropriate and suitable books pertaining to their literary style. In fact, the system directs its users toward books, which can meet their needs from a large dataset of Information. Further, this system makes its predictions based on a set of data that is gathered from different books and converts it to vectors by using the TF-IDF system. After that, the recommendation algorithms such as the cosine similarity, the sequence matcher similarity, and the semantic similarity aggregate data to produce an efficient and effective recommendation. This approach is advantageous in recommending previously unrated books to users with unique interests. It is found to be proven from the obtained results that the results of the cosine similarity of the full content of books, the results of the sequence matcher similarity of Arabic titles of the books, and the results of the semantic similarity of English titles of the books are the best obtained results, and extremely close to the average of the result related to the human assigned/annotated similarity. Flask web application is developed with a simple interface to show the recommended Arabic books by using cosine similarity, sequence matcher similarity, and semantic similarity algorithms with all experiments that are conducted.

시그니처 트리를 사용한 의미적 유사성 검색 기법 (Semantic Similarity Search using the Signature Tree)

  • 김기성;임동혁;김철한;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.546-553
    • /
    • 2007
  • 온톨로지의 활용이 늘어나면서 의미적 유사성 검색에 대한 관심이 높아지고 있다. 본 논문에서는 질의 객체와의 의미적 유사성이 높은 객체를 검색하는 최근접 질의 기법을 제안하였다. 의미적 유사성을 측정하는 유사성 함수로는 최적 대응값 방식의 유사도 함수를 사용하였으며 주석 정보에 대한 색인을 위해 시그니처 트리를 사용하였다. 시그니처 트리는 집합 유사성 검색에서 많이 사용되는 색인 구조로서 유사성 검색에 사용하기 위해서는 검색시 각 노드를 탐색하였을 때 발견할 수 있는 유사도의 최대값을 예측할 수 있어야 한다. 이에 본 논문에서는 최적 대응값 방식의 유사도 함수에 대한 예측 최대값 함수를 제안하고 올바른 예측 함수임을 증명하였다. 또한 시그니처 트리에 동일한 시그니처가 중복되어 저장되지 않도록 구조를 개선하였다. 이는 시그니처 트리의 크기를 감소시킬 뿐만 아니라 질의 성능 또한 향상시켜 주었다. 실험의 데이타로는 대용량 온톨로지와 주석 정보 데이타를 제공하는 Gene Ontology(GO)를 사용하였다. 실험에서는 제안한 방법의 성능 향상 외에도 페이지 크기와 노드 분할 방법이 의미적 유사성 질의 성능에 미치는 영향에 대해 알아보았다.

Word2Vec 학습을 통한 의미 기반 해외 유사 특허 검색 방안 (Identifying Similar Overseas Patent Using Word2Vec-Based Semantic Text Analytics)

  • 백민지;김남규
    • 한국IT서비스학회지
    • /
    • 제17권2호
    • /
    • pp.129-142
    • /
    • 2018
  • Recently, the number of patent applications have been increasing rapidly every year as the importance of protecting intellectual property rights becomes more important. Patents must be inventive and have novelty. Especially, the novelty implies that the corresponding invention is not the same as the previous invention. To confirm the novelty, prior art search must be conducted before and after the application. The target of prior art search should include not only Korean patents but also foreign patents. Search of foreign patents should be supported by multilingual search techniques. However, a dictionary-based naive approach shows a limitation because some technical concepts are represented in different terms according to each nation. For example, a Korean term and a Japanese term may not be synonym even though they represent the same technical concept. In this paper, we propose a new method to map semantic similarity between technical terms in Korean patents and Japanese patents. To investigate different representations in each nation for the same technical concept, we identified and analyzed pairs of patents those are mutually connected with priority claim relationship. By performing an experiment with real-world data, we showed that our approach can reveal semantically similar technical terms in other language successfully.

관계형 데이터베이스에서의 시맨틱 기반 키워드 탐색 시스템 (Semantic-based Keyword Search System over Relational Database)

  • 양영휴
    • 한국컴퓨터정보학회논문지
    • /
    • 제18권12호
    • /
    • pp.91-101
    • /
    • 2013
  • 키워드의 모호성은 효율적인 키워드 탐색에 있어서 일반적인 이슈가 되어왔는데, 이 모호성은 탐색결과의 신뢰성에 큰 영향을 줄 수 있으며, 기본적으로 질의에 사용된 용어 자체가 가지는 문맥상 의미의 모호함에 기인한다. 질의 자체의 모호함뿐만 아니라, 사용자들이 그 탐색 결과를 적절하게 해석하기 위해 결과에 나타나는 키워드간의 관계도 중요하므로 명확하게 명시 되어야 한다. 이 논문에서는 기존의 질의 용어와 스키마 용어/인스턴스간의 키워드 매핑기법을 적용하여 키워드 탐색의 모호성을 해결한다. 용어간의 매핑에서는 질의 키워드와 스키마 용어간의 구문적 유사성은 물론 시맨틱 유사성까지 고려하기 때문에 기존의 시스템에 비해 매핑과 정밀도가 50% 이상 상승하는 결과를 얻을 수 있다. 탐색결과에 나타나는 용어간의 불분명한 관계를 점 더 명확하게 나타내기 위하여 시맨틱 웹 기술을 적용하여 키워드간의 의미 있는 관계를 더 많이 지식베이스 내에서 찾을 수 있도록 하였다.

딥러닝을 이용한 법률 분야 한국어 의미 유사판단에 관한 연구 (Deep Learning Based Semantic Similarity for Korean Legal Field)

  • 김성원;박광렬
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권2호
    • /
    • pp.93-100
    • /
    • 2022
  • 기존의 데이터 검색 방법으로는 키워드 중심의 검색 방법이 주로 사용되나, 이는 전문적인 용어가 많이 쓰이는 법률 분야의 검색 방법으로는 적합하지 않다. 이에 대해 본 논문에서는 법률 분야의 효과적인 데이터 검색 방안을 제안한다. 법률 도메인의 자연어처리 분야에서 문장 간의 유사성을 판단하는 데 최적화된 임베딩 방법에 관하여 서술한다. 법률문장을 TF-IDF를 이용하여 키워드 기반으로 임베딩하거나 Universal Sentence Encoder를 이용하여 의미 기반으로 임베딩을 한 후, BERT모델을 결합하여 법률 분야에서 문장 간 유사성을 검사하여 데이터를 검색하는 최적의 방안을 제안한다.

시맨틱 주석을 이용한 내용 기반 데이터 검색 (Content based data search using semantic annotation)

  • 김병곤;오성균
    • 디지털콘텐츠학회 논문지
    • /
    • 제12권4호
    • /
    • pp.429-436
    • /
    • 2011
  • 인터넷검색의 대상이 되는 각종 문서, 이미지, 동영상 등의 자료가 늘어날수록 이에 대한 효율적인 검색의 문제가 중요시되고 있다. 효율적인 검색의 관점은 초기의 키워드 중심의 검색에서 자료가 지니는 의미적인 요소들을 종합적으로 판단하여 이들의 연관성을 찾아 검색하는 의미적 검색의 방향으로 진행되고 있다. 이에 따라, 각종 자료에 대한 의미적 검색을 위하여 메타데이터 처리를 위한 시맨틱 주석을 생성, 운영하는 시스템들이 연구되어 왔다. 그러나, 동일한 종류의 자료에 대한 주석 위주로 진행되었고, 각기 다른 방법과 형태로 생성된 주석 데이터 간에는 호환적인 검색이나 처리가 어렵다. 본 연구에서는 이 문제를 해결하기 위하여 다양한 주석문서를 내용분석에 따라 단계별 형태로 분류하고, 상이한 종류의 자료 간에도 검색이 가능하도록 문서간의 유사도를 측정하는 방법을 제시하였다. 주석문서간의 유사도 측정은 소스문서와 유사도가 높은 주석문서를 검색하여 결과적으로 자료의 종류나 형태에 상관없이 가장 유사한 내용을 지니는 문서나 이미지, 동영상 등을 검색하는데 사용할 수 있다.

사용자 질의 의미 해석을 위한 온톨로지 지식베이스 스키마 구축 (Ontology Knowledge Base Scheme for User Query Semantic Interpretation)

  • 도하나;이무훈;정훈;최의인
    • 디지털융복합연구
    • /
    • 제11권3호
    • /
    • pp.285-292
    • /
    • 2013
  • 최근의 검색 형태는 키워드 기반 검색에서 보다 더 정확한 결과를 제공하기 위한 시맨틱 검색 방법으로 변화하고 있다. 하지만 일반 사용자들은 여전히 기존의 키워드 기반 검색에 익숙하기 때문에 시맨틱 검색을 위한 형식화된 구조적 질의어를 구성할 수 없다. 따라서 본 논문에서는 이러한 사용자들의 키워드 해석을 위한 온톨로지 지식 베이스 스키마를 제안한다. 제안된 스키마는 서술 논리 추론을 위해 OWL-DL을 기반으로 설계되었으며 최소한의 관계 정의와 추론 규칙 언어인 SWRL(Semantic Web Rule Language)으로 추론함으로써 보다 풍부한 개체 관계의 표현을 제공한다. 마지막으로 논문에서 제안한 사용자 질의 의미 해석 기법의 검증을 위해 키워드 유사도 실험 결과를 설명한다.