• 제목/요약/키워드: Similarity search

검색결과 535건 처리시간 0.022초

XML 태그를 분류에 따른 가중치 결정 (An XML Tag Indexing Method Using on Lexical Similarity)

  • 정혜진;김용성
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.71-78
    • /
    • 2009
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그를 중요도에 따라 분류하고, 낮은 태그에서 추출된 용어 가중치를 계산하고, 그 가중치로 높은 가중치의 태그에서 추출된 용어의 가중치를 갱신해 가면서 최종 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자가 중요하게 생각하는 태그를 실험해 보고 그에 따라 중요도를 분류하여 가중치 계산에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

타임 워핑 하의 효율적인 시계열 서브시퀀스 매칭을 위한 접두어 질의 기법의 확장 (On Extending the Prefix-Querying Method for Efficient Time-Series Subsequence Matching Under Time Warping)

  • 장병철;김상욱;차재혁
    • 정보처리학회논문지D
    • /
    • 제13D권3호
    • /
    • pp.357-368
    • /
    • 2006
  • 본 논문에서는 타임 워핑 하의 시계열 서브시퀀스 매칭을 처리하는 방법에 대하여 논의한다. 타임 워핑은 시퀀스의 길이가 서로 다른 경우에도 유사한 패턴을 갖는 시퀀스들을 찾을 수 있도록 해 주는 변환이다. 접두어 질의 기법(prefix-querying method)는 착오 기각 없이 타임 워핑 하의 시계열 서브시퀀스 매칭을 처리하는 인덱스를 이용한 최초의 방식이다. 이 방법은 사용자가 질의를 편리하게 작성하도록 하기 위하여 기본 거리함수로서 $L_{\infty}$를 사용한다. 본 논문에서는 $L_{\infty}$ 대신 타임 워핑 하의 시계열 서브시퀀스 매칭에서 기본 거리 함수로서 가장 널리 사용되는 $L_1$을 적용할 수 있도록 접두어 질의를 확장한다. 또한, 제안된 기법으로 타임 워핑 하의 시계열 서브시퀀스 매칭을 수행하는 경우 착오 기각(false dismissal)이 발생하지 않음을 이론적으로 증명한다. 다양한 실험을 통한 성능 평가를 통하여 본 연구에서 제시하는 기법의 우수성을 검증한다. 실험 결과에 의하면, 제안된 기법은 가장 좋은 성능을 보이는 기존의 기법과 비교하여 매우 뛰어난 성능 개선 효과를 보이는 것으로 나타났다.

KBUD: The Korea Brain UniGene Database

  • Jeon, Yeo-Jin;Oh, Jung-Hwa;Yang, Jin-Ok;Kim, Nam-Soon
    • Genomics & Informatics
    • /
    • 제3권3호
    • /
    • pp.86-93
    • /
    • 2005
  • Human brain EST data provide important clues for our understanding of the molecular biology associated with the function of the normal brain and the molecular pathophysiology with brain disorders. To systematically and efficiently study the function and disorders of the human brain, 45,773 human brain ESTs were collected from 27 human brain cDNA libraries, which were constructed from normal brains and brain disorders such as brain tumors, Parkinson's disease (PO) and epilepsy. An analysis of 45,773 human brain ESTs using our EST analysis pipeline resulted in 38,396 high-quality ESTs and 35,906 ESTs, which were coalesced into 8,246 unique gene clusters, showing a significant similarity to known genes in the human RefSeq, human mRNAs and UniGene database. In addition, among 8,246 gene clusters, 4,287 genes ($52\%$) were found to contain full-length cONA clones. To facilitate the extraction of useful information in collected these human brain ESTs, we developed a user-friendly interface system, the Korea Brain Unigene Database (KBUD). The KBUD web interface allows access to our human brain data through three major search modes, the BioCarta pathway, keywords and BLAST searches. Each result when viewed in KBUD offers comprehensive information concerning the analyzed human brain ESTs provided by our data as well as data linked to various other publiC databases. The user-friendly developed KBUD, the first world-wide web interface for human brain EST data with ESTs of human brain disorders as well as normal brains, will be a helpful system for developing a better understanding of the underlying mechanisms of the normal brain well as brain disorders. The KBUD system is freely accessible at http://kugi.kribb.re.kr/KU/cgi -bin/brain. pI.

모양 기반 이미지 분류를 위한 최적의 우세점 추출 (Extraction of Optimal Interest Points for Shape-based Image Classification)

  • 조성택;엄기현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권4호
    • /
    • pp.362-371
    • /
    • 2003
  • 이 논문에서는 이미지 데이타베이스에서 모양 특징 기반 이미지 분류와 인덱싱을 위해 객체의 윤곽선 특성을 고려해 임계값을 동적으로 결정하여 최적 우세점을 추출하는 알고리즘을 제안한다. 동적 임계값결정은 원본 모양의 윤곽선 길이 비와 근사화된 다각형의 둘레 길이 비를 알고리즘 수행시 점진적으로 검사하는 방법을 사용한다. 이 알고리즘은 윤곽선 특징을 반영하여 동적인 임계값 검사를 함으로써 의사점 수를 최대한 줄이며 최소 우세점만으로 모양 특징 정보를 추출할 수 있는 장점을 보인다. 제안한 방법은 객체의 윤곽선을 이루는 n개의 점에서 m개의 최적 우세점을 찾는데 평균 O(nlogn)이 걸린다. 최적화 평가는 7가지 서로 다른 특성을 가지는 70개의 합성 모양과 1,100개의 어류 모양에 대해 알고리즘을 적용하고 피 결과에 대해 평가 함수를 구성하여 수행하였다. 최적화율은 실험 모양들에 대해 평균0.92를 보였으며 기존 알고리즘에 대해 약 14% 최적화 성능 개선을 보였다. 제안한 알고리즘을 통해 추출한 모양 특징 정보는 정규화를 통해 이미지 분류와 인덱싱, 유사도 검색에 활용할 수 있다.

ebXML레지스트리 기반의 UDDI 서비스 미들웨어 설계 및 구현 (Design and Implementation of a UDDI Service Middleware based on the ebXML Registry)

  • 박재홍;김상균;이규철;김경일;김록원;송병열;조현규
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제31권3호
    • /
    • pp.307-319
    • /
    • 2004
  • 최근 들어 XML기반의 전자상거래 프레임워크로 ebXML과 웹 서비스가 대두되고 있다. 이들은 사용자 및 어플리케이션들이 정보를 저장하고 검색할 수 있도록 다양한 레지스트리 서비스를 제공하고 있으며, 이를 위해 ebXML은 ebXML 레지스트리를 이용하고 웹 서비스는 UDDI 레지스트리를 이용한다. 이와 같이 ebXML과 웹 서비스는 서로 다른 레지스트리를 사용하고 있지만. 이러한 두 레지스트리의 구조와 기능은 유사한 부분이 많다. 따라서 본 논문에서는 ebXML Registry Information Model(RIM)과 UDDI 데이타구조 사이의 유사성을 분석하여 두 모델간의 매핑 정보를 구성하고 이를 이용하여 UDDI 레지스트리 API를 ebXML 레지스트리 서비스로 변환하는 UDDI 서비스 미들웨어를 설계하고 구현하였다. 이 시스템을 이용하면 ebXML 레지스트리에 별도의 변경을 가하지 않고도 ebXML 레지스트리를 ebXML 레지스트리뿐만 아니라 UDDI 레지스트리로도 사용할 수 있기 때문에 e-비즈니스를 하기 위해 두 개의 레지스트리를 모두 도입할 필요가 없는 장점이 있다.

Analysis of the Oxidative Stress-Related Transcriptome from Capsicum annuum L.

  • Lee, Hyoung-Seok;Lee, Sang-Ho;Kim, Ho-Bang;Lee, Nam-Houn;An, Chung-Sun
    • Journal of Plant Biotechnology
    • /
    • 제37권4호
    • /
    • pp.472-482
    • /
    • 2010
  • For the massive screening of the genes related to oxidative stress, a cDNA library was constructed from hot pepper (Capsicum annuum L. cv. Nockkwang) leaves treated with methyl viologen. From this library, 1,589 cDNA clones were sequenced from their 5' ends. The sequences were clustered into 1,252 unigenes comprised of 152 contigs and 1,100 singletons. Similarity search against NCBI protein database identified 1,005 ESTs (80.3%) as Known, 197 ESTs (15.7%) as Unknown, and 50 ESTs (3.99%) as No hit. In the ESTs, oxidative stress-related genes such as ascorbate peroxidase, catalase, and osmotin precursor were highly expressed. The cDNA microarray containing 1,252 unigenes was constructed and used to analyze their expression upon methyl viologen treatment. Analyses of the hybridization revealed that various stress-related genes such as peroxidase, tyrosine aminotransferase, and omega-6 fatty acid desaturase, were induced and some metabolism related genes such as aldolase and ketol-acid reductoisomerase, were repressed by methyl viologen treatment, respectively. The information from this study will be used for further study on the functional roles of oxidative stress-related genes and signaling network of oxidative stress in hot pepper.

지역 특징 히스토그램 기반 영상식별자와 GPU 가속화 (Image Identifier based on Local Feature's Histogram and Acceleration Technique using GPU)

  • 전혁준;서용석;황치정
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권9호
    • /
    • pp.889-897
    • /
    • 2010
  • 현대의 대량화된 영상 관리 시스템은 영상의 특징을 표현하는 영상식별자에 대해 왜곡에 강인하며 빠른 검색 속도, 정확성 및 효율적인 저장 등의 기본 성능을 요구한다. 영상식별자 설계 방법은 기하학적 왜곡에 강인한 지역 방식과 빠른 검색 및 적은 저장 용량의 속성을 지닌 전역방식으로 구분 할 수 있다. 본 논문에서는 왜곡에 강하고 지역적 공간적 제약으로 인한 서로간의 차별성이 강화된 지역 기술자들로부터 각각 개개 차원의 특징 분포도를 분석하여, 두 영상간의 유사도를 빠르고 정확하게 측정할 수 있는 지역 기술자 및 전역 기술자의 속성을 가지고 있는 LFH(Local Feature's Histogram)기반 영상식별자를 제안한다. 또한 GPU를 사용하여 LFH를 구현하는 방법을 제시하며, 제안한 LFH와 대표적인 지역, 전역 방식인 SIFT 및 EHD 방식과 저장용량, 추출 시간, 검색 속도 및 정확률에 대한 성능을 비교하였다.

허밍 대수를 이용한 허밍 질의처리 시스템 (A Query by Humming System Using Humming Algebra)

  • 신제용;한욱신;이종학
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권8호
    • /
    • pp.534-546
    • /
    • 2009
  • 허밍 질의는 사용자가 가사를 모를 때, 유용하고 직관적으로 사용할 수 있는 질의 방법이다. 허영 질의 시스템은 사용자 멜로디를 입력으로 받고, 이 멜로디를 음악 데이터베이스의 모든 멜로디와 비교하며, 가장 유사한 k개의 멜로디를 반환한다. 본 논문에서는 허영 질의 시스템을 위한 허밍 대수를 제안하고, 허밍 대수를 이용하여 실제 허밍 질의처리 시스템인 HummingBase를 설계하고 구현하였다. 기존 유사 검색 방법들을 분석함으로써 10개의 기본 연산자로 구성된 대수를 유도하였다. 제안한 허밍 대수는 허밍 질의 시스템이 확장이 가능하고 모듈화가 되게끔 구현하는데 사용 될 수 있다. 본 논문에서는 두 가지 사례 연구를 통해, 제안한 허밍 대수를 이용하면 기존의 허밍 질의처리 시스템을 쉽고 편리하게 표현할 수 있음을 보인다.

트랜잭션 기반 머신러닝에서 특성 추출 자동화를 위한 딥러닝 응용 (A Deep Learning Application for Automated Feature Extraction in Transaction-based Machine Learning)

  • 우덕채;문현실;권순범;조윤호
    • 한국IT서비스학회지
    • /
    • 제18권2호
    • /
    • pp.143-159
    • /
    • 2019
  • Machine learning (ML) is a method of fitting given data to a mathematical model to derive insights or to predict. In the age of big data, where the amount of available data increases exponentially due to the development of information technology and smart devices, ML shows high prediction performance due to pattern detection without bias. The feature engineering that generates the features that can explain the problem to be solved in the ML process has a great influence on the performance and its importance is continuously emphasized. Despite this importance, however, it is still considered a difficult task as it requires a thorough understanding of the domain characteristics as well as an understanding of source data and the iterative procedure. Therefore, we propose methods to apply deep learning for solving the complexity and difficulty of feature extraction and improving the performance of ML model. Unlike other techniques, the most common reason for the superior performance of deep learning techniques in complex unstructured data processing is that it is possible to extract features from the source data itself. In order to apply these advantages to the business problems, we propose deep learning based methods that can automatically extract features from transaction data or directly predict and classify target variables. In particular, we applied techniques that show high performance in existing text processing based on the structural similarity between transaction data and text data. And we also verified the suitability of each method according to the characteristics of transaction data. Through our study, it is possible not only to search for the possibility of automated feature extraction but also to obtain a benchmark model that shows a certain level of performance before performing the feature extraction task by a human. In addition, it is expected that it will be able to provide guidelines for choosing a suitable deep learning model based on the business problem and the data characteristics.

First Report of Leptosphaerulina saccharicola Isolated from Persimmon (Diospyros kaki) Tree Bark in Korea

  • Fulbert, Okouma Nguia;Ayim, Benjamin Yaw;Das, Kallol;Lim, Yang-Sook;Lee, Seung-Yeol;Jung, Hee-Young
    • 한국균학회지
    • /
    • 제47권1호
    • /
    • pp.13-18
    • /
    • 2019
  • A fungal strain, designated PTT-2, was isolated from the bark of the trunk of a persimmon (Diospyros kaki) tree in Cheongdo, Korea. The isolate showed morphological similarities with Leptosphaerulina saccharicola. Strain PTT-2 had more rapid growth on potato dextrose agar medium than on oatmeal agar, malt extract agar, and synthetic nutrient poor agar media, with colony sizes of 53.8 mm, 49.8 mm, 48.4 mm, and 28.1 mm after 7 days at $25^{\circ}C$ temperature, respectively. Strain PTT-2 produced ascospores, which had irregular wavy edges, oblong to ellipsoidal shape, hyaline appearance and $23.6{\times}10{\mu}m$ size. The black ascomata were developed on PDA medium, and asci were recorded. A BLAST search of the internal transcribed spacer (ITS) region, TEF1-${\alpha}$ and RPB2 gene sequences revealed that strain PTT-2 showed more than 99% nucleotide similarity with a strain of Leptosphaerulina saccharicola previously reported from Thailand. A neighbor-joining phylogenetic tree was constructed by concatenating the above-mentioned sequences, and showed that strain PTT-2 clustered in the same clade with L. saccharicola. Based on these findings, this is the first record of Leptosphaerulina saccharicola occurring in Korea.