• 제목/요약/키워드: semantic kernel

검색결과 20건 처리시간 0.018초

시맨틱 구문 트리 커널을 이용한 생명공학 분야 전문용어간 관계 식별 및 분류 연구 (A Study on the Identification and Classification of Relation Between Biotechnology Terms Using Semantic Parse Tree Kernel)

  • 최성필;정창후;전홍우;조현양
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.251-275
    • /
    • 2011
  • 본 논문에서는 단백질 간 상호작용 자동 추출을 위해서 기존에 연구되어 높은 성능을 나타낸 구문 트리 커널을 확장한 시맨틱 구문 트리 커널을 제안한다. 기존 구문 트리 커널의 문제점은 구문 트리의 단말 노드를 구성하는 개별 어휘에 대한 단순 외형적 비교로 인해, 실제 의미적으로는 유사한 두 구문 트리의 커널 값이 상대적으로 낮아지는 현상이며 결국 상호작용 자동 추출의 전체 성능에 악영향을 줄 수 있다는 점이다. 본 논문에서는 두 구문 트리의 구문적 유사도(syntactic similarity)와 어휘 의미적 유사도(lexical semantic similarity)를 동시에 효과적으로 계산하여 이를 결합하는 새로운 커널을 고안하였다. 어휘 의미적 유사도 계산을 위해서 문맥 및 워드넷 기반의 어휘 중의성 해소 시스템과 이 시스템의 출력으로 도출되는 어휘 개념(WordNet synset)의 추상화를 통한 기존 커널의 확장을 시도하였다. 실험에서는 단백질 간 상호작용 추출(PPII, PPIC) 성능의 심층적 최적화를 위해서 기존의 SVM에서 지원되던 정규화 매개변수 외에 구문 트리 커널의 소멸인자와 시맨틱 구문 트리 커널의 어휘 추상화 인자를 새롭게 도입하였다. 이를 통해 구문 트리 커널을 적용함에 있어서 소멸인자 역할의 중요성을 확인할 수 있었고, 시맨틱 구문 트리 커널이 기존 시스템의 성능향상에 도움을 줄 수 있음을 실험적으로 보여주었다. 특히 단백질 간 상호작용식별 문제보다도 비교적 난이도가 높은 상호작용 분류에 더욱 효과적임을 알 수 있었다.

A New Semantic Kernel Function for Online Anomaly Detection of Software

  • Parsa, Saeed;Naree, Somaye Arabi
    • ETRI Journal
    • /
    • 제34권2호
    • /
    • pp.288-291
    • /
    • 2012
  • In this letter, a new online anomaly detection approach for software systems is proposed. The novelty of the proposed approach is to apply a new semantic kernel function for a support vector machine (SVM) classifier to detect fault-suspicious execution paths at runtime in a reasonable amount of time. The kernel uses a new sequence matching algorithm to measure similarities among program execution paths in a customized feature space whose dimensions represent the largest common subpaths among the execution paths. To increase the precision of the SVM classifier, each common subpath is given weights according to its ability to discern executions as correct or anomalous. Experiment results show that compared with the known kernels, the proposed SVM kernel will improve the time overhead of online anomaly detection by up to 170%, while improving the precision of anomaly alerts by up to 140%.

A Semantic Representation Based-on Term Co-occurrence Network and Graph Kernel

  • Noh, Tae-Gil;Park, Seong-Bae;Lee, Sang-Jo
    • International Journal of Fuzzy Logic and Intelligent Systems
    • /
    • 제11권4호
    • /
    • pp.238-246
    • /
    • 2011
  • This paper proposes a new semantic representation and its associated similarity measure. The representation expresses textual context observed in a context of a certain term as a network where nodes are terms and edges are the number of cooccurrences between connected terms. To compare terms represented in networks, a graph kernel is adopted as a similarity measure. The proposed representation has two notable merits compared with previous semantic representations. First, it can process polysemous words in a better way than a vector representation. A network of a polysemous term is regarded as a combination of sub-networks that represent senses and the appropriate sub-network is identified by context before compared by the kernel. Second, the representation permits not only words but also senses or contexts to be represented directly from corresponding set of terms. The validity of the representation and its similarity measure is evaluated with two tasks: synonym test and unsupervised word sense disambiguation. The method performed well and could compete with the state-of-the-art unsupervised methods.

의미커널과 한글 워드넷에 기반한 지능형 채점 시스템 (An Intelligent Marking System based on Semantic Kernel and Korean WordNet)

  • 조우진;오정석;이재영;김유섭
    • 정보처리학회논문지A
    • /
    • 제12A권6호
    • /
    • pp.539-546
    • /
    • 2005
  • 최근 인터넷 사용자가 급증하면서 원격교육의 발전과 함께 평가에서도 원격을 이용한 방법이 많이 사용되고 있다. 하지만 현재까지는 자연언어처리의 어려움으로 객관식이나 단답식 평가가 주류를 이루고 있다. 본 논문에서는 서술형 주관식 문제의 빠르고 공정한 지능형 채점을 위하여, 다양한 언어 지식을 활용하였다. 이를 위하여, 가공되지 않은 말뭉치에서 의미커널을 구축하고, 수험자가 작성한 답안과 이미 구축된 정답을 벡터로 구성하여 이 답안간의 유사도를 의미커널을 통해 계산하여 정답여부를 자동으로 판단하도록 하였다. 의미커널을 구축하기 위하여 벡터 공간 모델에 기반한 은닉 의미 분석을 이용하였으며, 또한 한글 워드넷을 이용하여 답안의 정보부족 문제를 줄여보고자 하였다. 실험을 위하여 3000 문항의 주관식 문제를 구축하였으며, 의미커널의 구축을 위하여 38,727개의 신문기사를 모아 말뭉치로 구성하고 75,175개의 색인어를 추출하였다. 의미커널에 기반한 자동 채점 시스템으로 실제 수험자에 의하여 작성된 답안을 채점한 결과, 출제자가 실제로 채점한 결과를 기준으로 하여 최고 0.894의 상관관계를 얻을 수 있었다

Learning Probabilistic Kernel from Latent Dirichlet Allocation

  • Lv, Qi;Pang, Lin;Li, Xiong
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제10권6호
    • /
    • pp.2527-2545
    • /
    • 2016
  • Measuring the similarity of given samples is a key problem of recognition, clustering, retrieval and related applications. A number of works, e.g. kernel method and metric learning, have been contributed to this problem. The challenge of similarity learning is to find a similarity robust to intra-class variance and simultaneously selective to inter-class characteristic. We observed that, the similarity measure can be improved if the data distribution and hidden semantic information are exploited in a more sophisticated way. In this paper, we propose a similarity learning approach for retrieval and recognition. The approach, termed as LDA-FEK, derives free energy kernel (FEK) from Latent Dirichlet Allocation (LDA). First, it trains LDA and constructs kernel using the parameters and variables of the trained model. Then, the unknown kernel parameters are learned by a discriminative learning approach. The main contributions of the proposed method are twofold: (1) the method is computationally efficient and scalable since the parameters in kernel are determined in a staged way; (2) the method exploits data distribution and semantic level hidden information by means of LDA. To evaluate the performance of LDA-FEK, we apply it for image retrieval over two data sets and for text categorization on four popular data sets. The results show the competitive performance of our method.

구조 및 의미 정보를 활용한 파스 트리 커널 기반의 온톨로지 정렬 방법 (Ontology Alignment based on Parse Tree Kernel usig Structural and Semantic Information)

  • 손정우;박성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권4호
    • /
    • pp.329-334
    • /
    • 2009
  • 기존 온톨로지 정렬 기법은 두가지 문제점을 가지고 있다. 먼저 자질을 해당 분야 전문가가 정의하기 때문에 중요한 자질들이 자질셋에 포함되지 않을 수 있다는 것이다. 다음으로는 온톨로지의 의미 정보와 구조 정보를 이용하여 유사도를 따로 계산한 후, 각각의 실험에 의해 정의된 가중치를 이용하여 전체 유사도를 계산한다. 하지만 온톨로지 상에 나타나는 의미 정보와 구조정보의 상대적인 가중치가 실험적인 방법 혹은 사용자에 의해 결정되기 때문에 시스템이 특정 온톨로지에 한정되거나 성능이 떨어질 수 있어 문제이다. 본 논문에서는 온톨로지 정렬을 위한 파스 트리 커널을 제안한다. 온톨로지 상의 개체에 대한 유사도를 계산하기 위해 먼저 온톨로지를 트리 구조로 변환한다 그 후, 변환된 트리 간의 유사도는 온톨로지 정렬을 위해 수정된 파스트리 커널을 이용하여 계산한다. 이때 자질은 명시적으로 나열하지 않는다. 유사도 계산시, 파스 트리 커널에 근사 스트링 매칭 기법을 적용하여 의미 정보를 반영한다. 검증 위한 실험에서 제안한 방법은 기존의 온톨로지 정렬 기법보다 나은 성능을 보였다.

Infrared Target Recognition using Heterogeneous Features with Multi-kernel Transfer Learning

  • Wang, Xin;Zhang, Xin;Ning, Chen
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제14권9호
    • /
    • pp.3762-3781
    • /
    • 2020
  • Infrared pedestrian target recognition is a vital problem of significant interest in computer vision. In this work, a novel infrared pedestrian target recognition method that uses heterogeneous features with multi-kernel transfer learning is proposed. Firstly, to exploit the characteristics of infrared pedestrian targets fully, a novel multi-scale monogenic filtering-based completed local binary pattern descriptor, referred to as MSMF-CLBP, is designed to extract the texture information, and then an improved histogram of oriented gradient-fisher vector descriptor, referred to as HOG-FV, is proposed to extract the shape information. Second, to enrich the semantic content of feature expression, these two heterogeneous features are integrated to get more complete representation for infrared pedestrian targets. Third, to overcome the defects, such as poor generalization, scarcity of tagged infrared samples, distributional and semantic deviations between the training and testing samples, of the state-of-the-art classifiers, an effective multi-kernel transfer learning classifier called MK-TrAdaBoost is designed. Experimental results show that the proposed method outperforms many state-of-the-art recognition approaches for infrared pedestrian targets.

커널 기반의 '단백질-단백질 작용' 의미 포함 문장 분류 (Kernel-based sentence classification for protein-protein interaction)

  • 김성환;엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.286-288
    • /
    • 2005
  • 본 논문에서는 tree kernel을 이용 '단백질-단백질 작용' 내용 포함 문장의 추출 방법을 제시한다. Tree kernel은 convolution kernel의 하나로서, 이를 이용하여 파싱 트리(parsing tree)로 표현된 문장을 데이터로 하여 '단백질-단백질 작용' 내용을 포함하고 있는 문장을 그렇지 않은 문장으로부터 분류할 수 있다. 문장 전체를 데이터로 사용하는 것보다 관련 영역을 서브트리(sub-tree)로 추출하여 사용한 것이 더 효과적임을 확인할 수 있었고, kernel계산에 있어 파싱 트리의 태그 내용이 중요한 역할을 하기 때문에 이를 '단백질-단백질 작용'의 의미를 반영할 수 있도록 semantic하게 변환한 효과 및 트리의 길이에 따른 영향도 실험해 보았다. 문제에 사용된 데이터의 양이 다소 적었지만, 데이터 표현 방식에 따라 파싱이나 패턴기법을 이용한 기존의 방법과 비교해 좋은 성능을 보일 수 있다는 가능성을 확인할 수 있었다.

  • PDF

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.

헬름홀츠머신 학습 기반의 의미 커널을 이용한 문서 유사도 측정 (Estimation of Document Similarity using Semantic Kernel Derived from Helmholtz Machines)

  • 장정호;김유섭;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.440-442
    • /
    • 2003
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어수준 이상의 개념 수준에서의 운서 비교를 가능하게 한다. 본 논문에서는 은닉변수모델을 이용하여 문서 집합으로부터 단어들 간의 의미관계를 자동적으로 추출하고 이를 통해 문서간 유사도 측정을 효과적으로 하기 위한 방안을 제시한다. 은닉변수 모델로는 다중요인모델의 학습이 용이한 헬름홀츠 머신을 활용하묘 이의 학습 결과에 기반하여, 문서간 비교를 한 의미 커널(semantic kernel)을 구축한다. 2개의 문서 집합 HEDLINE과 CACM 데이터에 대한 검색 실험에서, 제안된 기법을 적응함으로써 기본 VSM(Vector Space Model) 에 비해 20% 이상의 평균 정확도 향상을 이를 수 있었다.

  • PDF