• Title/Summary/Keyword: 상호정보 추출

Search Result 773, Processing Time 0.025 seconds

Performance Enhancement of Tree Kernel-based Protein-Protein Interaction Extraction by Parse Tree Pruning and Decay Factor Adjustment (구문 트리 가지치기 및 소멸 인자 조정을 통한 트리 커널 기반 단백질 간 상호작용 추출 성능 향상)

  • Choi, Sung-Pil;Choi, Yun-Soo;Jeong, Chang-Hoo;Myaeng, Sung-Hyon
    • Journal of KIISE:Software and Applications
    • /
    • v.37 no.2
    • /
    • pp.85-94
    • /
    • 2010
  • This paper introduces a novel way to leverage convolution parse tree kernel to extract the interaction information between two proteins in a sentence without multiple features, clues and complicated kernels. Our approach needs only the parse tree alone of a candidate sentence including pairs of protein names which is potential to have interaction information. The main contribution of this paper is two folds. First, we show that for the PPI, it is imperative to execute parse tree pruning removing unnecessary context information in deciding whether the current sentence imposes interaction information between proteins by comparing with the latest existing approaches' performance. Secondly, this paper presents that tree kernel decay factor can play an pivotal role in improving the extraction performance with the identical learning conditions. Consequently, we could witness that it is not always the case that multiple kernels with multiple parsers perform better than each kernels alone for PPI extraction, which has been argued in the previous research by presenting our out-performed experimental results compared to the two existing methods by 19.8% and 14% respectively.

Automatic Acquisition of Ranked IS-A Relation from Unstructured Text (텍스트에서 IS-A 관계의 자동 추출 및 순위화)

  • Ryu, Pum-Mo;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2007.10a
    • /
    • pp.150-157
    • /
    • 2007
  • 본 논문에서는 의존 구조 매칭과 약한 지도식 학습 방법을 적용하여 텍스트에서 IS-A 관계를 자동으로 추출하고 순위화하는 방법을 제안한다. 텍스트에서 잠재적인 IS-A 관계를 표현하는 [관계 표현, 하위어, 상위어]의 삼진관계 리스트를 추출하고, 관계 표현과 IS-A 관계 인스턴스, IS-A 관계 후보, 사이의 상호 관련성을 이용하여 각각의 점수를 반복적으로 정제한다. 제안한 방법의 대표적인 특징은 다음과 같다. 1) 의존 구조에 기반한 패턴 매칭 방법을 적용하여 정규 표현에 기반한 방법보다 다양한 형태의 삼진관계를 추출할 수 있고, 2) 도메인 코퍼스에서 통계적으로 추출한 어휘 사이의 관련성 정보를 이용하여 도메인에 적합한 IS-A 관계 인스턴스의 순위를 높일 수 있으며, 3) 관계 표현과 관계 인스턴스의 점수를 상호 관련성에 기반한 방법으로 반복적으로 점수화하여 IS-A 관계 인스턴스 사이의 변별력을 높일 수 있다. 실험에서 순위화된 관계 인스턴스는 전문가의 판단과 66%이상 일치함을 보였고, 의존 구조를 이용한 유연한 패턴 매칭 방법은 정규표현을 이용한 방법보다 43.6%의 추가적인 삼진관계를 추출하였다.

  • PDF

An Approach to Component Identification based on Use-Case (유즈케이스 기반의 컴포넌트 식별 방법)

  • 김태웅;김경민
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.10b
    • /
    • pp.301-303
    • /
    • 2003
  • 컴포넌트 기반 개발 방법론이 확산됨에 따라 성공적인 컴포넌트 기반 프로젝트의 핵심 요소인 효과적인 컴포넌트 식별 방법에 관한 연구가 활발히 진행되고 있다. 이에 본 논문에서는 시스템이 사용자에게 제공하는 기능을 독립적으로 분류한 유즈케이스를 기반으로 하여 인터페이스를 식별하고, 식별된 인터페이스의 상호작용을 분석하여 컴포넌트를 식별하는 방법에 대해 제안한다. 이를 위하여 유즈케이스를 기반으로 외부 인터페이스를 식별하고, 시나리오를 이용하여 식별된 인터페이스 단위로 객체를 추출한다. 추출된 객체에서 공통 객체를 분석하여 내부 인터페이스와 컴포넌트를 식별하고 최종적으로 이러한 인터페이스의 상호작용과 의존성을 분석하여 컴포넌트를 식별 하고자 한다.

  • PDF

Terminological Paraphrase Extraction with Ranking Combination (랭킹 결합에 의한 기술용어 패러프레이즈 추출)

  • Choi, Sung-Pil;Cho, Min-Hee;Jung, Hanmin;Myaeng, Sung-Hyon
    • Annual Conference on Human and Language Technology
    • /
    • 2012.10a
    • /
    • pp.175-180
    • /
    • 2012
  • 기술용어 패러프레이즈 (Terminological Paraphrase, TP)는 학술 문헌 내에서 기술 용어의 개념 및 정의를 다른 형태로 풀어서 알기 쉽게 서술적 문구 (descriptive expression) 를 의미한다. 이러한 TP들에 대한 효율적인 식별과 추출은 학술 정보에 대한 개념적 접근이나 학술 정보 검색의 재현율 향상에 매우 중요하다. 본 논문은 생명 공학 분야의 논문에 나타나는 다양한 형태의 TP들을 효율적으로 추출하기 위한 정보 검색 기반의 추출 방법론을 제시하고 총 여섯 가지의 추출 랭킹 모델을 기반으로 이를 결합함으로써 TP추출의 확장 가능성에 대한 실험적 연구를 수행한다. 실험 결과, 활용된 랭킹 모델이 서로 상호 보완적인 관계에 있음을 알 수 있었으며, 랭킹 결합에 의한 성능 개선 효과를 얻을 수 있었다.

  • PDF

Selection of optimal protein domains for DNA repair inhibition in cancer cells based on bioinformatics (생물정보학 기반 암세포 내 DNA 복구 저해를 위한 최적 단백질 도메인 선정)

  • Jo, Si Hyang;Kim, Hak Yong
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2016.05a
    • /
    • pp.185-186
    • /
    • 2016
  • 최근 DNA 복구 기작 저해가 암 전이를 억제한다는 연구결과가 발표되었다. 이번 연구에서는 DNA 복구 기작을 효율적으로 저해시킬 수 있는 단백질을 선정하고자 했다. 먼저 HPRD에서 59개의 DNA repair 단백질 정보를 얻고 각각의 도메인 정보를 추출하였다. 이 단백질과 상호작용하는 단백질을 KEGG로 부터 추출하고 추출한 단백질의 도메인 정보는 HPRD에서 얻었다. Cytoscape를 통하여 DNA 복구 단백질-상호작용 단백질-도메인의 네트워크를 시각화하였다. 네트워크 상에서 보존적이며 핵심적인 단백질 후보 및 도메인 후보를 선정 하였다. KEGG에서 제공하는 암의 경로(pathways in cancer)을 이용하여 후보의 적용 가능성을 확인하였다. 선정한 최종 후보들은 향후 암 전이 억제에 사용될 수 있는 타깃이 될 수 있을 것으로 기대한다.

  • PDF

Algorithm for extracting signaling pathways based on Protein-Protein Interaction and Protein location Information (Protein-Protein Interaction 에 세포 내 위치 정보를 활용한 단백질 신호전달 경로 추출 알고리즘 연구)

  • Jo, Mi-Kyung;Kim, Min-Kyung;Park, Hyun-Seok
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2009.01a
    • /
    • pp.77-84
    • /
    • 2009
  • Intracellular signal transduction is achieved by protein-protein interaction. In this paper, we suggest performance algorithm based on Yeast protein-protein interaction and protein location information. We compare if pathways predicted with high valued weights indicate similar tendency with pathways provided in KEGG.

  • PDF

Entity-oriented Sentence Extraction and Relation-Context Co-attention for Document-level Relation Extraction (문서 수준 관계 추출을 위한 개체 중심 문장 추출 및 Relation-Context Co-attention 방법)

  • Park, SeongSik;Kim, HarkSoo
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.9-13
    • /
    • 2020
  • 관계 추출은 주어진 문장이나 문서에 존재하는 개체들 간의 의미적 관계를 찾아내는 작업을 말한다. 최근 문서 수준 관계 추출 말뭉치인 DocRED가 공개되면서 문서 수준 관계 추출에 대한 연구가 활발히 진행되고 있다. 또한 사전 학습된 Masked Language Model(MLM)이 자연어처리 분야 전체에 영향력을 보이면서 관계 추출에서도 MLM을 사용하는 연구가 진행되고 있다. 그러나 문서 수준의 관계 추출은 문서의 단위가 길기 때문에 Self-attention을 기반으로 하는 MLM을 사용하면 모델의 계산량이 증가하는 문제가 있다. 본 논문은 이 점을 보완하기 위해 관계 추출에 필요한 문장을 선별하는 간단한 전처리 방법을 제안한다. 또한 문서의 길이에 상관없이 관계 추출에 필요한 어휘 정보를 자동으로 습득 할 수 있는 Relation-Context Co-attention 방법을 제안한다. 제안 모델은 DocRED 말뭉치에서 Dev F1 62.01%, Test F1 59.90%로 높은 성능을 보였다.

  • PDF

Correlation Between Protein-Protein Interaction Network and KEGG Path Flow Network (단백질 상호작용 네트워크와 KEGG경로 흐름 네트워크의 비교)

  • Cho, Sung Jin;Kim, Hak Yong
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2011.05a
    • /
    • pp.347-348
    • /
    • 2011
  • 단백질 상호작용 네트워크에 대한 분석은 거시적인 생물학적 현상을 이해하는 하나의 수단으로써 보편적인 연구방법으로 활용하고 있다. 매우 복잡한 단백질 상호작용 네트워크로부터 유용한 정보를 도출하는 연구의 일환으로 우리는 단백질 네트워크에 있는 단백질들이 KEGG 경로에 있는 생체대사와의 연관성을 분석하였다. 여기서 구축된 네트워크를 KEGG 경로 흐름 네트워크로 명명하고 두 네트워크 사이의 연관성을 분석하였다. 이를 위해 피루브산 탈수소 효소 및 알파-케토글루탐산 탈수소 효소 2차 상호작용 네트워크의 전체 단백질 목록을 기반으로 각각의 KEGG 경로들을 추출하였다. 각 KEGG 경로들에 나타난 단백질들을 통해 KEGG 경로 흐름 네트워크를 구축하였고 이 흐름 네트워크에 포함된 단백질의 분류를 통하여 유용한 정보를 추출하였다.

  • PDF

The Set Expansion System Using the Mutual Importance Measurement Method to Automatically Build up Named Entity Domain Dictionaries (영역별 개체명 사전 자동 구축을 위한 상호 중요도 계산 기법 기반의 집합 확장 시스템)

  • Bae, Sang-Joon;Ko, Young-Joong
    • Korean Journal of Cognitive Science
    • /
    • v.19 no.4
    • /
    • pp.443-458
    • /
    • 2008
  • Since Web pages contain a lot of information today, the Web becomes an important resource to extract some information. In this paper, we proposes a set expansion system which can automatically extract named entities from the Web. Overall, the proposed method consists of three steps. First of all, Web pages, which may include many named entities of a domain, are collected by using several seed words of the domain. Then some pattern rules are extracted by using seed words and the collected Web pages, and the named entity candidates are selected through applying the extracted pattern rules into Web pages. To distinguish real named entities, we develop the new mutual importance measurement method which estimates the importance of named entity candidates. We conducted experiments for 3 domains for Korean and for 8 domains for English. As a result, the proposed method obtained 78.72% MAP in Korean and 96.48% MAP in English. In particular, the performances of English domains are better than the results of the Google set.

  • PDF

Comparison of Feature Selection Methods in Anti-Spam Systems (스팸 대응 시스템에서 특징 추출 방법 비교에 관한 연구)

  • Kim, Jong-Wan;Kim, Hui-Jae;Gang, Sin-Jae;Hwang, Un-Ho
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2006.11a
    • /
    • pp.352-355
    • /
    • 2006
  • 본 논문에서는 스팸 대응 시스템의 특징 추출 방법들을 비교한다. 실험 결과는 퍼지추론 방법이 정보획득량, 카이제곱 통계량, 상호정보 방법에 비하여 정확률과 재현율의 결합 척도인 F-척도면에서 월등한 성능을 보여주지는 않는다. 하지만 제안된 퍼지추론 방법은 사용된 특징들의 수에 비례하여 성능이 증가하므로 좋은 특징 추출 방법으로 간주된다. 따라서 본 연구는 무수한 스팸 메일로 고통 받는 전자우편 사용자들을 위한 스팸 메일 필터링 시스템 개발에 도움을 줄 수 있다.

  • PDF