• 제목/요약/키워드: WordNet Synset Kernel

검색결과 2건 처리시간 0.014초

혼합 커널을 활용한 과학기술분야 용어간 관계 추출 (Extraction of Relationships between Scientific Terms based on Composite Kernels)

  • 최성필;최윤수;정창후;맹성현
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권12호
    • /
    • pp.988-992
    • /
    • 2009
  • 본 논문에서는 합성곱 구문 트리 커널(convolution parse tree kernel)과, 한 문장에서 나타나는 두 개체 간의 관계를 가장 잘 설명하는 동사 상당어구에 대한 개념화를 통해 생성되는 워드넷 신셋 벡터(WordNet synsets vector) 커널을 활용하여 과학기술분야 전문용어 간의 관계 추출을 시도하였다. 본 논문에서 적용한 모델의 성능 평가를 위해서 세 가지 검증 컬렉션을 활용하였으며, 각각의 컬렉션 마다 기존의 접근 방법론 보다 우수한 성능을 보여주었다. 특히 KREC 2008 컬렉션을 대상으로 한 성능 실험에서는, 기존의 합성곱 구문 트리 커널과 동사 신셋 벡터(verb synsets vector)를 함께 적용한 합성 커널이 비교적 높은 성능 향상(8% F1)을 나타내고 있다. 이는 성능을 높이기 위해서 관계 추출에서 많이 활용하였던 개체 자질 정보와 더불어 개체 주변에 존재하는 주변 문맥 정보(동사 및 동사 상당어구)도 매우 유용한 정보임을 입증하고 있다.

시맨틱 구문 트리 커널을 이용한 생명공학 분야 전문용어간 관계 식별 및 분류 연구 (A Study on the Identification and Classification of Relation Between Biotechnology Terms Using Semantic Parse Tree Kernel)

  • 최성필;정창후;전홍우;조현양
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.251-275
    • /
    • 2011
  • 본 논문에서는 단백질 간 상호작용 자동 추출을 위해서 기존에 연구되어 높은 성능을 나타낸 구문 트리 커널을 확장한 시맨틱 구문 트리 커널을 제안한다. 기존 구문 트리 커널의 문제점은 구문 트리의 단말 노드를 구성하는 개별 어휘에 대한 단순 외형적 비교로 인해, 실제 의미적으로는 유사한 두 구문 트리의 커널 값이 상대적으로 낮아지는 현상이며 결국 상호작용 자동 추출의 전체 성능에 악영향을 줄 수 있다는 점이다. 본 논문에서는 두 구문 트리의 구문적 유사도(syntactic similarity)와 어휘 의미적 유사도(lexical semantic similarity)를 동시에 효과적으로 계산하여 이를 결합하는 새로운 커널을 고안하였다. 어휘 의미적 유사도 계산을 위해서 문맥 및 워드넷 기반의 어휘 중의성 해소 시스템과 이 시스템의 출력으로 도출되는 어휘 개념(WordNet synset)의 추상화를 통한 기존 커널의 확장을 시도하였다. 실험에서는 단백질 간 상호작용 추출(PPII, PPIC) 성능의 심층적 최적화를 위해서 기존의 SVM에서 지원되던 정규화 매개변수 외에 구문 트리 커널의 소멸인자와 시맨틱 구문 트리 커널의 어휘 추상화 인자를 새롭게 도입하였다. 이를 통해 구문 트리 커널을 적용함에 있어서 소멸인자 역할의 중요성을 확인할 수 있었고, 시맨틱 구문 트리 커널이 기존 시스템의 성능향상에 도움을 줄 수 있음을 실험적으로 보여주었다. 특히 단백질 간 상호작용식별 문제보다도 비교적 난이도가 높은 상호작용 분류에 더욱 효과적임을 알 수 있었다.