• Title/Summary/Keyword: 지식베이스 추출

Search Result 156, Processing Time 0.023 seconds

Automatic knowledgebase extraction based smishing SMS detection (자동 지식베이스 추출 기반 스미싱 SMS 탐지)

  • Baek, Seong-Bin;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.564-567
    • /
    • 2021
  • 스미싱은 SMS 문자를 통해 피해자를 현혹시켜 개인정보나 금전 등을 갈취하는 범죄이다. 발전하는 스미싱 범죄 수법에 대응하기 위해선 새로운 스미싱 범죄 사례에서 데이터를 추출하고, 추출한 데이터를 기존 시스템에 통합하여 빠르게 대응할 수 있어야 한다. 본 연구에서는 빠른 스미싱 대응을 위해 전처리를 하지 않은 SMS 문자 텍스트에서 지식베이스를 자동으로 추출하고 저장하는 자동 지식베이스 추출 모듈을 제안하며, 추출 시스템 지식베이스를 바탕으로 입력된 SMS가 스미싱인지 판별하는 스미싱 SMS 탐지 모듈을 통합한 자동 지식베이스 추출 기반 스미싱 SMS 탐지 시스템을 제시한다. 제시된 스미싱 SMS 탐지 모델은 UCI SMS Spam Collection Dataset을 기준으로 90.9 (F1 score)의 성능을 보여주었다.

  • PDF

Incremental Ontology Building Using Open Information Extraction (무제한 정보 추출을 이용한 지식베이스 확장)

  • Kim, Byungsoo;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.228-232
    • /
    • 2014
  • 지식 베이스(Knowledge Base)는 주어진 질의 문에 대한 잠재적인 답과 답에 대한 단서가 될 수 있는 구조화된 형태의 정보를 포함하고 있기 때문에 질의응답 시스템에서 매우 중요하다. 하지만 비록 DBpedia, Freebase, YAGO 등과 같이 이용 가능한 여러 개의 지식 베이스가 존재함에도 불구하고 이러한 지식 베이스에 포함되어 있는 정보는 웹(Web)상에 존재하는 정보에 비하면 매우 제한적이다. 본 논문에서는 무제한 정보 추출 기술을 이용하여 정형화되지 않은 텍스트로부터 트리플(Triple)을 추출하고, 추출된 트리플의 각 개체 및 관계 어휘를 대상 온톨로지(Ontology) 상의 어휘에 사상시킴으로써 지식 베이스를 확장 시키는 방법을 제안한다. 이를 통하여 무제한 정보 추출 방법과 명확화(Disambiguation) 기술이 지식 베이스를 확장시키는데 어떻게 사용될 수 있고, 어떠한 요소가 전체 시스템의 주된 성능 저하를 일으키며 개선되어야 하는지 알아보도록 한다.

  • PDF

Automatic Gene Ontology Extension and Terminology Analysis (유전자 온톨로지의 자동 확장과 용어 분석)

  • 이진복;박종철
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2002.10d
    • /
    • pp.229-231
    • /
    • 2002
  • 생물학 분야의 방대한 지식을 효율적으로 다루기 위하여 생물정보학이 주요한 연구 분야가 되었다. 이중 특히 생물학 문헌에서 정보를 자동으로 추출하는 연구가 활발히 진행되고 있는데, 이러한 정보추출 결과를 이용하여 유전자 온톨로지와 같은 유용한 지식베이스를 자동으로 확장함으로써 폭발적으로 증가하는 생물학 분야의 연구 결과들을 지식베이스에 통합할 수 있다. 자동으로 확장된 온톨로지는 신뢰성을 보장하기 위한 검증 과정을 거쳐, 정보추출 시스템의 성능을 향상시키기 위한 지식베이스로 사용되게 된다. 본 연구에서는 단백질 간의 상호작용에서 나타나는 조건을 추출하는 시스템과 유전자 온톨로지를 이용하여 추출된 생물학 용어를 분석하는 시스템을 제안하고 유전자 온톨로지의 자동 확장 및 검증 시스템에 대하여 논의한다.

  • PDF

A Study on the Systematic Rule Derivation Process for the Expert system Development (전문가 시스템 개발을 위한 체계적인 규칙추출 프로세스 방안)

  • 김화수;김세겸;조동래;김응수
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 1999.10a
    • /
    • pp.79-88
    • /
    • 1999
  • 전문가 시스템의 지식베이스 구축에 필요한 규칙추출에 관련되는 지식공학자의 인력 부족자 전문분야에 적합한 지식공학자 확보에 따른 비용 증가, 지식공학자 수행 프로세스의 비 정형화로 인하여 특정한 전문가 시스템의 개발 때마다 관련된 지식획득 과정의 어려움 발생, 전문가 시스템의 지식베이스 특성이 고려되지 않은 개발 과정 수행에 따른 비현실적인 지식베이스 구축 등의 현존 문제점은 효율적인 전문가 시스템 개발의 장애 요인이 되고 있다. 이 논문에서는 전문가 시스템 개발에 있어서 체계적인 규칙추출을 위하여 지식베이스 구축에 관한 분석단계까지를 5개 단계로 세분화하여 지식획득과정을 강화하였고, 각 단계별로 지식공학자가 수행해야 하는 프로세스와 각 프로세스별로 지식공학자가 실질적인 작업을 통해 결과를 산출하는 태스크를 정형화하였다. 규칙추출 프로세스/태스크를 체계적으로 정형화하는 것은 성공적인 전문가 시스템의 개발에 도움을 줄 것이며, 개발자가 지식공학자의 역할을 대행할 수 있으므로 지식공학자의 확보 문제를 해결할 수 있다. 또한, 전문가 시스템의 적용 분야에 대한 확대 효과가 기대된다.

  • PDF

Optimization of Associative Word Knowledge Base using Apriori-Genetic Algorithm (연역적 유전자 알고리즘을 이용한 연관 단어 지식베이스의 최적화)

  • Go, Su-Jeong;Choe, Jun-Hyeok;Lee, Jeong-Hyeon
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.8
    • /
    • pp.560-569
    • /
    • 2001
  • 지식 기반 정보검색 시스템에서의 질의 확장은 단어간의 의미 관계를 고려한 지식베이스를 필요로 한다. 기존의 단순 마이닝 기법은 사용자의 선호도를 고려하지 않은 채 연관 단어를 추출하므로 재현율은 향상되나 정확도는 저하된다. 본 논문에서는 단어간의 의미 관게를 고려한 연관 단어 중에서 사용자가 선호하는 연관 단어만을 포함하는 정확도가 향상된 최적화된 연관 단어 지식베이스 구축을 위한 방법을 제안한다. 이를 위해 컴퓨터 분야의 웹문서를 8개의 클래스로 분류하고, 각 클래스별 웹문서에서 명사를 추출한다. 추출된 명사를 대상으로 Apriori 알고리즘을 이용하여 연관 단어를 추출하고, 유전자 알고리즘을 이용하여 사용자가 선호하지 않은 연관 단어를 지식베이스의 구축 대상에서 제외시킨다. 본 논문에서 제안된 Apriori 알고리즘과 유전자 알고리즘의 성능을 평가하기 위하여 Apriori 알고리즘은 상호 정보량과 Rocchio 알고리즘과 비교하며, 유전자 알고리즘은 TF.IDF를 이용한 단어 정제 방법과 비교한다.

  • PDF

Iterative learning system design for relation extraction and knowledge base population (관계 추출 및 지식베이스 확장을 위한 반복 학습 시스템 설계)

  • Jeong, Yong-Bin;Nam, Sang-Ha;Kim, Ji-Seong;Lee, Min-Ho;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.185-189
    • /
    • 2019
  • 관계추출기의 학습을 위해서는 많은 학습 데이터가 필요한데, 사람이 모으게 되면 많은 비용이 필요하여 원격 지도 학습을 이용한 데이터 수집이 많은 연구에서 사용되고 있다. 원격 지도 학습은 지식베이스를 기반으로 학습 데이터를 자동으로 만들어 내는 방식이기에 비용이 거의 들지 않지만, 지식베이스의 질과 양에 영향을 받는다. 본 연구는 원격 지도 학습을 기본으로 관계추출기의 성능을 향상 시키고, 지식베이스를 확장하는 방안으로 반복학습을 제안한다. 실험을 적은 비용으로 빠르게 진행하기 위해 반복학습을 자동화 하는 시스템을 설계하여 실험을 하였고, 이 시스템으로 관계추출기의 성능이 향상 될 수 있는 가능성을 보였으며, 반복학습을 통한 지식베이스의 확장 방안을 제시한다.

  • PDF

Bayesian Automatic Document Categorization Using Apriori-Genetic Algorithm (Apriori-Genetic 알고리즘을 이용한 베이지안 자동 문서 분류)

  • Go, Su-Jeong;Lee, Jeong-Hyeon
    • The KIPS Transactions:PartB
    • /
    • v.8B no.3
    • /
    • pp.251-260
    • /
    • 2001
  • 기존의 베이지안 문서 분류는 문서의 특징 표현에 있어서 단어간의 의미를 정확하게 반영하지 못하는 문제점이 있다. 이러한 문제점을 해결하기 위해, 본 논문에서는 Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류 방법을 제안한다. Apriori 알고리즘은 단어간의 의미를 반영한 연관 단어의 형태로 문서의 특징을 추출하며 추출된 연관 단어로 연관 단어 지식베이스를 구축한다. Aprrori 알고리즘만으로 연관 단어 지식베이스를 구축할 경우, 지식베이스 안에 부적당한 연관 단어가 포함된다. 따라서 문서 분류의 정확도가 낮아지는 단점이 있다. 이러한 단점을 보완하기 위해, Genetic 알고리즘을 이용하여 연관 단어 지식베이스를 최적화하는 방법을 사용한다. 베이지안 확률을 이용하는 분류자는 최적화된 연관 단어 지식베이스를 기반으로 문서를 클래스별로 분류한다. Apriori-Genetic 알고리즘을 이용한 베이지안 문서 분류의 성능을 평가하기 위해, Apriori 알고리즘을 이용한 베이지안 문서 분류 방법, 역문헌빈도를 사용한 베이지안 문서 분류 방법, 기존의 단순 베이지안 분류 방법과 비교하였다.

  • PDF

Fuzzy Cognitive Map-Based A, pp.oach to Causal Knowledge Base Construction and Bi-Directional Inference Method -A, pp.ications to Stock Market Analysis- (퍼지인식도에 기초한 인과관계 지식베이스 구축과 양방향 추론방식에 관한 연구 -주식시장 분석에의 적용을 중심으로-)

  • 이건창;주석진;김현수
    • Journal of Intelligence and Information Systems
    • /
    • v.1 no.1
    • /
    • pp.1-22
    • /
    • 1995
  • 본 연구에서 퍼지인식도(Fuzzy Cognitive Map) 개념을 기초로 하여 (1) 특정 문제영역에 대한 전문가의 인과관계 지식(causal knowledge)을 추출하는 알고리즘을 제시하고, (2) 이 알고리즘에 기초하여 작성된 해당 문제영역에 대한 여러 전문가들의 인과관계 지식을 계층별로 분해하여, (3) 해당 계층간의 양방향 추론이 가능한 추론메카니즘을 제시하고자 한다. 특정 문제영역에 있어서의 인과관계 지식이란 해당 문제를 구성하는 여러 개념간에 존재하는 인과관계를 표현한 지식을 의미한다. 이러한 인과관계 지식은 기존의 IF-THEN 형태의 규칙과는 달리 행렬형태로 표현되기 때문에 수학적인 연산이 가능하다. 특정 문제영역에 대한 전문가의 인과관계 지식을 추출하는 알고리즘은 집합연산에 의거하여 개발되었으며, 특히 상반된 의견을 보이는 전문가들의 의견을 통합하여 하나의 통합된 인과관계 지식베이스를 구축하는데 유용하다. 그러나, 주어진 문제가 복잡하여 다양한 개념들이 수반되면, 자연히 인과관계 지식베이스의 규모도 커지게 되므로 이를 다루는데 비효율성이 개재되기 마련이다. 따라서 이러한 비효율성을 해소하기 위하여 주어진 문제를 여러계측(Hierarchy)으로 분해하여, 해당 계층별로 인과관계 지식베이스를 구축하고 각 계층별 인과관계 지식베이스를 연결하여 추론하는 메카니즘을 개발하면 효과적인 추론이 가능하다. 이러한 계층별 분해는 행렬의 분해와 같은 개념으로도 이해될 수 있다는 특징이 있어 그 연산이 간단명료하다는 장점이 있다. 이와같이 분해된 인과관계 지식베이스는 계층간의 추론메카니즘을 통하여 서로 연결된다. 이를 위하여 본 연구에서는 상향 또는 하향방식이 추론이 가능한 양방향 추론방식을 제시하여 주식시장에서의 투자분석 문제에 적용하여 그 효율성을 검증하였다.

  • PDF

The Component Extraction Using Knowledge-Base from Name-Card (명함에서 지식베이스를 이용한 구성요소의 추출)

  • 이성범;남궁재찬
    • The Journal of Korean Institute of Communications and Information Sciences
    • /
    • v.18 no.8
    • /
    • pp.1201-1212
    • /
    • 1993
  • This paper presents the automatically extracting method of data item from name-cards using knowledge-base. In our approach, we utilize a structural information and a relational information between data items and elements with knowledge in the name-cards. To describe a hierarchical knowledge, we uses a flame structure and we propose an algorithim of domain classification to extract item and group candidate domains from the name-cards. From the experimental results, we obtain the extraction rate, 95%, for 100 samples.

  • PDF

Question Analysis for Knowledge based Question/Answering (지식기반 질의응답을 위한 질문분석 방법)

  • Heo, Jeong;Hwang, Yi-Gyu;Choi, Mi-Ran;Jang, Myung-Gil
    • Annual Conference on Human and Language Technology
    • /
    • 2004.10d
    • /
    • pp.308-314
    • /
    • 2004
  • AnyQuestion 1.0은 (주)두산의 '두산세계대백과 엔싸이버'의 인물분야만을 대상으로 한 질의응답형 정보검색 시스템이다. 본 시스템에서는 지식기반 질의응답, Logical Form 기반 질의응답, 단락 기반 질의응답을 통합한 3단계 정답 추출 방법을 제안하고 있다. 지식기반 질의응답은 본문의 구조화된 정보와 비구조화 된 정보로부터 정보추출 기술을 이용하여 구축한 지식베이스에 대한 질의응답을 목적으로 한다. "사용자의 질문에 대한 정답을 지식베이스에서 제시할 수 있는가?"와 "지식베이스에서 어떤 정보를 정답으로 제시해야 하는가?"는 3단계 정답 추출 방법에서는 상당히 중요하다 이를 위해서 질문 분석에서는 수동으로 구축한 지식베이스 속성 자질 정보와 다양한 규칙을 기반으로 질문 분석을 수행하였고, 이를 이용하여 지식기반 질의응답을 하였다. 실험결과, 지식기반 질의응답 할당 재현율은 65.4%, 지식기반 질의응답의 정확률은 81.25%였다. 백과사전 인물분야에 대한 지식기반 질의응답은 기존의 데이터베이스 분야에서 연구되어온 자연어 DB인터페이스를 활용한 질의응답으로 속도가 빠르며, 상대적으로 높은 정확률을 보였다.

  • PDF