• Title/Summary/Keyword: 웹지식베이스

Search Result 118, Processing Time 0.036 seconds

Iterative learning system design for relation extraction and knowledge base population (관계 추출 및 지식베이스 확장을 위한 반복 학습 시스템 설계)

  • Jeong, Yong-Bin;Nam, Sang-Ha;Kim, Ji-Seong;Lee, Min-Ho;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2019.10a
    • /
    • pp.185-189
    • /
    • 2019
  • 관계추출기의 학습을 위해서는 많은 학습 데이터가 필요한데, 사람이 모으게 되면 많은 비용이 필요하여 원격 지도 학습을 이용한 데이터 수집이 많은 연구에서 사용되고 있다. 원격 지도 학습은 지식베이스를 기반으로 학습 데이터를 자동으로 만들어 내는 방식이기에 비용이 거의 들지 않지만, 지식베이스의 질과 양에 영향을 받는다. 본 연구는 원격 지도 학습을 기본으로 관계추출기의 성능을 향상 시키고, 지식베이스를 확장하는 방안으로 반복학습을 제안한다. 실험을 적은 비용으로 빠르게 진행하기 위해 반복학습을 자동화 하는 시스템을 설계하여 실험을 하였고, 이 시스템으로 관계추출기의 성능이 향상 될 수 있는 가능성을 보였으며, 반복학습을 통한 지식베이스의 확장 방안을 제시한다.

  • PDF

Matrix Factorization Models for Knowledge Base Population (지식베이스 확장을 위한 행렬 분해 모델)

  • Kim, Jiho;Nam, Sangha;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 2017.10a
    • /
    • pp.3-7
    • /
    • 2017
  • 지식베이스의 목표는 세상의 모든 지식을 데이터베이스화 하는 것이지만 지식 획득 능력의 부족으로 항상 지식 부족 문제에 시달린다. 지식 획득은 주로 웹 상에 있는 자연언어문장을 지식화 하는 외부적인 지식 획득을 통해 이루어지지만, 지식베이스 내부에서 지식을 확장해 나가는 방법에 대해서는 연구가 소홀히 이루어지고 있다. 따라서 본 논문에서는 내부적인 지식 획득을 위한 지식베이스 행렬 분해 모델을 소개한다. 본 논문에서 소개하는 방법은 지식베이스를 행렬로 변환한 뒤 행렬 분해 모델을 통해 새로운 지식에 대한 신뢰도를 점수화하는 방법이다. 본 논문에서 소개한 방법의 우수성과 실효성을 입증하기 위해 한국어 지식베이스인 한국어 디비피디아(2016-10)를 대상으로 본 모델의 정확도 측정 실험 결과를 소개한다.

  • PDF

Matrix Factorization Models for Knowledge Base Population (지식베이스 확장을 위한 행렬 분해 모델)

  • Kim, Jiho;Nam, Sangha;Choi, Key-Sun
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.3-7
    • /
    • 2017
  • 지식베이스의 목표는 세상의 모든 지식을 데이터베이스화 하는 것이지만 지식 획득 능력의 부족으로 항상 지식 부족 문제에 시달린다. 지식 획득은 주로 웹 상에 있는 자연언어문장을 지식화 하는 외부적인 지식 획득을 통해 이루어지지만, 지식베이스 내부에서 지식을 확장해 나가는 방법에 대해서는 연구가 소홀히 이루어지고 있다. 따라서 본 논문에서는 내부적인 지식 획득을 위한 지식베이스 행렬 분해 모델을 소개한다. 본 논문에서 소개하는 방법은 지식베이스를 행렬로 변환한 뒤 행렬 분해 모델을 통해 새로운 지식에 대한 신뢰도를 점수화하는 방법이다. 본 논문에서 소개한 방법의 우수성과 실효성을 입증하기 위해 한국어 지식베이스인 한국어 디비피디아(2016-10)를 대상으로 본 모델의 정확도 측정 실험 결과를 소개한다.

  • PDF

Cross-Lingual Text Retrieval Based on a Knowledge Base (지식베이스에 기반한 다언어 문서 검색)

  • Choi, Myeong-Bok;Jo, Jun
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.10 no.1
    • /
    • pp.21-32
    • /
    • 2010
  • User query formation highly acts on the effectiveness of information retrieval when we retrieve documents from the general domain as a web. This thesis proposes a intelligent information retrieval method based on a cross-lingual knowledge base to effectively perform a cross-lingual text retrieval from the web. The inferred knowledge from the cross-lingual knowledge base helps user's word association to make up user query easily and exactly for effective cross-lingual text information retrieval. This thesis develops user's query reformation algorithm and experiments it with Korean and English web. Experimental results show that the algorithm based on the proposed knowledge base is much more effective than without knowledge base in the cross-lingual text retrieval.

Effective User Clustering Algorithm for Collaborative Filtering System (협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘)

  • Go, Su-Jeong;Im, Gi-Uk;Lee, Jeong-Hyeon
    • The KIPS Transactions:PartB
    • /
    • v.8B no.2
    • /
    • pp.144-154
    • /
    • 2001
  • 협력적 여과 시스템은 사용자가 검색하고 읽었던 웹문서를 기반으로 사용자 군집을 생성하여 웹문서의 정확한 추천을 가능하게 한다. 이러한 목적으로 설계된 다양한 알고리즘이 있으나 속도가 느리거나 정확도가 낮다는 등의 단점이 있다. 본 논문에서는 이러한 단점을 보완하기 위하여 협력적 여과 시스템을 위한 효과적인 사용자 군집 알고리즘인 CUG알고리즘은 사용자 군집을 생성하기 위해 Apriori 알고리즘, Native Bayes 알고리즘을 이용한다. Apriori 알고리즘은 연관 단어 지식 베이스를 구축하고, Native Bayes 알고리즘은 구축된 연관 단어 지식 베이스에 가중치를 추가하며, 사용자가 검색하여 읽은 웹문서를 클래스별로 분류한다. CUG 알고리즘은 분류된 웹문서를 기반으로 하여 사용자 군집을 만든다. 이러한 방법으로 설계된 CUG 알고리즘은 사용자들이 사용할 문서를 미리 검색하여 저장함에 의해 정보검색의 효율성을 향상시키는데 사용될 수 있다. 본 논문에서 설계한 CUG 알고리즘의 선능을 평가하기 위하여 기존의 K-means 방법과 Gibbs샘플링 방법에 의한 군집과 비교한다.

  • PDF

Optimization of Associative Word Knowledge Base using Apriori-Genetic Algorithm (연역적 유전자 알고리즘을 이용한 연관 단어 지식베이스의 최적화)

  • Go, Su-Jeong;Choe, Jun-Hyeok;Lee, Jeong-Hyeon
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.8
    • /
    • pp.560-569
    • /
    • 2001
  • 지식 기반 정보검색 시스템에서의 질의 확장은 단어간의 의미 관계를 고려한 지식베이스를 필요로 한다. 기존의 단순 마이닝 기법은 사용자의 선호도를 고려하지 않은 채 연관 단어를 추출하므로 재현율은 향상되나 정확도는 저하된다. 본 논문에서는 단어간의 의미 관게를 고려한 연관 단어 중에서 사용자가 선호하는 연관 단어만을 포함하는 정확도가 향상된 최적화된 연관 단어 지식베이스 구축을 위한 방법을 제안한다. 이를 위해 컴퓨터 분야의 웹문서를 8개의 클래스로 분류하고, 각 클래스별 웹문서에서 명사를 추출한다. 추출된 명사를 대상으로 Apriori 알고리즘을 이용하여 연관 단어를 추출하고, 유전자 알고리즘을 이용하여 사용자가 선호하지 않은 연관 단어를 지식베이스의 구축 대상에서 제외시킨다. 본 논문에서 제안된 Apriori 알고리즘과 유전자 알고리즘의 성능을 평가하기 위하여 Apriori 알고리즘은 상호 정보량과 Rocchio 알고리즘과 비교하며, 유전자 알고리즘은 TF.IDF를 이용한 단어 정제 방법과 비교한다.

  • PDF

Using Machine Translation Agent Based on Ontology Study of Real Translation (온톨로지 기반의 지능형 번역 에이전트를 이용한 실시간 번역 연구)

  • Kim Su-Gyeong;Kim Gyeong-A;An Gi-Hong
    • Proceedings of the Korea Inteligent Information System Society Conference
    • /
    • 2006.06a
    • /
    • pp.229-233
    • /
    • 2006
  • 기계번역(Machine Translaton, MT), 다국어 정보 검색, 의미 정보 검색 등에 대한 연구는 시소러스, 지식베이스, 사전 검색, 의미망, 코퍼스등과 같은 다양한 방법으로 이루어지고 있다. 시맨틱 웹이 등장과 시맨틱 웹 기반 기술의 발전에 따라 위 연구들을 시맨틱 웹에 적용시킬 필요성도 제안되었다. 특히 한국어 시소러스, 워드넷(WordNet), 전자 세종 사전, 가도까와(Kadokawa) 시소러스와 같은 지식베이스가 개발되었으나 활용 분야에 따라 그 구축 방법론이 다르게 적용되어, 위 연구에 효과적으로 통용될 수 있는 지식베이스는 실질적으로 구축되지 못한 실정이다. 따라서 본 연구에서는 세종 사전과 가도까와 시소러스, 한/일 기계 번역 사전 그리고 전문 용어 사전을 기반으로 한국어와 일본어 지식베이스를 위한 사전 온톨로지 서버를 정의하여 의미 정보를 구성하고, Semantic Web Rule Markup Language (이하 SWRL)을 이용해 구문 정보 규칙을 정의한다. 그리고 SWRL 기반 정방향 추론 엔진을 이용하여 번역에 필요한 추론 엔진을 구성하고 문장 구문형성 규칙 추론 엔진을 통해 사용자에게 한국어와 일본어의 문장 구성 변환을 제공한다. 본 연구는 현재 기계 번역이 갖고 있는 다의성, 술부 어순의 차이, 경어체 등 아직 해결해야 할 많은 부분들에 대한 해결 방안으로서 시맨틱 웹 기반 기술과의 활용방안을 제시하고자 한다.

  • PDF

Incremental Ontology Building Using Open Information Extraction (무제한 정보 추출을 이용한 지식베이스 확장)

  • Kim, Byungsoo;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2014.10a
    • /
    • pp.228-232
    • /
    • 2014
  • 지식 베이스(Knowledge Base)는 주어진 질의 문에 대한 잠재적인 답과 답에 대한 단서가 될 수 있는 구조화된 형태의 정보를 포함하고 있기 때문에 질의응답 시스템에서 매우 중요하다. 하지만 비록 DBpedia, Freebase, YAGO 등과 같이 이용 가능한 여러 개의 지식 베이스가 존재함에도 불구하고 이러한 지식 베이스에 포함되어 있는 정보는 웹(Web)상에 존재하는 정보에 비하면 매우 제한적이다. 본 논문에서는 무제한 정보 추출 기술을 이용하여 정형화되지 않은 텍스트로부터 트리플(Triple)을 추출하고, 추출된 트리플의 각 개체 및 관계 어휘를 대상 온톨로지(Ontology) 상의 어휘에 사상시킴으로써 지식 베이스를 확장 시키는 방법을 제안한다. 이를 통하여 무제한 정보 추출 방법과 명확화(Disambiguation) 기술이 지식 베이스를 확장시키는데 어떻게 사용될 수 있고, 어떠한 요소가 전체 시스템의 주된 성능 저하를 일으키며 개선되어야 하는지 알아보도록 한다.

  • PDF

Knowledge Discovery Process In Internet For Effective Knowledge Creation: Application To Stock Market (효과적인 지식창출을 위한 인터넷 상의 지식채굴과정: 주식시장에의 응용)

  • 김경재;홍태호;한인구
    • Proceedings of the Korea Database Society Conference
    • /
    • 1999.06a
    • /
    • pp.105-113
    • /
    • 1999
  • 최근 데이터와 데이터베이스의 폭발적 증가에 따라 무한한 데이터 속에서 정보나 지식을 찾고자하는 지식채굴과정 (knowledge discovery process)에 대한 관심이 높아지고 있다. 특히 기업 내외부 데이터베이스 뿐만 아니라 데이터웨어하우스 (data warehouse)를 기반으로 하는 OLAP환경에서의 데이터와 인터넷을 통한 웹 (web)에서의 정보 등 정보원의 다양화와 첨단화에 따라 다양한 환경 하에서의 지식채굴과정이 요구되고 있다. 본 연구에서는 인터넷 상의 지식을 효과적으로 채굴하기 위한 지식채굴과정을 제안한다. 제안된 지식채굴과정은 명시지 (explicit knowledge)외에 암묵지 (tacit knowledge)를 지식채굴과정에 반영하기 위해 선행지식베이스 (prior knowledge base)와 선행지식관리시스템 (prior knowledge management system)을 이용한다. 선행지식관리시스템은 퍼지인식도(fuzzy cognitive map)를 이용하여 선행지식베이스를 구축하여 이를 통해 웹에서 찾고자 하는 유용한 정보를 정의하고 추출된 정보를 지식변환시스템 (knowledge transformation system)을 통해 통합적인 추론과정에 사용할 수 있는 형태로 변환한다. 제안된 연구모형의 유용성을 검증하기 위하여 재무자료에 선행지식을 제외한 자료와 선행지식을 포함한 자료를 사례기반추론 (case-based reasoning)을 이용하여 실험한 결과, 제안된 지식채굴과정이 유용한 것으로 나타났다.

  • PDF

Development of an Associative Value Knowledge Base based on UMLS & LOINC Database for Semantic Medical Information Integration. (의미적 의료정보 통합을 위한 UMLS와 LOINC DB 기반의 연관 값 지식베이스 개발)

  • Kim, Tae-Woo;Hong, Dong-Wan;Yoon, Jee-Hee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05c
    • /
    • pp.1551-1554
    • /
    • 2003
  • 최근 다양한 의료정보 시스템이 개발되어, 그 사용이 급증하고 있다. 이 들 각각의 의료정보 시스템에서 발생, 축적된 의료정보는 분산 이질의 형태를 가지며, 또한 같은 의미를 갖는 의료정보가 각기 다른 구조와 용어로 기술되어 축적되는 것이 일반적이다. 이와 같이 개별적으로 개발, 활용되어 온 의료정보를 웹 상에서 통합하여, 단일화 된 의료정보 검색 기능을 제공하기 위해서는 이들 의료정보의 의미적 연관성을 고려한 정보의 통합, 검색 기술의 개발이 필수적이다. 본 논문에서는 의미적 의료정보의 통합을 위한 UMLS와 LOINC 데이터베이스 기반의 연관 값 지식베이스의 설계 및 개발 방식을 제안한다. 웹 상에 존재하는 각종 분산 이질 형태의 의료정보는 XML을 공통 데이터 구조로 하여 통합되며, 정보 통합의 과정에서 연관 값 지식베이스를 참조하여 의미적 관련도가 높은 의료정보(구조 정보와 내용 정보)는 상호 연결되어, 진정한 의미의 정보 통합을 구현하게 된다. 지식베이스는 용어별로 식별자, 요소명, 연관값, 복수형, 동의어, 한글 이름 등의 필드틀 가지며, 현재 상담, 처방, 보험, 의료용어, 증상, 임상결과 등 적용분야 별로 작성된 연관 값 지식베이스가 구현되어 있다.

  • PDF