• 제목/요약/키워드: 지식 개체 임베딩

검색결과 12건 처리시간 0.022초

개체들의 영구적인 특성을 고려하는 시간 지식 그래프 임베딩 (On Exploiting Permanent Properties of Entities in Temporal Knowledge Graph Embedding)

  • 이재현;이연창;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.481-482
    • /
    • 2022
  • 시간 지식 그래프 임베딩 방법들은 주어진 시간 지식 그래프에 존재하는 개체 및 관계를 저차원의 임베딩 벡터로 표현하는 것을 목표로 한다. 그러나, 기존 방법들은 개체들의 임베딩 벡터에 그들의 시간에 따라 변화하는 특성을 반영하는 데에만 집중함에 따라, 그들의 영구적인 특성을 무시한다는 한계를 갖는다. 본 논문에서, 우리는 실세계 데이터 집합들을 이용한 실험을 통해, 시간 지식 그래프 임베딩에서 개체들의 영구적인 특성을 고려하는 것이 중요하다는 점을 논의한다.

생성 기반 질의응답 채팅 시스템 구현을 위한 지식 임베딩 방법 (Knowledge Embedding Method for Implementing a Generative Question-Answering Chat System)

  • 김시형;이현구;김학수
    • 정보과학회 논문지
    • /
    • 제45권2호
    • /
    • pp.134-140
    • /
    • 2018
  • 채팅 시스템은 사람의 말을 기계가 이해하고 적절한 응답을 하는 시스템이다. 채팅 시스템은 사용자의 간단한 정보 검색 질문에 대답해야 하는 경우가 있다. 그러나 기존의 생성 채팅 시스템들은 질의응답에 필요한 정보인 지식 개체(트리플 형태 지식에서의 주어와 목적어)의 임베딩을 고려하지 않아 발화에 나타나는 지식 개체가 다르더라도 같은 형태의 답변이 생성되었다. 본 논문에서는 생성 기반 채팅 시스템의 질의응답 정확도를 향상시키기 위한 지식 임베딩 방법을 제안한다. 개체와 유의어의 지식 임베딩을 위해 샴 순환 신경망을 사용하며 이를 이용해 주어와 술어를 인코딩 하고 목적어를 디코딩하는 sequence-to-sequence 모델의 성능을 향상 시켰다. 자체 구축한 채팅데이터를 통한 실험에서 제안된 임베딩 방법은 종래의 합성곱 신경망을 통한 임베딩 방법 보다 12.48% 높은 정확도를 보였다.

KBCNN: CNN을 활용한 지식베이스 완성 모델 (KBCNN: A Knowledge Base Completion Model Based On Convolutional Neural Networks)

  • 김지호;한기종;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.465-469
    • /
    • 2018
  • 본 논문에서는 지식베이스 완성을 위한 새로운 모델, KBCNN을 소개한다. KBCNN 모델은 CNN을 기반으로 지식베이스의 개체들과 관계들 사이의 연관성을 포착한다. KBCNN에서 각 트리플 <주어 개체, 관계, 목적어 개체>는 3개의 열을 가진 행렬로 표현되며, 각각의 열은 트리플의 각 원소를 표현하는 임베딩 벡터다. 트리플을 나타내는 행렬은 여러 개의 필터를 가지고 있는 컨볼루션 레이어를 통과한 뒤, 하나의 특성 벡터로 합쳐진다. 이 특성 벡터를 가중치 행렬과 내적 하여 최종적으로 해당 트리플의 신뢰도를 출력하게 된다. 이 신뢰도를 바탕으로 트리플의 진실 여부를 가려낼 수 있다. 지식베이스 완성 연구에서 가장 많이 사용되는 데이터셋인 FB15k-237을 기반으로 한 실험을 통해 KBCNN 모델이 기존 임베딩 모델들보다 뛰어난 성능을 보이는 것을 확인하였다.

  • PDF

뉴스 기사의 정치적 성향 판단을 위한 지식 그래프 임베딩 기법의 효과 분석 (Knowledge Graph Embedding Methods for Political Stance Prediction: Performance Evaluation)

  • 류성은;고윤용;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.519-521
    • /
    • 2023
  • 온라인 뉴스 플랫폼의 발전은 에코 챔버(echo chamber) 효과와 정치적 양극화를 심화시키며, 이를 완화하기 위한 선행 연구로 뉴스 기사의 정치적 성향을 판단하는 연구가 필요하다. 기존 연구는 외부 지식 그래프를 활용하여 뉴스 기사의 텍스트 정보를 더욱 풍부하게 표현한다. 그러나, 외부 지식을 임베딩하는 지식 그래프 임베딩(knowledge graph embedding, KGE) 방법은 다양하며, 각 KGE 방법이 정치적 성향 예측 정확도에 미치는 효과에 대해서 충분히 연구되지 않았다. 본 논문에서는 정치적 성향 예측에 외부 지식의 활용을 최대화하기 위한 다양한 KGE 방법들의 효과를 분석한다. 실험 결과, 외부 지식 그래프 내의 개체들 간 복잡한 관계를 간단하고 정확하게 표현 가능한 ModE 방법을 활용하는 것이 정치적 성향 예측에 가장 효과적이라는 것을 확인하였다.

A study on the Extraction of Similar Information using Knowledge Base Embedding for Battlefield Awareness

  • Kim, Sang-Min;Jin, So-Yeon;Lee, Woo-Sin
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권11호
    • /
    • pp.33-40
    • /
    • 2021
  • 고도화된 무기체계와 복잡한 전략으로 인하여 지휘관이 분석하고 판단해야 할 정보의 복잡도가 증가하고 있다. 지휘관의 적시적 판단을 위해서 전장의 정보를 지식화하고 분석할 수 있는 지능형 서비스가 필요하다. 지능형 서비스는 전장상황 정보로부터 지식을 추출하는 단계와 지식베이스를 구축하는 단계, 지식베이스로부터 전장상황을 분석하는 단계로 구성된다. 본 논문은 두 번째 단계에서 구축 완료된 지식베이스를 임베딩함으로써 입력 쿼리와 유사한 정보를 추출하는 방안을 연구한다. 지식베이스 임베딩을 위해 문장화 과정이 필요하며 random-walk 알고리즘을 적용한다. 문장화된 정보는 Word2Vec을 활용하여 벡터화되고 코사인 유사도를 통해 입력 쿼리와 유사한 정보를 찾는다. 본 논문에서는 오픈 지식베이스로부터 98개 개체를 기준으로 980개의 문장을 생성하고 100차원의 벡터로 임베딩함으로써 코사인 유사도 기반 유사 개체가 추출됨을 확인했다.

위키피디아 링크 데이터를 이용한 Neural Network Model 기반 한국어 개체명 연결 (Neural Network Model for Named Entitiy Linking using Wikipedia Link Data)

  • 이영훈;나승훈
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-166
    • /
    • 2018
  • 개체명 연결이란 주어진 문장에 출현한 단어를 위키피디아와 같은 지식 기반 상의 하나의 개체와 연결하여 특정 개체가 무엇인지 식별하여 모호성을 해결하는 작업이다. 본 연구에서는 위키피디아의 링크를 이용하여 개체 표현(Entity mention)과 학습 데이터, 지식 기반을 구축한다. 또한, Mention/Context 쌍의 표현과 Entity 표현의 코사인 유사도를 이용하여 Score를 구하고, 이를 통해 개체명 연결 문제를 랭킹 문제로 변환한다. 개체의 이름과 분류뿐만 아니라 개체의 설명, 개체 임베딩 등의 자질을 이용하여 모델을 확장하고 결과를 비교한다. 확장된 모델의 개체 링킹 성능은 89.63%의 정확도를 보였다.

  • PDF

언급 특질을 이용한 Bi-LSTM 기반 한국어 상호참조해결 종단간 학습 (Korean Co-reference Resolution End-to-End Learning using Bi-LSTM with Mention Features)

  • 신기연;한기종;이민호;김건태;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.247-251
    • /
    • 2018
  • 상호참조해결은 자연언어 문서 내에서 등장하는 명사구 언급(mention)과 이에 선행하는 명사구 언급을 찾아 같은 개체인지 정의하는 문제이다. 특히, 지식베이스 확장에 있어 상호참조해결은 언급 후보에 대해 선행하는 개체의 언급이 있는지 판단해 지식트리플 획득에 도움을 준다. 영어권 상호참조해결에서는 F1 score 73%를 웃도는 좋은 성능을 내고 있으나, 평균 정밀도가 80%로 지식트리플 추출에 적용하기에는 무리가 있다. 따라서 본 논문에서는 한국어 문서에 대해 영어권 상호참조해결 모델에서 사용되었던 최신 모델인 Bi-LSTM 기반의 딥 러닝 기술을 구현하고 이에 더해 언급 후보 목록을 만들어 개체명 유형과 경계를 적용하였으며 품사형태를 붙인 토큰을 사용하였다. 실험 결과, 문자 임베딩(Character Embedding) 값을 사용한 경우 CoNLL F1-Score 63.25%를 기록하였고, 85.67%의 정밀도를 보였으며, 같은 모델에 문자 임베딩을 사용하지 않은 경우 CoNLL F1-Score 67.92%와 평균 정밀도 77.71%를 보였다.

  • PDF

의생명 분야의 개체명 인식에서 순환형 신경망과 조건적 임의 필드의 성능 비교 (Performance Comparison of Recurrent Neural Networks and Conditional Random Fields in Biomedical Named Entity Recognition)

  • 조병철;김유섭
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.321-323
    • /
    • 2016
  • 최근 연구에서 기계학습 중 지도학습 방법으로 개체명 인식을 하고 있다. 그러나 지도 학습 방법은 데이터를 만드는 비용과 시간이 많이 필요로 한다. 본 연구에서는 주석 된 말뭉치를 사용하여 지도 학습 방법을 사용 한다. 의생명 개체명 인식은 Protein, RNA, DNA, Cell type, Cell line 등을 포함한 텍스트 처리에 중요한 기초 작업입니다. 그리고 의생명 지식 검색에서 가장 기본과 핵심 작업 중 하나이다. 본 연구에서는 순환형 신경망과 워드 임베딩을 자질로 사용한 조건적 임의 필드에 대한 성능을 비교한다. 조건적 임의 필드에 N_Gram만을 자질로 사용한 것을 기준점으로 설정 하였고, 기준점의 결과는 70.09% F1 Score이다. RNN의 jordan type은 60.75% F1 Score, elman type은 58.80% F1 Score의 성능을 보여준다. 조건적 임의 필드에 CCA, GLOVE, WORD2VEC을 사용 한 결과는 각각 72.73% F1 Score, 72.74% F1 Score, 72.82% F1 Score의 성능을 얻을 수 있다.

  • PDF

의생명 분야의 개체명 인식에서 순환형 신경망과 조건적 임의 필드의 성능 비교 (Performance Comparison of Recurrent Neural Networks and Conditional Random Fields in Biomedical Named Entity Recognition)

  • 조병철;김유섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2016년도 제28회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.321-323
    • /
    • 2016
  • 최근 연구에서 기계학습 중 지도학습 방법으로 개체명 인식을 하고 있다. 그러나 지도 학습 방법은 데이터를 만드는 비용과 시간이 많이 필요로 한다. 본 연구에서는 주석 된 말뭉치를 사용하여 지도 학습 방법을 사용 한다. 의생명 개체명 인식은 Protein, RNA, DNA, Cell type, Cell line 등을 포함한 텍스트 처리에 중요한 기초 작업입니다. 그리고 의생명 지식 검색에서 가장 기본과 핵심 작업 중 하나이다. 본 연구에서는 순환형 신경망과 워드 임베딩을 자질로 사용한 조건적 임의 필드에 대한 성능을 비교한다. 조건적 임의 필드에 N_Gram만을 자질로 사용한 것을 기준점으로 설정 하였고, 기준점의 결과는 70.09% F1 Score이다. RNN의 jordan type은 60.75% F1 Score, elman type은 58.80% F1 Score의 성능을 보여준다. 조건적 임의 필드에 CCA, GLOVE, WORD2VEC을 사용 한 결과는 각각 72.73% F1 Score, 72.74% F1 Score, 72.82% F1 Score의 성능을 얻을 수 있다.

  • PDF

워드 임베딩 기반의 기술 개체명 인식 방법 연구 (A Study on Technology Name Recognition Method based on Word Embedding)

  • 이유진;김세빈;김장원
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.750-751
    • /
    • 2019
  • 최근 4차 산업 혁명시대에 이르러 다양한 기술이 급속도로 발전함에 따라 지적 재산권 확보가 중요하게 되었다. 따라서 대표적인 지식재산권의 하나인 특허의 발명 또한 급증하고 있다. 본 논문에서는 특허 데이터에 포함된 기술명 식별을 위해 딥러닝 기반 기술명 분류 방법을 제안한다. 그 결과 특정 분야에서 사용되는 전문 용어에 대한 개체명 식별이 가능함을 보인다.