• Title/Summary/Keyword: 개체성

검색결과 3,407건 처리시간 0.033초

KorBERT와 Popularity 정보에 기반한 한국어 개체연결 (Korean Entity Linking based on KorBERT and Popularity )

  • 허정;배경만;임수종
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.502-506
    • /
    • 2022
  • 본 논문에서는 KorBERT와 개체 인기정보(popularity)를 이용한 개체연결 기술을 소개한다. 멘션인식(mention detection)은 KorBERT를 이용한 토큰분류 문제로 학습하여 모델을 구성하였고, 개체 모호성해소(entity disambiguation)는 멘션 컨텍스트와 개체후보 컨텍스트 간의 의미적 연관성에 대한 KorBERT기반 이진분류 문제로 학습하여 모델을 구성하였다. 개체 인기정보는 위키피디아의 hyperlink, inlink, length 정보를 활용하였다. 멘션인식은 ETRI 개체명 인식기를 이용한 모델과 비교하였을 경우, ETRI 평가데이터에서는 F1 0.0312, 국립국어원 평가데이터에서는 F1 0.1106의 성능 개선이 있었다. 개체 모호성해소는 KorBERT 모델과 Popularity 모델을 혼용한 모델(hybrid)에서 가장 우수한 성능을 보였다. ETRI 평가데이터에서는 Hybrid 모델에서의 개체 모호성 해소의 성능이 Acc. 0.8911 이고, 국립국어원 평가데이터에서는 Acc. 0.793 이였다. 최종적으로 멘션인식 모델과 개체 모호성해소 모델을 통합한 개체연결 성능은 ETRI 평가데이터에서는 F1 0.7617 이고, 국립국어원 평가데이터에서는 F1 0.6784 였다.

  • PDF

상대적 가중치 자질을 반영한 CRF 기반의 개체명 인식 (Named Entity Recognition based on CRF reflecting relative weight)

  • 정진욱
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.338-339
    • /
    • 2017
  • 본 논문은 개체명 인식을 위해 CRF 모델을 이용해 분류를 수행했다. 개체명 후보를 개체명으로 식별에서 중의성 문제가 필요하다. 본 논문에서는 이러한 중의성 문제 해결을 위해 학습 셋으로부터 패턴과 형태적 특성을 고려해 개체명 후보를 최대로 선택하고 선택된 개체명 후보의 중의성과 정확도를 높이기 위해 주변의 문맥 자질과 분별 확률 모델인 CRF를 이용해 중의성 문제를 해결한다.

  • PDF

개체중의성해소에서 의미관련도 활용 효과 분석: 한국어 위키피디아를 사용하여 (An Effect of Semantic Relatedness on Entity Disambiguation: Using Korean Wikipedia)

  • 강인수
    • 한국지능시스템학회논문지
    • /
    • 제25권2호
    • /
    • pp.111-118
    • /
    • 2015
  • 개체 링킹은 텍스트에 출현하는 개체 표현을 위키피디아 등의 지식베이스 항목으로 연결하는 작업이다. 동일한 개체 표현을 공유하는 서로 다른 개체들의 존재로 인해 개체 링킹에서는 개체 표현의 중의성을 해소할 필요가 있다. 개체 중의성 해소를 위한 최근 연구에서는 공기 개체 의미관련도를 중심으로 개체 출현 선험 확률와 공기 용어 정보 등을 결합하는 시도들이 주류를 형성하고 있다. 그러나 의미관련도의 왕성한 활용에도 불구하고 의미관련도 기반 방법이 개체중의성해소에 미치는 순수 효과를 분석 제시한 연구는 찾기 힘들다. 이 연구는 NGD, PMI, Jaccard, Dice, Simpson 등 서로 다른 의미관련도 지표의 차이, 공기개체집합 내 중의성 정도의 차이, 개별적/집단적 중의성해소 방식의 차이의 세 가지 관점에서 의미관련도 기반 개체중의성해소 방법들을 한국어 위키피디아 데이터를 사용하여 실험적으로 평가한 결과를 제시한다.

한국어 텍스트의 개체 URI 탐지: 품사 태깅 독립적 개체명 인식과 중의성 해소 (A Non-morphological Approach for DBpedia URI Spotting within Korean Text)

  • 김영식;함영균;김지성;황도삼;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.100-106
    • /
    • 2014
  • URI spotting (탐지) 문제는 텍스트에 있는 단어열 중에서 URI로 대표되는 개체(entity)에 해당되는 것을 탐지하는 것이다. 이 문제는 두 개의 작은 문제를 순차적으로 해결하는 과제이다. 즉, 첫째는 어느 단어열이 URI에 해당하는 개체인가를 인식하는 것이고, 둘째는 개체 중의성 해소 문제로서 파악된 개체가 복수의 URI에 해당할 수 있는 의미적 모호성이 있을 때 그 URI중 하나를 선택하여 모호성을 해소하는 것이다. 이 논문은 디비피디아 URI를 대상으로 한다. URI 탐지 문제는 개체명 인식 문제와 비슷하나, URI(예를 들어 디비피디아 URI, 즉 Wikipedia 등재어)에 매핑될 수 있는 개체로 한정되므로 일반적인 개체명 인식 문제에서 단어열의 품사열이 기계학습의 자질로 들어가는 방법론과는 다른 자질을 사용할 수 있다. 이 논문에서는 한국어 텍스트를 대상으로 한국어 디비피디아 URI 탐지문제로서 SVM을 이용한 개체경계 인식 방법을 제시하여, 일반적 개체명 인식에서 나타나는 품사태거의 오류파급효과를 없애고자 한다. 또한 개체중의성 해소 문제는 의미모호성이 주변 문장들의 토픽에 따라 달라지므로, LDA를 활용하며 이를 영어 디비피디아 URI탐지에서 쓰인 방법들과 비교한다.

  • PDF

개체 링킹을 위한 RDF 지식그래프 기반의 포괄적 상호의존성 짝 연결 접근법 (A Global-Interdependence Pairwise Approach to Entity Linking Using RDF Knowledge Graph)

  • 심용선;양성권;김홍기
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.129-136
    • /
    • 2019
  • 자연어 표현에는 인물, 조직, 장소, 제품 등의 다양한 개체들이 존재한다. 이러한 개체는 다양한 의미를 가질 수 있다. 이러한 개체가 갖는 중의성 문제는 자연어 처리 분야에 있어 매우 도전적인 과제이다. 개체 링킹(Entity Linking)이란 텍스트에 등장한 개체명을 지식베이스 내의 적절한 개체로 연결해주는 작업이다. 개체 링킹을 위한 대표적인 방법론인 짝 연결 접근법(Pairwise based method)은 한 문장에서 등장한 개체가 두 개 이상일 경우 서로의 연관성을 이용해 개체 링킹을 하는 방법이다. 이 방법은 동일 문장에서 등장하는 개체들 간의 상호의존성(interdependence)만을 고려하고 있어 포괄적인 상호의존성(Global interdependence)이 부족하다는 한계를 갖고 있다. 본 논문에서는 개체 링킹을 위해 RDF 형태의 지식베이스 정보를 바탕으로 Word2vec을 활용한 Entity2vec 모델을 생성하였다. 그리고 생성된 모델을 사용하여 각 개체에 대한 랭킹을 하였다. 본 논문에서는 짝 연결 접근법의 한계점을 보완하기 위해 포괄적인 상호의존성을 바탕으로 짝 연결 접근법을 고안하고 구현 및 실험을 통해 기존의 짝 연결 접근법과 비교하였다.

다중성 인스턴스 추상화에 기반한 통신망 관리 시스템 설계 모델 형식론 (The Formalism of Design Model of Network Management System based on Multiplicity Instance Abstraction)

  • 박수현
    • 한국시뮬레이션학회:학술대회논문집
    • /
    • 한국시뮬레이션학회 1999년도 춘계학술대회 논문집
    • /
    • pp.11-19
    • /
    • 1999
  • Farmer 모델은 시스템 개체구조(System Entity Structure)의 개념을 도입한 지식표현을 위해 사용되는 프레임 구조모델로서 다중성 추상화 개념(Multiplicity Instance Concept)은 하나의 개체를 구성하기 위하여 동일한 형태의 구성요소가 여러 번 발생하는 경우에 이의 대표적인 요소만을 표시하는 추상화 개념이다. 다중성 추상화 개념에서 정의된 대표개체는 자신의 인스턴스들을 가질수 있다. 이들 인스턴스들은 IM-컴포넌트 타입 개체노드 및 OM-컴포넌트 타입 개체노드이며 다중성 인스턴스 링크를 이용하여 대표개체와 연결된다.

  • PDF

무선 센서 네트워크에서 신뢰성 있는 연속 개체 탐지 방안 (Reliable Continuous Object Detection Scheme in Wireless Sensor Networks)

  • 남기동;박호성;임용빈;오승민;김상하
    • 한국통신학회논문지
    • /
    • 제35권12A호
    • /
    • pp.1171-1180
    • /
    • 2010
  • 무선 센서 네트워크에서 신뢰성 있는 이벤트 탐지는 중요한 연구 주제들 중 하나이다. 신뢰성 있는 이벤트 탐지를 위한 기존 연구들은 탐지 대상인 이벤트를 탱크 혹은 군인과 같은 개별적인 개체로 가정했다. 최근 많은 연구들이 화재 혹은 생화학물질과 같은 연속적인 개체의 탐지에 관심을 까지게 되었지만, 단지 통신비용의 절감에 집중하고 있기 때문에 신뢰성에 대한 고려는 부족하다. 따라서 우리는 신뢰성 있는 연속 개체 탐지 방안을 제안 하고자 한다. 신뢰성 있는 연속 개체 탐지는 단순한 연구 주제가 아니다. 하나의 점으로 나타낼 수 있는 개별 개체와는 달리, 넓은 영역을 포함하며 지리적 조건이나 바람 같은 물리적 환경에 의해 형태가 변할 수 있는 연속 개체는 유동적인 2차원 도형으로 표현되기 때문이다. 따라서 개별 개체 탐지의 신뢰성을 측정하기 위해 사용되었던 신뢰성 지표로는 연속 개체 탐지의 신뢰성을 측정할 수 없다. 본 논문에서는 연속 개체 탐지에 적절한 신뢰성 지표를 새롭게 정의하고, 새로운 신뢰성 지표를 사용한 신뢰성 측정 결과를 통해 연속 개체 탐지의 오류를 복구하는 방안을 제안한다.

육봉형과 소하성 개체군 빙어 Hypomesus nipponensis (바다빙어과)의 생태적 특성 (Ecological Characteristics of Land-locked and Anadromous Populations of Hypomesus nipponensis (Osmeridae))

  • 변화근
    • 한국어류학회지
    • /
    • 제22권4호
    • /
    • pp.249-255
    • /
    • 2010
  • 빙어(Hypomesus nipponensis)의 육봉형과 소하성 개체군의 특성을 연구하기 위해 2008년 12월부터 2009년 4월까지 소양호와 향호에서 조사하였다. 육봉형인 소양호 개체군과 소하성인 향호 개체군에 있어 두 집단 간에 형태적 차이는 유사하였다. 산란시기는 육봉형인 소양호에서는 3월이었고 소하성 향호에서는 2월말이었다. 성적으로 성숙하여 생식이 가능한 크기는 전장이 60mm 이상되는 개체로 육봉형과 소하성 개체군에 있어서 동일하였다. 생식소 지수는 육봉형 집단(암컷 20.5%, 수컷 3.7%)이 소하성 집단(암컷 17.4%, 수컷 3.3%)에 비해 다소 높았다. 포란수는 육봉형 개체군(평균 4,902개)이 소하성 개체군(평균 7,325개)에 비해 매우 적었고 육봉형 개체군이 소하성 개체군에 비해 전장도 매우 작았었다. 소양호 개체군의 비만도는 평균 0.60(0.49~0.74)이었고 향호의 비만도는 0.70 (0.47~0.76)이었다. 먹이생물은 동물플랑크톤과 수서곤충이었으며 향호에 서식하는 개체군이 소양호 개체군에 비해 먹이의 크기가 큰 것을 주로 섭식하고 있었다.

위키피디아 기반의 효과적인 개체 링킹을 위한 NIL 개체 인식과 개체 연결 중의성 해소 방법 (A Method to Solve the Entity Linking Ambiguity and NIL Entity Recognition for efficient Entity Linking based on Wikipedia)

  • 이호경;안재현;윤정민;배경만;고영중
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.813-821
    • /
    • 2017
  • 개체 링킹은 입력된 질의에 존재하는 개체를 표현한 개체 표현(entity mention)을 지식베이스에 존재하는 개체와 연결하여 의미를 파악하는 연구이다. 개체 링킹에 관한 연구는 지식 베이스 구축 문제, 다중 표현 문제, 개체 연결 중의성 문제, NIL 개체 인식 문제가 존재한다. 본 연구에서는 지식 베이스 구축 문제와 다중 표현 문제를 해결하기 위해 위키피디아를 기반으로 개체 이름 사전을 구축한다, 또한, 문맥 유사도, 의미적 관련성, 단서 단어 점수, 개체 표현의 개체명 타입 유사도, 개체 이름 매칭 점수, 개체인기도 점수 자질들을 기반으로 SVM(support vector machine)을 학습하여, NIL 개체를 인식하는 문제와 개체 연결 중의성을 해소하는 방법을 제안한다. 구축한 지식 베이스를 기반으로 제안한 두 방법을 순차적으로 적용하였을 때 좋은 개체 링킹 성능을 얻었다. 개체 링킹 시스템의 성능은 NIL 개체 인식 성능이 83.66%, 중의성 해소 성능이 90.81%의 F1 점수를 보였다.

상대적 가중치 자질을 반영한 CRF 기반의 개체명 인식 (Named Entity Recognition based on CRF reflecting relative weight)

  • 정진욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.338-339
    • /
    • 2017
  • 본 논문은 개체명 인식을 위해 CRF 모델을 이용해 분류를 수행했다. 개체명 후보를 개체명으로 식별에서 중의성 문제가 필요하다. 본 논문에서는 이러한 중의성 문제 해결을 위해 학습 셋으로부터 패턴과 형태적 특성을 고려해 개체명 후보를 최대로 선택하고 선택된 개체명 후보의 중의성과 정확도를 높이기 위해 주변의 문맥 자질과 분별 확률 모델인 CRF를 이용해 중의성 문제를 해결한다.

  • PDF