• 제목/요약/키워드: 한국어 관계 추출

검색결과 234건 처리시간 0.03초

BERT와 지식 그래프를 이용한 한국어 문맥 정보 추출 시스템 (Korean Contextual Information Extraction System using BERT and Knowledge Graph)

  • 유소엽;정옥란
    • 인터넷정보학회논문지
    • /
    • 제21권3호
    • /
    • pp.123-131
    • /
    • 2020
  • 인공지능 기술의 비약적 발전과 함께 사람의 언어를 다루는 자연어 처리 분야 역시 활발하게 연구가 진행되고 있다. 특히 최근에는 구글에서 공개한 언어 모델인 BERT는 대량의 코퍼스를 활용해 미리 학습시킨 모델을 제공함으로써 자연어 처리의 여러 분야에서 좋은 성능을 보이고 있다. BERT에서 다국어 모델을 지원하고 있지만 한국어에 바로 적용했을 때는 한계점이 존재하기 때문에 대량의 한국어 코퍼스를 이용해 학습시킨 모델을 사용해야 한다. 또한 텍스트는 어휘, 문법적인 의미만 담고 있는 것이 아니라 전후 관계, 상황과 같은 문맥적인 의미도 담고 있다. 기존의 자연어 처리 분야에서는 어휘나 문법적인 의미를 중심으로 연구가 주로 이루어졌다. 텍스트에 내재되어 있는 문맥 정보의 정확한 파악은 맥락을 이해하는 데에 있어 중요한 역할을 한다. 단어들의 관계를 이용해 연결한 지식그래프는 컴퓨터에게 쉽게 문맥을 학습시킬 수 있는 장점이 있다. 본 논문에서는 한국어 코퍼스를 이용해 사전 학습된 BERT 모델과 지식 그래프를 이용해 한국어 문맥 정보를 추출하는 시스템을 제안하고자 한다. 텍스트에서 중요한 요소가 되는 인물, 관계, 감정, 공간, 시간 정보를 추출할 수 있는 모델을 구축하고 제안한 시스템을 실험을 통해 검증한다.

합성명사 의미해석용 사전 구축을 위한 워크벤치 (Workbench for Constructing Dictionary for Semantic Analysis of Compound Noun)

  • 이경순;김도완;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-155
    • /
    • 2000
  • 본 논문에서는 한국어에서 빈번하게 나타나는 합성명사의 의미해석을 하기 위한 워크벤치를 설계하고 구현하였다. 합성명사 의미해석을 위한 사전 구축 지원 워크벤치의 기능은 합성명사를 이루고 있는 명사와 명사가 어떠한 의미관계로 결합하고 있는지를 밝히기 위해서 의미관계 패턴을 정의한다. 정의된 의미관계 패턴을 이용하여 합성명사를 자동적으로 추출한다. 추출된 합성명사 사전을 이용해서 각 명사의 상위개념에 대해서도 의미관계를 반영시켜서 합성명사의 의미관계를 해석할 수 있도록 하는 환경을 제공하고 있다.

  • PDF

형식형태소가 한국어 단어 벡터 생성에 미치는 영향 (Grammatical morphemes' effect on Korean word vector generation)

  • 윤준영;김도원;민태홍;이재성
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.179-183
    • /
    • 2017
  • 단어 벡터는 단어 사이의 관계를 벡터 연산으로 가능하게 할 뿐 아니라, 상위의 신경망 프로그램의 사전학습 데이터로 많이 활용되고 있다. 한국어 어절은 생산적인 조사나 어미 때문에 효율적인 단어 벡터 생성이 어려워 대개 실질형태소만을 사용하여 한국어 단어 벡터를 생성한다. 본 논문에서는 실질형태소와 형식형태소를 모두 사용하되, 형식형태소를 적절하게 분류하여 단어 벡터의 성능을 높이는 방법을 제안한다. 자체 구축한 단어 관계 테스트 집합으로 추출 성능을 평가해 본 결과, 제안한 방법으로 형식형태소를 사용할 경우, 성능이 향상되었다.

  • PDF

단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법 (Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters)

  • 조승현;이경순
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

구문 분석에서의 어휘간 공기 정보의 활용 (Using Lexical Co-occurrence Information in Syntactic Analysis)

  • 윤준태;최기선;김선호;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.276-280
    • /
    • 1998
  • 구문 분석에 있어서 어휘 정보는 구문적 중의성을 해결하는 데 매우 중요한 역할을 한다. 본 논문에서는 대량의 말뭉치로부터 추출된 공기 정보가 구문 분석에서 효과적으로 이용될 수 있음을 보인다. 첫째, 공기 정보로부터 보다 의미있는 연어를 추출하고 이를 구문 분석에 이용함으로써 보다 효율적인 파서의 구축이 가능함을 밝힌다. 둘째로는 대량의 말뭉치로부터 추출한 공기 정보가 구문 분석시 보조사나 조사 생략에 의한 격 중의성 혹은 관계 관형절에서 발생하는 명사구 이동에 따른 격 중의성의 해결에 적용될 수 있음을 보인다. 이를 위해 본 연구에서는 연세대학교 한국어 사전 편찬실의 연세 말뭉치 3,000만 어절과 KAIST 말뭉치 중 1,000만 어절로부터 <서술어, 명사, 격관계> 공기 정보를 추출하였다.

  • PDF

Suffix Tree와 Distant Supervision을 이용한 관계 추출 (Relation Extraction Using Suffix Tree and Distant Supervision)

  • 이현구;최맹식;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-152
    • /
    • 2014
  • 자연어처리 분야에서 관계 추출은 중요한 연구 분야이다. 많은 관계 추출 연구는 지도 학습 방법을 사용하지만 정답을 구축하는 비용이 큰 문제가 있다. 본 논문에서는 distant supervision을 이용하여 데이터를 구축하고, suffix tree를 이용한 규칙기반 관계 추출 모델을 제안한다. Suffix tree를 이용한 관계추출의 Macro F1-measure는 84.05%로 관계 추출에서 사용이 가능함을 보였다.

  • PDF

구문 관계 지식 추출을 위한 코퍼스 정규화에 대한 연구 (A Corpus Formalization for Extracting the Syntactic Relations)

  • 조정미;조영환;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.207-215
    • /
    • 1996
  • 대량의 코퍼스를 이용해 여러 가지 일반적인 언어 현상을 관찰하고, 언어 지식을 자동으로 획득하여 자연 언어 처리의 여러 분야에 이용하는 등의 연구가 활발히 진행되고 있으며, 이에 따라 코퍼스에 대한 필요성이 날로 증가하고 있다. 코퍼스에서 추출할 수 있는 유용한 지식 중의 하나가 구문 관계 지식이다. 그러나 한국어에 자주 나타나는 격이동이나 생략 현상, 복합어의 이형태 등은 정확한 지식 획득을 어렵게 할 뿐 아니라 자료 회귀 문제를 더욱 심화시킨다. 본 논문에서는 한국어의 문법적인 특징을 반영한 코퍼스정규화에 의해 이러한 문제를 해결하고자한다.

  • PDF

한국어 어휘의미망에 기반을 둔 어의 중의성 해소 시스템의 구현 (Implementation of Word Sense Disambiguation System based on Korean WordNet)

  • 김민호;황명진;신종훈;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.96-102
    • /
    • 2008
  • 자연언어처리에서 어휘의 의미를 구분하는 것은 기계번역이나 정보검색과 같은 여러 응용 분야에서 매우 중요한 역할을 한다. 국내에서도 여러 어의 중의성 해소 시스템이 소개되었으나 대부분 시스템이 의미 부착 말뭉치를 이용한 감독 학습 방식을 기반으로 두고 있다. 본 논문은 한국어 어휘의미망을 이용한 비감독 어의 중의성 해소 시스템을 소개한다. 일반적으로 감독어의 중의성 해소 시스템은 비감독 어의 중의성 해소 시스템보다 성능은 좋으나 대규모의 의미 부착 말뭉치가 있어야 한다. 그러나 본 시스템은 한국어 어휘의미망과 의미 미부착 말뭉치에서 추출한 어휘 통계정보를 이용해, 의미 부착 말뭉치에서 추출한 의미별 통계 정보를 이용하는 감독 중의성 해소 방법과 같은 효과를 낸다. 본 시스템과 타 시스템의 성능 비교를 위해 'SENSEVAL-2' 평가 대회의 한국어 평가 데이터를 이용하였다. 실험 결과는 추출된 통계 정보를 바탕으로 우도비를 이용하였을 때 정확도 72.09%, 관계어 가중치를 추가로 이용하였을 때 정확도 77.02%로 감독 중의성 해소 시스템보다 높은 성능을 보였다.

  • PDF

격틀 정보를 이용한 한국어 공간 사건 관계 추출 (Korean Space Event Relation Extraction Using Case-frame)

  • 곽수정;김보겸;박용민;이재성
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.798-801
    • /
    • 2014
  • 문서에서 공간 개체와 사건을 찾아내고, 이들 간의 위상적 관계나 의미적 관계를 찾아내는 것을 공간정보 추출이라고 한다. 본 논문에서는 언어분석 결과와 세종사전을 활용해 자연언어 문서에서 동작(motion) 사건 관계 중심의 공간 정보를 추출하는 규칙 기반 시스템을 제안하였다. 수동으로 구축한 20문장의 평가 집합에 대해 사건 관계 추출은 27.45%의 F-measure 성능을 보였다. 공간보다 비교적 많은 연구가 진행된 시간 관계 추출에 대한 최신 연구의 성능이 30~35% 수준[1]인 것을 고려하여 볼 때, 본 연구는 공간 사건 관계 추출의 기초 연구로 의미가 있다.

SVM을 사용한 한국어 종속절의 의존관계 분석 (Analyzing Dependency of Korean Subordinate Clauses Using Support Vector Machine)

  • 김상수;박성배;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.148-155
    • /
    • 2006
  • 한국어 구문 분석에서 가장 어려운 작업들 중에 하나는 종속절의 의존관계 파악이다. 본 논문에서는 이를 해결하기 위해서 종속절의 의존관계를 걸을 구성하는 서술어부(동사와 어미)의 관련 정보의 유무에 따라 의존관계가 성립한다고 가정했다. 즉 각각의 절들의 서술부의 관련 정보의 유무로 보고, 이진 분류 문제로 이 문제를 해결하였다. 사용한 자질은 정적 자질(static feature)와 동적 자질(dynamic feature)를 구성되어 있다. 정적 자질은 동사와 어미에서 표면적인 어휘 정보이고 이는 단어, POS 테그 및 위치 정보들이다. 동적 자질은 문장에서 절이 가지는 문법적인 형태를 의미하고, 이를 추출하기 위해 간단한 규칙을 만들고 이를 바탕으로 CKY 차트 파서를 통하여 추출하였다. 기계학습 방법으로는 이진 분류 문제에서 널리 사용되는 SVM을 사용하였다. 실험 결과 어휘 정보들 중에서 어미의 정보만 사용하였을 경우는 64.4%의 정확도를 보였고 문법적인 정보인 동적 자질을 사용한 경우는 73.5%로 어휘 정보만을 사용한 경우 보다 9.1%의 성능 향상됨을 보였다

  • PDF