• 제목/요약/키워드: 의미 사전

검색결과 1,040건 처리시간 0.021초

사전학습 언어모델의 단어간 의미관계 이해도 평가 (Probing Semantic Relations between Words in Pre-trained Language Model)

  • 오동석;권순재;이찬희;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.237-240
    • /
    • 2020
  • 사전학습 언어모델은 다양한 자연어처리 작업에서 높은 성능을 보였다. 하지만, 사전학습 언어모델은 문장 내 문맥 정보만을 학습하기 때문에 단어간 의미관계 정보를 추론하는데는 한계가 있다. 최근에는, 사전학습 언어모델이 어느수준으로 단어간 의미관계를 이해하고 있는지 다양한 Probing Test를 진행하고 있다. 이러한 Test는 언어모델의 강점과 약점을 분석하는데 효율적이며, 한층 더 인간의 언어를 정확하게 이해하기 위한 모델을 구축하는데 새로운 방향을 제시한다. 본 논문에서는 대표적인 사전 학습기반 언어모델인 BERT(Bidirectional Encoder Representations from Transformers)의 단어간 의미관계 이해도를 평가하는 3가지 작업을 진행한다. 첫 번째로 단어 간의 상위어, 하위어 관계를 나타내는 IsA 관계를 분석한다. 두번째는 '자동차'와 '변속'과 같은 관계를 나타내는 PartOf 관계를 분석한다. 마지막으로 '새'와 '날개'와 같은 관계를 나타내는 HasA 관계를 분석한다. 결과적으로, BERTbase 모델에 대해서는 추론 결과 대부분에서 낮은 성능을 보이지만, BERTlarge 모델에서는 BERTbase보다 높은 성능을 보였다.

  • PDF

명사류 의미망 구축을 위한 사전 뜻풀이의 어휘구조분석 (Lexical Analysis of Dictionary Definitions for Constructing Semantic Networks)

  • 한영균
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.326-332
    • /
    • 1994
  • 본 연구에서는 중사전 규모의 현대국어사전에서 약 5,000 개의 표제항목의 뜻풀이 8,000여 항에 사용된 어휘를 분석한 결과를 제시하였다. 분석 결과 명사류의 의미구조에서 최상위계층에 속하는 것들이 사전의 뜻풀이에 자주 사용됨을 확인할 수 있었고, 아울러 뜻풀이에 사용되는 단어들이 어느 정도 통제된 상태임을 알 수 있었다. 그러나 표제항목과 뜻풀이에 사용된 단어들 사이의 관계만을 바탕으로 해서는 의미망을 구축하기 어려웠는데, 그것은 국어사전에서의 뜻풀이가 지니고 있는 구조적 문제에서 기인하는 것이다. 즉 일부 한자어의 경우에는 명사로 정의되지 않으며, 그 결과 표제명사와 뜻풀이에 사용된 명사 사이의 관계를 바탕으로 한 의미망의 구축에 포함되지 않는 것이다. 또한 순환적 뜻풀이의 경우 역시 의미망 구축에 장애요소로 작용함을 밝혔다.

  • PDF

한국어 동사와 명사 관용구 인식 알고리즘 (A recognition algorithm of Korean verb and noun idiomatic phrases)

  • 이호석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2009년도 제21회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.170-175
    • /
    • 2009
  • 본 논문은 한국어 관용구 인식 알고리즘에 대하여 논의한다. 다음(daum) 전자 사전에는 관용구의 의미를, "두 개 이상의 단어로 이루어져 있으면서, 그 단어들의 의미만으로는 전체 의미를 알 수 없는, 특수한 의미를 나타내는 어구" 라고 설명되어 있다. 한국어 관용구의 길이는 2글자 ~ 4글자인 경우가 많으며 그 이상인 경우도 있다. 대부분의 관용구는 일반 사전에 동사와 명사를 기준으로 분류되어 있으며, 품사 표시나 구절 표시 없이 어절의 문자열 형태로만 표현되어 나타난다. 본 논문에서는 전자 사전에 품사 표시나 구절 표시 없이 어절 문자열 형태로 저장되어 있는 한국어 관용구를 입력 문장에서 인식하는 관용구 인식 알고리즘에 대하여 논의한다. 그리고 연어 인식과 명사의 의미 속성 처리에 대하여서도 논의한다.

  • PDF

합성명사 의미해석용 사전 구축을 위한 워크벤치 (Workbench for Constructing Dictionary for Semantic Analysis of Compound Noun)

  • 이경순;김도완;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-155
    • /
    • 2000
  • 본 논문에서는 한국어에서 빈번하게 나타나는 합성명사의 의미해석을 하기 위한 워크벤치를 설계하고 구현하였다. 합성명사 의미해석을 위한 사전 구축 지원 워크벤치의 기능은 합성명사를 이루고 있는 명사와 명사가 어떠한 의미관계로 결합하고 있는지를 밝히기 위해서 의미관계 패턴을 정의한다. 정의된 의미관계 패턴을 이용하여 합성명사를 자동적으로 추출한다. 추출된 합성명사 사전을 이용해서 각 명사의 상위개념에 대해서도 의미관계를 반영시켜서 합성명사의 의미관계를 해석할 수 있도록 하는 환경을 제공하고 있다.

  • PDF

한국어 분석의 중의성 해소를 위한 하위범주화 사전 구축 (Development of Subcategorization Dictionary for the Disambiguation Korean Language Analysis)

  • 이수선;박현재;우요섭
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.257-264
    • /
    • 1999
  • 자연언어 처리에 있어 문장의 성분 구조를 파악하는 통사적 해석에서는 애매성 있는 결과가 많이 생성된다. 한국어의 경우 어순 등의 통사적 특성뿐 아니라 상황과 의미, 문맥이 문장의 분석에 더 중요한 역할을 하기 때문에 문맥 자유 문법에 의한 접근 방법만으로는 중의적 구조의 해결이 어렵다. 이는 또한 의미 분석시 애매성을 증가시키는 원인이 된다. 이러한 통사적, 의미적 중의성 해결을 위해 용언 중심의 하위범주화 사전을 구축하였다. 본 논문에서는 용언에 따라 제한될 수 있는 하위범주 패턴을 정의하고 패턴에 따라 하위범주 사전을 구축하였다. 하위범주화 사전에는 명사의 시소러스와 정합하여 보어를 선택 제한(Selectional Restriction)할 수 있도록 용언과 명사와의 의미적 연어 관계에 따라 의미마커를 부여했다. 말뭉치를 통해 수집된 용언 12,000여개를 대상으로 25,000여개의 하위범주 패턴을 구축하였고 이렇게 구축한 하위범주화 사전이 120,000여 명사에 대한 의미를 갖고 있는 계층 시소러스 의미 사전과 연동하도록 하였다. 또한 논문에서 구현된 하위범주화 사전이 구문과 어휘의 중의성을 어느 정도 해소하는지 확인하기 위해 반자동적으로 의미 태깅(Sense Tagging)된 2만여 문장의 말뭉치를 통해 검증 작업을 수행하고, 의존관계와 어휘의 의미를 포함하고 있는 말뭉치에 하위범주 패턴이 어느정도 정합되는지를 분석하여, 하위범주 패턴과 말뭉치의 의존관계만 일치하는 경우와 어휘의 의미까지 일치하는 경우에 대해 평가한다. 이 과정에서 하위범주 패턴에 대한 빈도 정보나, 연어 정보를 수집하여 데이터베이스에 포함시키고, 각 의미역과 용언의 통계적 공기 정보 등을 추출하는 방법도 제시하고자 한다.을 입증하였다.적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

상호정보량을 이용한 동형이의어 분별용 의미정보의 정제 (Refinement of Semantic-Information for WSD Using Mutual Information)

  • 김준수;이왕우;김창환;옥철영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.460-463
    • /
    • 2002
  • 사전 뜻풀이에서 추출된 기존의 의미정보는 동형이의어가 포함된 뜻풀이에서 명사, 용언을 모두 추출하는 방법을 이용하여 단어 중의성 해소에 부적절만 정보를 상당수 포함하게 되었다. 이러만 부적절한 정보 때문에 오분석이나 과분석이 발생하게 된다. 그러므로 기존의 의미정보에서 동형이의어 분별에 유용한 정보만을 선택하는 기준이 필요하게 되었다. 본 논문에서는 사전 뜻풀이에서 동형이의어와 의미정보 사이의 상호정보량을 계산하고 임계치를 선정하여 의미정보를 선택제약하는 방법을 이용하였다. 임계치에 의해 제한된 의미정보의 효율성을 실험하기 위한 다양만 동형이의어 분별 실험들을 수행하였다.

  • PDF

코어 컴포넌트 기반 시맨틱 라이브러리의 설계 (Using Core Components to Design Semantic Libraries)

  • 정용규
    • 정보관리학회지
    • /
    • 제24권3호
    • /
    • pp.83-92
    • /
    • 2007
  • 시맨틱 라이브러리는 의미사전을 구축함으로써 EDI 전자문서의 교환에 활용될 수 있다. 본 논문은 실무 개발자들이 메타데이터를 이용한 의미사전을 개발하는 과정에서 참고할 수 있는 시맨틱 라이브러리 설계정보를 기술한다. 시맨틱 라이브러리를 구성하는 요소로는 크게 시맨틱 요소(Semantic Element)와 시맨틱 단위(Semantic Unit), 매핑 테이블(Mapping Table) 등 3개로 구성된다. 본 논문에서는 이러한 구성요소들의 기본적인 특성과 개발 관련 설계 방법을 제안한다. 또한 이러한 구성요소와 제반 규칙을 준용하여 메타 데이터 간 의미적 교환을 위한 사전을 구축한 사례를 소개한다.

일한 문형사전을 위한 구문연구 (Study of Japanese Korean Syntactic Dictionary Construction)

  • 송영빈;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.295-303
    • /
    • 1998
  • 이 논문은 한국어와 일본어의 대역문형사전 구축 시에 동사의 대역어 선정을 위한 구체적인 방법을 실증적으로 제시하는데 목적이 있다. 현재 자연언어 처리에서의 동사의 의미기술은 동사의 중의성(重義性)을 해소하려는데 초점이 맞추어져 있다. 그 주된 방법론은 동사와 결합하는 명사 의미속성의 기술에 의해 중의성을 해소하려는 것이다. 이 논문에서는 개별언어에 있어서의 명사의 의미속성의 분류가 다국어를 대상으로 하는 경우 어떻게 다루어져야 하는가에 대해 언어학적인 조명을 하는데 목적이 있다. 아울러 현재까지 일본에서 구축된 동사의 의미사전 들을 비교, 명사 의미속성 분류의 기준이 어떻게 설정되어야 하는가에 대해 검증한다. 특히 외국어와의 대조는 동사와 명사의 공기관계가 각 언어마다 독특한 결합관계를 갖으며 문법체계의 차이로 인해 개별언어를 대상으로 했을 때보다 의미기술의 양상이 상당히 달라짐을 보여줄 것이다.

  • PDF

사전 뜻말이에서 추출한 의미 정보에 기반한 의미 중의성 해결 (word-sense Disambiguation based on Semantic Informations extracted from Definitions in Dictonary)

  • 허정;옥철영
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.269-276
    • /
    • 2000
  • 본 연구에서는 사전의 뜻말이에서 의미 정보를 추출하고, 이 의미 정보를 확률 통계적 방법에 적용하여 의미 중의성을 해결하는 모델을 제안한다. 사전의 뜻풀이말에 동형이의어를 포함하고 있는 표제어와 뜻풀이말을 구성하는 보통 명사, 형용사와 동사를 의미 정보로 추출한다. 비교적 중의성이 자주 발생하는 9개의 동형이의어 명사를 대상으로 실험하였다. 학습에 이용된 데이터로 정확률을 실험하는 내부 실험의 결과, 체언류(보통 명사)와 용언류(동사, 형용사)의 가중치를 0.9/0.1로 주는 것이 가장 정확률이 높았다. 외부 실험은 국어 정보베이스와 ETRI 코퍼스를 이용하여 1,796문장을 실험하였는데, 평균 79.73%의 정확률을 보였다.

  • PDF

사전 뜻풀이말에서 추출한 의미 정보에 기반한 의미 중의성 해결 (Word-Sense Disambiguation based on Semantic Informations extracted from Definitions in Dictionary)

  • 허정;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.269-276
    • /
    • 2000
  • 본 연구에서는 사전의 뜻풀이말에서 의미 정보를 추출하고, 이 의미 정보를 확률 통계적 방법에 적용하여 의미 중의성을 해결하는 모델을 제안한다. 사전의 뜻풀이말에 동형이의어를 포함하고 있는 표제어와 뜻풀이말을 구성하는 보통 명사, 형용사와 동사를 의미 정보로 추출한다. 비교적 중의성이 자주 발생하는 9개의 동형이의어 명사를 대상으로 실험하였다. 학습에 이용된 데이터로 정확률을 실험하는 내부 실험의 결과, 체언류(보통 명사)와 용언류(동사, 형용사)의 가중치를 0.9/0.1로 주는 것이 가장 정확률이 높았다. 외부 실험은 국어 정보베이스와 ETRI 코퍼스를 이용하여 1,796문장을 실험하였는데, 평균 79.73%의 정확률을 보였다.

  • PDF