• 제목/요약/키워드: 언어지식공학

검색결과 284건 처리시간 0.02초

언어지식 획득 과정에서의 수렴성 보장에 관한 연구 (Researches on the Convergence of Linguistic Knowledge Acquisition Process)

  • 이현아;박재득;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.416-420
    • /
    • 1997
  • 다양한 응용 목적의 대규모 실용적 언어지식 구축을 위해서는 한국어의 모든 언어현상을 수용할 수 있는 이상적인 언어지식(optimal linguistic knowledge) 획득을 목표로 연구해 나가야 한다. 본 연구에서 언어지식의 획득은 주어진 말뭉치의 분석을 통해 이루어진다. 주어진 말뭉치에서 새로운 언어현상이 발견되었을 경우, 기존의 언어지식은 새로운 언어현상을 수용할 뿐만 아니라 기존에 발견되었던 언어현상도 함께 수용할 수 있도록 바뀌어져야 한다. 이러한 변화의 원칙이 보장되어야만 언어지식의 양적 확장과 함께 질적 확장을 이룰 수 있다. 본 연구에서는 언어지식의 질적 확장을 언어지식의 수렴성이라고 정의하고 수렴성 보장을 위한 방법론을 연구한다. 수렴성 보장을 위해서는 먼저 언어지식 획득과정이 공정화, 자동화되어야 하고 언어지식이 변화할 때 수렴을 확인하는 과정이 필요하다. 수렴을 확인하기 위하여 구문구조 데이터베이스와 역사전(Inverted Dictionary)을 이용하는 방법을 제안한다. 지금까지는 언어지식의 양적 확장에만 치중해 왔으나 본 연구에서 제안된 방법으로 언어지식이 구축된다면 질적 확장도 함께 도모할 수 있을 것으로 기대된다.

  • PDF

언어 유형론에 기반한 다국어 공용 번역지식의 구축 (A Construction of Multilingual Linguistic Translation Knowledge based on the Language Typology)

  • 최승권;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.243-248
    • /
    • 1997
  • 본 논문은 다국어 자동번역시스템에서 다국어의 번역지식(사전,규칙,정보)구축을 위해 언어유형론을 도입하는 방법론을 제안한다. 다국어 번역지식의 구축과 관련하여 기존 다국어 자동번역 시스템들에서 항상 문제가 되고 있는 것은 번역지식의 구축, 관리, 재활용의 문제이다. 번역지식의 구축은 다국어를 위한 번역지식의 크기, 다국어의 수용정도와 관련되며, 번역지식의 관리는 번역지식의 단순화 정도와 관련되며, 번역지식의 재활용은 기존에 구축된 번역지식을 새로운 언어들에 재사용 정도와 관련된다. 이러한 문제점들을 해결하기 위해 본 논문에서는 한국어를 포함한 다국어의 언어 친족성에 따라 번역지식을 공유하도록 하는 언어유형론에 기반한 다국어 공용 번역지식 구축 방법론을 제안하고자 한다.

  • PDF

언어 지식과 통계 정보의 보완적 특성을 이용한 품사 태깅 (Part-of-Speech Tagging Using Complemental Characteristics of Linguistic Knowledge and Stochastic Information)

  • 임희석;김진동;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.102-108
    • /
    • 1997
  • 기존의 품사 태깅 방법에서 독립적으로 사용해온 언어 지식과 통계 정보는 품사 태깅의 정확도와 처리 범위의 향상을 위해서 상호 보완적인 특성을 갖는다. 이에 본 논문은 언어 지식과 통계 정보의 보완적 특성을 이용한 규칙 우선 직렬 품사 태깅 방법을 제안한다. 제안된 방법은 언어 지식에 의한 품사 태깅 결과를 선호함으로써 규칙 기반 품사 태깅의 정확도를 유지하며, 언어 지식에 의해서 모호성이 해소되지 않은 어절에 통계 정보에 의한 품사 태깅 결과를 할당함으로써 통계 기반 품사 태깅의 처리 범위를 유지한다. 또한, 수정 언어 지식에 의해 태깅 결과의 오류를 보정함으로써 품사 태깅의 정확도를 향상시킨다. 약 2만 어절 크기의 외부 평가 코퍼스에 대해 수행된 실험 결과, 규칙 우선 직렬 품사 태깅 시스템은 통계 정보만을 이용한 품사 태깅의 정확도보다 32.70% 향상된 95.43%의 정확도를 보였다.

  • PDF

Text to SPARQL을 위한 지식 증강 프롬프팅 연구 (Study on Knowledge Augmented Prompting for Text to SPARQL)

  • 이연진;남정재;김우영;김우주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.185-189
    • /
    • 2023
  • Text to SPARQL은 지식 그래프 기반 질의응답의 한 형태로 자연어 질문을 지식 그래프 검색 쿼리로 변환하는 태스크이다. SPARQL 쿼리는 지식 그래프의 정보를 기반으로 작성되어야 하기 때문에 기존 언어 모델을 통한 코드 생성방법으로는 잘 동작하지 않는다. 이에 우리는 거대 언어 모델을 활용하여 Text to SPARQL를 해결하기 위해 프롬프트에 지식 그래프의 정보를 증강시켜주는 방법론을 제안한다. 이에 더하여 다국어 정보 활용에 대한 영향을 검증하기 위해 한국어, 영어 각각의 레이블을 교차적으로 실험하였다. 추가로 한국어 Text to SPARQL 실험을 위하여 대표적인 Text to SPARQL 벤치마크 데이터셋 QALD-10을 한국어로 번역하여 공개하였다. 위 데이터를 이용해 지식 증강 프롬프팅의 효과를 실험적으로 입증하였다.

  • PDF

거대 언어 모델의 내재된 지식을 활용한 질의 응답 방법 (Question Answering that leverage the inherent knowledge of large language models)

  • 심묘섭;민경구;박민준;최주영;정해민;최정규
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.31-35
    • /
    • 2023
  • 최근에는 질의응답(Question Answering, QA) 분야에서 거대 언어 모델(Large Language Models, LLMs)의 파라미터에 내재된 지식을 활용하는 방식이 활발히 연구되고 있다. Open Domain QA(ODQA) 분야에서는 기존에 정보 검색기(retriever)-독해기(reader) 파이프라인이 주로 사용되었으나, 최근에는 거대 언어 모델이 독해 뿐만 아니라 정보 검색기의 역할까지 대신하고 있다. 본 논문에서는 거대 언어 모델의 내재된 지식을 사용해서 질의 응답에 활용하는 방법을 제안한다. 질문에 대해 답변을 하기 전에 질문과 관련된 구절을 생성하고, 이를 바탕으로 질문에 대한 답변을 생성하는 방식이다. 이 방법은 Closed-Book QA 분야에서 기존 프롬프팅 방법 대비 우수한 성능을 보여주며, 이를 통해 대형 언어 모델에 내재된 지식을 활용하여 질의 응답 능력을 향상시킬 수 있음을 입증한다.

  • PDF

지식베이스 확장을 위한 행렬 분해 모델 (Matrix Factorization Models for Knowledge Base Population)

  • 김지호;남상하;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-7
    • /
    • 2017
  • 지식베이스의 목표는 세상의 모든 지식을 데이터베이스화 하는 것이지만 지식 획득 능력의 부족으로 항상 지식 부족 문제에 시달린다. 지식 획득은 주로 웹 상에 있는 자연언어문장을 지식화 하는 외부적인 지식 획득을 통해 이루어지지만, 지식베이스 내부에서 지식을 확장해 나가는 방법에 대해서는 연구가 소홀히 이루어지고 있다. 따라서 본 논문에서는 내부적인 지식 획득을 위한 지식베이스 행렬 분해 모델을 소개한다. 본 논문에서 소개하는 방법은 지식베이스를 행렬로 변환한 뒤 행렬 분해 모델을 통해 새로운 지식에 대한 신뢰도를 점수화하는 방법이다. 본 논문에서 소개한 방법의 우수성과 실효성을 입증하기 위해 한국어 지식베이스인 한국어 디비피디아(2016-10)를 대상으로 본 모델의 정확도 측정 실험 결과를 소개한다.

  • PDF

모빌구조와 표지 개념에 의한 지식기반적 한국어 구문분석기 개발 (Developing Knowledge-Based Korean Syntactic Parser In terms of Mobile Configuration and Marker Theory)

  • 우순조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.184-190
    • /
    • 2003
  • 이 글은 활용 개념과 수형도를 근간으로 기술되어 온 한국어 문법 모델에 대한 대안으로 표지 개념과 모빌 구조를 제시하고 이를 바탕으로 개발된 한국어 구문분석기의 특성을 소개하고자 한다. 먼저, 조사와 어미를 독자적인 토사 단위인 표지로 처리함으로써 국부 구조의 통사 범주와 문법적 기능을 명확하고 일관되게 구분할 수 있으며, 모빌 구조는 한국어의(상대적) 자유 어순 현상을 효과적으로 기술할 수 있다. 이에 의거한 문법 모형은 언어학적 지식과 구문분석 엔진 사이의 독립성을 향상시킴으로써 향후 구문분석기의 성능 개선을 보다 용이하게 한다. 이 글에서 소개하는 구문분석기는 언어학자에 의해 구축된 지식을 이용한다는 점에서 지식기반적이라고 할 수 있는데 여기에는 동사의 하위범주화 정보, 첨어 유형정보, 의미정보가 핵심적인 언어 지식으로 이용된다. 모빌 구조에 의한 구문분석은 국부 구조를 단순화함으로써 구문적 중의성을 최소화하며, 의미정보는 주어진 술어의 논항적 자격을 검증하는 기준으로 작용하여 구문적 중의성을 감소시키고 정확한 분석을 가능하게 한다.

  • PDF

구문 관계 지식 추출을 위한 코퍼스 정규화에 대한 연구 (A Corpus Formalization for Extracting the Syntactic Relations)

  • 조정미;조영환;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.207-215
    • /
    • 1996
  • 대량의 코퍼스를 이용해 여러 가지 일반적인 언어 현상을 관찰하고, 언어 지식을 자동으로 획득하여 자연 언어 처리의 여러 분야에 이용하는 등의 연구가 활발히 진행되고 있으며, 이에 따라 코퍼스에 대한 필요성이 날로 증가하고 있다. 코퍼스에서 추출할 수 있는 유용한 지식 중의 하나가 구문 관계 지식이다. 그러나 한국어에 자주 나타나는 격이동이나 생략 현상, 복합어의 이형태 등은 정확한 지식 획득을 어렵게 할 뿐 아니라 자료 회귀 문제를 더욱 심화시킨다. 본 논문에서는 한국어의 문법적인 특징을 반영한 코퍼스정규화에 의해 이러한 문제를 해결하고자한다.

  • PDF

사전에 나타난 인지정보를 이용한 단어 개념의 지식표현 (Knowledge Representation of Concept Word Using Cognitive Information in Dictionary)

  • 윤덕한;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.118-125
    • /
    • 2004
  • 인간의 언어지식은 다양한 개념 관계를 가지며 서로 망(network)의 모습으로 연결되어 있다. 인간의 언어지식의 산물 중에서 가장 체계적이며 구조적으로 언어의 모습을 드러내고 있는 결과물이 사전이라고 할 수 있다. 본 논문에서는 이러한 사전 뜻풀이 말에서 개념 어휘와 자동적인 지식획득을 통하여 의미 정보를 구조적으로 추출한다. 이러한 의미 정보가 추출되면서 동시에 자동적으로 개념 어휘의 의미 참조 모형이 구축된다. 이러한 것은 사전이 표제어 리스트와 표제어를 기술하는 뜻풀이말로 이루어진 구조의 특성상 가능하다. 먼저 172,000여 개의 사전 뜻풀이말을 대상으로 품사 태그와 의미 태그가 부여된 코퍼스에서 의미 정보를 추출하는데, 의미분별이 처리 된 결과물을 대상으로 하기 때문에 의미 중의성은 고려하지 않아도 된다. 추출된 의미 정보를 대상으로 정제 작업을 거쳐 정보이론의 상호 정보량(Ml)을 이용하여 개념 어휘와 의미 정보간에 연관도를 측정한 후, 개념 어휘간의 유사도(SMC)를 구하여 지식표현의 하나로 연관망을 구축한다.

  • PDF

한국어 워드넷의 구축 (Construction of Korean WordNet)

  • 임성신;이은령;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2004년도 제16회 한글.언어.인지 한술대회
    • /
    • pp.106-111
    • /
    • 2004
  • 사람의 언어를 이해하는 자연언어처리 시스템을 개발하기 위해서는 의미처리를 위한 지식 베이스(knowledge base)가 필요하다. 지금까지 사람이 가진 지식 베이스를 컴퓨터에 도입하려는 많은 노력을 기울이고 있고 그 결과물로 온톨로지(ontology)와 시소러스(thesaurus)가 만들어지고 있다. 외국에서는 지식 베이스의 중요성을 알고 많은 연구를 수행하고 있으며 그 대표적인 사례들에는 Roget's Thesaurus, WordNet, EDR 개념사전, CYC, Euro WordNet 등이 있다. 이 중에서 가장 대표적이며 많은 활용을 보이는 것이 Princeton 대학의 WordNet이다. WordNet은 인간의 어휘지식에 대한 심리 언어학적인 연구의 결과물로써 심리학자와 언어학자들에 의해 10여 년 동안 구축되고 있는 영어에 대한 어휘데이터베이스이다. 본 논문에서는 WordNet을 기반으로 명사에 대해서 영한사전과 국어사전을 이용하여 구축한 한국어 워드넷을 소개하구 구축시 고려한 기본지침을 소개하도록 하겠다.

  • PDF