• 제목/요약/키워드: 구문관계

검색결과 292건 처리시간 0.02초

한국어 문법관계에 대한 부분구문 분석 (Shallow Parsing on Grammatical Relations in Korean Sentences)

  • 이성욱;서정연
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권10호
    • /
    • pp.984-989
    • /
    • 2005
  • 본 연구의 목적은 한국어 문장의 문법관계를 분석하는 데 있다. 주된 문제는 문장의 주어, 목적어, 부사어를 문장에서 찾아내는 것이다. 이 문제를 해결하기 위해서 한국어 구문 분석에서 발생하는 여러 중의성을 고려해야 한다. 우리는 문법관계의 중의성을 먼저 해결하고 그 다음에 주어진 명사구와 용언구의 문법관계 확률을 이용하여 용언구의 술어-논항 관계 중의성을 해소하는 통계적 방법을 제안한다. 제안된 방법은 어절간의 거리, 교차구조 금지, 일문일격의 원칙 둥의 한국어 언어 특성을 반영하였다. 용언구와 명사구 사이의 문법관계에 대한 확률은 지지벡터 분류기를 이용하여 추정하였다. 제안된 방법은 문법관계 및 구문구조 부착 말뭉치를 이용하여 자동으로 문법관계를 학습하였고 주어, 목적어, 부사 각각의 문법관계분석에 대해 각각 $84.8\%,\;94.1\%,\;84.8\%$의 성능을 얻었다.

새로운 어절 해석에 기반한 한국어 의존관계 파서 (Korean Dependency Parser Based on New Interpretation of Eojeol)

  • 강호관;이종혁;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.327-331
    • /
    • 1997
  • 본 논문에서는 기계번역과 의미분석의 전단계로서의 구문분석에 대하여 논한다. 의존 문법에 기반을 둔 구문분석의 효율성을 위하여 한국어 어절에 대한 새로운 해석을 시도하며, 이를 기반으로 한국어 의존관계 파서의 새로운 기본 단위(SynN: Syntactic Node)를 제시한다. 또한 새로운 기본 단위를 구문분석 과정에 적용하는 방법과 그 결과를 보인다. 마지막으로, 구현된 구문분석기를 중간언어 방식 시스템인 한-중 기계번역 시스템에 채용하여 그 성능을 검증한다.

  • PDF

온톨로지 자동구축을 위한 OWL의 어휘와 구문 사용방법에 대한 이론적 연구 (A Theoretical Study of Using Methods for OWL Vocabulary and Syntactics to Ontology Automatic Construction)

  • 서휘
    • 한국도서관정보학회지
    • /
    • 제37권2호
    • /
    • pp.191-216
    • /
    • 2006
  • 본 연구에서는 선행 연구를 근거로 온톨로지에 대한 정의와 기능 그리고 종류에 대해 기술하였으며, 특히 온톨로지의 자동 구축을 위한 어휘인 OWL(Ontology Web Language)에 대하여 어휘와 구문 사용방법에 대하여 기술하였다. 또한 OWL의 구문 및 기능에 대한 사용법을 쉽게 익힐 수 있도록 클래스(Class), 속성(Property), 클래스간의 관계, 속성간의 관계 등에 대하여 각 구문에 대한 상세한 정의와 함께 기 구축된 Wine 온톨로지를 근거로 사용사례와 그 설명을 제시하였다.

  • PDF

시맨틱 구문 트리 커널을 이용한 생명공학 분야 전문용어간 관계 식별 및 분류 연구 (A Study on the Identification and Classification of Relation Between Biotechnology Terms Using Semantic Parse Tree Kernel)

  • 최성필;정창후;전홍우;조현양
    • 한국문헌정보학회지
    • /
    • 제45권2호
    • /
    • pp.251-275
    • /
    • 2011
  • 본 논문에서는 단백질 간 상호작용 자동 추출을 위해서 기존에 연구되어 높은 성능을 나타낸 구문 트리 커널을 확장한 시맨틱 구문 트리 커널을 제안한다. 기존 구문 트리 커널의 문제점은 구문 트리의 단말 노드를 구성하는 개별 어휘에 대한 단순 외형적 비교로 인해, 실제 의미적으로는 유사한 두 구문 트리의 커널 값이 상대적으로 낮아지는 현상이며 결국 상호작용 자동 추출의 전체 성능에 악영향을 줄 수 있다는 점이다. 본 논문에서는 두 구문 트리의 구문적 유사도(syntactic similarity)와 어휘 의미적 유사도(lexical semantic similarity)를 동시에 효과적으로 계산하여 이를 결합하는 새로운 커널을 고안하였다. 어휘 의미적 유사도 계산을 위해서 문맥 및 워드넷 기반의 어휘 중의성 해소 시스템과 이 시스템의 출력으로 도출되는 어휘 개념(WordNet synset)의 추상화를 통한 기존 커널의 확장을 시도하였다. 실험에서는 단백질 간 상호작용 추출(PPII, PPIC) 성능의 심층적 최적화를 위해서 기존의 SVM에서 지원되던 정규화 매개변수 외에 구문 트리 커널의 소멸인자와 시맨틱 구문 트리 커널의 어휘 추상화 인자를 새롭게 도입하였다. 이를 통해 구문 트리 커널을 적용함에 있어서 소멸인자 역할의 중요성을 확인할 수 있었고, 시맨틱 구문 트리 커널이 기존 시스템의 성능향상에 도움을 줄 수 있음을 실험적으로 보여주었다. 특히 단백질 간 상호작용식별 문제보다도 비교적 난이도가 높은 상호작용 분류에 더욱 효과적임을 알 수 있었다.

구문형태소를 이용한 색인어 추출 (Index Extraction Using Syntactic Morpheme)

  • 황이규;이근용;김남수;이용석
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 한글 및 한국어 정보처리
    • /
    • pp.26-30
    • /
    • 2000
  • 문서를 대표하는 단어를 추출하는 색인어 추출은 정보검색 시스템의 질을 좌우한다. 대부분의 색인어 추출 시스템은 명사를 추출하고 있으며, 가능한 모든 명사를 추출하고 있다. 이러한 방법은 불필요한 단어가 그 문장을 대표하는 색인어로 추출될 가능성이 높으며, 이는 정보 검색 시스템의 효율을 저하시킨다. 이를 해결하기 위해 품사 태깅이나 구문 해석 단계 등을 통해 불필요한 후보를 제거할 수 있지만, 태거를 구축하거나 구문 해석을 위해서는 많은 비용과 시간이 필요하다. 본 논문에서는 구문 형태소 단위의 형태소 해석에 기반한 색인어 추출 방법을 제안한다. 구문 형태소는 통사적/의미적으로 강한 공기 관계를 가지면서 문장에서 하나의 통사적 단위나 자질의 단위로 표현되기 때문에 구문 형태소내에 포함된 단어열들은 대부분 색인어가 될 수 없다. 이러한 방법을 이용하여, 형태소 해석 결과를 이용한 색인어 추출에서 발생하는 색인 오류를 제거함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

구문형태소를 이용한 색인어 추출 (Index Extraction Using Syntactic Morpheme)

  • 황이규;이근용;김남수;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.26-30
    • /
    • 2000
  • 문서를 대표하는 단어를 추출하는 색인어 추출은 정보검색 시스템의 질을 좌우한다. 대부분의 색인어 추출 시스템은 명사를 추출하고 있으며, 가능한 모든 명사를 추출하고 있다. 이러한 방법은 불필요한 단어가 그 문장을 대표하는 색인어로 추출될 가능성이 높으며, 이는 정보 검색 시스템의 효율을 저하시킨다. 이를 해결하기 위해 품사 태깅이나 구문 해석 단계 등을 통해 불필요한 후보를 제거할 수 있지만, 태거를 구축하거나 구문 해석을 위해서는 많은 비용과 시간이 필요하다. 본 논문에서는 구문 형태소 단위의 형태소 해석에 기반한 색인어 추출 방법을 제안한다. 구문 형태소는 통사적/의미적으로 강한 공기 관계를 가지면서 문장에서 하나의 통사적 단위나 자질의 단위로 표현되기 때문에 구문 형태소내에 포함된 단어열들은 대부분 색인어가 될 수 없다. 이러한 방법을 이용하여, 형태소 해석 결과를 이용한 색인어 추출에서 발생하는 색인 오류를 제거함으로써 색인기의 성능을 높이는 방법을 제안한다.

  • PDF

최대신장트리를 이용한 한국어 의존구문분석 (Korean Depenency Parsing using a Maximum Spanning Tree)

  • 박영민;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.68-72
    • /
    • 2010
  • 본 논문에서는 그래프 기반의 최대신장트리(Maximum Spanning Tree)를 이용한 한국어 의존구문분석 방법을 제안한다. 우리는 최대신장트리 알고리즘을 한국어의 특성인 지배성분 후위의 원칙과 투사성의 원칙을 적용하여 한국어 의존구문분석에 적합한 알고리즘을 만들었다. 제안한 알고리즘은 기존의 한국어 의존구문분석의 방법들보다 낮은 시간복잡도를 가지며 대용량 말뭉치를 학습하기 위해 증분학습이 가능하고 비교적 학습속도가 빠른 Averaged Perceptron 알고리즘을 사용하였다. 실험결과 제안한 방법은 비교적 열악한 환경인 복문이 포함된 장문의 문장에서도 뛰어난 성능을 보여주었다,

  • PDF

한국어 동사의 격틀 정보를 이용한 구문분석 후처리기 (Post-processor of Parsing Results Using Case Frames)

  • 전은희;이성욱;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.445-449
    • /
    • 2001
  • 언어를 컴퓨터로 처리하기 위한 방법으로 격문법(Case Grammar)을 사용하는 것이 있다. 격문법은 동사에 대한 격틀(Case Frame)을 기술함으로써 그 동사와 의미적으로 관계를 가지는 명사들에 대해 표현하는 것이다. 따라서 이러한 격 문법을 사용하기 위해서는 동사에 대한 격틀을 기술하는 것이 필수 과제이다. 본 연구에서는 동사에 대한 격틀을 기술하기 위해서 말뭉치에서 직접 사용된 명사-조사 쌍과 동사를 추출하여 이들의 격관계를 결정하고 이 자료들을 모두 동사의 격틀 정보로 사용하였다 이렇게 구축된 격틀 자료를 구문분석의 후처리 단계에 적용하여 구문분석 결과 잘못된 명사-조사 쌍 의존관계를 수정하였다.

  • PDF

형태소간의 의존 관계에 따른 오류 유형 추정 함수를 이용한 한국어 철자 오류 교정 (Korean Spell Correction Using Collocation of Morphemes)

  • 심철민;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.493-498
    • /
    • 1994
  • 기존 철자 검사/교정기들은 한 어절을 구성하는 형태소들의 품사 정도만을 이용하고 있다. 때문에 철자 검사나 교정의 정확도 면에서 한계를 가진다. 본 논문에서는 한국어의 구문적 연관 관계 및 구문 내에 존재하는 단어들 간의 의미적 연관관계 등을 바탕으로 오류 유형을 추정하는 오류 유형 추정 함수를 제안하고, 이를 이용한 철자 교정기를 구현하였다. 본 논문에서 구현한 오류 유형 추정 함수를 이용한 철자 검사/교정기는 한 어절에 국한되었던 철자 검사/교정의 범위를 여러 어절로 확장하고자 하는 시도의 시발이라 할 수 있다. 따라서 구문 검사 및 의미 검사를 수행하는 문체 검사기의 원형으로서 그 의의를 가진다.

  • PDF

ELMo와 멀티헤드 어텐션을 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using ELMo and Multi-head Attention)

  • 박성식;오신혁;김홍진;김시형;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.8-12
    • /
    • 2018
  • 구문 분석이란 문장을 단어, 어절, 구 등의 구성 성분으로 분해하고 각각의 구조적 정보를 분석하여 문장의 구조를 알아내는 작업을 말한다. 최근 의존 구문 분석은 심층 신경망을 이용하는 방법이 활발히 연구되고 있다. 특히 포인터 네트워크를 사용하는 방법은 다른 심층 신경망보다 높은 성능을 보이고 있다. 그러나 포인터 네트워크의 사용만으로 의존 관계와 의존 관계명을 예측하는 것은 한계가 존재한다. 본 논문에서는 최근 사용하는 단어 표상 방법 별로 비교 실험을 진행하고 의존 구문 분석에서 GloVe의 성능이 가장 좋음을 보인다. 또한 언어 모델을 통한 단어 표상 방법인 ELMo와 멀티헤드 어텐션을 사용하여 포인터 네트워크만을 사용 했을 때보다 높은 성능(UAS 92.85%, LAS 90.65%)을 보였다.

  • PDF