• 제목/요약/키워드: 부분구문분석

검색결과 94건 처리시간 0.021초

기계독해 기반 한국어 의존 파싱 (Korean Dependency Parsing as Machine Reading Comprehension)

  • 민진우;나승훈;신종훈;김영길;김강일
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.270-273
    • /
    • 2021
  • 한국어 의존 파싱은 전이 기반 방식과 그래프 기반 방식의 두 갈래로 연구되어 왔고 그 중 그래프 기반 의존 파싱 방법은 문장 내의 모든 단어에 대해 인코딩한 후 지배소, 의존소에 대한 MLP를 적용하여 각각 표상을 얻고 Biaffine 어텐션을 통해 모든 단어 쌍에 대한 그래프 점수를 얻고 트리를 생성하는 방법이 대표적이다. Biaffine 어텐션 모델에서 문장 내의 각 단어들은 구문 트리 내의 서브트리의 역할을 하지만 두 단어간의 의존성만을 판단하기 때문에 서브 트리의 정보를 이용할 수 없다는 단점이 존재한다. 본 연구에서는 이러한 단점을 해결하기 위해 제안된 Span-Span(서브트리-서브트리)로의 서브트리 정보를 이용할 수 있도록 하는 기계 독해 기반 의존 파싱 모델을 한국어 구문 분석 데이터 셋에 적용하여 소폭의 성능향상을 얻었다.

  • PDF

간호학의 기본 지식 구조 (Fundamental Structure of Knowledge in Nursing)

  • Lee, Kwang-Ja
    • 대한간호학회지
    • /
    • 제13권3호
    • /
    • pp.127-144
    • /
    • 1983
  • 오늘날은 과학문명의 발달로 인하여 기존지식의 수명이 점차 짧아져 가고있는 것이 특징이다. 지식의 증가는 단순히 지식의 양을 증가시키는 역할뿐 아니라 많은 기존지식을 불충분하고 쓸모 없는 것으로 바꿔버리게 한다. 그러므로 학교에서는 학생들에게 어떤 특정지식의 축척보다는 그 학문에 내재해 있는 기본적인 지식의 구조를 학습하게 하여 여러 가지 개념을 관련시키는 논리적 방법을 학습하게 하고 합리적인 탐구방법을 구사할 수 있도록 하여 변화하는 미지의 세계에 대처해 나갈 수 있도록 하는 것이 중요하다. 본 연구는 간호학의 기본 지식구조를 확인하는데 그 목적이 있다. 본 연구를 하게 된 동기는 간호업무의 근거로 활용도리 지식체계는 교육과정의 조직원리로 작용될 유형이나 구조를 지니고 있으며 이런 유형이나 구조를 중심으로 간호교육과정을 구성하는 것이 간호교육에 필수적이라는 문제에서 비롯되었다. 연구방법은 1982년 9월부터 1983년 5월에 걸쳐 간호학 문헌을 체계적으로 분석하여 간호학의 개념적 지식구조와 구문적 지식구조를 확인하였다. 그 결과 얻어진 결론은 다음과 같다. 1. 간호학의 개념적 구조: 모든 학문에는 탐구의 대상인 특수현상을 설명하고 서술하는데 활용되는 일련의 실질적, 개념적 구조를 가지고 있다. 그러나 그 학문의 중요한 부분 또는 중심을 포함하고 있는 개념들이 그 분야 또는 학문의 개략이라고 할 수 있는데 연구결과 간호학에서 가장 높은 순위의 대표적 특질을 지닌 개념은 인간, 건강, 환자/대상자, 간호, 행동으로 분석되었다. 2. 간호학의 구문적 지식구조 : 지식구조의 두 번째 요소인 학문의 구문(syntax)은 간호학에서의 특징적인 탐구방법과 관련되나 개념적 구조와 마찬가지로 탐구방법은 학문에 따라 다르며 그 분야의 주요양상을 나타낸다. 연구결과 간호학에서의 특징적인 탐구방법은 공동적으로 간호과정(nursing process)임이 나타났으며 그 요인으로는 사정, 진단, 계획, 수행, 평가의 다섯 단계로 분석되었다.

  • PDF

자동통번역 시스템의 언어 현상별 자동 평가 (Automatic Evaluation of Speech and Machine Translation Systems by Linguistic Test Points)

  • 최승권;최규현;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 추계학술발표대회
    • /
    • pp.1041-1044
    • /
    • 2019
  • 자동통번역의 성능을 평가하는데 가장 잘 알려진 자동평가 기술은 BLEU이다. 그러나 BLEU로는 자동통번역 결과의 어느 부분이 강점이고 약점인지를 파악할 수 없다. 본 논문에서는 자동통번역 시스템의 언어 현상별 자동평가 방법을 소개하고자 한다. 언어 현상별 자동평가 방법은 BLEU가 제시하지 못하는 언어 현상별 자동평가가 가능하며 개발자로 하여금 해당 자동통번역 시스템의 언어 현상별 강점과 약점을 직관적으로 파악할 수 있도록 한다. 언어 현상별 정확도 측정은 Google 과 Naver Papago 를 대상으로 실시하였다. 정확률이 40%이하를 약점이라고 간주할 때, Google 영한 자동번역기의 약점은 스타일(32.50%)번역이었으며, Google 영한 자동통역기의 약점은 음성(30.00%)인식, 담화(30.00%)처리였다. Google 한영 자동번역기 약점은 구문(34.00%)분석, 모호성(27.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(30.00%)처리였다. Papago 영한 자동번역기는 대부분 정확률이 55% 이상이었으며 Papago 영한 자동통역기의 약점은 담화(30.00%)처리였다. 또한 Papago 한영 자동번역기의 약점은 구문(38.00%)분석, 모호성(32.50%)해소, 스타일(20.00%)번역이었으며, Google 한영 자동통역기 약점은 담화(20.00%)처리였다. 언어 현상별 자동평가의 궁극적인 목표는 자동통번역기의 다양한 약점을 찾아내어 약점과 관련된 targeted corpus 를 반자동 수집 및 구축하고 재학습을 하여 자동통번역기의 성능을 점증적으로 향상시키는 것이다.

통계 정보와 유전자 학습에 의한 최적의 문장 분할 위치 결정 (Determination of an Optimal Sentence Segmentation Position using Statistical Information and Genetic Learning)

  • 김성동;김영택
    • 전자공학회논문지C
    • /
    • 제35C권10호
    • /
    • pp.38-47
    • /
    • 1998
  • 실용적인 기계번역 시스템을 위한 구문 분석은 긴 문장의 분석을 허용하여야 하는데 긴 문장의 분석은 높은 분석의 복잡도 때문에 매우 어려운 문제이다. 본 논문에서는 긴 문장의 효율적인 분석을 위해 문장을 분할하는 방법을 제안하며 통계 정보와 유전자 학습에 의한 최적의 문장 분할 위치 결정 방법을 소개한다. 문장 분할 위치의 결정은 분할 위치가 태그된 훈련 데이타에서 얻어진 어휘 문맥 제한 조건을 이용하여 입력문장의 분할 가능 위치를 결정하는 부분과 여러 개의 분할 가능 위치 중에서 안전한 분할을 보장하고 보다 많은 분석의 효율 향상을 얻을 수 있는 최적의 분할 위치를 학습을 통해 선택하는 부분으로 구성된다. 실험을 통해 제안된 문장 분할 위치 결정 방법이 안전한 분할을 수행하며 문장 분석의 효율을 향상시킴을 보인다.

  • PDF

고성능 한국어 형태소 분석을 위한 어미 분류 (A Classification of Endings for an Efficient Morphological Analysis of Korean)

  • 은종진;박선영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-47
    • /
    • 2000
  • 한국어 형태소 분석에서 가장 중요한 부분 중 하나가 바로 용언구(서술어)를 분석하는 것이다. 형태소 분석 뿐만 아니라 구문 분석, 의미 분석 단계에서도 정확한 용언구 분석은 매우 중요한 작업 중의 하나이다. 또한, 용언구에는 [체언+지정사+어미] 패턴도 포함되므로, 정보검색기의 핵심 모듈인 명사 추출기(색인기)의 성능에도 용언구의 분석은 높은 비중을 차지한다. 본 논문에서는 용언구 분석의 정확성을 높이고, 견고하면서 속도도 향상시킬 수 있는 방법으로 새로운 어미 분류를 제안하고자 한다.

  • PDF

연세대 형태소 분석기 morany: 말뭉치로부터 추출한 대량의 어휘 데이터베이스에 기반한 형태소 분석 (Morphological Analyzer of Yonsei Univ., morany: Morphological Analysis based on Large Lexical Database Extracted from Corpus)

  • 윤준태;이충희;김선호;송만석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회 및 제1회 형태소 분석기 및 품사태거 평가 워크숍
    • /
    • pp.92-98
    • /
    • 1999
  • 본 논문에서는 연세대학교 컴퓨터과학과에서 연구되어 온 형태소 분석 시스템에 대해 설명한다. 연세대학교 자연 언어 처리 시스템의 기본적인 바탕은 무엇보다도 대량의 말뭉치를 기반으로 하고 있다는 점이다. 예컨대, 형태소 분석 사전은 말뭉치 처리에 의해 재구성 되었으며, 3000만 어절로부터 추출되어 수작업에 의해 다듬어진 어휘 데이터베이스는 형태소 분석 결과의 상당 부분을 제한하여 일차적인 중의성 해결의 역할을 담당한다. 또한 복합어 분석 역시 말뭉치에서 얻어진 사전을 바탕으로 이루어진다. 품사 태깅은 bigram hmm에 기반하고 있으며 어휘 규칙 등에 의한 후처리가 보강되어 있다. 이렇게 구성된 형태소 분석기 및 품사 태거는 구문 분석기와 함께 연결되어 이용되고 있다.

  • PDF

점진적 스레드 트리를 구성하기 위한 파싱 알고리즘 (A Parsing Algorithm for Constructing Incremental Threaded Tree)

  • 이대식
    • 인터넷정보학회논문지
    • /
    • 제7권4호
    • /
    • pp.91-99
    • /
    • 2006
  • 점진적 파싱 기법은 프로그램의 점진적 구성을 허용하는 언어기반 환경의 중요한 부분이며, 프로그램의 변경된 부분에 대해서만 구문분석을 다시 함으로써 시스템의 성능을 향상 시킨다. 기존의 점진적 파싱은 파싱 정보를 저장하기 위해 스택 자료구조를 사용한다. 본 논문에서는 스택 자료구조를 사용하지 않고 노드 주소로 스레드를 추가하여 스레드 트리 구성 알고리즘을 제안한다. 또한 구성된 스레드 트리를 사용하여 5단계의 점진적 파싱 과정으로 나누어 점진적 스레드 트리 구성 알고리즘을 제안한다.

  • PDF

그래픽 사용자 인터페이스로 구현한 병렬 프로그래밍 환경 (A Parallel Programming Environment Implemented with Graphic User Interface)

  • 유정목;이동희;이만호
    • 한국정보처리학회논문지
    • /
    • 제7권8호
    • /
    • pp.2388-2399
    • /
    • 2000
  • 본 논문에서는 사용자의 병렬 프로그램 작성을 도와주는 병렬 프로그래밍 환경에 대해 기술한다. 병렬 프로그래밍 환경은 일반적인 컴파일러의 기능의 전위 부분에 해당하는 어휘분석과 구문분석 기능 수행하고 있으며, 프로그램에서 이용하는 변수들의 데이터 흐름 분석과 데이터 종속성 분석, 그리고, 여러 가지 병렬 프로그램 변환 기법들을 수행한다. 특히 프로그래머가 병렬 프로그램을 용이하게 작성할 수 있도록 그래픽 사용자 인터페이스를 제공한다.

  • PDF

어미변화를 고려한 감성 구문 패턴을 이용한 상품평 의견 분류 (Opinion Mining of Product Reviews using Sentiment Phrase Patterns considered the Endings of Declinable Words)

  • 김정호;차명훈;김명규;채수환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.285-290
    • /
    • 2010
  • 인터넷이 대중화됨에 따라 누구나 쉽게 자신의 의견을 온라인상에 표현할 수 있게 되었다. 그 결과 생각이나 느낌을 나타내는 의견 데이터들의 양이 급속도로 방대해졌으며, 이러한 데이터들을 이용한 여러 응용 사례들의 등장으로, 효율적인 검색 및 자동 분류 기술이 요구되고 있다. 이런 기술적 흐름에 맞추어 의견 데이터 분류에 관한 여러 연구들이 이루어져 왔다. 이러한 의견 분류에 대한 연구들을 살펴보면, 분류를 위해 자질(Feature)로서 사용한 단일어(Single word)가 아닌 2개 이상의 N-gram 단어, 어휘 구문 패턴 및 통사 구문 패턴 등을 사용한다. 특히, 패턴은 단일어나 N-gram 단어에 비해 유연하고, 언어학적으로 풍부한 정보를 표현할 수 있기 때문에 이를 주요 연구 주제로 사용되었다. 그럼에도 불구하고, 이러한 연구들은 주로 영어에 대한 연구들이었으며, 한국어에 패턴을 적용하여 주관성을 갖는 문장을 분류하거나, 극성을 분류하는 연구들은 아직 미비하다. 한국어의 특색으로 한국어는 용언의 활용이 발달되어 있어, 어미의 변화가 다양하며, 그 변화에 따라 의미가 미묘하게 변화한다. 그러나 기존 한국어에 대한 의견 분류 연구들은 단어의 핵심 의미만을 파악하기 위해 어미 부분을 제거하고 어간만을 취해서 처리하여 어미에 대한 의미변화를 고려하지 못하므로 분류 정확도가 영어권에 연구 결과에 비해 떨어진다. 그래서 본 연구는 영어에 적용된 패턴을 이용한 기존 방법들을 정리하고, 그 방법들 중에서 극성을 지닌 문장성분 패턴을 한국어에 적용하였다. 그리고 어미의 변화에 대한 패턴을 추출하여 이 변화가 의견 분류의 성능에 미치는 영향을 분석하였다.

  • PDF

`어절 정보 사전`을 이용한 형태소 분석의 중의성 (Ambiguity) 해결 (Desambiguation Method based on a Lexicon of Typographical Units)

  • 남지순;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-82
    • /
    • 1997
  • 이글은 한국어 형태소 분석시 발생하는 중의성의 유형에 대해서 논의하고, 그와 같은 여러 유형의 중의성의 발생율을 감소시키기 위한 방법으로써 '어절 정보 사전 시스템'의 구축을 강조하였다. 한국어 문서에 대한 형태소 분석시 발생하는 중의성은, 영어나 유럽어와는 달리, 어휘 형성 정보 뿐아니라 어절 형성 정보, 구문 구조에 관한 부분적인 정보까지도 제공되어야 비로소 해소될 수 있는 경우가 많아 이와 같은 정보를 얻어내기 위해서는 체계적으로 고안된 범용의 사전 (Lexicon)이 필요하다. 여기에서는 접사가 동반되어 구성될 수 있는 '파생 명사(Affixed Noun)'들의 경우에 논의의 범위를 제한하였다. 실제로, 체계적으로 구성된 하나의 파생어 사전은. 주어진 어절에 대한 형태소 분절시 발생할 수 있는 엄청난 수의 중의적 가능성을 해소해 줄 수 있는데. 이와 같은 사전을 구축하기 위해서는 단순어와 접사 사전이 모듈화되어 완성되어야 한다. 같은 방법으로 모든 합성어 유형에 대한 사전이 구축되고, 그러한 기본 형태들에 대한 '변화형' 사전이 결합되면 어절 정보를 갖춘 대용량의 한국어 MRD의 구현이 가능해질 것이다.

  • PDF