• Title/Summary/Keyword: 파싱

Search Result 385, Processing Time 0.039 seconds

Text Summarisation with Rhetorical Structure (수사구조를 이용한 텍스트 자동요약)

  • Lee, Yu-Ri;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.97-102
    • /
    • 1999
  • 텍스트 요약이란 중요정보만을 추출하여 본래 텍스트의 의미를 전달하는 축약 과정이다. 인터넷을 통한 온라인 정보가 급증함에 따라 정보에 대한 처리와 신속한 내용 파악을 위한 효율적인 자동 텍스트 방법이 필요하다. 기존의 통계적 방법으로는 전체 텍스트의 구조적인 특징을 고려할 수가 없기 때문에, 생성된 요약문의 의미적 흐름이 부자연스럽고, 문장간 응집도가 떨어지게 된다. 수사학적 방법은 요약문을 생성하기 위해서 문장간의 접속관계를 이용한다. 수사 구조란 텍스트를 이루는 문장들간의 논리적인 결합관계로, 수사학적 방법은 이러한 결합관계를 파악하여 요약문을 생성하는 방법이다. 본 논문에서는 표지들이 나타내는 접속 관계정보를 사용하여, 텍스트의 수사구조를 분석한 후 요약문을 생성하는 시스템을 구현한다. 수사구조 파싱 과정은 문장간의 수사구조 파싱과 문단간의 수사구조 파싱, 두 단계로 이루어진다. 파싱은 차트파싱 방법을 사용하여 상향식으로 진행된다. 입력된 문장들로부터 두 단계 파싱에 의해 전체 텍스트의 수사구조 트리를 생성하며, 생성된 트리에서 가중치를 계산하여 중요 문장들을 요약문으로 추출한다.

  • PDF

An Efficient Node Reuse inIncremental Parsing Algorithms (효율적인 노드 재사용을 위한 점진적 파싱 알고리즘)

  • 박정윤;김영철;김상헌;유재우
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1998.10b
    • /
    • pp.401-403
    • /
    • 1998
  • 점진적 파싱 알고리즘은 사용자 중심의 시스템 구현을 위한 핵심적인 기술의 하나이다. 오늘날 속성문법에서 사용되는 트리에는 노드에 파스서 상태와 심볼외에 평가된 속성 정보가 포함되므로 이 정보를 재사용하는 것이 바람직하다. 따라서 효율적인 점진적 파서는 파스트리상에서 생성된 노드를 효율적으로 재사용 할 수 있어야 한다. 본 연구에서는 이전의 파싱과정에서 생성된 노드를 효율적으로 재사용할 수 있는 쓰레드 트리를 기반으로 한 점진적 파싱 알고리즘을 제안하였다. 이전에 생성된 파스결과를 쓰레드 트리로 보관하고 이를 이용하여 효율적으로 노드를 재사용할 수 있도록 하였다. 제안된 알고리즘은 LR 기반의 파싱 방법에서 확장형 파싱표와 쓰레드 트리를 이용해 생성된 트리의 노드를 효율적으로 유지할 수 있다. 본 연구에서 제시된 알고리즘은 구문분석이 필요한 대화식 환경에서 효율적으로 사용될 수 있다.

Improving Stack LSTMs by Combining Syllables and Morphemes for Korean Dependency Parsing (Stack LSTM 기반 한국어 의존 파싱을 위한 음절과 형태소의 결합 단어 표상 방법)

  • Na, Seung-Hoon;Shin, Jong-Hoon;Kim, Kangil
    • Annual Conference on Human and Language Technology
    • /
    • 2016.10a
    • /
    • pp.9-13
    • /
    • 2016
  • Stack LSTM기반 의존 파싱은 전이 기반 파싱에서 스택과 버퍼의 내용을 Stack LSTM으로 인코딩하여 이들을 조합하여 파서 상태 벡터(parser state representation)를 유도해 낸후 다음 전이 액션을 결정하는 방식이다. Stack LSTM기반 의존 파싱에서는 버퍼 초기화를 위해 단어 표상 (word representation) 방식이 중요한데, 한국어와 같이 형태적으로 복잡한 언어 (morphologically rich language)의 경우에는 무수히 많은 단어가 파생될 수 있어 이들 언어에 대해 단어 임베딩 벡터를 직접적으로 얻는 방식에는 한계가 있다. 본 논문에서는 Stack LSTM 을 한국어 의존 파싱에 적용하기 위해 음절-태그과 형태소의 표상들을 결합 (hybrid)하여 단어 표상을 얻어내는 합성 방법을 제안한다. Sejong 테스트셋에서 실험 결과, 제안 단어 표상 방법은 음절-태그 및 형태소를 이용한 방법을 더욱 개선시켜 UAS 93.65% (Rigid평가셋에서는 90.44%)의 우수한 성능을 보여주었다.

  • PDF

A Study for Sequence-to-sequence based Korean Abstract Meaning Representation (AMR) Parsing (Seq2seq 기반 한국어 추상 의미 표상(AMR) 파싱 연구)

  • Hao Huang;Hyejin Park;Hansaem Kim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.257-261
    • /
    • 2022
  • 본 연구에서는 한국어 AMR 자동 파싱을 하기 위해 seq2seq 방법론을 적용하였다. Seq2seq 방법론은 AMR 파싱 태스크를 자연어 문장을 바탕으로 선형화된(linearization) 그래프의 문자열을 번역해내는 과정을 거친다. 본고는 Transformer 모델을 파싱 모델로 적용하여 2020년 공개된 한국어 AMR와 자체적으로 구축된 한국어 <어린 왕자> AMR 데이터에서 실험을 진행하였다. 이 연구에서 seq2seq 방법론 기반 한국어 AMR 파싱의 성능은 Smatch F1-Score 0.30으로 나타났다.

  • PDF

A Conditional Unification Based Parsing for Korean Using Sentence-Type Information (문장 형태 정보를 이용한 조건단일화 기반 한국어 파싱)

  • Yang Seungweon
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.9 no.4
    • /
    • pp.1-7
    • /
    • 2004
  • In this thesis, we introduce a parsing method which use information of the post position in Korean to get the exact parsing tree. In order to implement this method we classified categories of the predicates, and defined sentence-types based on these categories. We tried to make parsing using the method grasping the grammatical role of the noun phrase that have to exist in each sentence-type. In parser control mechanism, we use some heuristics based on linguistic frame. We use conditional unification to implement analysis. It is Possible to reduce ambiguous because the parsing method suggested helps to Prune the branches which are unnecessary.

  • PDF

Grammar Classes Generating Single State Parsing Automata (단일 상태 파싱 오토마톤을 생성하는 문법 클래스들)

  • Lee, Gyung-Ok
    • Journal of KIISE:Software and Applications
    • /
    • v.41 no.7
    • /
    • pp.518-522
    • /
    • 2014
  • A single state parsing automaton has the characteristics of the decision of actions which do not depend on the history of the parsing paths but on the current state. The single state parsing automaton hence has the advantage of the reduced parsing time and a small memory requirement compared to those of the conventional LR automaton. However, currently, the grammar classes generating single state parsing automata have not been known. This paper deals with the grammar classes generating single state parsing automata; in addition, this paper gives the generating method of single state parsing automata of the grammar classes.

Natural Language Parsing through Evolutionary Computation (진화연산을 이용한 자연어 파싱)

  • 김동민;박성배;장병탁
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04c
    • /
    • pp.419-421
    • /
    • 2003
  • 본 논문에서는 진화 연산 기법을 이용한 자연어 구운 분석 기법을 제시한다 기존의 확률 문맥 무관문법(PCFG)에 관한 연구는 차트 파싱 방법을 구문 분석을 위한 기법으로 가정하고 있다. 하지만, 차트 파싱은 문장의 길이가 늘어날수록 복잡도가 크게 증가하는 문제를 안고 있다. 따라서, 차트 파서의 대안으로서 진화 연산 기법을 사용하여 이 문제를 해결하였다. 진화 연산의 적합도 함수로는 생성된 파스트리의 확률을 사용하였다. 작은 규모의 자연어 문제에 적용한 결과, 진화 연산이 파싱 문제를 성공적으로 해결할 수 있음을 확인할 수 있었다.

  • PDF

Design and Implementation of Flexible Event Parsing Engine (유연성 있는 이벤트 파싱 엔진의 설계 및 구현)

  • Yun, Tae-Woong;Min, Dug-Ki
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.05a
    • /
    • pp.189-192
    • /
    • 2003
  • 분산 시스템의 관리를 위해서 시스템 내의 각 컴포넌트에서 발생되는 많은 이벤트 중에 의미 있는 이벤트를 효과적으로 찾아내는 이벤트 파싱 엔진이 필요하다. 본 논문에서는 유연성 있는 이벤트 파싱 엔진을 제안한다. 특히 이벤트 파싱 엔진의 내부 구현을 위해서 기존의 룰 기반 접근방법을 변형한 새로운 접근방법을 제시한다. 본 엔진에서는 룰의 조건과 액션을 스크립트 객체화한 스크립트 객체 기반 접근방법과 룰에 해당하는 이벤트들을 찾아낼 때 보다 효과적이 검색을 지원하는 이벤트 토큰 기반 방식을 사용한다.

  • PDF

Semantic parsing with restricted type signatures (제한된 타입 시그니처 기반의 시맨틱 파싱)

  • Nam, Daehwan;Lee, Gary Geunbae
    • Annual Conference on Human and Language Technology
    • /
    • 2020.10a
    • /
    • pp.569-571
    • /
    • 2020
  • 시맨틱 파싱은 주어진 자연어 발화를 domain specific language(DSL)를 따르는 프로그램으로 변환하는 방법이다. 시맨틱 파서가 다형성을 가지는 DSL을 사용할 경우, 적은 수의 토큰으로 다양한 프로그램을 출력할 수 있지만, 탐색 공간이 넓어진다는 문제가 있다. 본 연구에서는 해당 문제를 완화하기 위해 다형성을 가지는 DSL의 타입 시그니처를 제한하는 방법을 제안한다. 해당 방법은 sequence-to-sequence 기반의 시맨틱 파싱 성능을 향상시키는데 효율적임을 보였다.

  • PDF