• 제목/요약/키워드: syntactic processing

검색결과 174건 처리시간 0.036초

Phrase-Chunk Level Hierarchical Attention Networks for Arabic Sentiment Analysis

  • Abdelmawgoud M. Meabed;Sherif Mahdy Abdou;Mervat Hassan Gheith
    • International Journal of Computer Science & Network Security
    • /
    • 제23권9호
    • /
    • pp.120-128
    • /
    • 2023
  • In this work, we have presented ATSA, a hierarchical attention deep learning model for Arabic sentiment analysis. ATSA was proposed by addressing several challenges and limitations that arise when applying the classical models to perform opinion mining in Arabic. Arabic-specific challenges including the morphological complexity and language sparsity were addressed by modeling semantic composition at the Arabic morphological analysis after performing tokenization. ATSA proposed to perform phrase-chunks sentiment embedding to provide a broader set of features that cover syntactic, semantic, and sentiment information. We used phrase structure parser to generate syntactic parse trees that are used as a reference for ATSA. This allowed modeling semantic and sentiment composition following the natural order in which words and phrase-chunks are combined in a sentence. The proposed model was evaluated on three Arabic corpora that correspond to different genres (newswire, online comments, and tweets) and different writing styles (MSA and dialectal Arabic). Experiments showed that each of the proposed contributions in ATSA was able to achieve significant improvement. The combination of all contributions, which makes up for the complete ATSA model, was able to improve the classification accuracy by 3% and 2% on Tweets and Hotel reviews datasets, respectively, compared to the existing models.

SERI Test Suites '97 : 한국어 구문분석기 성능 평가용 문장 모음 (SERI Test Suites '97 : Test Sentences for Korean Syntactic Analyser)

  • 성원경;장명길;박재득;류법모;이현아;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.320-326
    • /
    • 1997
  • 자연어 정보처리 분야의 거듭된 발전은 다양한 언어처리 도구들의 출현을 가져왔다. 그러나 객관적인 성능 평가 기준의 부재로 인해, 개발된 도구들은 임의의 기준에 따라 평가될 수 밖에 없었다. 그 결과 성능 평가 결과는 평가자와 평가자가 제안한 기준에 따라 다를 수 밖에 없었고 따라서 평가 결과 자체 역시 설득력을 갖을 수가 없었다. 이와 같은 문제에 대한 해결책을 찾고자 하는 노력의 일환으로, 본 연구에서는 한국어처리 도구들 중 특히 구문분석기의 체계적이고도 객관적인 성능 평가를 목적으로 제작된 문장들과 관련 주석 정보들로 구성된 SERI Test Suites '97을 소개한다.

  • PDF

의미 정보를 이용한 이단계 단문분할 (Two-Level Clausal Segmentation using Sense Information)

  • 박현재;우요섭
    • 한국정보처리학회논문지
    • /
    • 제7권9호
    • /
    • pp.2876-2884
    • /
    • 2000
  • 단문분할은 한 문장에 용언이 복수개 있을 때 용언을 중심으로 문장을 나누는 방법이다. 기존의 방법은 정형화된 문장의 경우 비교적 효율적인 결과를 얻을 수 있으나, 구문적으로 복잡한 문장인 경우는 한계를 보였다. 본 논문에서는 이러한 한계를 극복하기 위해서 구문 정보만이 아니라, 의미 정보를 활용하여 단문을 분할하는 방법을 제안한다. 정형화된 문장의 경우와 달리 일상적인 문장은 무장 구조의 모호성이나 조사의 생략 등이 빈번하므로 의미 수준에서의 단문분할이 필요하다. 의미 영역에서 단문분할을 하면 기존의 구문 의존적인 방법들에서 발생하는 모호성을 상당수 해소할 수 있게 된다. 논문에서는 먼저 하위범주와 사전과 시소러스의 의미 정보를 이용하여 용언과 보어성분 간의 의존구조를 우선적으로 파악하고, 구문적인 정보와 기타 문법적인 지식을 사용하여 기타 성분을 의존구조에 점진적으로 포함시켜가는 이단계 단문분할 알고리즘을 제안한다. 제안된 이단계 단문분할 방법의 유용성을 보이기 위해 ETRI-KONAN의 말뭉치 중 25,000문장을 수작업으로 술어와 보어성분 간의 의존구조를 태깅한 후 본 논문에서 제안한 방법과 비교하는 실험을 수행하였으며, 이때 단문분할의 결과는 91.8%의 정확성을 보였다.

  • PDF

복합명사 분할과 명사구 합성을 이용한 통합 색인 기법 (Integrated Indexing Method using Compound Noun Segmentation and Noun Phrase Synthesis)

  • 원형석;박미화;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권1호
    • /
    • pp.84-95
    • /
    • 2000
  • 본 논문에서는 명사구 색인과 복합명사 분할을 포함한 복합명사 처리를 위해 통계 정보와 자연언어 처리를 제한적으로 이용 가능하게 하는 통합적 색인 기법을 제안한다. 먼저 색인과 검색에서 복합명사 분할 및 합성 모두를 고려한 통합 기법을 제시하고, 이를 위해 통계 정보와 제한적인 자연언어 처리를 모두 이용하는 통합 색인 기법을 제안한다. 먼저 형태소 분석 및 태깅 과정에서 단일어를 색인어로 추출하고 구문분석의 결과에서 명사구를 합성해 낸다. 구문 분석 실패 시에는 형태소 분석 및 태깅의 결과만을 사용하게 된다. 또한 태깅의 결과에서 복합명사를 골라 통계 정보를 이용하여 단일 명사로 분할하고 재합성한다. 분할된 단일 명사와 합성된 명사구는 기존의 단일어로만 이루어진 색인어를 보완하기 위해 색인어로 사용된다. 실험은 한국어 정보검색의 실험 집합인 KTSET 2.0과 KRIST SET을 사용하여 통합색인 기법이 복합명사 처리에 효율적임을 보였다.

  • PDF

배경음악 및 가사가 실시간 언어처리에 미치는 영향 - 사건 관련 전위 연구 (The effect of lyrical and non-lyrical background music on different types of language processing - An ERP study)

  • 이은경;이성은;권영성
    • 인지과학
    • /
    • 제31권4호
    • /
    • pp.155-178
    • /
    • 2020
  • 우리는 사람들이 음악을 들으면서 책을 읽거나 학습활동을 하는 경우를 자주 발견하게 된다. 이러한 배경음악이 언어처리 과정에 어떠한 영향을 미치는지에 대해 그동안 활발한 논의가 진행됐다. 하지만 음악의 언어처리에 대한 영향성은 아직까지 명확히 밝혀져 있지 않은 상황에 있다. 본 연구는 사건관련전위(ERP)를 활용하여, 각 언어의 처리 과정-표기 정보 처리, 의미 정보 처리, 통사 정보 처리에 따라 나타나는 배경음악의 효과를 분석하고 이를 통해 음악이 언어처리에 미치는 영향성을 규명하고자 하였다. 총 60명의 피험자를 세 가지 실험조건그룹(가사 있는 음악 조건, 가사 없는 음악 조건, 무 음악 조건)으로 구분하고, 각 언어처리 과정에 해당하는 문장 자극을 제시하고 이에 대한 뇌파를 측정하였다. 실험 결과, 무음악 조건에 비해 가사 있는 음악 조건에서 표기 처리를 반영하는 P2와 통사 처리를 반영하는 P600의 진폭이 유의미하게 낮게 나타났다. 이에 반해, 의미 처리 과정을 반영하는 N400은 조건 간의 차이가 발견되지 않았다. 이러한 결과는 가사 있는 음악이 표기 처리 과정과 통사 처리 과정을 방해하는 한편, 의미 처리 과정에는 영향을 미치지 않는다는 점을 시사한다.

구문관계에 기반한 유전자 상호작용 인식 (Detection of Gene Interactions based on Syntactic Relations)

  • 김미영
    • 정보처리학회논문지B
    • /
    • 제14B권5호
    • /
    • pp.383-390
    • /
    • 2007
  • 단백질이나 유전자들 간의 상호작용 인식은 생물학적 현상의 기술에 있어서 필수적이고, 이러한 상호작용의 네트웍 파악은 생물학 접근의 시작이라고 할 수 있다. 최근에, 대량의 생물학 관련 문서로부터 자연언어처리 기술을 사용하여 이러한 정보를 추출하려는 연구들이 많이 등장했다. 또한 이전 연구들은 언어학적 정보가 문서로부터 유전자 상호작용을 자동으로 추출하는 데 있어서 유용하다고 주장하고 있다. 하지만 기존의 방법들은 정확률에 비해 재현율이 많이 낮아서 성능이 그다지 좋지 못했다. 정확률의 감소 없이 재현율의 성능향상을 위해, 이 논문은 생물학관련 문서에서 구문관계에 기반하여 유전자 상호작용을 인식하는 방법을 제안한다. 생물학 도메인에 관련된 전문지식 없이, 우리의 방법은 단지 적은 양의 학습데이터를 사용하여 효과적인 성능을 보인다. LLL05(ICML05 Workshop on Learning Language in Logic)에서 제공한 데이터 포맷을 그대로 사용하여, 상호작용하는 두 유전자 중 작용의 주체가 되는 유전자를 에이전트라 하고 상호 작용의 대상이 되는 유전자를 타겟이라 한다. 본 논문에서 제안하는 첫 단계에서, 에이전트와 타겟 유전자에 대한 유전자-전이 구문관계를 인식한다. 두 번째 단계에서, 유전자 간의 상호작용이 있음을 암시하는 용언리스트를 구축한다. 마지막 단계에서, 상호작용하는 것으로 인식된 두 유전자 중 어느 것이 에이전트이고 타겟인지를 판단하기 위해 구문관계의 방향 정보를 학습한다. LLL05 데이터를 사용한 실험결과에서, 본 논문에서 제안한 방법이 학습 데이터에 대해서는 88%의 F-measure 성능을 보였고, 테스트 데이터에 대해서는 70.4%의 F-measure 성능을 보였다. 이 결과는 기존의 방법들보다 훨씬 더 좋은 성능이다. 우리는 성능에 대한 각 단계의 공헌도를 실험하여, 첫 단계는 재현율 향상에 기여를 하고 두 번째와 세 번째 단계는 정확률 향상에 기여했음을 보인다.

Linear Precedence in Morphosyntactic and Semantic Processes in Korean Sentential Processing as Revealed by Event-related Potential

  • Kim, Choong-Myung
    • International Journal of Contents
    • /
    • 제10권4호
    • /
    • pp.30-37
    • /
    • 2014
  • The current study was conducted to examine the temporal and spatial activation sequences related to morphosyntactic, semantic and orthographic-lexical sentences, focusing on the morphological-orthographic and lexical-semantic deviation processes in Korean language processing. The Event-related Potentials (ERPs) of 15 healthy students were adopted to explore the processing of head-final critical words in a sentential plausibility task. Specifically, it was examined whether the ERP-pattern to orthographic-lexical violation might show linear precedence over other processes, or the presence of additivity across combined processing components. For the morphosyntactic violation, fronto-central LAN followed by P600 was found, while semantic violation elicited N400, as expected. Activation of P600 was distributed in the left frontal and central sites, while N400 appeared even in frontal sites other than the centro-parietal areas. Most importantly, the orthographic-lexical violation process revealed by earlier N2 with fronto-central activity was shown to be complexes of morphological and semantic functions from the same critical word. The present study suggests that there is a linear precedence over the morphological deviation and its lexical semantic processing based on the immediate possibility of lexical information, followed by sentential semantics. Finally, late syntactic integration processes were completed, showing different topographic activation in order of importance of ongoing sentential information.

한국어 통합정보사전 시스템 (YDK : A Thesaurus Developing System for Korean Language)

  • 황도삼;최기선
    • 한국정보처리학회논문지
    • /
    • 제7권9호
    • /
    • pp.2885-2893
    • /
    • 2000
  • 사전은 각종 자연언어처리 시스템에 있어서 고도의 언어처리 및 성능향상을 위한 필수 요소이며, 아무리 좋은 언어처리 도구와 알고리즘이라도 계산언어학에 근거한 양질의 체계적인 전자사전이 없는 한 이의 실용화는 불가능하다. 기존의 출판된 일반 사전은 자연언어처리 및 이해를 목적으로 하여 개발된 사전이 아니다. 또한, 자연언어처리 도구 및 응용시스템을 위해 개발된 사전은 각 시스템의 목적에 따라 각기 다른 체계에 의해 구축되어 있기 때문에 이용하는데 있어서 비효율적인 점이 있다. 따라서, 고도의 언어처리 및 이해를 목적으로 한 체계적이고 과학적인 방법론을 이용하여 형태소 구문 의미정보등 각종 정보가 통합된 통합정보사전의 개발이 필요하다. 본 논문에서는 통합정보사전을 구축하기 위한 방법론을 제시하고, 이에 근거하여 개발한 통합정보사전 개발 시스템을 제시한다.

  • PDF

구문적 언어지식 획득 과정의 문제점 분석 및 지원도구 설계 (Problem Analysis on Syntactic Linguistic Knowledge Acquisition and Design of a Supporting Tool)

  • 이현아;박재득;장명길;박수준;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.489-496
    • /
    • 1996
  • 자연어 처리에서 언어에 대한 지식은 전자사전과 문법규칙으로 구성되어 서로 상보적 관계에 있고, 각 어휘에 대한 품사 및 기타 자질-값에 의해 매개된다. 이러한 언어지식을 전통적인 방법에서는 국어자료의 분석에 경험이 많은 언어전문가의 직관에 다분히 의존하여 정의하였고, 말뭉치를 이용한 자동 획득 기법에서는 태그세트를 먼저 설정하고, 이 태그를 원시 말뭉치에 부착하여 태깅된 말뭉치로부터 자동으로 통계적 분석을 통하여 획득한다. 그런데 두가지 접근방법이 가지고 있는 공통적인 문제점은 품사나 자질-값의 정의 및 할당기준, 선악의 평가기준, 튜닝에 대한 적극적 대처 등이 마련되어 있지 않다는 점이다. 이 연구에서는 이러한 문제점의 발생원인을 말뭉치 분석 과정에서 살펴보고, 품사 및 자질-값의 설정과 할당기준을 마련하는 방법론 및 이를 적극적으로 지원하는 도구를 설계한다.

  • PDF

한국어 Universal Dependency 말뭉치 구축 방안 연구: 구문 관계를 중심으로 (Study of Building Korean Universal Dependency Corpus focused on Syntactic Relations)

  • 원혜진;류법모
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.329-333
    • /
    • 2018
  • Universal Dependency 프로젝트는 여러 언어에 공통으로 적용할 수 있는 형태소 패턴과 구문 관계를 찾기 위한 연구를 진행하고 있으며, 점진적으로 많은 언어들이 참여하여 UD 가이드라인에 따라 말뭉치를 구축하고 시스템을 개발하고 있다. 한국어 UD 말뭉치도 구축되어서 공유되고 있지만 구축을 위한 상세한 가이드라인은 제공되지 않고 있다. 본 논문에서는 UD를 기반으로 한국어 구문분석 말뭉치를 구축할 때 논의되어야 할 요소들을 나열하고 예제를 통해서 설명하였다. 본 연구를 기반으로 한국어 구문분석 말뭉치 구축, 구문분석 시스템 개발에서 UD 가이드라인을 적용하는 논의가 시작되기를 기대한다.

  • PDF