• 제목/요약/키워드: syntactic

검색결과 717건 처리시간 0.019초

I-QANet: 그래프 컨볼루션 네트워크를 활용한 향상된 기계독해 (I-QANet: Improved Machine Reading Comprehension using Graph Convolutional Networks)

  • 김정훈;김준영;박준;박성욱;정세훈;심춘보
    • 한국멀티미디어학회논문지
    • /
    • 제25권11호
    • /
    • pp.1643-1652
    • /
    • 2022
  • Most of the existing machine reading research has used Recurrent Neural Network (RNN) and Convolutional Neural Network (CNN) algorithms as networks. Among them, RNN was slow in training, and Question Answering Network (QANet) was announced to improve training speed. QANet is a model composed of CNN and self-attention. CNN extracts semantic and syntactic information well from the local corpus, but there is a limit to extracting the corresponding information from the global corpus. Graph Convolutional Networks (GCN) extracts semantic and syntactic information relatively well from the global corpus. In this paper, to take advantage of this strength of GCN, we propose I-QANet, which changed the CNN of QANet to GCN. The proposed model performed 1.2 times faster than the baseline in the Stanford Question Answering Dataset (SQuAD) dataset and showed 0.2% higher performance in Exact Match (EM) and 0.7% higher in F1. Furthermore, in the Korean Question Answering Dataset (KorQuAD) dataset consisting only of Korean, the learning time was 1.1 times faster than the baseline, and the EM and F1 performance were also 0.9% and 0.7% higher, respectively.

한국어 증거성표지의 중복실현 (Multiple Marking of Evidentials in Korean)

  • 송재목
    • 비교문화연구
    • /
    • 제22권
    • /
    • pp.355-375
    • /
    • 2011
  • This paper investigates multiple marking of evidentials in Korean. Korean has 4 evidential markers: Present Sensory -ney, Past Sensory -te-, Inference -keyss-, Reported -ay. Korean allows evidential marked more than once in the same clause. Not all the possible combinations of evidential markers are, however, observed in Korean. Only five combinations of evidential markers are allowed: Inference followed by Past Sensory (-keysste-), Inference followed by Present Sensory (-keyssney), Past Sensory followed by Reported (-teray), Inference followed by Reported (-keysstay), Inference followed by Past Sensory and Reported (-keyssteray). Multiple making of evidentials in Korean seems to follow combination restrictions: i) Inference comes before Direct Knowledge, ii) Present Sensory and Reported cannot be marked in the same clause, iii) Reported must come after other evidential markers, iv) Past Sensory and Present Sensory cannot be marked in the same clause. Because of these restrictions, only 5 out of dozens possible multiple evidential marking combinations are observed in Korean. This paper takes inflectional suffixes including evidential markers in Korean as syntatic markers and argues that syntactic markers have their own scope and contribute semantic meaning to the scope not to the full sentence. Evidential markers in double marking have different syntactic scope and add not contradictory but complementary meanings to the preposition to express subtle and delicate evidential-related meanings.

'For/From V-ing' 사역구문의 전치사 for/from 교체현상 연구 (For/from Alternations in Causative 'FOR/FROM V-ing' Constructions)

  • 김미자
    • 비교문화연구
    • /
    • 제49권
    • /
    • pp.1-32
    • /
    • 2017
  • 본 논문은 보어로 사용된 사격 구문의 구조 및 의미적 특징을 논의하고, 비정형 V-ing 보어절 구문에 사용된 전치사 for와 from의 교체현상에서 드러난 문법적 특징을 고찰한다. 본 논문에서는 경험적 자료에 근거해 이 구문에서 사용되는 주절 동사를 기준으로 세 가지 유형의 통사적 패턴이 있다는 것을 제시하고, 이와 동시에 이 세 가지 통사 유형이 의미와 긴밀하게 연결되어 있다는 사실을 제시한다. 이런 유형분류는 수동태와 동사적 상에서 그 근거를 제시한다. 또한 비정형 V-ing절을 이끄는 전치사 for와 from의 기능을 고려해 본다면, 전치사로 취급하는 것이 타당하다는 견해를 제시한다.

Analysis of Web Browser Security Configuration Options

  • Jillepalli, Ananth A.;de Leon, Daniel Conte;Steiner, Stuart;Alves-Foss, Jim
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권12호
    • /
    • pp.6139-6160
    • /
    • 2018
  • For ease of use and access, web browsers are now being used to access and modify sensitive data and systems including critical control systems. Due to their computational capabilities and network connectivity, browsers are vulnerable to several types of attacks, even when fully updated. Browsers are also the main target of phishing attacks. Many browser attacks, including phishing, could be prevented or mitigated by using site-, user-, and device-specific security configurations. However, we discovered that all major browsers expose disparate security configuration procedures, option names, values, and semantics. This results in an extremely hard to secure web browsing ecosystem. We analyzed more than a 1000 browser security configuration options in three major browsers and found that only 13 configuration options had syntactic and semantic similarity, while 4 configuration options had semantic similarity, but not syntactic similarity. We: a) describe the results of our in-depth analysis of browser security configuration options; b) demonstrate the complexity of policy-based configuration of web browsers; c) describe a knowledge-based solution that would enable organizations to implement highly-granular and policy-level secure configurations for their information and operational technology browsing infrastructures at the enterprise scale; and d) argue for necessity of developing a common language and semantics for web browser configurations.

Phrase-Chunk Level Hierarchical Attention Networks for Arabic Sentiment Analysis

  • Abdelmawgoud M. Meabed;Sherif Mahdy Abdou;Mervat Hassan Gheith
    • International Journal of Computer Science & Network Security
    • /
    • 제23권9호
    • /
    • pp.120-128
    • /
    • 2023
  • In this work, we have presented ATSA, a hierarchical attention deep learning model for Arabic sentiment analysis. ATSA was proposed by addressing several challenges and limitations that arise when applying the classical models to perform opinion mining in Arabic. Arabic-specific challenges including the morphological complexity and language sparsity were addressed by modeling semantic composition at the Arabic morphological analysis after performing tokenization. ATSA proposed to perform phrase-chunks sentiment embedding to provide a broader set of features that cover syntactic, semantic, and sentiment information. We used phrase structure parser to generate syntactic parse trees that are used as a reference for ATSA. This allowed modeling semantic and sentiment composition following the natural order in which words and phrase-chunks are combined in a sentence. The proposed model was evaluated on three Arabic corpora that correspond to different genres (newswire, online comments, and tweets) and different writing styles (MSA and dialectal Arabic). Experiments showed that each of the proposed contributions in ATSA was able to achieve significant improvement. The combination of all contributions, which makes up for the complete ATSA model, was able to improve the classification accuracy by 3% and 2% on Tweets and Hotel reviews datasets, respectively, compared to the existing models.

한국어 서사 텍스트 처리의 다중 표상과 구성 통합 이론: 주제어 연속성에 대한 양태 어미의 형태 통사적, 담화 화용적 기능 (A Multi-level Representation of the Korean Narrative Text Processing and Construction-Integration Theory: Morpho- syntactic and Discourse-Pragmatic Effects of Verb Modality on Topic Continuity)

  • 조숙환;김세영
    • 인지과학
    • /
    • 제17권2호
    • /
    • pp.103-118
    • /
    • 2006
  • 본 논문은 구성 통합 이론(Kintsch, 1988, Singer & Kintsch 2001, Graesser, Gernsbacher, & Goldman, 2003)을 토대로 주제어 연속성의 강도와 양태 어미 단서가 이야기 서사 텍스트에 쓰인 공주어 해석에 어떻게 이용되는지 검토했다. 실험 연구에는 명시적 조건과 중립적 조건 등 두 조건이 생성되었는데, 명시적 조건에는, 중립적 조건과는 달리, 주제어가 일관성 있게 유지되었고 또한 동사 어미의 형태 통사적 특징이 인칭과 일치되었다. 이 실험에는 59명의 대학생들이 다음 세 가지 과제에 참여했다. 실험은 첫째, 주어가 생략된 경우 피험자가 시험 문장(target sentence)을 읽는데 소요되는 시간을 측정했고, 둘째, 공주어의 해석, 즉, 선행사 (참조대상) 선택에 소요되는 반응 시간을 측정했으며, 셋째, 선행사 선정의 정답율을 분석했다. 실험 결과, 텍스트 처리과정에서 인칭과 같은 형태 통사적 조건이 유의미한 결과를 낳았으며, 또한, 주제어 연속성 조건의 효과가 형태 통사 조건에 따라 선택적인 양상을 보였다. 즉, 주제어가 지속적으로 연결되는 동안 화용적 맥락, 담화자의 사전 정보, 추론 등과 같은 총체적 정보와 주어, 동사 어미의 인칭과 같은 어휘적, 지엽적인 형태 통사적인 정보가 선행사 해석에 핵심적인 역할을 했다. 따라서, 이 실험 결과는 최소주의 가설 보다 공명 기반 모델을 지지한다.

  • PDF

시소러스와 술어 패턴을 이용한 의미역 부착 한국어 하위범주화 사전의 구축 (Constructing a Korean Subcategorization Dictionary with Semantic Roles using Thesaurus and Predicate Patterns)

  • 양승현;김영섬;우요섭;윤덕호
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제6권3호
    • /
    • pp.364-372
    • /
    • 2000
  • 하위범주화는 보어의 어휘 개념이 명시된 술어와 보어간 의존 관계를 정의하는 언어 정보로서 구문 및 의미 분석 등에 폭넓게 활용될 수 있는 기반 언어 자원이라는 데에 그 중요성이 있다. 본 논문에서는 표층문에서 통상 격표지로 표현되는 구문적 의존 관계뿐만 아니라, 보어가 갖는 의미역 정보가 부착되어 있으며 시소러스 개념 분류 체계와 연동 가능한 한국어 술어의 하위범주화 사전의 구축에 대해 설명하고 있다. 본 논문에서는 하위범주화 사전의 의미역 표현을 위해 총 25개의 의미역을 설정하고 있다. 이 의미역은 표층 격표지와 직접 연관되어 있기 때문에 통사적인 분석으로부터 직접 의미역 정보를 추출해서 의미 구조의 해석에 이용하는 것이 가능하다. 또한 명사 보어가 갖는 개념의 표현을 위해 상ㆍ하위어 관계를 갖는 12만 어휘 규모의 시소러스를 이용하고 있으며, 술어의 의존 관계 표현을 위해 동사, 형용사에 대해 각각 47, 17 개의 하위범주화 패턴을 이용하고 있다. 실용적 규모의 시소러스를 이용함으로써 문장에 나타난 명사의 시소러스 개념을 그대로 하위범주화 사전에 적용시켜 의미 정합 여부를 판단할 수 있는 실질적인 선택제약 체계를 구성할 수 있었고, 표층 격표지에 기초한 표준화된 술어 패턴을 이용함으로써 의미역의 결정 등에서 야기될 수 있는 비일관성을 방지하고 구축에 드는 비용을 절감할 수 있었다. 이상과 같은 방법으로 말뭉치에서 추출한 고빈도 술어 13,000 여개에 대해 하위범주화 사전을 구축하였으며, 적용 범위 평가 실험에 의하면 이 하위범주화 사전은 말뭉치에서 발견된 술어의 72.7%에 대해 하위범주화 정보를 제공할 수 있음을 확인하였다.

  • PDF

The Ability of L2 LSTM Language Models to Learn the Filler-Gap Dependency

  • Kim, Euhee
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권11호
    • /
    • pp.27-40
    • /
    • 2020
  • 본 논문은 장단기기억신경망(LSTM)이 영어를 배우면서 학습한 암묵적 통사 관계인 필러-갭 의존 관계를 조사하여 영어 문장 학습량과 한국인 영어 학습자(L2ers)의 문장 처리 패턴 간의 상관관계를 규명한다. 이를 위해, 먼저 장단기기억신경망 언어모델(LSTM LM)을 구축하였다. 이 모델은 L2ers가 영어 학습 과정에서 잠재적으로 배울 수 있는 L2 코퍼스의 영어 문장들로 심층학습을 하였다. 다음으로, 이 언어 모델을 이용하여 필러-갭 의존 관계 구조를 위반한 영어 문장을 대상으로 의문사 상호작용 효과(wh-licensing interaction effect) 즉, 정보 이론의 정보량인 놀라움(surprisal)의 정도를 계산하여 문장 처리 양상을 조사하였다. 또한 L2ers 언어모델과 상응하는 원어민 언어모델을 비교 분석함으로써, 두 언어모델이 문장 처리에서 필러-갭 의존 관계에 내재된 추상적 구문 구조를 추적할 수 있음을 보여주었을 뿐만 아니라, 또한 선형 혼합효과 회귀모델을 사용하여 본 논문의 중심 연구 주제인 의존 관계 처리에 있어서 원어민 언어모델과 L2ers 언어모델간 통계적으로 유의미한 차이가 존재함을 규명하였다.

부정문 처리와 문장 진리치 판단의 인지신경기제: 한국어 통사적 부정문과 어휘적 부정문에 대한 ERP 연구 (An ERP study on the processing of Syntactic and lexical negation in Korean)

  • 남윤주
    • 인지과학
    • /
    • 제27권3호
    • /
    • pp.469-499
    • /
    • 2016
  • 본 논문에서는 한국어의 통사적 부정문(예를 들면, 침대는/시계는 가구에 속한다/속하지 않는다)과 어휘적 부정문(예를 들면, 호랑이는/나비는 꼬리가 있다/없다)을 이용하여 부정어 처리의 인지신경기제를 확인하고 부정문 처리의 언어 보편적/특수적 기제를 밝히기 위한 진리치 판단과제 및 ERP(Event-related potentials) 실험연구를 진행하였다. 총 23명의 피험자가 전체 실험에 참여하였고 이들 중 15명의 뇌파 반응 데이터를 ERP 분석을 위하여 사용하였다. 실험 결과, 진리치 판단과제에 있어서는 영어를 이용한 선행연구들과 동일하게 긍정-참 >긍정-거짓>부정-거짓>부정-참의 순서를 확인할 수 있었다(높은 정확도, 짧은 반응 시간 순서). 그러나 ERP 결과에서는 선행 연구와는 다른 몇 가지 점을 발견하였다. 우선 어휘적 부정문의 경우 이른 시간 구간(250-350ms)에서의 N400효과를 확인할 수 있었지만 긍정문과 부정문을 아우르는 진리치 요인의 주 효과는 나타나지 않았다. 그러나 통사적 부정문의 경우 부정-참에 비하여 부정 거짓문장에서 P600 효과를 발견하였다. 이러한 결과는 표층적으로 나타나는 부정의 형태 및 위치와 같은 언어 특수적 요인에 대한 처리 전략은 각 언어별, 부정 종류별로 달라질 수 있지만 부정 처리의 결과로 얻어지는 문장의 최종 표상 및 이에 대한 진리치 판단의 기제는 언어 및 부정어 종류의 영향을 받지 않는 보편적인 특성을 지닌다는 것을 보여준다.

구문관계에 기반한 유전자 상호작용 인식 (Detection of Gene Interactions based on Syntactic Relations)

  • 김미영
    • 정보처리학회논문지B
    • /
    • 제14B권5호
    • /
    • pp.383-390
    • /
    • 2007
  • 단백질이나 유전자들 간의 상호작용 인식은 생물학적 현상의 기술에 있어서 필수적이고, 이러한 상호작용의 네트웍 파악은 생물학 접근의 시작이라고 할 수 있다. 최근에, 대량의 생물학 관련 문서로부터 자연언어처리 기술을 사용하여 이러한 정보를 추출하려는 연구들이 많이 등장했다. 또한 이전 연구들은 언어학적 정보가 문서로부터 유전자 상호작용을 자동으로 추출하는 데 있어서 유용하다고 주장하고 있다. 하지만 기존의 방법들은 정확률에 비해 재현율이 많이 낮아서 성능이 그다지 좋지 못했다. 정확률의 감소 없이 재현율의 성능향상을 위해, 이 논문은 생물학관련 문서에서 구문관계에 기반하여 유전자 상호작용을 인식하는 방법을 제안한다. 생물학 도메인에 관련된 전문지식 없이, 우리의 방법은 단지 적은 양의 학습데이터를 사용하여 효과적인 성능을 보인다. LLL05(ICML05 Workshop on Learning Language in Logic)에서 제공한 데이터 포맷을 그대로 사용하여, 상호작용하는 두 유전자 중 작용의 주체가 되는 유전자를 에이전트라 하고 상호 작용의 대상이 되는 유전자를 타겟이라 한다. 본 논문에서 제안하는 첫 단계에서, 에이전트와 타겟 유전자에 대한 유전자-전이 구문관계를 인식한다. 두 번째 단계에서, 유전자 간의 상호작용이 있음을 암시하는 용언리스트를 구축한다. 마지막 단계에서, 상호작용하는 것으로 인식된 두 유전자 중 어느 것이 에이전트이고 타겟인지를 판단하기 위해 구문관계의 방향 정보를 학습한다. LLL05 데이터를 사용한 실험결과에서, 본 논문에서 제안한 방법이 학습 데이터에 대해서는 88%의 F-measure 성능을 보였고, 테스트 데이터에 대해서는 70.4%의 F-measure 성능을 보였다. 이 결과는 기존의 방법들보다 훨씬 더 좋은 성능이다. 우리는 성능에 대한 각 단계의 공헌도를 실험하여, 첫 단계는 재현율 향상에 기여를 하고 두 번째와 세 번째 단계는 정확률 향상에 기여했음을 보인다.