• Title/Summary/Keyword: Syntactic Analysis

검색결과 261건 처리시간 0.023초

문장 및 어절 유사도를 이용한 표절 탐지 시스템 구현 (Implementation of A Plagiarism Detecting System with Sentence and Syntactic Word Similarities)

  • 맹주수;박지수;손진곤
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제8권3호
    • /
    • pp.109-114
    • /
    • 2019
  • 기존 표절 탐지 시스템은 형태소 분석을 기반으로 공통 단어의 빈도수를 이용해 문서의 유사도를 측정한다. 그러나 주제가 같아 유사 단어가 많이 쓰인 경우, 문장 단위로 일부만 발췌 표절한 경우, 그리고 조사와 어미의 유사성이 있는 경우는 공통 단어의 빈도수만으로는 정확한 유사도를 측정하는데 한계가 있다. 따라서 본 논문에서는 공통 단어 빈도수 기반의 유사도 측정 외에 문장 유사도와 어절 유사도를 추가적으로 측정해 유사도의 정확성을 높일 수 있는 표절 탐지 시스템을 설계하고 구현하였다. 실험 결과, 문장 유사도를 측정함으로써 문장 단위로 표절이 이루어진 경우를 발견할 수 있었고, 어절 유사도를 추가로 측정함으로써 부분표절이 일어난 경우라도 조사나 어미까지 그대로 사용한 표절의 경우 등을 발견할 수 있었다.

Interactions between Morpho-Syntax and Semantics in English Agreement

  • Kim, Jong-Bok
    • 한국언어정보학회지:언어와정보
    • /
    • 제7권1호
    • /
    • pp.55-68
    • /
    • 2003
  • Most of the previous approaches to English agreement phenomena have relied upon only one component of the grammar (e.g., either syntax, or semantics, or pragmatics). This paper argues that interrelationships among different grammatical components play crucial roles in such phenomenon too (cf. Kathol 1999 and Hudson 1999). The paper proposes that, contrary to traditional wisdom, English determiner-noun agreement is morpho-syntactic whereas subject-verb and pronoun-antecedent agreement are reflections of index agreement (cf. Pollard and Sag 1994). The present hybrid analysis of English agreement shows the importance of the interaction of different components of the grammar in accounting for English agreement phenomena. In particular, once we allow morphology to tightly interact with the system of syntax, semantics, or even pragmatics, we could provide a solution to some puzzling English agreement phenomena. This allows a more principled theory of English agreement.

  • PDF

A Syntactic Account of the Properties of Bare Nominals in Discourse

  • Ahn, Hee-Don;Cho, Sung-Eun
    • 한국언어정보학회:학술대회논문집
    • /
    • 한국언어정보학회 2007년도 정기학술대회
    • /
    • pp.57-66
    • /
    • 2007
  • Case markers in Korean are omissible in colloquial speech. Previous discourse studies of Caseless bare NPs in Korean show that the information structure of zero Nominative not only differs from that of overt Nominative but it also differs from that of zero Accusative in many respects. This paper aims to provide a basis for these semantic/pragmatic properties of Caseless NPs through the syntactic difference between bare subjects and bare objects: namely, the former are left-dislocated NPs, whereas the latter form complex predicates with the subcategorizing verbs. Our analysis will account for the facts that (i) the distribution of bare subject NPs are more restricted than that of bare object NPs; (ii) bare subject NPs must be specific or topical; (iii) Acc-marked NPs in canonical position tend to be focalized.

  • PDF

결합범주문법을 이용한 한국어 부정극어와 부정어의 통사 및 의미적 관계 분석 (An Analysis of Syntactic and Semantic Relations between Negative Polarity Items and Negatives in Korean.)

  • 김정재;박정철
    • 한국언어정보학회지:언어와정보
    • /
    • 제8권1호
    • /
    • pp.53-76
    • /
    • 2004
  • Negative polarity items(NPIs), which function as quantifiers are licensed in a syntactically strict way by negatives, which function as qualifiers, resulting in universal negating interpretations as pairs. We present a proposal to explain the related phenomena, in which the syntax and the semantics are closely related to each other, with Combinatory Categorial Grammar. For this purpose, we first adopt the usual approach to scrambling, but control its overgeneration with the use of markers, taking into account the complex syntactic phenomena involving NPIs and scrambling in Korean. We also propose to utilize polarity intensity as a novel feature, in order to account for the universal negating interpretations when NPIs are combined with negatives. Our proposal also explains the difference in readings when other quantifiers or qualifiers intervene the NPI and the related negatives.

  • PDF

대학생들의 증명 구성 방식과 개념 이해에 대한 분석 - 부분 공간에 대한 증명 과정을 중심으로 - (An Analysis of Students' Understanding of Mathematical Concepts and Proving - Focused on the concept of subspace in linear algebra -)

  • 조지영;권오남
    • 대한수학교육학회지:학교수학
    • /
    • 제14권4호
    • /
    • pp.469-493
    • /
    • 2012
  • 본 연구는 증명을 성공적으로 구성하는 학생들은 수학적 개념을 어떻게 이해하고 있으며, 증명을 어떻게 구성하는 지를 살펴보고 이를 통해 증명을 구성하는 다양한 방식과 개념 이해의 관련성을 분석하는 데 목적이 있다. 증명 구성에 도움이 되는 수학 학습에 제언을 얻기 위해서는 증명을 구성하는 과정과 그 과정에서 개념이 어떻게 반영되고 이용되는 지를 살펴볼 필요가 있다. 이를 위하여 4명의 수학교육과 학생들을 대상으로 사례연구를 실시하였다. 그 결과 구문론적 증명을 하는 학생들은 형식적 개념의 내용을 정확하게 알고 있을 뿐만 아니라 그 개념이 담겨있는 명제는 어떠한 방식으로 증명하는 지 그 방법까지 알고 있었다. 실제 증명에서도 평소 증명 경험을 통하여 학습한 증명 전개 방법을 이용하여 증명하는 것을 볼 수 있었으며, 이로부터 증명 방법에 대한 절차적 지식이 구문론적 증명에는 중요한 요소라는 결론을 얻을 수 있었다. 의미론적 증명을 하는 학생들은 형식적 개념의 내용을 정확하게 알고 있고 그 내용과 의미를 본인만의 언어나 그림으로 표현한 개념 이미지를 가지고 있었다. 구문론적 증명을 하는 학생들의 개념 이미지와 비교해보았을 때, 의미론적 증명을 하는 학생들의 개념 이미지는 구문론적 증명을 하는 학생들의 개념 이미지보다 형식적 개념의 내용을 잘 반영하고 있었다. 이러한 개념 이미지는 개념 이미지를 활용하여 증명의 아이디어를 생각하고, 생각한 아이디어를 증명의 형식에 맞게 표현하는 데 사용된다는 점에서 의미론적 증명에 필요한 요소라는 것을 발견할 수 있었다.

  • PDF

구문분석에 기반한 한글 자연어 질의로부터의 불리언 질의 생성 (Boolean Query Formulation From Korean Natural Language Queries using Syntactic Analysis)

  • 박미화;원형석;이근배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1219-1229
    • /
    • 1999
  • 일반적으로 AND, OR, NOT과 같은 연산자를 사용하는 불리언 질의는 사용자의 검색의도를 정확하게 표현할 수 있기 때문에 검색 전문가들은 불리언 질의를 사용하여 높은 검색성능을 얻는다고 알려져 있지만, 일반 사용자는 자신이 원하는 정보를 불리언 형태로 표현하는데 익숙하지 않다. 본 논문에서는 검색성능의 향상과 사용자 편의성을 동시에 만족하기 위하여 사용자의 자연어 질의를 확장 불리언 질의로 자동 변환하는 방법론을 제안한다. 먼저 자연어 질의를 범주문법에 기반한 구문분석을 수행하여 구문트리를 생성하고 연산자 및 키워드 정보를 추출하여 구문트리를 간략화한다. 다음으로 간략화된 구문트리로부터 명사구를 합성하고 키워드들에 대한 가중치를 부여한 후 불리언 질의를 생성하여 검색을 수행한다. 또한 구문분석의 오류로 인한 검색성능 저하를 최소화하기 위하여 상위 N개 구문트리에 대해 각각 불리언 질의를 생성하여 검색하는 N-BEST average 방법을 제안하였다. 정보검색 실험용 데이타 모음인 KTSET2.0으로 실험한 결과 제안된 방법은 수동으로 추출한 불리언 질의보다 8% 더 우수한 성능을 보였고, 기존의 벡터공간 모델에 기반한 자연어질의 시스템에 비해 23% 성능향상을 보였다. Abstract There have been a considerable evidence that trained users can achieve a good search effectiveness through a boolean query because a structural boolean query containing operators such as AND, OR, and NOT can make a more accurate representation of user's information need. However, it is not easy for ordinary users to construct a boolean query using appropriate boolean operators. In this paper, we propose a boolean query formulation method that automatically transforms a user's natural language query into a extended boolean query for both effectiveness and user convenience. First, a user's natural language query is syntactically analyzed using KCCG(Korean Combinatory Categorial Grammar) parser and resulting syntactic trees are structurally simplified using a tree-simplifying mechanism in order to catch the logical relationships between keywords. Next, in a simplified tree, plausible noun phrases are identified and added into the same tree as new additional keywords. Finally, a simplified syntactic tree is automatically converted into a boolean query using some mapping rules and linguistic heuristics. We also propose an N-BEST average method that uses top N syntactic trees to compensate for bad effects of single incorrect top syntactic tree. In experiments using KTSET2.0, we showed that a proposed method outperformed a traditional vector space model by 23%, and surprisingly manually constructed boolean queries by 8%.

연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견 (Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm)

  • 김동성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF

Analysis of Web Browser Security Configuration Options

  • Jillepalli, Ananth A.;de Leon, Daniel Conte;Steiner, Stuart;Alves-Foss, Jim
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권12호
    • /
    • pp.6139-6160
    • /
    • 2018
  • For ease of use and access, web browsers are now being used to access and modify sensitive data and systems including critical control systems. Due to their computational capabilities and network connectivity, browsers are vulnerable to several types of attacks, even when fully updated. Browsers are also the main target of phishing attacks. Many browser attacks, including phishing, could be prevented or mitigated by using site-, user-, and device-specific security configurations. However, we discovered that all major browsers expose disparate security configuration procedures, option names, values, and semantics. This results in an extremely hard to secure web browsing ecosystem. We analyzed more than a 1000 browser security configuration options in three major browsers and found that only 13 configuration options had syntactic and semantic similarity, while 4 configuration options had semantic similarity, but not syntactic similarity. We: a) describe the results of our in-depth analysis of browser security configuration options; b) demonstrate the complexity of policy-based configuration of web browsers; c) describe a knowledge-based solution that would enable organizations to implement highly-granular and policy-level secure configurations for their information and operational technology browsing infrastructures at the enterprise scale; and d) argue for necessity of developing a common language and semantics for web browser configurations.

한국어 전산처리에서 규칙과 확률을 이용한 구문관계에 따른 의미역 결정 (Determination of Thematic Roles according to Syntactic Relations Using Rules and Statistical Models in Korean Language Processing)

  • 강신재;박정혜
    • 한국산업정보학회논문지
    • /
    • 제8권1호
    • /
    • pp.33-42
    • /
    • 2003
  • 본 논문은 한국어정보처리 과정에서 규칙과 확률을 이용하여 구문 관계를 의미역으로 사상시키는 방법을 제시하고 있다. 의미역의 결정은 의미 분석의 핵심 작업 중 하나이며 자연어처리에서 해결해야 하는 매우 중요한 문제중 하나이다. 일반적인 언어학 지식과 경험만 가지고 의미역 결정 규칙을 기술하는 것은 작업자의 주관에 따라 결과가 많이 달라질 수 있으며, 또 모든 경우를 다룰 수 있는 규칙의 구축은 불가능하다. 하지만 본 논문에서 제시하는 혼합 방법은 대량의 원시 말뭉치를 분석하여 실제 언어의 다양한 사용례를 반영하며, 또 수십 명의 한국어학자들이 심도 있게 구축하고 있는 세종전자사전의 격틀 정보도 함께 고려하기 때문에 보다 객관적이고 효율적인 방법이라 할 수 있다. 의미역을 보다 정확하게 결정하기 위해 구문관계, 의미부류, 형태소 정보, 이중주어의 위치정보 등의 자질 정보를 사용하였으며, 특히 의미부류의 사용으로 인해 적용률이 향상되는 효과를 가져올 수 있었다.

  • PDF