• 제목/요약/키워드: 존재의 언어

Search Result 713, Processing Time 0.026 seconds

Development of Tagging Dataset for Named Entity Recognition in Security (정보보안 분야의 위협정보 개체명 인식 시스템 개발을 위한 데이터셋 구축)

  • Kim, GyeongMin;Hur, YunA;Kim, Kuekyeng;Lim, HeuiSeok
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.669-671
    • /
    • 2018
  • 개체명 인식(Named Entity Recognition)은 주로 인명(PS), 지명(LC), 기관명(OG) 등의 개체를 인식하기 위한 방식으로 많이 사용되어왔다. 그 이유는 해당 개체들이 데이터에서 중요한 의미를 가진 키워드이기 때문이다. 그러나 다른 도메인이 달라진다면 그동안 사용된 개체보다 더욱 중요한 의미를 갖는 개체가 존재할 수 있다. 특히 정보보안 분야에서는 악의적으로 사용되는 위협정보가 문서 내에서 중요한 의미를 갖는다. 보안 문서는 해시값, 악성코드명, IP, 도메인/URL 등 위협정보에 중요한 단서가 될 수 있는 다양한 정보를 담고 있다. 본 논문에서는 정보보안 분야의 위협정보를 탐지할 수 있는 개체명 시스템 개발을 위해 4개의 클래스와 20가지 속성으로 정의한 구축 방식을 구축하고 그 구축 방식에 대해 제안한다.

  • PDF

Attention-based Unsupervised Style Transfer by Noising Input Sentences (입력 문장 Noising과 Attention 기반 비교사 한국어 문체 변환)

  • Noh, Hyungjong;Lee, Yeonsoo
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.434-439
    • /
    • 2018
  • 문체 변환 시스템을 학습하는 데 있어서 가장 큰 어려움 중 하나는 병렬 말뭉치가 부족하다는 것이다. 최근 대량의 비병렬 말뭉치만으로 문체 변환 문제를 해결하려는 많은 연구들이 발표되었지만, 아직까지도 원 문장의 정보 보존(Content preservation)과 문체 변환(Style transfer) 모두를 이루는 것이 쉽지 않은 상태이다. 특히 비교사 학습의 특성상 문체 변환과 동시에 정보를 보존하는 것이 매우 어렵다. Attention 기반의 Seq2seq 네트워크를 이용할 경우에는 과도하게 원문의 정보가 보존되어 문체 변환 능력이 떨어지기도 한다. 그리고 OOV(Out-Of-Vocabulary) 문제 또한 존재한다. 본 논문에서는 Attention 기반의 Seq2seq 네트워크를 이용하여 어절 단위의 정보 보존력을 최대한 높이면서도, 입력 문장에 효과적으로 Noise를 넣어 문체 변환 성능을 저해하는 과도한 정보 보존 현상을 막고 문체의 특성을 나타내는 어절들이 잘 변환되도록 할 뿐 아니라 OOV 문제도 줄일 수 있는 방법을 제안한다. 우리는 비교 실험을 통해 본 논문에서 제안한 방법들이 한국어 문장뿐 아니라 영어 문장에 대해서도 state-of-the-art 시스템들에 비해 향상된 성능을 보여준다는 사실을 확인하였다.

  • PDF

Linguistic Map-based Navigational Planning for Mobile Robots on Dynamic Environment (동적 환경하에서의 이동로봇을 위한 언어지도 기반 운항계획)

  • Seo, Suk-Tae;Lee, In-K.;Kwon, Soon-H.
    • Journal of the Korean Institute of Intelligent Systems
    • /
    • v.14 no.4
    • /
    • pp.396-401
    • /
    • 2004
  • Recently a framework for the cognition-based navigational planning of a mobile robot on dynamic environment has been proposed, and simulation results applied it to the static environment been presented [1]. In this paper, we propose a linguistic map-based framework for the navigational planning of mobile robots, which is applicable to the dynamic environment including not only static obstacles but also dynamic obstacles such as temporal-spatio obstacles, by extending Lee et al. 's framework, and provide computer simulation results obtained by applying to a mobile robot on the dynamic environment in order to show the validity of the proposed algorithm.

A Study on Korean Language Processing of Degree Adverb modifying Stative Noun (한국어에서 상태성 명사 수식 정도부사의 처리에 관한 연구)

  • Park, Sung-Won;Min, Chang-Woo;Kim, Seong-Mook
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.373-380
    • /
    • 2001
  • 한국어에서 부사는 관형사와 구별하여 통사적으로 명사 등의 체언을 수식할 수 없다고 분석하는 것이 일반적이다. 의미적으로 상태성 명사와 수식관계를 가질 수 있는 정도부사의 경우에도 명사를 직접 수식하는 것이 아니라 그 명사를 보어로 취하는 지정사를 포함한 지정사구 전체를 수식한다는 것이 현재의 이론언어학에서의 입장이다. 본 논문에서는 말뭉치에 나타난 실제 문장을 기계적으로 처리하는 관점에서 정도부사의 수식을 받는 것은 지정사구가 아니라 상태성 명사 자체로 설정하고자 한다. 이러한 근거로서 말뭉치에서 추출한 실제 문장을 중심으로 정도부사의 수식을 받는 지정사구에 지정사가 생략되는 경우와 지정사구 형태가 아닌 다양한 명사구 형태 역시 정도부사의 수식을 받는 경우가 존재함을 보인다. 또한 정도 부사와 결합하는 명사들이 갖는 의미적 특성을 통해 정도부사와 명사와 결합시켜야 수식 관계의 처리에 용이함을 보이고 정도부사에 대한 이론적 설명에도 타당함을 보인다. 마지막으로 말뭉치에 나타난 정도부사의 수식을 받는 명사의 용례를 분석하여 빈도 및 하위 분류 특성을 살펴본다.

  • PDF

An Implementation of Syntactic Constituent Recognizer Using Connectionism (Connectionism을 이용한 부분 구문 인식기의 구현)

  • Jung, Han-Min;Yuh, Sang-Hwa;Kim, Tae-Wan;Park, Dong-In
    • Annual Conference on Human and Language Technology
    • /
    • 1996.10a
    • /
    • pp.479-483
    • /
    • 1996
  • 본 논문은 구운 분석의 검색 영역 축소를 통한 구문 분석기의 성능 향상을 목적으로 connectionism을 이용한 부분 구문 인식기의 설계와 구현을 기술한다. 본 부분 구문 인식기는 형태소 분석된 문장으로부터 명사-주어부와 술어부를 인식함으로써 전체 검색 영역을 여러 부분으로 나누어 구문 분석문제를 축소시키는 것을 목적으로 하고 있다. Connectionist 모델은 입력층과 출력층으로 구성된 개선된 퍼셉트론 구조이며, 입/출력층 사이의 노드들을, 입력층 사이의 노드들을 연결하는 연결 강도(weight)가 존재한다. 명사-주어부 및 술어부 구문 태그를 connectionist 모델에 적용하며, 학습 알고리즘으로는 개선된 백프로퍼게이션 학습 알고리즘을 사용한다. 부분 구문 인식 실험은 112개 문장의 학습 코퍼스와 46개 문장의 실험 코퍼스에 대하여 85.7%와 80.4%의 정확한 명사-주어부 및 술어부 인식을, 94.6%와 95.7%의 명사-주어부와 술어부 사이의 올바른 경계 인식을 보여준다.

  • PDF

A proposal on the framework of searching patterns for Hangul characters and Its relationship with Hangul code (한글 글자단위 검색 기능 구현에서의 검색 유형 정의 및 한글 부호계와의 연관성에 관한 연구)

  • Lee, Jung-Hwa;Kim, Kyong-Sok
    • Annual Conference on Human and Language Technology
    • /
    • 1994.11a
    • /
    • pp.282-287
    • /
    • 1994
  • 본 논문에서는 글자 단위를 기본으로 하는 한글 검색 기능을 구현할 때 적용될 수 있는 검색유형 (search pattern) 들은 어떠한 것들이 존재할 수 있는지에 대해 먼저 살펴보고, 검색 알고리즘에 적용시켜 본다. 이 때 부호계와의 연관성과 효율성을 따져보기 위해서 두 바이트 상용조합형, 두 바이트 KS C 5601 완성형, n-바이트 (3 바이트) 부호계, 그리고 국제 표준 한글 부호계의 첫-가-끝 부호계 등 여러가지 부호계를 사용할 때를 서로 비교해 본다. 각 부호계를 사용할 때 알고리즘이 조금씩 바뀌게된다. 그 변형을 살펴보면 그 효율을 측정할 수 있는데, 한글 글자단위 검색 등의 유형의 작업에서는 조합방식의 부호계를 사용하면 더욱 편리하다는 것을 알 수 있다. 이는 단순히 한글 글자단위 검색 기능에서 유리하다고 하기보다는 한글의 특성을 더 잘 반영하고 있다고 할 수 있는 것이다. 또한 조합방식의 부호체계 중에서도 별도의 연산값이 소리마디에서 글자를 분리해 낼 수 있는 부호계 (3-바이트 부호계, 첫-가-끝 부호계) 의 경우는 글자를 기본 단위로 처리하고자 하는 응용 분야에서 더욱 편리하게 사용될 수 있다.

  • PDF

Conceptual Description of Hierarchical Structure in Discourse (담화 내 계층 구조의 개념 구조적 기술)

  • 구유선
    • Korean Journal of Cognitive Science
    • /
    • v.11 no.3_4
    • /
    • pp.23-32
    • /
    • 2000
  • The distinction between main structure and side structure in discourse which was central to narrative studies has lacked an adequate. formal definition. This study supports the contention that there exists a hierarchical structure between discourse units constituting main structures, substructures, and side structures. The aim of this study is twofold: (j) to present an adequate. formal definition that provides a general identification criterion for distinguishing main structure from substructure and side structure proposed by Kuppevelt, and (jj) to propose conceptual relations representing hierarchical structures in discourse based on Sowa's Conceptual Structure Theory. The proposed conceptual relations which represent hierarchy and pragmatic relations of discourse segments are: DIGR (digression). T-SHFT (topic shift), and FRAM (frame). This s study shows pragmatic functions can be incorporated within CST in a systematic way.

  • PDF

Design of Ontology Object Model Generation System (온톨로지 객체 모델 생성 시스템 설계)

  • Park, Cheon-Shu;Lee, Mi-Kyoung;Sohn, Joo-Chan;Ham, Ho-Sang
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2003.11b
    • /
    • pp.1297-1300
    • /
    • 2003
  • 본 논문은 웹 온톨로지 데이터를 접근, 표현 및 처리 할 수 있는 온톨로지 객체 모델을 생성하기 위한 시스템이다. 시멘틱 웹의 대두로 인해 웹 상에 존재하는 데이터의 특성에 따라서 접근 할수 있는 방법도 다양화 되었다. 이에 웹 상에서 산재되어 있는 지식들을 가져와 각 도메인에 맞게 새로운 온톨로지를 생성하고 서로 다른 언어로 표현된 온톨로지를 계층 어휘들을 이용하여 시멘틱웹 환경에서 지식을 처리하기 위해 웹 온톨로지를 구축하고 처리할 수 있는 온톨로지 객체 모델을 제공하고, 온톨로지 객체 모델 API를 통해 외부 어플리케이션과의 정보를 교환한다. 본 논문에서는 웹 온톨로지를 표현하기 위한 모델을 계층별로 구별하여 프레임 기반의 상위 온톨로지(frame-based ontology layer), 다른 도메인에서도 사용이 가능한 공통된 어휘(vocabulary)를 표현한 핵심 온톨로지(generic ontology layer)와 각각의 온톨로지 언어에 의존적인 어휘를 표현한 기능 온톨로지(functional ontology layer)로 구성하여 표현의 중복을 없애고 재 사용성을 높이기 위한 모델을 제공함으로써, 온톨로지 추론, 병합 및 저작 도구 등의 외부 어플리케이션이 온톨로지 객체 모델에 손쉽게 접근할수 있고, 온톨로지에 대한 쉬운 지식 표현 및 핸들링을 제공할 수 있다.

  • PDF

A Goal-oriented Test Data Generation for Programs with Pointers based on SAT (SAT에 기반한 포인터가 있는 프로그램을 위한 목적 지향 테스트 데이터 생성)

  • Chung, In-Sang
    • Journal of Internet Computing and Services
    • /
    • v.9 no.2
    • /
    • pp.89-105
    • /
    • 2008
  • So far, most of research on automated test data generation(ATDG) deals with programs without pointers. Recently, few works hove been done on ATDG in the presence of pointers, but they ore path-oriented techniques which require the specification of on entire program path to be tested or a program to be executed. This paper presents a new technique for generating test data even without specifying a program path completely. The presented technique is a static technique which transforms the test data generation problem into a SAT(SATisfiability) problem and makes advantage of SAT solvers for ATDG. For the ends, we transform a program under test into Alloy which is the first-order relational logic and then produce test data via Alloy analyzer.

  • PDF

Pattern Construction for Semantic Relation Extraction using Verb Information (동사 정보를 활용한 의미 관계 추출을 위한패턴 구축)

  • Kim, Se-Jong;Lee, Yong-Hun;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2008.10a
    • /
    • pp.118-123
    • /
    • 2008
  • 온톨로지란 실세계에 존재하는 사물 및 개념, 그리고 용어들 간의 관계들을 컴퓨터가 이해할 수 있는 형태로 표현한 것이다. 온톨로지 구축에 있어서 대용량 코퍼스의 활용은 해당코퍼스에서 등장하는 용어들과 이들 사이에서 나타나는 문자열을 일종의 패턴으로 취급하여 특정 패턴과 함께 나타나는 용어 쌍들을 해당 패턴이 대표하는 의미 관계로 설정하는 방식을 취한다. 그러나 기존의 방법은 주로 두 용어들 사이에서 나타나는 문자열만을 고려하여 패턴을 추출하기 때문에 해당 문장에 포함된 보다 다양한 문장 정보들을 활용할 수 없다. 본 논문은 이러한 한계점을 감안하여, 용어 쌍 사이에서 나타나는 문자열과 주변 동사 정보를 함께 고려함으로써 패턴의 정교성을 향상시키는 방법을 제안한다. 또한 동사들의 동의어를 활용하여 다양한 용어들을 포괄할 수 있는 일반화된 패턴을 구축한다. 본 방법론은 is-a 관계의 경우 64%, part-of 관계의 경우 83%, made-of 관계의 경우 73%, use 관계의 경우 72%의 정확률을 보였으며 모두 기존 방법보다 향상된 결과를 가져왔다.

  • PDF