• 제목/요약/키워드: 존재의 언어

검색결과 711건 처리시간 0.029초

입력 문장 Noising과 Attention 기반 비교사 한국어 문체 변환 (Attention-based Unsupervised Style Transfer by Noising Input Sentences)

  • 노형종;이연수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.434-439
    • /
    • 2018
  • 문체 변환 시스템을 학습하는 데 있어서 가장 큰 어려움 중 하나는 병렬 말뭉치가 부족하다는 것이다. 최근 대량의 비병렬 말뭉치만으로 문체 변환 문제를 해결하려는 많은 연구들이 발표되었지만, 아직까지도 원 문장의 정보 보존(Content preservation)과 문체 변환(Style transfer) 모두를 이루는 것이 쉽지 않은 상태이다. 특히 비교사 학습의 특성상 문체 변환과 동시에 정보를 보존하는 것이 매우 어렵다. Attention 기반의 Seq2seq 네트워크를 이용할 경우에는 과도하게 원문의 정보가 보존되어 문체 변환 능력이 떨어지기도 한다. 그리고 OOV(Out-Of-Vocabulary) 문제 또한 존재한다. 본 논문에서는 Attention 기반의 Seq2seq 네트워크를 이용하여 어절 단위의 정보 보존력을 최대한 높이면서도, 입력 문장에 효과적으로 Noise를 넣어 문체 변환 성능을 저해하는 과도한 정보 보존 현상을 막고 문체의 특성을 나타내는 어절들이 잘 변환되도록 할 뿐 아니라 OOV 문제도 줄일 수 있는 방법을 제안한다. 우리는 비교 실험을 통해 본 논문에서 제안한 방법들이 한국어 문장뿐 아니라 영어 문장에 대해서도 state-of-the-art 시스템들에 비해 향상된 성능을 보여준다는 사실을 확인하였다.

  • PDF

동적 환경하에서의 이동로봇을 위한 언어지도 기반 운항계획 (Linguistic Map-based Navigational Planning for Mobile Robots on Dynamic Environment)

  • 서석태;이인근;권순학
    • 한국지능시스템학회논문지
    • /
    • 제14권4호
    • /
    • pp.396-401
    • /
    • 2004
  • 최근, 동적 환경 하에서 움직이는 이동로봇을 위한 인지에 기반 한 운항계획 방법론이 제안되었고, 이를 고정 장애물만이 존재하는 공간 속에서 모의 실험한 결과가 제시되었다 [1]. 본 논문에서는 이를 고정 장애물만이 아닌 시간적/공간적 장애물을 포함하는 동적 환경 하에서도 적용 가능한 방법으로 확장한 언어지도 기반 운항계획법을 제안하고, 제안된 알고리즘의 타당성 보이기 위하여 컴퓨터 모의실험 결과를 나타낸다.

한국어에서 상태성 명사 수식 정도부사의 처리에 관한 연구 (A Study on Korean Language Processing of Degree Adverb modifying Stative Noun)

  • 박성원;민창우;김성묵
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.373-380
    • /
    • 2001
  • 한국어에서 부사는 관형사와 구별하여 통사적으로 명사 등의 체언을 수식할 수 없다고 분석하는 것이 일반적이다. 의미적으로 상태성 명사와 수식관계를 가질 수 있는 정도부사의 경우에도 명사를 직접 수식하는 것이 아니라 그 명사를 보어로 취하는 지정사를 포함한 지정사구 전체를 수식한다는 것이 현재의 이론언어학에서의 입장이다. 본 논문에서는 말뭉치에 나타난 실제 문장을 기계적으로 처리하는 관점에서 정도부사의 수식을 받는 것은 지정사구가 아니라 상태성 명사 자체로 설정하고자 한다. 이러한 근거로서 말뭉치에서 추출한 실제 문장을 중심으로 정도부사의 수식을 받는 지정사구에 지정사가 생략되는 경우와 지정사구 형태가 아닌 다양한 명사구 형태 역시 정도부사의 수식을 받는 경우가 존재함을 보인다. 또한 정도 부사와 결합하는 명사들이 갖는 의미적 특성을 통해 정도부사와 명사와 결합시켜야 수식 관계의 처리에 용이함을 보이고 정도부사에 대한 이론적 설명에도 타당함을 보인다. 마지막으로 말뭉치에 나타난 정도부사의 수식을 받는 명사의 용례를 분석하여 빈도 및 하위 분류 특성을 살펴본다.

  • PDF

Connectionism을 이용한 부분 구문 인식기의 구현 (An Implementation of Syntactic Constituent Recognizer Using Connectionism)

  • 정한민;여상화;김태완;박동인
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.479-483
    • /
    • 1996
  • 본 논문은 구운 분석의 검색 영역 축소를 통한 구문 분석기의 성능 향상을 목적으로 connectionism을 이용한 부분 구문 인식기의 설계와 구현을 기술한다. 본 부분 구문 인식기는 형태소 분석된 문장으로부터 명사-주어부와 술어부를 인식함으로써 전체 검색 영역을 여러 부분으로 나누어 구문 분석문제를 축소시키는 것을 목적으로 하고 있다. Connectionist 모델은 입력층과 출력층으로 구성된 개선된 퍼셉트론 구조이며, 입/출력층 사이의 노드들을, 입력층 사이의 노드들을 연결하는 연결 강도(weight)가 존재한다. 명사-주어부 및 술어부 구문 태그를 connectionist 모델에 적용하며, 학습 알고리즘으로는 개선된 백프로퍼게이션 학습 알고리즘을 사용한다. 부분 구문 인식 실험은 112개 문장의 학습 코퍼스와 46개 문장의 실험 코퍼스에 대하여 85.7%와 80.4%의 정확한 명사-주어부 및 술어부 인식을, 94.6%와 95.7%의 명사-주어부와 술어부 사이의 올바른 경계 인식을 보여준다.

  • PDF

한글 글자단위 검색 기능 구현에서의 검색 유형 정의 및 한글 부호계와의 연관성에 관한 연구 (A proposal on the framework of searching patterns for Hangul characters and Its relationship with Hangul code)

  • 이종화;김경석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.282-287
    • /
    • 1994
  • 본 논문에서는 글자 단위를 기본으로 하는 한글 검색 기능을 구현할 때 적용될 수 있는 검색유형 (search pattern) 들은 어떠한 것들이 존재할 수 있는지에 대해 먼저 살펴보고, 검색 알고리즘에 적용시켜 본다. 이 때 부호계와의 연관성과 효율성을 따져보기 위해서 두 바이트 상용조합형, 두 바이트 KS C 5601 완성형, n-바이트 (3 바이트) 부호계, 그리고 국제 표준 한글 부호계의 첫-가-끝 부호계 등 여러가지 부호계를 사용할 때를 서로 비교해 본다. 각 부호계를 사용할 때 알고리즘이 조금씩 바뀌게된다. 그 변형을 살펴보면 그 효율을 측정할 수 있는데, 한글 글자단위 검색 등의 유형의 작업에서는 조합방식의 부호계를 사용하면 더욱 편리하다는 것을 알 수 있다. 이는 단순히 한글 글자단위 검색 기능에서 유리하다고 하기보다는 한글의 특성을 더 잘 반영하고 있다고 할 수 있는 것이다. 또한 조합방식의 부호체계 중에서도 별도의 연산값이 소리마디에서 글자를 분리해 낼 수 있는 부호계 (3-바이트 부호계, 첫-가-끝 부호계) 의 경우는 글자를 기본 단위로 처리하고자 하는 응용 분야에서 더욱 편리하게 사용될 수 있다.

  • PDF

담화 내 계층 구조의 개념 구조적 기술 (Conceptual Description of Hierarchical Structure in Discourse)

  • 구유선
    • 인지과학
    • /
    • 제11권3_4호
    • /
    • pp.23-32
    • /
    • 2000
  • 과거 서술 연구 중심의 주구조와 부구조의 차이는 적절하고 형식적인 정의가 부족하다. 본 연구는 주구조, 하위 구조, 부구조를 구성하는 담화 단위사이에 계층구조가 존재함을 주장한다. 본 연구의 목적은 두 가지로 요약된다. 첫째, Kuppevelt가 제안한 주구조를 하위구조나 부구조와 구별하는 식별기준을 나타내는 형식적 정의를 제시한다. 둘째, 지식 표현 언어인 Sowa의 개념구조론의 체계 내에서 담화의 계층구조와 그 구조를 나타내는 언어적 표시인 담화표시의 예를 기술하는 방법을 제시한다. 개념관계로 일탈, 화제 전환, 틀의 관계를 설정하여 담화 내 계층구조와 담화부분과의 화용적인 관계를 규명하였다. 기존의 개념구조론은 선택적 제약, 조응 등의 의미론적인 개념들을 간결하고 정확하게 기술할 수 있었는데 화용론적인 측면의 기술도 가능함을 보여준다.

  • PDF

온톨로지 객체 모델 생성 시스템 설계 (Design of Ontology Object Model Generation System)

  • 박천수;이미경;손주찬;함호상
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (중)
    • /
    • pp.1297-1300
    • /
    • 2003
  • 본 논문은 웹 온톨로지 데이터를 접근, 표현 및 처리 할 수 있는 온톨로지 객체 모델을 생성하기 위한 시스템이다. 시멘틱 웹의 대두로 인해 웹 상에 존재하는 데이터의 특성에 따라서 접근 할수 있는 방법도 다양화 되었다. 이에 웹 상에서 산재되어 있는 지식들을 가져와 각 도메인에 맞게 새로운 온톨로지를 생성하고 서로 다른 언어로 표현된 온톨로지를 계층 어휘들을 이용하여 시멘틱웹 환경에서 지식을 처리하기 위해 웹 온톨로지를 구축하고 처리할 수 있는 온톨로지 객체 모델을 제공하고, 온톨로지 객체 모델 API를 통해 외부 어플리케이션과의 정보를 교환한다. 본 논문에서는 웹 온톨로지를 표현하기 위한 모델을 계층별로 구별하여 프레임 기반의 상위 온톨로지(frame-based ontology layer), 다른 도메인에서도 사용이 가능한 공통된 어휘(vocabulary)를 표현한 핵심 온톨로지(generic ontology layer)와 각각의 온톨로지 언어에 의존적인 어휘를 표현한 기능 온톨로지(functional ontology layer)로 구성하여 표현의 중복을 없애고 재 사용성을 높이기 위한 모델을 제공함으로써, 온톨로지 추론, 병합 및 저작 도구 등의 외부 어플리케이션이 온톨로지 객체 모델에 손쉽게 접근할수 있고, 온톨로지에 대한 쉬운 지식 표현 및 핸들링을 제공할 수 있다.

  • PDF

SAT에 기반한 포인터가 있는 프로그램을 위한 목적 지향 테스트 데이터 생성 (A Goal-oriented Test Data Generation for Programs with Pointers based on SAT)

  • 정인상
    • 인터넷정보학회논문지
    • /
    • 제9권2호
    • /
    • pp.89-105
    • /
    • 2008
  • 지금까지 테스트 데이터를 자동으로 생성하기 위한 대부분의 연구는 프로그램에 포인터가 존재하지 않는 경우만을 대상으로 하였다. 최근에 포인터가 있는 경우에도 테스트 데이터를 자동으로 생성할 수 있는 방법들이 제안되었지만 테스트할 프로그램 경로를 완전하게 명시해야 하는 경로 기반 방법이거나 프로그램을 실제 실행해야 하는 방법들이다. 이 논문에서는 프로그램 경로를 완전하게 명시하지 않아도 포인터가 있는 프로그램에 대하여 테스트 데이터를 생성할 수 있는 새로운 방법을 제안한다. 제안된 방법은 테스트 데이터 생성 문제를SAT(SATisfiability) 문제로 변환하고 SAT 해결도구를 이용하여 자동으로 테스트 데이터를 생성하는 정적 방법이다. 이를 위해 프로그램을 1차 관계 논리 언어인 Alloy로 변환하고 Alloy 분석기를 통하여 테스트 데이터를 생성한다.

  • PDF

동사 정보를 활용한 의미 관계 추출을 위한패턴 구축 (Pattern Construction for Semantic Relation Extraction using Verb Information)

  • 김세종;이용훈;이종혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.118-123
    • /
    • 2008
  • 온톨로지란 실세계에 존재하는 사물 및 개념, 그리고 용어들 간의 관계들을 컴퓨터가 이해할 수 있는 형태로 표현한 것이다. 온톨로지 구축에 있어서 대용량 코퍼스의 활용은 해당코퍼스에서 등장하는 용어들과 이들 사이에서 나타나는 문자열을 일종의 패턴으로 취급하여 특정 패턴과 함께 나타나는 용어 쌍들을 해당 패턴이 대표하는 의미 관계로 설정하는 방식을 취한다. 그러나 기존의 방법은 주로 두 용어들 사이에서 나타나는 문자열만을 고려하여 패턴을 추출하기 때문에 해당 문장에 포함된 보다 다양한 문장 정보들을 활용할 수 없다. 본 논문은 이러한 한계점을 감안하여, 용어 쌍 사이에서 나타나는 문자열과 주변 동사 정보를 함께 고려함으로써 패턴의 정교성을 향상시키는 방법을 제안한다. 또한 동사들의 동의어를 활용하여 다양한 용어들을 포괄할 수 있는 일반화된 패턴을 구축한다. 본 방법론은 is-a 관계의 경우 64%, part-of 관계의 경우 83%, made-of 관계의 경우 73%, use 관계의 경우 72%의 정확률을 보였으며 모두 기존 방법보다 향상된 결과를 가져왔다.

  • PDF

자연어 처리 기반 텍스트 마이닝을 위한 한글 어간 추출 알고리즘 (Hangeul Stem Extraction Algorithm for Text Mining Based on Natural Language Processing)

  • 최기원;최성훈;조상현;김희철
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 춘계학술대회
    • /
    • pp.718-721
    • /
    • 2017
  • 텍스트 마이닝의 기반이 되는 자연어 처리는 언어의 종류에 따라 처리 방법이 다를 수 있다. 특히 타 언어에 비해 비교적 표현의 자유도가 높은 한글은 어미의 활용에 따라서 여러 가지 단어의 형태가 존재한다. 이처럼 다양한 형태로 굴절하는 단어에서 변화하지 않는 부분을 어간이라고 하며, 효과적인 텍스트 마이닝을 위해선 어간을 추출하여 다양한 형태의 단어들을 단일화하는 과정이 필수적이다. 따라서 본 논문에서는 한글문서의 효과적인 텍스트 마이닝을 위하여 한글 어간 추출 알고리즘을 제시한다.

  • PDF