• 제목/요약/키워드: 문제 생성

검색결과 4,184건 처리시간 0.047초

핵심어 시퀀스와 지식 그래프를 이용한 RNN 기반 자연어 문장 생성 (RNN Based Natural Language Sentence Generation from a Knowledge Graph and Keyword Sequence)

  • 권성구;노윤석;최수정;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.425-429
    • /
    • 2018
  • 지식 그래프는 많은 수의 개채와 이들 사이의 관계를 저장하고 있기 때문에 많은 연구에서 중요한 자원으로 활용된다. 최근에는 챗봇과 질의응답과 같은 연구에서 자연어 생성을 위한 연구에 활용되고 있다. 특히 자연어 생성에서 최근 발전 된 심층 신경망이 사용되고 있는데, 이러한 방식은 모델 학습을 위한 많은 양의 데이터가 필요하다. 즉, 심층신경망을 기반으로 지식 그래프에서 문장을 생성하기 위해서는 많은 트리플과 문장 쌍 데이터가 필요하지만 학습을 위해 사용하기엔 데이터가 부족하다는 문제가 있다. 따라서 본 논문에서는 데이터 부족 문제를 해결하기 위해 핵심어 시퀀스를 추출하여 학습하는 방법을 제안하고, 학습된 모델을 통해 트리플을 입력으로 하여 자연어 문장을 생성한다. 부족한 트리플과 문장 쌍 데이터를 대체하기 위해 핵심어 시퀀스를 추출하는 모듈을 사용해 핵심어 시퀀스와 문장 쌍 데이터를 생성하였고, 순환 신경망 기반의 인코더 - 디코더 모델을 사용해 자연어 문장을 생성하였다. 실험 결과, 핵심어 시퀀스와 문장 쌍 데이터를 이용해 학습된 모델을 이용해 트리플에서 자연어 문장 생성이 원활히 가능하며, 부족한 트리플과 문장 쌍 데이터를 대체하는데 효과적임을 밝혔다.

  • PDF

SAT에 기반한 포인터가 있는 프로그램을 위한 목적 지향 테스트 데이터 생성 (A Goal-oriented Test Data Generation for Programs with Pointers based on SAT)

  • 정인상
    • 인터넷정보학회논문지
    • /
    • 제9권2호
    • /
    • pp.89-105
    • /
    • 2008
  • 지금까지 테스트 데이터를 자동으로 생성하기 위한 대부분의 연구는 프로그램에 포인터가 존재하지 않는 경우만을 대상으로 하였다. 최근에 포인터가 있는 경우에도 테스트 데이터를 자동으로 생성할 수 있는 방법들이 제안되었지만 테스트할 프로그램 경로를 완전하게 명시해야 하는 경로 기반 방법이거나 프로그램을 실제 실행해야 하는 방법들이다. 이 논문에서는 프로그램 경로를 완전하게 명시하지 않아도 포인터가 있는 프로그램에 대하여 테스트 데이터를 생성할 수 있는 새로운 방법을 제안한다. 제안된 방법은 테스트 데이터 생성 문제를SAT(SATisfiability) 문제로 변환하고 SAT 해결도구를 이용하여 자동으로 테스트 데이터를 생성하는 정적 방법이다. 이를 위해 프로그램을 1차 관계 논리 언어인 Alloy로 변환하고 Alloy 분석기를 통하여 테스트 데이터를 생성한다.

  • PDF

다중 도메인 답변 생성 모델을 위한 인간의 기억 시스템을 모방하는 지속 학습 기법 (Continual Learning with Mimicking Human Memory System For Multi-domain Response Generator)

  • 이준범;박형준;송현제;박성배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.215-220
    • /
    • 2021
  • 다중 도메인에 대해 답변 생성 모델이 동작 가능하도록 하는 가장 쉬운 방법은 모든 도메인의 데이터를 순서와 상관없이 한번에 학습하는 것이다. 하지만 이경우, 발화에 상관 없이 지나치게 일반적인 답변을 생성하는 문제가 발생한다. 이에 반해, 도메인을 분리하여 도메인을 순차적으로 학습할 경우 일반적인 답변 생성 문제를 해결할 수 있다. 하지만 이경우 새로운 도메인의 데이터를 학습할 때, 기존에 학습한 도메인에 대한 성능이 저하되는 파괴적 망각 현상이 발생한다. 파괴적 망각 현상을 해결하기 위하여 다양한 지속학습기법이 제안되었으며, 그 중 메모리 리플레이 방법은 새로운 도메인 학습시 기존 도메인의 데이터를 함께 학습하는 방법으로 파괴적 망각 현상을 해결하고자 하였다. 본 논문에서는, 사람의 기억 시스템에 대한 모형인 앳킨슨-쉬프린 기억 모형에서 착안하여 사람이 기억을 저장하는것과 유사한 방법으로 메모리 리플레이 방법의 메모리 관리방법을 제안하였고, 해당 메모리 관리법을 활용하는 메모리 리플레이 방법을 통해 답변 생성 모델의 파괴적 망각 현상을 줄이고자 하였다. 다중 도메인 답변 생성에 대한 데이터셋인 MultiWoZ-2.0를 사용하여 제안 모델을 학습 및 평가하였고, 제안 모델이 다중 도메인 답변 생성 모델의 파괴적 망각 현상을 감소시킴을 확인하였다.

  • PDF

단거리 운항에서 로스터링을 위한 효율적인 패턴 생성 (Efficient Pattern Creation of Rostering in Short-haul Routes)

  • 이주호;조영래;이영훈
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회/대한산업공학회 2005년도 춘계공동학술대회 발표논문
    • /
    • pp.225-229
    • /
    • 2005
  • 항공기 운항 승무원의 로스터링 문제에서 패턴 생성은 승무원의 효율적인 운항스케줄 생성에 가장 중요한 부분이다. 본 연구는 패턴 생성을 다음의 두 단계로 진행한다. 먼저, 단위운항구간의 특성을 고려하여 특정 단위운항구간에 대한 부분 집합 패턴을 생성한다. 그리고 생성된 패턴을 제외한 단위운항구간의 집합에 대해서 목적함수의 가중치와 비용함수를 적절히 적용한 집합 분할 모형을 사용하여 부분최적해 집합을 구하였다. 결과적으로, 항공 운항 승무원의 로스터링을 위한 성능이 우수한 실행 가능한 패턴을 생성하였다.

  • PDF

가상기준점을 이용한 Radargrammetry로부터 수치고도모형 생성 (Generation of Digital Elevation Model from Radargrammetry Using Pseudo Control Points)

  • 손홍규;송영선;윤공현;신대호
    • 한국GIS학회:학술대회논문집
    • /
    • 한국GIS학회 2004년도 GIS/RS 공동 춘계학술대회 논문집
    • /
    • pp.315-321
    • /
    • 2004
  • SAR 영상을 처리하는 과정에 있어 기준점을 취득하는 일은 매우 어렵고 시간과 비용이 많이 소모된다. 본 연구에서는 기준점 취득문제를 해결하기 위해서 단일기준점으로부터 가상기준점을 생성하여 위성제도를 모델링하고 이를 이용하여 수치고도모형을 생성하는 기법을 제시하였다. 가상기준점을 이용하여 생성된 수치고도모형의 정확도를 평가하기 위해서 추가적으로 10개의 기준점을 이용하여 수치고도모형을 생성하였다. 각각 생성된 수치고도모형을 수치지도로부터 생성된 수치고도모형과 비교하여 정확도를 평가하였다.

  • PDF

XOB: XMDR 기반의 온톨로지 생성 시스템 (XOB: An XMDR-based Ontology Builder)

  • 이석훈;정동원;김장원;백두권
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권9호
    • /
    • pp.904-917
    • /
    • 2010
  • 인공지능, 시맨틱 웹의 분야에서 지식을 표현하고 의미적으로 연결하기 위해 온톨로지가 연구되어 왔다. 그러나 온톨로지는 정의하는 사람의 의도와 지식 수준에 따라 다양하게 표현되고 정의될 수 있다. 이는 동일한 개념을 서로 다르게 표현하는 이질성 문제를 야기한다. 이 논문에서는 이러한 문제를 해결하기 위하여 XMDR에 기반한 온톨로지 생성 시스템인 XOB(XMDR-based Ontology Builder)를 소개한다. XOB는 XMDR에서 정의한 클래스 및 클래스 간의 관계성 등을 재사용하여 온톨로지를 생성함으로써 생성된 온톨로지 간 의미 이질성 문제를 해결 또는 최소화 할 수 있다. 이 논문에서는 제안 시스템인 XOB의 개념 모델 및 전체적인 구조를 소개한다. 또한 XMDR에 등록된 개념들을 이용하여 온톨로지 생성 시 요구되는 프로세스, 알고리즘 및 온톨로지 생성 규칙 등을 정의한다. 제안 시스템은 기존 방법에 비해 높은 표준화를 제공하며 이는 일관성 있는 개념의 활용, 용이한 의미 교환 등의 장점을 제공한다. 따라서 XOB는 고품질의 온톨로지 생성을 가능하게 하며 온톨로지 통합 및 시스템 개발을 위한 비용을 감소시킨다.

한국어의 어순과 격 할당에 대한 전산적 처리 (A Computational Treatment of Word Order and Case Assignment in Korean)

  • 이기용
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2001년도 제13회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.431-438
    • /
    • 2001
  • 일반적으로 한국어 문장에서 명사는 용언의 항가(valency)에 의해 격이 할당된다. 그러한 이유로, 한국어는 용언이 문장 끝에 온다는 일반적인 제약 이외에는 그 어순이 비교적 자유롭다. 그러나 격 할당과 자유 어순에 대한 여러 가지 비규칙적인 현상들 때문에 문장 분석이나 생성에 문제가 일어난다. 예를 들면, "나 머리 아프다"에서처럼 명사에 격조사가 표시되지 않고 문장이 생성될 수도 있고, "은/는"이나 "도"와 같은 특수조사와 결합할 때는 그 격이 드러나지도 않는다. 어순의 경우, "물이 얼음이 되었다"=/= "얼음이 물이 되었다" 에서처럼 주격이 이중으로 나타나면 어순이 자유롭지 않는 반면, 용언의 어미가 문장 종결형일 때에는 "어서 가자 백두산으로"에서처럼 용언이 문미에 오지 않을 수도 있다. 이 논문은 한국어의 어순과 격 할당에 관한 이러한 문제를 어떻게 처리할 것인가를 보이는 것이 그 목적이다. 문제를 가급적 명시적으로 해결하기 위하여, 본 논문은 문장 분석과 생성에 대한 규칙과 제약 조건들을 형식화하고 문장 처리 과정에서 일어나는 격 할당과 어구 결합 및 배열 과정을 malaga라는 프로그래밍 언어로 구현하여 실험할 것이다.

  • PDF

한국어-프랑스어 자동번역을 위한 과거시제 선어말어미 '-었'의 처리방안 (Past Tense Generation in Korean to French Machine Translation)

  • 임승희;노란;홍문표
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.173-174
    • /
    • 2014
  • 본 연구는 현재 개발 진행 중인 다국어 자동통번역시스템에서 발생하는 한국어 과거시제 선어말어미 '-었'의 생성문제를 다루었다. 한국어 과거시제 선어말 어미는 영어와 독일어의 경우에는 대부분 단순과거형으로 생성될 수 있으나, 프랑스어의 경우에는 복합과거의 형식과 반과거의 형식 중 하나를 선택해야 하는 문제가 발생한다. 본 연구에서는 이러한 문제의 해결을 위해 한-프랑스어 코퍼스 분석을 통해 복합과거와 반과거의 올바른 생성을 위한 네 가지의 자질을 선정하였고, 이에 SVM 알고리즘을 적용한 분류기를 구현하였다. 현재까지의 실험결과는 84.45%의 정확률이며 현재 성능개선을 위한 연구가 계속 진행 중이다.

  • PDF

Hamiltonian Path Problem을 위한 DNA 컴퓨팅의 코드 최적화 (Code optimization of DNA computing for Hamiltonian path problem)

  • 김은경;이상용
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.241-243
    • /
    • 2002
  • DNA 컴퓨팅은 생체 분자들이 갖는 막대한 병렬성을 정보 처리 기술에 적용한 기술이다. Adleman의 DNA 컴퓨팅은 랜덤한 고정길이의 형태로 문제를 표현하기 때문에 해를 찾지 못하거나 시간이 많이 걸리는 단점을 갖고 있다. 본 논문은 DNA 컴퓨팅에 DNA 코딩 방법을 적용하여 DNA 서열을 효율적으로 표현하고 반응횟수 만큼 합성과 분리 과정을 거쳐 최적의 코드를 생성하는 ACO(Algorithm for Code Optimization)를 제안한다. DNA 코딩 방법은 변형된 유전자 알고리즘으로 DNA 기능을 유지하며, 서열의 길이를 줄일 수 있으므로 최적의 서열을 생성할 수 있는 특징을 갖는다. ACO를 NP-complete 문제 중 Hamiltonian path problem에 적용하여 실험한 결과, Adleman의 DNA 컴퓨팅 보다 초기 문제 표현에서 높은 적합도 값을 갖는 서열을 생성했으며, 경로의 변화에도 능동적으로 대처하여 최적의 결과를 빠르게 탐색할 수 있었다.

  • PDF

가상예제를 이용한 $Na{\ddot{i}}ve$ Bayes 분류기 성능 향상 (Improving Performance for $Na{\ddot{i}}ve$ Bayes Classifier Using Virtual Examples)

  • 이유정;강병호;강재호;류광렬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.655-657
    • /
    • 2005
  • 기계학습에서 분류는 훈련 예제들로 학습하여 생성한 분류기를 활용하여 새로운 예제에 어느 한 범주를 부여하는 것을 말한다. 일반적으로 분류의 성능 즉 정확도의 향상은 학습 알고리즘을 개선하거나 훈련예제 집합을 변형시킴으로써 가능하다. 본 논문에서 소개하는 가상예제를 이용한 분류기 성능 향상 방안은 후자에 속한다. 실세계 분류문제에서 많은 수의 훈련예제들을 수집하는 일은 대상문제에 따라 비용이 많이 드는 경우가 있다. 또한 적은 수의 훈련예제를 학습해 생성한 분류기는 분류성능이 좋지 않을 수 있다. 본 논문에서는 이런 문제를 해결하기 위해서 가상예제를 생성해 훈련예제 집합에 추가하는 방안을 제안하고자 한다. 가상예제를 이용한 분류성능 향상방안이 $Na{\ddot{i}}ve$ Bayes 학습 알고리즘 성능 개선에 효과가 있음을 실험을 통해 확인하였다.

  • PDF