• 제목/요약/키워드: syntactic model

검색결과 101건 처리시간 0.024초

정확한 해답 추출을 위한 개념 기반의 질의 분석 (Concept-based Question Analysis for Accurate Answer Extraction)

  • 신승은;강유환;안영민;박희근;서영훈
    • 한국콘텐츠학회논문지
    • /
    • 제7권1호
    • /
    • pp.10-20
    • /
    • 2007
  • 본 논문에서는 정확한 해답 추출을 위해 키워드보다 중요한 역할을 하는 개념을 분석하는 개념 기반 질의 분석에 대해 기술한다 해답 유형이 같은 질의들에서 나타나는 개념은 유사하기 때문에 이러한 개념들을 잘 정의하여 이용할 경우, 해답을 포함하는 다양한 형태의 구문으로부터 보다 정확한 해답을 추출할 수 있다는 것이 본 논문의 주요 아이디어이다. 즉, 해답을 포함하는 문서와 그 문서 내에 있는 해답을 좀더 정확하게 추출하기 위해 질문에 있는 각 단어나 구절들의 구문 및 의미 역할을 파악하고자 하는 것이다. 이를 위해, 정답 유형별로 그 유형의 질문에서 공통으로 나타나는 주요 개념들로 구성된 개념 프레임을 정의하고, 사용자 질의를 분석하여 개념 프레임을 채우는 과정으로 질의 분석을 수행한다. 실험 결과 본 논문에서 제안한 개념 기반 방식이 기존의 질의분석 기법에 비해 높은 정답 추출 성능을 보여주었다. 본 논문에서 제안한 개념 기반 접근 방법은 언어에 관계없이 적용 가능한 모델이며, 또한 기존 방식과 함께 사용할 수 있는 장점도 있다.

캐릭터 애니메이션 데이터의 H-Anim 기반 정의 (H-Anim-based Definition of Character Animation Data)

  • 이재욱;이명원
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권10호
    • /
    • pp.796-800
    • /
    • 2009
  • 컴퓨터 그래픽스 기술의 발전으로 3D 인간 형상 표현과 애니메이션 생성을 위한 소프트웨어 도구들이 많이 개발되었고 현재 많이 활성화되어 있다. 그러나, 이러한 도구들로 제작한 인체 모델들간의 공통 데이터 형식의 부재로 인체 모델과 모션의 데이터 교환에는 아직 어려움이 따른다. 이와 같은 문제를 해결하기 위해서 3D 인간 형상을 표현하는 규약이 ISO/IEC JTC1 SC24와 Web3D Consortium에서 공동으로 개발된 H-Anim이다. H-Anim에서는 인체 형상 구조에 대한 형식은 정의하였으나 모션 데이터에 대한 형식은 아직 포함하지 않고 있다. 본 연구는 인체의 모델 데이터 뿐 아니라 모션의 데이터 형식을 정의하고, 서로 다른 프로그래밍 환경에서도 모델링 데이터와 모션 데이터를 서로 독립적으로 사용할 수 있도록 하는, 호환성 있는 인체 애니메이션 실현을 목적으로 한다. 본 연구에서는 H-Anim 캐릭터 모델에 키프레임 애니메이션 파라미터를 입력할 수 있는 구문을 정의하고 이를 구현한 결과를 보여준다. 이 때 애니메이션 파라미터 생성을 위해 임의의 일반 그래픽스 도구에서 독립적으로 제작한 캐릭터 모델을 H-Anim 캐릭터로 변환하고 새로운 애니메이션 생성을 위한 파라미터 설정 방법에 대해서도 설명한다.

시간성과 모더니티 -윌리암스의 『봄과 모든 것』을 중심으로 (Temporality and Modernity: A Reading of William Carlos Williams's Spring and All)

  • 손혜숙
    • 영어영문학
    • /
    • 제55권1호
    • /
    • pp.83-105
    • /
    • 2009
  • Modern poetry begins as criticism of modernity and, by so doing, rejects its idea of time. Modernity emphasizes sequential, linear, and irreversible time and progress. Williams rejects the modern view of time, and attempts to substitute literature for history assuming that literature can take us into the immediacy of time. His poetry asserts the true moment of experience as an immediacy, of words co-existent with things. He suggests that modernity and its idea of time already led to World War I and could clearly lead to an actual, manmade apocalypse with continued technological progress. Already in the 1920s, Williams sensed that he was living in a world where such an end could come all true, which is why Spring and All, his greatest early achievement, begins with a parody of the modern apocalypse. Throughout the work, Williams criticizes "crude symbolism" and expresses his longing to annihilate "strained associations," for he believes that the metaphoric or symbolic association is related to order, the center, and the traditional concept of time itself. The metonymic model of Spring and All substitutes a self-reflexive, open-ended, and indeterminate structure of time for the linear and closed one. Instead of supplying an end, Williams only asserts the rebirth of time and attempts to arrive at immediacy while attacking the mediacy of traditional art. His characteristic use of fragmentation and abrupt juxtapositions disrupts the reader's generic, conceptual, syntactic, and grammatical expectations. His radical poetic experiments, such as the isolation of words and the disruption of syntax, produce a sense of immediacy and force the reader to confront the presence of the poem. His destruction of traditional forms, of the tyrannous designs of history and time, opens up rather than closes the possibility of signification, and takes us into a moment of beginning while disallowing temporal distancing. Spring and All, as a criticism of the modern idea of time, asks us to view Williams's work not as an ahistorical text but as a cultural subversion of modernity.

문장 분류를 위한 정보 이득 및 유사도에 따른 단어 제거와 선택적 단어 임베딩 방안 (Selective Word Embedding for Sentence Classification by Considering Information Gain and Word Similarity)

  • 이민석;양석우;이홍주
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.105-122
    • /
    • 2019
  • 텍스트 데이터가 특정 범주에 속하는지 판별하는 문장 분류에서, 문장의 특징을 어떻게 표현하고 어떤 특징을 선택할 것인가는 분류기의 성능에 많은 영향을 미친다. 특징 선택의 목적은 차원을 축소하여도 데이터를 잘 설명할 수 있는 방안을 찾아내는 것이다. 다양한 방법이 제시되어 왔으며 Fisher Score나 정보 이득(Information Gain) 알고리즘 등을 통해 특징을 선택 하거나 문맥의 의미와 통사론적 정보를 가지는 Word2Vec 모델로 학습된 단어들을 벡터로 표현하여 차원을 축소하는 방안이 활발하게 연구되었다. 사전에 정의된 단어의 긍정 및 부정 점수에 따라 단어의 임베딩을 수정하는 방법 또한 시도하였다. 본 연구는 문장 분류 문제에 대해 선택적 단어 제거를 수행하고 임베딩을 적용하여 문장 분류 정확도를 향상시키는 방안을 제안한다. 텍스트 데이터에서 정보 이득 값이 낮은 단어들을 제거하고 단어 임베딩을 적용하는 방식과, 정보이득 값이 낮은 단어와 코사인 유사도가 높은 주변 단어를 추가로 선택하여 텍스트 데이터에서 제거하고 단어 임베딩을 재구성하는 방식이다. 본 연구에서 제안하는 방안을 수행함에 있어 데이터는 Amazon.com의 'Kindle' 제품에 대한 고객리뷰, IMDB의 영화리뷰, Yelp의 사용자 리뷰를 사용하였다. Amazon.com의 리뷰 데이터는 유용한 득표수가 5개 이상을 만족하고, 전체 득표 중 유용한 득표의 비율이 70% 이상인 리뷰에 대해 유용한 리뷰라고 판단하였다. Yelp의 경우는 유용한 득표수가 5개 이상인 리뷰 약 75만개 중 10만개를 무작위 추출하였다. 학습에 사용한 딥러닝 모델은 CNN, Attention-Based Bidirectional LSTM을 사용하였고, 단어 임베딩은 Word2Vec과 GloVe를 사용하였다. 단어 제거를 수행하지 않고 Word2Vec 및 GloVe 임베딩을 적용한 경우와 본 연구에서 제안하는 선택적으로 단어 제거를 수행하고 Word2Vec 임베딩을 적용한 경우를 비교하여 통계적 유의성을 검정하였다.

동적 윈도우를 갖는 조건부확률 모델을 이용한 한국어 문맥의존 철자오류 교정 규칙의 재현율 향상 (Improving Recall for Context-Sensitive Spelling Correction Rules using Conditional Probability Model with Dynamic Window Sizes)

  • 최현수;권혁철;윤애선
    • 정보과학회 논문지
    • /
    • 제42권5호
    • /
    • pp.629-636
    • /
    • 2015
  • 한국어 맞춤법 검사기가 교정하는 오류어의 유형은 크게 단순 철자오류와 문맥의존 철자오류로 구분할 수 있다. 이 중 문맥의존 철자오류는 어절(word)단위로 봤을 때는 올바르지만, 문맥을 고려하였을 때 오류가 되는 유형으로, 교정 난도가 매우 높다. 문맥의존 철자오류는 글을 쓰는 사람들도 자주 저지르는 오류이므로, 이를 잘 검색하여 정확하게 교정하는 것이 맞춤법 검사기의 사용자가 갖는 신뢰도에 큰 영향을 미친다. 높은 정확도가 매우 중요하므로, 문맥의존 철자오류의 교정 방법은 대부분 규칙에 기반한다. 반대 급부로 재현율이 매우 낮다는 단점을 갖는다. 문맥의존 철자오류의 교정에서 재현율을 높이기 위한 방법은 크게 언어지식을 이용하여 규칙을 일반화하는 방법과 통계 정보에 기반을 하여 공기 어휘의 제약 조건을 확장하는 방법으로 나뉠 수 있다. 기존 연구는 언어지식을 이용하여 규칙을 일반화하는 다양한 방식을 연구했으나, 최고 성능이 평균 정확도 95.19%, 평균 재현율 37.56%을 보였다. 본 논문에서는 통계정보에 기반한 규칙의 확장 방식을 제안한다. 동적 윈도우를 갖는 조건부확률 모델을 이용한 방법이며, 최고 성능은 평균 정확도 97.23%, 평균 재현율 50.50%을 보여주었다.

ICT 전력 융합을 위한 SEP 2.0과 OpenADR 2.0b간의 상호운용 매핑 모델 (An Interoperable Mapping Model between SEP 2.0 & OpenADR 2.0b for ICT Grid Convergence)

  • 최민영;이준경;이경학
    • 한국융합학회논문지
    • /
    • 제8권8호
    • /
    • pp.41-49
    • /
    • 2017
  • 'NIST framework and road map for smart grid interoperability standards' 기술 보고서는 스마트 그리드의 발전 방향, 표준의 상호운용성을 확보하는 아키텍처 프레임워크를 제시하고, 식별된 표준 리스트, 사이버 보안 전략, 시험 인증 프레임 워크를 제공하는 문서이다. 특히, 스마트 그리드의 표준 프로토콜인 SEP 2.0과 OpenADR 2.0이 그 예이다. SEP 2.0과 OpenADR 2.0은 기능적으로 HEMS와 스마트 그리드를 이어주는 역할을 할 수 있지만, 두 프로토콜 간에 상호운용 표준은 상기 문서에서 계획된 바가 없다. 또한, OpenADR 연합에서는 OpenADR 2.0과 SEP 2.0간의 상호운용을 위한 매핑 테이블을 정의하는 작업이 진행 중이라 발표했지만, 아직 공개한 정보는 없다. 따라서 본 논문에서는 신재생 에너지 효율 개선 HEMS 개발에 있어 ICT 전력 융합을 위한 SEP 2.0과 OpenADR 2.0b간의 상호운용을 각 프로토콜의 표준 사양 문서 기반의 구문과 의미로 대응하는 매핑 모델을 제안 하고 수요 반응 서비스 시나리오 기반의 의미 매핑 기능 예제를 통해 이를 확인하였다.

VHDL 컴파일러 후반부의 VHDL-to-C 사상에 관한 설계 및 구현 (A design and implementation of VHDL-to-C mapping in the VHDL compiler back-end)

  • 공진흥;고형일
    • 전자공학회논문지C
    • /
    • 제35C권12호
    • /
    • pp.1-12
    • /
    • 1998
  • 본 논문은 VHDL 컴파일러 시스템에서 후반부의 VHDL-to-C 사상 과정을 설계 및 구현한 연구에 관하여 기술한다. 컴파일러 전반부가 VHDL 설계 프로그램으로부터 발생시킨 중간 형식의 분석 데이터는 컴파일러 후반부의 VHDL-to-C 사상을 통해서 VHDL 어의가 구현된 C 코드 모델로 변환된다. 기본적으로 VHDL 어의를 표현하기 위한 C 코드 모델은 선언부, 구축부, 초기화부 및 실행부의 4개 기능적 템플릿으로 구성된다. 사상 과정에서는 사상 단위와 기능분류에 따른 129개 C 사상 템플릿과 반복적 알고리듬을 통하여 터미널 정보를 이용해서 C 코드를 생성하게 된다. C 프로그램의 구성은 코드를 직접 템플릿으로 출력하거나, 생성된 코드를 데이터큐에 중간 저장시키고 상위사상 결과에 결합시켜서 이루어진다. 설계 및 구현된 VHDL-to-C 사상기는 Validation Suite의 96% VHDL 구문 구조에 대해서 100% C 코드 모델을 완벽하게 사상할 수 있음을 보였다. 또한 VHDL-to-C 사상의 성능에서 생성된 코드의 메모리 오버헤드가 해석기 방식보다는 작고 직접코드 방식보다는 크지만 VHDL 프로그램 크기에 대해서 완만한 증가 경향을 보이고 있으며, 사상처리 시간에서는 사상 메카니즘의 구현에서 최적화 및 개선이 요구됨을 나타내었다.

  • PDF

도메인 적응 기술을 이용한 한국어 의미역 인식 (Korean Semantic Role Labeling Using Domain Adaptation Technique)

  • 임수종;배용진;김현기;나동렬
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.475-482
    • /
    • 2015
  • 높은 성능의 의미역 인식 시스템의 개발을 위해서는 대상 도메인에 대한 대량의 수동 태깅 학습 데이터가 필요하다. 그러나 충분한 크기의 의미역 인식용 학습 데이터는 오직 소수의 도메인에서만 존재한다. 소스 도메인의 시스템을 상대적으로 매우 작은 학습 데이터를 가진 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 이러한 도메인 변경에서의 성능 하락 현상을 최소화하기 위해 본 논문에서는 2 가지 기법을 제시한다. 첫째, 도메인 적응 방법론의 하나인 Prior 모델에 기반하여 개발된 한국어 의미역 인식 시스템을 위한 도메인 적응 알고리즘을 제안한다. 둘째, 크기가 작은 타겟 도메인 데이터를 이용할 때 데이터 희귀 문제의 감소를 위해 소스 도메인 데이터 이용시 보다 단순화된 형태소 태그와 구문 태그 자질을 사용할 것을 제안한다. 뉴스 도메인에서 개발된 시스템의 위키피디아 도메인에의 적용과 관련하여 다른 연구의 도메인 적응 기술과 우리가 제안한 방법을 비교 실험하였다. 우리의 두 가지 방법을 같이 사용할 때 더 높은 성능을 달성하는 것을 관찰하였다. 우리 시스템은 F1-score 64.3% 성능으로서 기존의 다른 도메인 적응 기술들과 비교하여 2.4~3.1% 더 높은 성능을 가지는 것으로 관찰되었다.

대화행위의 연쇄관계와 대화흐름에 대하여 -[일정협의 대화] 중심으로 (On the Sequences of Dialogue Acts and the Dialogue Flows-w.r.t. the appointment scheduling dialogues)

  • 박혜은;이민행
    • 인지과학
    • /
    • 제10권2호
    • /
    • pp.27-34
    • /
    • 1999
  • 이 연구의 목적은 대화행위 개념을 이용하여 독일어 일정협의 대화에서 나타나는 대화의 일반적인 흐름을 밝히는 데에 있다. 이 연구의 기본가정은 대화행위 개념의 도입이 자동번역시스템의 성능향상에 기여한다는 것이다. 그 이유는 통사적인 분석이나 의미적인 분석이 해결하지 못하는 문제들을, 문맥지식을 활용하여 해결하는 데에 있어 대화행위개념이 매우 유용하기 때문이다. 이 대화행위 개념의 하위분류작업은 독일에서 수행되고 있는 VERBMOBIL 프로젝트에서 이루어진 것이다. 본 연구에서는 전문가들에 의해 전사된 실제 대화 자료들을 대화행위의 개념을 활용하여 분석하고, 하나의 대화차례 안에서 발생하는 대화행위들의 연쇄와 각각의 대화차례 사이에서 발생하는 대화행위 연쇄를 조사했다. 여기서 분석대상으로 삼은 전사자료가 다른 연구에서 제시된 전사 자료와는 다소 차이를 보였기 때문에, 본 연구에서는 연쇄 개념을 대화차례사이에 뿐만 아니라 하나의 대화차례 내부까지 적용시켰다. 그리고 대화행위들간의 연쇄관계를 조사함으로써‘일정협의 대화’의 대화 흐름 도를 도출하였다. 이 대화 흐름 도는 통계분석 절차를 통해 가장 빈도수가 높게나온 대화행위 연쇄들을 토대로 만들어진 모형이기 때문에, 일상적인‘일정협의 대화’에 대한 대표성을 갖는다고 볼 수 있다.

  • PDF

사전과 말뭉치를 이용한 한국어 단어 중의성 해소 (Korean Word Sense Disambiguation using Dictionary and Corpus)

  • 정한조;박병화
    • 지능정보연구
    • /
    • 제21권1호
    • /
    • pp.1-13
    • /
    • 2015
  • 빅데이터 및 오피니언 마이닝 분야가 대두됨에 따라 정보 검색/추출, 특히 비정형 데이터에서의 정보 검색/추출 기술의 중요성이 나날이 부각되어지고 있다. 또한 정보 검색 분야에서는 이용자의 의도에 맞는 결과를 제공할 수 있는 검색엔진의 성능향상을 위한 다양한 연구들이 진행되고 있다. 이러한 정보 검색/추출 분야에서 자연어처리 기술은 비정형 데이터 분석/처리 분야에서 중요한 기술이고, 자연어처리에 있어서 하나의 단어가 여러개의 모호한 의미를 가질 수 있는 단어 중의성 문제는 자연어처리의 성능을 향상시키기 위해 우선적으로 해결해야하는 문제점들의 하나이다. 본 연구는 단어 중의성 해소 방법에 사용될 수 있는 말뭉치를 많은 시간과 노력이 요구되는 수동적인 방법이 아닌, 사전들의 예제를 활용하여 자동적으로 생성할 수 있는 방법을 소개한다. 즉, 기존의 수동적인 방법으로 의미 태깅된 세종말뭉치에 표준국어대사전의 예제를 자동적으로 태깅하여 결합한 말뭉치를 사용한 단어 중의성 해소 방법을 소개한다. 표준국어대사전에서 단어 중의성 해소의 주요 대상인 전체 명사 (265,655개) 중에 중의성 해소의 대상이 되는 중의어 (29,868개)의 각 센스 (93,522개)와 연관된 속담, 용례 문장 (56,914개)들을 결합 말뭉치에 추가하였다. 품사 및 센스가 같이 태깅된 세종말뭉치의 약 79만개의 문장과 표준국어대사전의 약 5.7만개의 문장을 각각 또는 병합하여 교차검증을 사용하여 실험을 진행하였다. 실험 결과는 결합 말뭉치를 사용하였을 때 정확도와 재현율에 있어서 향상된 결과가 발견되었다. 본 연구의 결과는 인터넷 검색엔진 등의 검색결과의 성능향상과 오피니언 마이닝, 텍스트 마이닝과 관련한 자연어 분석/처리에 있어서 문장의 내용을 보다 명확히 파악하는데 도움을 줄 수 있을 것으로 기대되어진다.