• 제목/요약/키워드: 벡터공간모델

검색결과 275건 처리시간 0.031초

단어의 위치정보를 이용한 Word Embedding (Word Embedding using word position information)

  • 황현선;이창기;장현기;강동호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.60-63
    • /
    • 2017
  • 자연어처리에 딥 러닝을 적용하기 위해 사용되는 Word embedding은 단어를 벡터 공간상에 표현하는 것으로 차원축소 효과와 더불어 유사한 의미의 단어는 유사한 벡터 값을 갖는다는 장점이 있다. 이러한 word embedding은 대용량 코퍼스를 학습해야 좋은 성능을 얻을 수 있기 때문에 기존에 많이 사용되던 word2vec 모델은 대용량 코퍼스 학습을 위해 모델을 단순화 하여 주로 단어의 등장 비율에 중점적으로 맞추어 학습하게 되어 단어의 위치 정보를 이용하지 않는다는 단점이 있다. 본 논문에서는 기존의 word embedding 학습 모델을 단어의 위치정보를 이용하여 학습 할 수 있도록 수정하였다. 실험 결과 단어의 위치정보를 이용하여 word embedding을 학습 하였을 경우 word-analogy의 syntactic 성능이 크게 향상되며 어순이 바뀔 수 있는 한국어에서 특히 큰 효과를 보였다.

  • PDF

단어의 위치정보를 이용한 Word Embedding (Word Embedding using word position information)

  • 황현선;이창기;장현기;강동호
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.60-63
    • /
    • 2017
  • 자연어처리에 딥 러닝을 적용하기 위해 사용되는 Word embedding은 단어를 벡터 공간상에 표현하는 것으로 차원축소 효과와 더불어 유사한 의미의 단어는 유사한 벡터 값을 갖는다는 장점이 있다. 이러한 word embedding은 대용량 코퍼스를 학습해야 좋은 성능을 얻을 수 있기 때문에 기존에 많이 사용되던 word2vec 모델은 대용량 코퍼스 학습을 위해 모델을 단순화 하여 주로 단어의 등장 비율에 중점적으로 맞추어 학습하게 되어 단어의 위치 정보를 이용하지 않는다는 단점이 있다. 본 논문에서는 기존의 word embedding 학습 모델을 단어의 위치정보를 이용하여 학습 할 수 있도록 수정하였다. 실험 결과 단어의 위치정보를 이용하여 word embedding을 학습 하였을 경우 word-analogy의 syntactic 성능이 크게 향상되며 어순이 바뀔 수 있는 한국어에서 특히 큰 효과를 보였다.

  • PDF

기하학적 제약을 이용한 영상기반 모델링 기법 (Image Based Modeling Method Use to Geometric Constraint)

  • 김동환;서상현;윤경현
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.502-504
    • /
    • 2001
  • 본 논문에서는 영상기반 모델링에서 3차원의 기하학적 제약을 이용한 모델링을 다루고 있다. 기존에 이러한 연구가 많이 진행되어져 왔으나, 여기에서는 새로운 방법에 의한 모델링을 시도하였다. 이러한 접근방법은 이해하기가 쉽고, 편리하며, 간단한 모델링에 적용이 용이하다. 또한, 영상평면 정보와 3차원의 정보를 가지고 있기 때문에 기존의 3차원 복원 이론과 혼합하여 적용할 수 있다. 영상기반 모델링(IBM, Image Based Modeling)의 핵심은 2차원 영상에서 사라진 깊이 정보를 어떻게 찾는가에 있다. 기존에는 3차원 복원을 위하여 투영된 영상평면의 점을 이용하거나, 이미지 상에서의 소실점을 찾거나, 2차원의 벡터와 3차원의 공간 좌표의 특정한 평면에 놓여있는 벡터와의 관계를 이용하여 깊이 정보를 복원하였다. 이러한 접근 방법은 사용자가 선택한 2차원 좌표로부터 3차원 좌표를 구하는 것이다. 본 논문에서는 기존의 방법과 다르게 3차원 원시 기하모델의 제약을 이용하여 사용자가 3차원 원시 기하모델을 2차원 영상에 투영하고, 그 정보를 이용하여 영상의 3차원 정보를 찾아 나가는 방법을 소개한다. 또한, 선형적인 최적화 기능을 넣어 관사 모델을 구하였다.

  • PDF

LDA 융합모델과 최소거리패턴분류법을 이용한 얼굴 표정 인식 연구 (A Study on Face Expression Recognition using LDA Mixture Model and Nearest Neighbor Pattern Classification)

  • 노종흔;백영현;문성룡;강영진
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 추계학술대회 학술발표 논문집 제16권 제2호
    • /
    • pp.167-170
    • /
    • 2006
  • 본 논문은 선형분류기인 LDA 융합모델과 최소거리패턴분류법을 이용한 얼굴표정인식 알고리즘 연구에 관한 것이다. 제안된 알고리즘은 얼굴 표정을 인식하기 위해 두 단계의 특징 추출과정과 인식단계를 거치게 된다. 먼저 특징추출 단계에서는 얼굴 표정이 담긴 영상을 PCA를 이용해 고차원에서 저차원의 공간으로 변환한 후, LDA 이용해 특징벡터를 클래스 별로 나누어 분류한다. 다음 단계로 LDA융합모델을 통해 계산된 특징벡터에 최소거리패턴분류법을 적용함으로서 얼굴 표정을 인식한다. 제안된 알고리즘은 6가지 기본 감정(기쁨, 화남, 놀람, 공포, 슬픔, 혐오)으로 구성된 데이터베이스를 이용해 실험한 결과, 기존알고리즘에 비해 향상된 인식률과 특정 표정에 관계없이 고른 인식률을 보임을 확인하였다.

  • PDF

복합명사의 통계적 처리에 대한 평가 (The evaluation of statistic processing on korean compound nouns)

  • 남세진;이지연;신동욱;채미옥
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.36-41
    • /
    • 1996
  • 한글을 대상으로 하는 검색 시스템의 강우 문서의 대부분을 차지하는 복합명사는 원칙적으로 단어와 단어 사이를 띄어 써야 하지만 붙여쓰기 또한 허용하므로 정보 검색 시스템에서는 이를 고려하여야 한다. 본 논문에서는 MIDAS/IR 정보검색 시스템에서 통계적인 정보를 이용하여 복합명사를 처리하는 방법을 구현하고 이를 실험을 통하여 평가하고자 한다. MIDAS/IR은 크게 복합명사의 통계적인 정보를 이용하는 색인 부분과 확장 불리한 모델 및 벡터 공간 모델을 제공하는 검색 부분으로 이루어져 있다. 색인기에서는 복합명사를 처리할 뿐 아니라 고유명사와 같이 사전에 등록되지 않은 명사를 처리하는 작업을 하게 되며 검색 부분은 클래스 라이브러리로 구현되어 있어 임의의 검색 모델도 쉽게 추가 될 수 있도록 설계하였다. 본 연구에서는 KTSET을 이용하여 불리한 모델 및 벡타 공간 모델에서의 성능을 실험을 통하여 평가하였으며, n-그램을 사용한 시스템과 비교 분석하였다.

  • PDF

Prefix-tuning에 기반한 한국어 자연언어 처리 (Prefix-tuning for Korean Natural language processing)

  • 민진우;나승훈;신동욱;김선훈;강인호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.622-624
    • /
    • 2021
  • 현재 BERT와 같은 대용량의 코퍼스로부터 학습된 사전 학습 언어 모델을 자연어 응용 태스크에 적용하기 위해 일반적으로 널리 사용되는 방법은 Fine-tuning으로 각 응용 태스크에 적용 시 모델의 모든 파라미터를 조정하기 때문에 모든 파라미터를 조정하는데 필요한 시간적 비용과 함께 업데이트된 파라미터를 저장하기 위한 별도의 저장공간이 요구된다. 언어 모델이 커지면 커질수록 저장 공간의 비용이 증대됨에 따라 이러한 언어모델을 효율적으로 튜닝 할 수 있는 방법들이 연구되었다. 본 연구에서는 문장의 입력 임베딩에 연속적 태스크 특화 벡터인 prefix를 추가하여 해당 prefix와 관련된 파라미터만 튜닝하는 prefix-tuning을 한국어 네이버 감성 분석 데이터 셋에 적용 후 실험결과를 보인다.

  • PDF

음절 임베딩과 양방향 LSTM-CRF를 이용한 한국어 문장 자동 띄어쓰기 (Bi-LSTM-CRF and Syllable Embedding for Automatic Spacing of Korean Sentences)

  • 이현영;강승식
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.605-607
    • /
    • 2018
  • 본 논문에서는 음절 임베딩과 양방향 LSTM-CRF 모델을 이용한 한국어 문장 자동 띄어쓰기 시스템을 제안한다. 문장에 대한 자질 벡터 표현을 위해 문장을 구성하는 음절을 Unigram 및 Bigram으로 나누어 각 음절을 연속적인 벡터 공간에 표현하고, 양방향 LSTM을 이용하여 현재 자질에 양방향 자질들과 의존성을 부여한 새로운 자질 벡터를 생성한다. 이 새로운 자질 벡터는 전방향 신경망과 선형체인(Linear-Chain) CRF를 이용하여 최적의 띄어쓰기 태그 열을 예측하고, 생성된 띄어쓰기 태그를 기반으로 문장 자동 띄어쓰기를 수행하였다. 문장 13,500개와 277,718개 어절로 이루어진 학습 데이터 집합과 문장 1,500개와 31,107개 어절로 이루어진 테스트 집합의 학습 및 평가 결과는 97.337%의 음절 띄어쓰기 태그 분류 정확도를 보였다.

  • PDF

주거공간에서 수면 전후의 행동유형 분류 (Classification of Behavioral Patterns Associated with Sleeping in Residential Space)

  • 조승호;김우열;문봉희
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.477-481
    • /
    • 2010
  • 본 연구에서는 무선 센서 네트워크를 기반으로 침대 주변에서 사람의 행동유형을 분류하고자 한다. 침대 주변에서 사람의 다섯가지 행동유형과 세가지 상태들을 정의하고, 이들을 상태기계로 표현하였다. 움직임 감지 및 진동센서들을 통해 행동유형 관련 데이터들을 수집하고 이로 부터 특정벡터를 추출하였다. 행동유형별 특징벡터와 상태기계를 기초로 행동유형 모델을 정립하였고, 정립된 모델의 유효성 검증을 위해 실험을 실시한 후 행동유형 모델을 보정하였다. 이러한 실험결과들은 침대 주변에서 사람들이 행하는 행동유형들이 잘 분류될 수 있음을 보여준다.

객체지향 데이터 모델에 기반 원격탐사를 위한 위성영상의 공간 관계 연산 (Spatial relationship operations of the Satellite image for the Remote sensing based on an Object oriented data model)

  • 신언석;이재봉;김형무;이홍로
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2004년도 추계 종합학술대회 논문집
    • /
    • pp.251-256
    • /
    • 2004
  • 본 논문은 레스터 기반 위성영상에서 공간정보를 추출하기 위한 공간 관계 연산 방법과 예를 보인다. 복잡하고 다양한 현실 세계를 지리 정보 시스템은 추상화하고 단순화한 형상을 기반으로 구축한다. 추상화된 지형지물은 지리 객체와 지리필드로 구체화한다. 지리객체와 지리필드는 각각 벡터와 레스터로 표현한다. 레스터 자료형 위성영상은 원격탐사 응용에 이용한다. 원격탐사 공간 정보 추출을 위하여 위상 연산과 기하연산을 한다. 레스터형인 위성영상을 유연성이 뛰어난 벡터화된 객체로 변환하고 이로부터 공간 정보를 추출한다. 원격탐사에 위성영상의 활용이 증가하고 있으며, GIS와 접목함으로써 위성영상 활용의 극대화에 기여 할 것이다.

  • PDF

경계변수 값의 동적인 변경을 이용한 점층적 클러스터링 알고리즘 (Incremental Clustering Algorithm by Modulating Vigilance Parameter Dynamically)

  • 신광철;한상용
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권11호
    • /
    • pp.1072-1079
    • /
    • 2003
  • 본 논문은 점층적으로 대규모 문서 분류를 할 수 있는 새로운 클러스터링 알고리즘에 대한 것으로, 고차원의 대규모 문서 집합에 대한 클러스터링을 수행하는 spherical k-means (SKM) 알고리즘과 점층적인 방식으로 클러스터링을 수행하는 퍼지(fuzzy) ART(adaptive resonance theory) 신경망의 특징을 이용하였다. 즉, SKM의 벡터 공간 모델과 개념벡터를 토대로 퍼지 ART의 경계변수의 개념을 결합한 것이다. 제시하는 알고리즘은 점층적 클러스터링의 지원과 함께 최적의 클러스터 수를 자동으로 결정할 뿐 아니라 이상치(outlier)와 노이즈(noise)에 의한 overfitting의 문제도 해결하였다. 또한 생성된 클러스터들의 질을 평가할 수 있는 응집도를 측정하는 목적 함수의 값에 있어서도 CLASSIC3 데이타 집합으로 실험한 결과 기존의 SKM에 비해 평균 8.04%의 향상된 응집도를 나타냈다.