• 제목/요약/키워드: 벡터공간모델

검색결과 275건 처리시간 0.024초

확장된 벡터 공간 모델을 이용한 한국어 문서 분류 방안 (Korean Document Classification Using Extended Vector Space Model)

  • 이상곤
    • 정보처리학회논문지B
    • /
    • 제18B권2호
    • /
    • pp.93-108
    • /
    • 2011
  • 본 논문에서는 한국어 문서의 분류 정밀도 향상을 위해 애매어와 해소어 정보를 이용한 확장된 벡터 공간 모델을 제안하였다. 벡터 공간 모델에 사용된 벡터는 같은 정도의 가중치를 갖는 축이 하나 더 존재하지만, 기존의 방법은 그 축에 아무런 처리가 이루어지지 않았기 때문에 벡터끼리의 비교를 할 때 문제가 발생한다. 같은 가중치를 갖는 축이 되는 단어를 애매어라 정의하고, 단어와 분야 사이의 상호정보량을 계산하여 애매어를 결정하였다. 애매어에 의해 애매성을 해소하는 단어를 해소어라 정의하고, 애매어와 동일한 문서에서 출현하는 단어 중에서 상호정보량을 계산하여 해소어의 세기를 결정하였다. 본 논문에서는 애매어와 해소어를 이용하여 벡터의 차원을 확장하여 문서 분류의 정밀도를 향상시키는 방법을 제안하였다.

공간자료의 처리를 위한 사분트리에 기반한 래스터자료와 벡터자료의 통합 GIS모델 (An Intergrated GIS data model of Vector data and Raster data based on Quadtree for Spatial data processing)

  • 강신봉;이태승;최희재;최윤철
    • 대한공간정보학회지
    • /
    • 제2권1호
    • /
    • pp.99-106
    • /
    • 1994
  • GIS에서 사용하는 공간자료모델에는 래스터자료모델과 벡터자료모델이 있다. 이 두 가지 자료모델은 그 구조와 특성의 차이로 인하여 통합처리가 어렵고, 현재 대부분의 GIS시스템이 한쪽 모델의 자료를 다른 모델로 변환하여 한가지 모델의 형태로만 처리하고 있다. 따라서 자료의 변환시에 발생하는 정보의 손실과 변형으로 인하여 문제가 발생한다. 본 논문에서는 위의 두 가지 모델의 자료를 별도의 변환을 거치지 않고 통합처리 할 수 있는 방안을 연구하였다. 래스터자료는 사분트리구조를 이용하여 생성하고 벡터자료는 위상벡터모델을 사용하여 두 모델의 자료를 중첩 처리하여, 결과를 사분트리구조로 얻는다. 그 결과 정확한 중첩결과를 얻을 수 있으며, 복잡한 래스터자료 보다는 클래스의 분포변화가 적은 산림, 임야, 토지, 토양 등의 처리에 보다 적합하다.

  • PDF

원근 움직임 모델을 이용한 특징 공간 상에서의 효율적인 얼굴 영역 추적 (Efficient face tracking using perspective motion model in feature space)

  • 최송하;이성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (2)
    • /
    • pp.521-523
    • /
    • 1999
  • 본 논문에서는 입력 영상 열에서 얼굴 영역을 추출하고, 영역 내 특징점들의 움직임 벡터를 원근 움직임 모델에 정합하여 얼굴 영역을 추적하는 새로운 방법을 제안한다. 제안된 방법은 계층적 형판정합을 이용하여 얼굴 영역을 추출하고, 해당 영역에서 DoG 반응의 국부최대치를 찾아 특징점을 구한다. 그리고 최소제곱추정기법을 이용하여 각 특징점에서 얻어진 움직임 벡터를 원근 모델에 정합한다. 제안된 방법은 선별된 특징점에서 움직임 벡터를 계산함으로써 연산량을 줄일 수 있었고, 원근 움직임 모델을 이용함으로써 잡영에 강한 특성을 보인다.

  • PDF

위키피디어 기반 개념 공간을 가지는 시멘틱 텍스트 모델 (A Semantic Text Model with Wikipedia-based Concept Space)

  • 김한준;장재영
    • 한국전자거래학회지
    • /
    • 제19권3호
    • /
    • pp.107-123
    • /
    • 2014
  • 텍스트마이닝 연구의 기본적인 난제는 기존 텍스트 표현모델이 자연어 문장으로 기술된 텍스트 데이터로부터 의미 또는 개념 정보를 표현하지 않는데 기인한다. 기존 텍스트 표현모델인 벡터공간 모델(vector space model), 불리언 모델(Boolean model), 통계 모델(statistical model), 텐서공간 모델(tensor space model) 등은 'Bag-of-Words' 방식에 바탕을 두고 있다. 이러한 텍스트 모델들은 텍스트에 포함된 단어와 그것의 출현 횟수만으로 텍스트를 표현하므로, 단어의 함축 의미, 단어의 순서 및 텍스트의 구조를 전혀 표현하지 못한다. 대부분의 텍스트 마이닝 기술은 대상 문서를 'Bag-of-Words' 방식의 텍스트 모델로 표현함을 전제로 하여 발전하여 왔다. 하지만 오늘날 빅데이터 시대를 맞이하여 방대한 규모의 텍스트 데이터를 보다 정밀하게 분석할 수 있는 새로운 패러다임의 표현모델을 요구하고 있다. 본 논문에서 제안하는 텍스트 표현모델은 개념공간을 문서 및 단어와 동등한 매핑 공간으로 상정하여, 그 세 가지 공간에 대한 연관 관계를 모두 표현한다. 개념공간의 구성을 위해서 위키피디어 데이터를 활용하며, 하나의 개념은 하나의 위키피디어 페이지로부터 정의된다. 결과적으로 주어진 텍스트 문서집합을 의미적으로 해석이 가능한 3차 텐서(3-order tensor)로 표현하게 되며, 따라서 제안 모델을 텍스트 큐보이드 모델이라 명명한다. 20Newsgroup 문서집합을 사용하여 문서 및 개념 수준의 클러스터링 정확도를 평가함으로써, 제안 모델이 'Bag-of-Word' 방식의 대표적 모델인 벡터공간 모델에 비해 우수함을 보인다.

방향 벡터를 이용한 다중에이전트 휴리스틱 (The multi agent control heuristic using direction vector)

  • 김현;이승관;정태충
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.525-528
    • /
    • 2004
  • 먹이추적문제(prey pursuit problem)는 가상 격자로 이루어진 공간 내에 다중의 에이전트를 이용하여 먹이를 포획하는 것이다. 에이전트들은 먹이를 포획하기 위해 $30{\times}30$으로 이루어진 격자공간 (gride)안에서 기존 제안된 지역 제어, 분산 제어, 강화학습을 이용한 분산 제어 전략들을 적용하여 먹이를 포획하는 전략을 구현하였다. 제한된 격자 공간은 현실세계를 표현하기에는 너무도 역부족이어서 본 논문에서는 제한된 격자공간이 아닌 현실 세계와 흡사한 무한 공간 환경을 표현하고자 하였다. 표현된 환경의 모델은 순환구조(circular)형 격자 공간이라는 새로운 실험 공간이며, 새로운 공간에 맞는 전략은 에이전트와 먹이와의 추적 관계를 방향 벡터를 고려한 모델로 구현하였다. 기존 실험과는 차별화 된 환경에서 에이전트들은 휴리스틱을 통한 학습을 할 수 있다는 가정과 먹이의 효율적 포획, 충돌문제 해결이라는 결과를 얻었다.

  • PDF

Word2vec을 활용한 문서의 의미 확장 검색방법 (Semantic Extention Search for Documents Using the Word2vec)

  • 김우주;김동희;장희원
    • 한국콘텐츠학회논문지
    • /
    • 제16권10호
    • /
    • pp.687-692
    • /
    • 2016
  • 기존의 문서 검색 방법론은 TF-IDF와 같은 벡터공간모델을 활용한 키워드 기반 방법론을 사용한다. 키워드 기반의 문서검색방법론으로는 문제가 몇몇 문제점이 나타날 수 있다. 먼저 몇 개의 키워드로 전체의 의미를 나타내기 힘들 수 있다. 또 기존의 키워드 기반의 방법론을 사용하면 의미상으로 비슷하지만 모양이 다른 동의어를 사용한 문서의 경우 두 문서 간에 일치하는 단어들의 특성치만 고려하여 관련이 있는 문서를 제대로 검색하지 못하거나 그 유사도를 낮게 평가할 수 있다. 본 연구는 문서를 기반으로 한 검색방법을 제안한다. Centrality를 사용해 쿼리 문서의 특성 벡터를 구하고 Word2vec알고리즘을 사용하여 단어의 모양이 아닌 단어의 의미를 고려할 수 있는 특성 벡터를 만들어 검색 성능의 향상과 더불어 유사한 단어를 사용한 문서를 찾을 수 있다.

Dichromatic 반사 모델에서의 조명성분 추출 실험 (Experiments of Illuminant Estimation in the Dichromatic Reflecton Model)

  • 박명은;김성영;김민환
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2000년도 추계학술발표논문집
    • /
    • pp.218-223
    • /
    • 2000
  • 영상에서 색상은 조명과 물체의 반사 특성에 의해 걸정되므로고 정확한 조명성분 추출을 통해 물체 고유의 색상을 복원할 수 있다. 물체 색상과 하이라이트 색상의 분포와 이들간의 관계를 잘 반영하여 모델링한 Dichromatic 반사 모델에서는, 3차원 RGB 공간에서의 하이라이트(highlight) 영역에 의한 클러스터 분포형상으로부터 표면반사벡터를 구해 이것을 조명벡터로 결정하였다. 그러나, 표면반사벡터의 방향은 물체색상의 영향을 받아 실제 조명벡터와 동일한 방향을 나타내지 못한다는 것을 실험을 통해 알 수 있었다. 실제적으로 하이라이트영역에 대한 클러스터는 물체 색상으로부터 조명색상에 근접한 방향으로 형성되며, 조명벡터로는 글러스터의 최대값으로 향하는 것을 취하는 것이 보다 정확하다는 특성이 있음을 확인하였다. 본 논문에서는 여러 가지 실험을 통해 이러한 특성이 타당함을 제시하고, 그래픽반사모델을 이용하여 하이라이트 색상에 대한 새로운 해석 방법을 제시한다.

  • PDF

한국어 단어 공간 모델을 이용한 단어 의미 중의성 해소 (Word Sense Disambiguation using Korean Word Space Model)

  • 박용민;이재성
    • 한국콘텐츠학회논문지
    • /
    • 제12권6호
    • /
    • pp.41-47
    • /
    • 2012
  • 한국어 단어의 의미 중의성 해소 방법들은 주로 소규모의 의미 태그 부착 말뭉치나 사전 정보 등을 이용하여 엔트로피 정보, 조건부 확률, 상호정보 등을 각각 계산하고 이를 중의성 해소에 이용하는 방법 등으로 다양하게 제안되었다. 본 논문에서는 대규모로 구축된 의미 태그 부착 말뭉치를 이용하여 한국어 단어 벡터를 추출하고 이 벡터들 사이의 유사도를 계산하여 단어 의미 중의성을 해소하는 단어 공간 모델 방법을 제안한다. 세종 형태의미분석 말뭉치를 사용하여 학습하고 임의의 200문장(583 단어 종류)에 대해 평가한 결과, 정확도가 94%로 기존의 방법에 비해 매우 우수했다.

공간 계층 분해를 이용한 효율적인 3 차원 메쉬 시퀀스 압축 (Efficient 3D Mesh Sequence Compression Using a Spatial Layer Decomposition)

  • 안재균;김창수
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2013년도 하계학술대회
    • /
    • pp.14-15
    • /
    • 2013
  • 본 논문에서는 공간 계층 분해를 이용한 3 차원 메쉬 시퀀스 압축 기법을 제안한다. 제안하는 기법은 우선 각 점에 대한 시간적 궤적을 공분산 행렬로 표현하고, PCA(Principal component analysis)를 적용하여 시간 궤적에 대한 고유 벡터와 PCA 계수를 획득한다. 공간적인 예측을 통해 PCA 계수에 대한 벡터 차를 추출하고, 벡터 차와 그것에 대한 고유 벡터를 전송한다. 제안하는 방법은 PCA 계수 예측의 성능을 높이기 위해 점진적 압축에서 사용하는 공간 계층 분해 기법을 적용하여, 계수 예측에 효과적인 이웃 점을 지정하도록 한다. 또한, 이웃 점 개수를 사용자가 임의로 지정할 수 있도록 하여, 성능과 복잡도간의 트레이드 오프를 제어할 수 있도록 한다. 다양한 모델에 대한 실험 결과를 통해 제안하는 방법의 성능을 확인한다.

  • PDF

지지벡터기계를 이용한 단어 의미 분류 (Word Sense Classification Using Support Vector Machines)

  • 박준혁;이성욱
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.563-568
    • /
    • 2016
  • 단어 의미 분별 문제는 문장에서 어떤 단어가 사전에 가지고 있는 여러 가지 의미 중 정확한 의미를 파악하는 문제이다. 우리는 이 문제를 다중 클래스 분류 문제로 간주하고 지지벡터기계를 이용하여 분류한다. 세종 의미 부착 말뭉치에서 추출한 의미 중의성 단어의 문맥 단어를 두 가지 벡터 공간에 표현한다. 첫 번째는 문맥 단어들로 이뤄진 벡터 공간이고 이진 가중치를 사용한다. 두 번째는 문맥 단어의 윈도우 크기에 따라 문맥 단어를 단어 임베딩 모델로 사상한 벡터 공간이다. 실험결과, 문맥 단어 벡터를 사용하였을 때 약 87.0%, 단어 임베딩을 사용하였을 때 약 86.0%의 정확도를 얻었다.