• 제목/요약/키워드: latent semantic indexing

검색결과 18건 처리시간 0.024초

의미 확산을 이용한 잠재 의미 색인 방법 (Latent Semantic Indexing Using Semantic Diffusion)

  • 김진화;김용혁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.16-21
    • /
    • 2010
  • 잠재 의미를 색인하는 것은 문서 색인에 있어서 그 색인 품질에 주요한 요인을 차지한다. 본 논문에서 살펴보는 의미 확산 방법은 문서 집합에 나타나는 단어들의 의미적 연관성을 바탕으로 활성화 작용 모델(spreading activation model)을 구축하고 색인 대상 문서의 단어 분포를 출발점으로 삼아, 그 모델 안에서 의미적으로 수렴할 수 있도록 랜덤 워크 방법(random walk method)1)을 수정한 변형 방법을 이용해 확률을 확산시킨다. 이 방법은 단어 사이의 연관성을 따라 탐색하며 동의어와 다의어 등 단순 단어 일치로는 알 수 없는 의미적 유사 단어들이 의미 있는 확률 분포를 갖게 한다. 이는 단어들의 의미 분포를 가중치 그래프를 통해 보다 합리적으로 다루게 된다. 실험에서는 문서 분류를 시행하여 평균 정확도 및 정확도-재현율 곡선을 산출하였고, 비교 실험을 통해서 전반적인 우수성을 관찰할 수 있었다.

  • PDF

잠재의미색인(LSI) 기법을 이용한 kNN 분류기의 자질 선정에 관한 연구 (Evaluation of the Feature Selection function of Latent Semantic Indexing(LSI) Using a kNN Classifier)

  • 박부영;정영미
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2004년도 제11회 학술대회 논문집
    • /
    • pp.163-166
    • /
    • 2004
  • 텍스트 범주화에 관한 선행연구에서 자주 사용되면서 좋은 성능을 보인 자질 선정 기법은 문헌빈도와 카이제곱 통계량 등이다. 그러나 이들은 단어 자체가 갖고 있는 모호성은 제거하지 못한다는 단점이 있다. 본 연구에서는 kNN 분류기를 이용한 범주화 실험에서 단어간의 상호 관련성이 자동적으로 유도됨으로써 단어 자체 보다는 단어의 개념을 분석하는 잠재의미색인 기법을 자질 선정 방법으로 제안한다.

  • PDF

잠재적 의미와 k-means 군집화를 이용한 개념추출 검색 (Extraction of Concept by Latent Semantic Indexing and k-means Clustering)

  • 장유진;임호섭;박기림;김민구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.22-24
    • /
    • 2001
  • 정보검색 시스템에서 사용자의 질의어가 불완전함에 따라 생기는 검색 효율의 저하를 줄이기 위하여 용어의 상호관련성을 반영함과 동시에 벡터의 공간을 축소하는 LSI 모델을 사용하여 문서 집합으로부터 잠재적 의미 공간을 구축하였다. 또한 의미 공간상에 있는 문서의 분포에 따라 \"개념\"을 추출하기 하기 위해 k-means algorithm을 사용하여 군집화 시켰다. 이로부터 불완전한 초기 사용자 질의어를 의미 공간에 구축된 클러스터링 정보로 수정하여 새로운 질의어를 생성함으로 검색의 효율을 높이고자 하였다. 검색 효율을 측정하기 위해 TREC 데이터를 이용하여 분석하였으며 결과는 질의어의 성격에 따라 달라졌으나 대체적으로 우수한 성능을 보였다.한 성능을 보였다.

  • PDF

전자상거래 추천자 시스템에 대한 분석 (Simulation Study on E-commerce Recommendation System)

  • 권치명
    • 한국시뮬레이션학회:학술대회논문집
    • /
    • 한국시뮬레이션학회 2005년도 추계학술대회 및 정기총회
    • /
    • pp.56-62
    • /
    • 2005
  • 추천자 시스템은 E-commerce 사이트에서 소비자가 관심을 가지는 상품에 대한 정보를 수집하여 소비자가 구매할 것으로 예상되는 상품을 추천하는 목적으로 개발되었다. 추천자 시스템을 구축하여 성공적으로 활용하기 위해서 해결해야 할 과제로 취급 상품이 대량인 경우에 알고리즘의 효율성 문제라고 볼 수 있는데 본 연구는 문서 검색에서 사용되는 LSI(latent semantic indexing) 분석법을 이용하여 추천자 시스템을 개선하는 방안을 연구하고자 한다. LSI 분석법을 이용하여 고객-상품 구매행렬에서 고객이 상품을 구매하는 경향을 효과적으로 파악할 수 있다면 목표고객에 대한 인접고객군을 생성하는 계산 노력은 현저히 감소되어 추천자 알고리즘이 실시간으로 고객 데이터베이스로부터 많은 인접 고객을 효율적으로 검색할 수 있을 것으로 기대된다. 본 연구는 E-commerce 사이트로부터 얻는 실제적인 고객 자료와 유사한 자료를 시뮬레이션을 통하여 재생하고 이를 바탕으로 LSI에 의한 추천자 시스템의 효율성을 분석하고자 한다.

  • PDF

정보검색시스템의 확률 및 벡터모델에 대한 질의 확장 검색 성능 평가 (Extended Query Search Performance Evaluations for Vector Model and Probabilistic Model of Information System)

  • 전유정;변동률;박순철
    • 한국산업정보학회논문지
    • /
    • 제9권1호
    • /
    • pp.36-42
    • /
    • 2004
  • 본 논문은 벡터모델과 확률모델의 성능 비교에 관한 연구이다. 벡터모델로써는 잠재적 의미를 적용한 검색 결과를 찾기 위해 사용되는 LSI 모델을 이용하였다. 확률모델로써는 현재 상용화 단계에 있는 콘도르 정보검색 시스템을 적용하였다. 각 모델 시스템의 검색 성능 비교를 위한 실험은 사용자가 입력한 원래 질의어에 관한 검색 결과를 바탕으로 성능을 비교한 후에, 사전적 의미를 적용한 확장 질의어에 대한 검색 결과를 추가하여 비교하였다. 본 연구에서는 입력된 질의어와 관련된 용어를 추가하여 검색하였을 경우, 확률모델에 비해 벡터모델에서 성능이 대부분의 질의어에 대해서 향상됨을 보인다.

  • PDF

Automatic extraction of similar poetry for study of literary texts: An experiment on Hindi poetry

  • Prakash, Amit;Singh, Niraj Kumar;Saha, Sujan Kumar
    • ETRI Journal
    • /
    • 제44권3호
    • /
    • pp.413-425
    • /
    • 2022
  • The study of literary texts is one of the earliest disciplines practiced around the globe. Poetry is artistic writing in which words are carefully chosen and arranged for their meaning, sound, and rhythm. Poetry usually has a broad and profound sense that makes it difficult to be interpreted even by humans. The essence of poetry is Rasa, which signifies mood or emotion. In this paper, we propose a poetry classification-based approach to automatically extract similar poems from a repository. Specifically, we perform a novel Rasa-based classification of Hindi poetry. For the task, we primarily used lexical features in a bag-of-words model trained using the support vector machine classifier. In the model, we employed Hindi WordNet, Latent Semantic Indexing, and Word2Vec-based neural word embedding. To extract the rich feature vectors, we prepared a repository containing 37 717 poems collected from various sources. We evaluated the performance of the system on a manually constructed dataset containing 945 Hindi poems. Experimental results demonstrated that the proposed model attained satisfactory performance.

잠재 의미 색인 기법을 이용한 국제 특허 분류 (International Patent Classificaton Using Latent Semantic Indexing)

  • 진훈태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1294-1297
    • /
    • 2013
  • 본 논문은 기계학습을 통하여 특허문서를 국제 특허 분류(IPC) 기준에 따라 자동으로 분류하는 시스템에 관한 연구로 잠재 의미 색인 기법을 이용하여 분류의 성능을 높일 수 있는 방법을 제안하기 위한 연구이다. 종래 특허문서에 관한 IPC 자동 분류에 관한 연구가 단어 매칭 방식의 색인 기법에 의존해서 이루어진바가 있으나, 현대 기술용어의 발생 속도와 다양성 등을 고려할 때 특허문서들 간의 관련성을 분석하는데 있어서는 단어 자체의 빈도 보다는 용어의 개념에 의한 접근이 보다 효과적일 것이라 판단하여 잠재 의미 색인(LSI) 기법에 의한 분류에 관한 연구를 하게 된 것이다. 실험은 단어 매칭 방식의 색인 기법의 대표적인 자질선택 방법인 정보획득량(IG)과 카이제곱 통계량(CHI)을 이용했을 때의 성능과 잠재 의미 색인 방법을 이용했을 때의 성능을 SVM, kNN 및 Naive Bayes 분류기를 사용하여 분석하고, 그중 가장 성능이 우수하게 나오는 SVM을 사용하여 잠재 의미 색인에서 명사가 해당 용어의 개념적 의미 구조를 구축하는데 기여하는 정도가 어느 정도인지 평가함과 아울러, LSI 기법 이용시 최적의 성능을 나타내는 특이값의 범위를 실험을 통해 비교 분석 하였다. 분석결과 LSI 기법이 단어 매칭 기법(IG, CHI)에 비해 우수한 성능을 보였으며, SVM, Naive Bayes 분류기는 단어 매칭 기법에서는 비슷한 수준을 보였으나, LSI 기법에서는 SVM의 성능이 월등이 우수한 것으로 나왔다. 또한, SVM은 LSI 기법에서 약 3%의 성능 향상을 보였지만 Naive Bayes는 오히려 20%의 성능 저하를 보였다. LSI 기법에서 명사가 잠재적 의미 구조에 미치는 영향은 모든 단어들을 내용어로 한 경우 보다 약 10% 더 향상된 결과를 보여주었고, 특이값의 범위에 따른 성능 분석에 있어서는 30% 수준에 Rank 되는 범위에서 가장 높은 성능의 결과가 나왔다.

LSI 기법을 이용한 전자상거래 추천자 시스템의 시뮬레이션 분석 (Simulation Study on E-commerce Recommender System by Use of LSI Method)

  • 권치명
    • 한국시뮬레이션학회논문지
    • /
    • 제15권3호
    • /
    • pp.23-30
    • /
    • 2006
  • 추천자 시스템은 전자상거래 사이트에서 고객의 상품 구매 정보를 수집하여 고객에 대한 예상 구매 상품을 추천하는 목적으로 개발되었다. 본 연구는 대형 전자상거래 사이트에서 고객의 상품 구매 이력이 활용 가능한 경우에 전통적인 통계기법인 군집분석 및 고객 간의 상품 구매 상관성을 이용하는 기존 추천자 시스템(협력적 필터링 기법)과 문서 검색에서 사용되는 LSI분석에 기반한 협업 필터링 기법을 상품 추천에 적용하여 각 기법의 상품 추천 효율성을 비교 분석하였다. 문서-용어 행렬과 유사한 구조를 가지는 고객-상품 구매 행렬에 문서 검색에 사용되는 LSI 분석법은 고객의 상품구매 경향을 원 상품 수보다 축소된 차원의 변환 상품을 통하여 파악함으로써 목표고객에 대한 인접고객군의 생성 노력을 현저히 감소시킬 수 있어 결과적으로 실시간으로 적용되는 추천자 알고리즘의 효율성을 개선할 수 있을 것으로 기대할 수 있다. 가상적인 고객-상품 구매 리스트를 대상으로 실행한 시뮬레이션 실험 결과에서도 알고리즘의 효율성 평가측도인 recall과 정확도 및 F1에서 LSI 기반 협력적 필터링 기법이 기존의 방법보다 우수한 결과를 나타내었다. 시뮬레이션 결과, 인접고객 군의 크기가 일정한 수준에 이르면 그 크기를 증가시키더라도 알고리즘의 효율성은 별로 개선되지 않으며 또한 추천 상품 수가 일정 수준에 도달하면 추천 정확도가 낮아지는 정도에 비해 recall의 개선도는 별 변화가 없는 것으로 나타나고 있다. 추천자 시스템을 구현하는 용도에 따라 이러한 정보는 유용하게 사용될 수 있다고 판단된다.

  • PDF