• 제목/요약/키워드: 잠재적 의미 분석

검색결과 263건 처리시간 0.027초

정보 검색에서의 잠재 의미 분석 방법을 이용한 응집 계층 군집화 기법 연구 (Agglomerative Hierarchical Clustering Using Latent Semantic Analysis in Information Retrieval)

  • ;강대현;박한샘;권경락;정인정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 춘계학술발표대회
    • /
    • pp.952-955
    • /
    • 2014
  • 본 논문에서는 정보 검색 분야에서 잘 알려진 잠재 의미 분석 방법과 계층적 군집화 방법의 단점을 상호 보완하여 보다 효율적인 정보 검색을 위한 혼합형 군집화 방법을 제안한다. 먼저, 잠재 의미 분석 방법은 벡터 연산을 통하여 자동적으로 문서 내에 있는 잠재적인 의미를 찾는 정보 검색분야에서 많이 사용되는 고전적인 방법이다. 그러나 이 방법은 언어의 유의성이나 다의성으로 인하여 발생되는 백-오브-워드(bag-of-word) 문제를 가지고 있다. 두 번째 방법인 문서 군집화를 위하여 범용적으로 사용되고 있는 계층적 군집화 방법이다. 이 방법은 이를 통하여 분석된 군집의 질적 측면에서 볼 때, 여전히 단층적 군집들이 많이 형성되어 세부적인 분석을 통한 추가적인 군집화가 필요함을 알 수 있다. 따라서, 본 논문에서는 앞서 언급한 문제점을 해결하기 위하여 혼합적인 방법으로 잠재 의미 분석 방법을 이용한 응집 계층 군집화 방법을 제안한다. 제안한 방법을 이용하여 잘 알려진 두 개의 데이터에 적용하고 기존의 방법과 그 결과를 비교함으로써 군집의 질적 측면에서의 우수함을 보인다.

잠재 의미 색인 기법을 이용한 국제 특허 분류 (International Patent Classificaton Using Latent Semantic Indexing)

  • 진훈태
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1294-1297
    • /
    • 2013
  • 본 논문은 기계학습을 통하여 특허문서를 국제 특허 분류(IPC) 기준에 따라 자동으로 분류하는 시스템에 관한 연구로 잠재 의미 색인 기법을 이용하여 분류의 성능을 높일 수 있는 방법을 제안하기 위한 연구이다. 종래 특허문서에 관한 IPC 자동 분류에 관한 연구가 단어 매칭 방식의 색인 기법에 의존해서 이루어진바가 있으나, 현대 기술용어의 발생 속도와 다양성 등을 고려할 때 특허문서들 간의 관련성을 분석하는데 있어서는 단어 자체의 빈도 보다는 용어의 개념에 의한 접근이 보다 효과적일 것이라 판단하여 잠재 의미 색인(LSI) 기법에 의한 분류에 관한 연구를 하게 된 것이다. 실험은 단어 매칭 방식의 색인 기법의 대표적인 자질선택 방법인 정보획득량(IG)과 카이제곱 통계량(CHI)을 이용했을 때의 성능과 잠재 의미 색인 방법을 이용했을 때의 성능을 SVM, kNN 및 Naive Bayes 분류기를 사용하여 분석하고, 그중 가장 성능이 우수하게 나오는 SVM을 사용하여 잠재 의미 색인에서 명사가 해당 용어의 개념적 의미 구조를 구축하는데 기여하는 정도가 어느 정도인지 평가함과 아울러, LSI 기법 이용시 최적의 성능을 나타내는 특이값의 범위를 실험을 통해 비교 분석 하였다. 분석결과 LSI 기법이 단어 매칭 기법(IG, CHI)에 비해 우수한 성능을 보였으며, SVM, Naive Bayes 분류기는 단어 매칭 기법에서는 비슷한 수준을 보였으나, LSI 기법에서는 SVM의 성능이 월등이 우수한 것으로 나왔다. 또한, SVM은 LSI 기법에서 약 3%의 성능 향상을 보였지만 Naive Bayes는 오히려 20%의 성능 저하를 보였다. LSI 기법에서 명사가 잠재적 의미 구조에 미치는 영향은 모든 단어들을 내용어로 한 경우 보다 약 10% 더 향상된 결과를 보여주었고, 특이값의 범위에 따른 성능 분석에 있어서는 30% 수준에 Rank 되는 범위에서 가장 높은 성능의 결과가 나왔다.

스피치 요약을 위한 태그의미분석과 잠재의미분석간의 비교 연구 (Comparing the Use of Semantic Relations between Tags Versus Latent Semantic Analysis for Speech Summarization)

  • 김현희
    • 한국문헌정보학회지
    • /
    • 제47권3호
    • /
    • pp.343-361
    • /
    • 2013
  • 본 연구는 스피치 요약을 위해서 태그를 확장하고 또한 태그 간의 의미적 관계 정보를 이용할 수 있는 태그의미분석 방법을 제안하고 평가하였다. 이를 위해서, 먼저 비디오 태그를 확장하고 태그 간의 의미적 관계를 분석하는데 있어서 플리커의 태그 클러스터와 워드넷의 동의어 정보가 얼마나 효과적으로 이용될 수 있는가 조사해 보았다. 그런 다음 태그의미분석 방법의 특성과 효율성을 조사해 보기 위해서 제안한 방법을 잠재의미분석(Latent Semantic Analysis) 방법과 비교해 보았다. 분석 결과, 플리커의 태그 클러스터는 효과적으로 이용되었지만 워드넷은 효과적으로 이용되지 못한 것으로 나타났다. F측정을 사용하여 두 방법의 효율성을 비교한 결과, 제안한 방법의 F값(0.27)이 잠재의미분석 방법의 F값(0.22)보다 높게 나타났다.

지도적 잠재의미색인(LSI)기법을 이용한 의견 문서 자동 분류에 관한 실험적 연구 (An Experimental Study on Opinion Classification Using Supervised Latent Semantic Indexing(LSI))

  • 이지혜;정영미
    • 정보관리학회지
    • /
    • 제26권3호
    • /
    • pp.451-462
    • /
    • 2009
  • 본 연구에서는 의견이나 감정을 담고 있는 의견 문서들의 자동 분류 성능을 향상시키기 위하여 개념색인의 하나인 잠재의미색인 기법을 사용한 분류 실험을 수행하였다. 실험을 위해 수집한 1,000개의 의견 문서는 500개씩의 긍정 문서와 부정 문서를 포함한다. 의견 문서 텍스트의 형태소 분석을 통해 명사 형태의 내용어 집합과 용언, 부사, 어기로 구성되는 의견어 집합을 생성하였다. 각기 다른 자질 집합들을 대상으로 의견 문서를 분류한 결과 용어색인에서는 의견어 집합, 잠재의미색인에서는 내용어와 의견어를 통합한 집합, 지도적 잠재의미색인에서는 내용어 집합이 가장 좋은 성능을 보였다. 전체적으로 의견 문서의 자동 분류에서 용어색인 보다는 잠재의미색인 기법의 분류 성능이 더 좋았으며, 특히 지도적 잠재의미색인 기법을 사용할 경우 최고의 분류 성능을 보였다.

잠재의미분석을 활용한 성격검사문항의 의미표상과 요인구조의 비교 (A Comparison between Factor Structure and Semantic Representation of Personality Test Items Using Latent Semantic Analysis)

  • 박성준;박희영;김청택
    • 인지과학
    • /
    • 제30권3호
    • /
    • pp.133-156
    • /
    • 2019
  • 본 연구는 수검자가 검사 문항을 어떻게 이해했는지를 조사하기 위해 검사문항의 의미표상을 탐구하였다. 잠재의미분석을 활용하여 성격검사문항과 성격요인의 의미표상 간 유사도를 나타내는 의미유사도 행렬을 제안하였고, 이를 기존의 탐색적 요인분석 결과와 비교하였다. 이를 위해 예비 연구에서 대학생 154명을 대상으로 제한된 맥락에서 성격의 5요인을 각각 묘사하는 지문을 수집하였고, 이를 바탕으로 5차원의 축소하여 의미공간을 구성하였다. 연구 1에서는 간편형 한국어 BFI의 요인부하량 행렬과, 예비 연구에서 구성한 의미공간에서 생성한 의미유사도 행렬을 비교하여, 두 행렬이 높은 정적 상관이 있음을 보여주었다. 연구 2에서는 의미유사도를 기반으로 성격검사문항을 생성하고, 수검자의 반응을 수집하여 탐색적 요인분석을 통해 요인구조를 도출하여 두 행렬이 유사함을 보였다. 결론적으로 본 연구는 성격검사에 대한 수검자의 반응 없이 검사문항의 의미표상을 분석하여 구성타당도를 추론할 수 있는 방법을 제안하였고, 성격검사의 요인구조를 검사문항과 성격요인의 의미표상 간 유사도로 해석할 수 있음을 보여주었다. 이러한 결과는 성격검사 개발에 실용적인 도움을 줄 수 있을 것이다.

잠재적 의미와 k-means 군집화를 이용한 개념추출 검색 (Extraction of Concept by Latent Semantic Indexing and k-means Clustering)

  • 장유진;임호섭;박기림;김민구
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.22-24
    • /
    • 2001
  • 정보검색 시스템에서 사용자의 질의어가 불완전함에 따라 생기는 검색 효율의 저하를 줄이기 위하여 용어의 상호관련성을 반영함과 동시에 벡터의 공간을 축소하는 LSI 모델을 사용하여 문서 집합으로부터 잠재적 의미 공간을 구축하였다. 또한 의미 공간상에 있는 문서의 분포에 따라 \"개념\"을 추출하기 하기 위해 k-means algorithm을 사용하여 군집화 시켰다. 이로부터 불완전한 초기 사용자 질의어를 의미 공간에 구축된 클러스터링 정보로 수정하여 새로운 질의어를 생성함으로 검색의 효율을 높이고자 하였다. 검색 효율을 측정하기 위해 TREC 데이터를 이용하여 분석하였으며 결과는 질의어의 성격에 따라 달라졌으나 대체적으로 우수한 성능을 보였다.한 성능을 보였다.

  • PDF

그레마스 기호학적 접근을 통한 애니메이선 캐릭터 분석 -장편 애니메이션 "슈렉" 을 중심으로- (A Study of 'Greimas' Semiological Approach in Animation Character)

  • 임운주
    • 한국콘텐츠학회논문지
    • /
    • 제9권5호
    • /
    • pp.99-106
    • /
    • 2009
  • 본 연구는 애니메이션 작품 <슈렉>의 캐릭터를 그레마스 기호학적 이론을 바탕으로 분석하였다. 애니메이션은 하나의 내러티브 속에서 나타나는 캐릭터간의 행위들로 이루어진다. 이러한 캐릭터의 행위들은 캐릭터 가치체계와 의미를 나타낸다. 겉으로 드러나지 않은 잠재적 가치가 발화되는 과정에서 서열적인 가치체계가 생성되고, 캐릭터의 사고 및 행동이 다른 캐릭터들과 다양한 관계의 망을 형성함으로써 의미를 확장해 나간다. 이러한 관점에서 캐릭터의 행위 구조에서 나타난 캐릭터의 체계와 의미를 그레마스 행위소 모델과, 기호학적 4각형 모델을 통해 애니메이션 캐릭터에서 나타난 체계적 특징들과 상호관계의 망 속에서 나타난 의미구조를 분석하고자 하였다.

잠재 의미 분석을 적용한 유사 특허 검색 서비스 시스템 (Similar Patent Search Service System using Latent Dirichlet Allocation)

  • 임현근;김재윤;정회경
    • 한국정보통신학회논문지
    • /
    • 제22권8호
    • /
    • pp.1049-1054
    • /
    • 2018
  • 유사 특허를 검색하는 방법으로 기존에는 키워드 검색 방법을 사용하고 최근에는 머신러닝을 활용한 자동분류 방법을 사용하고 있다. 키워드 검색은 데이터 정제를 통해 정형화된 데이터 분석 방법으로 단문일 경우 검색에서는 정확도는 높지만 문서와 같이 여러 단어로 이루어진 장문일 경우 문장에 내포된 의미 분석을 할 수 없었다. 의미 분석 단계에서의 자동 분류 방법은 비정형 데이터 분석 방법으로 여러 단어로 이루어진 문장을 분류하는데 사용되고 있다. 그 동안 두 가지 방법을 결합하여 유사 문서 검색을 하려는 시도가 있었지만 비정형 데이터와 정형 데이터의 동시 사용에는 분석하는 방법이 다르기 때문에 동시 적용에는 알고리즘 상의 문제가 있었다. 이에 본 논문에서는 문서에서 함축된 키워드를 검출하고 잠재 의미 분석(LDA) 방식을 사용하여 사람이 개입하지 않고 문서를 효율적으로 자동분류하고 유사 특허를 검색할 수 있는 방법을 연구하였다.

만경강 중류 에코톱다양성 추이분석 연구 (A Study on Ecotope Diversity Transition Analysis in the Middle of Mankyung River)

  • 김우람;김지성;김규호
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.480-480
    • /
    • 2016
  • 에코톱은 생태학적 지휘체계(Niche)와 서식처(Habitat)가 결합된 환경을 의미하며 도면에서 최소한의 단위로 일반적인 구성요소의 상태, 잠재자연식생, 잠재생태계 기능으로 균일하게 분류가 가능한 요소로서 천이단계 또는 토지이용이 서로 다른 패치들로 이루진 생태공간을 의미한다. 따라서 에코톱과 비오톱은 식물과 동물의 특정 군집에 요구되는 서식공간의 개념에서는 의미가 같지만 비오톱은 서식공간의 일부분 또는 한 개 이상의 생물이 서식가능한 공간의 개념으로 사용된다. 현재 네덜란드, 스페인을 포함한 유럽국가에서는 에코톱분류를 통한 하천을 관리하는 방안을 제시하고 있으며 이에 대한 많은 연구가 진행되고 있다. 본 연구에서는 만경강 중류 소양천 합류점에서 전주천 합류점까지 약 3.5km 구간의 제외지포함 제내지 1km 폭을 대상으로 1918년 고지도 토지피복을 분류하고, 1948년 해방이전 항공사진, 2003년 2014년 항공사진을 활용한 에코톱을 분류하여 이에 대한 에코톱 다양성지수를 추이분석하여 하천으로부터 떨어진 거리 별 에코톱다양성지수 변화를 분석하였다. 분석결과 과거 제방축조 이전인 1918년 에코톱 다양성 지수는 하천으로부터 멀어질수록 안정적으로 감소하였으나 1948년 이후의 하천은 제내지에서부터 지수값이 급격히 감소한 것을 알 수 있었다. 이는 1948년 이후의 만경강은 과거 1918년 하천에 비해 구하도 공간이 농경지 증가, 보설치 등으로 인한 인위적 교란에 의한 감소로 분석되어지며 에코톱다양성과 밀접한 연관이 있는 생물종다양성 역시 감소하였음을 유추할 수 있다.

  • PDF

CPQRA를 이용한 위험물질의 누출에 따른 독성인자평가

  • 이수길;이내우;최재욱;설수덕
    • 한국산업안전학회:학술대회논문집
    • /
    • 한국안전학회 1997년도 추계 학술논문발표회 논문집
    • /
    • pp.59-64
    • /
    • 1997
  • 화학관련분야의 공정안전에 관하여 오랜 역사를 가진 AIChE는 관련산업분야의 안전규정을 예방적인 측면과 사고원인을 규명하기 위한 측면에서 근원적인 자료를 제시하였고 1955년 AIChE에 의해 설립된 CCPS(center for chemical process safety)는 이에 관한 기술적인 면에 더욱 발달된 정보를 제공하게 되었다. 이런 정보들 가운데 사업장의 위험물질이 지니고 있는 위험성을 어떻게 평가할 것인가에 관하여 CPQRA(chemical process quantitative risk analysis)방법이 제시되어 있다. 1) CPQRA는 양적인 의미에서 위험성의 정의, 분석, 평가, 통제 및 관리방법 등에 대비해 잠재적인 방법을 제시한 것이다. (중략)

  • PDF