• 제목/요약/키워드: 태그 유사도

검색결과 136건 처리시간 0.032초

연관 태그의 군집화를 위한 클러스터링 기법 비교 연구 (A Comparative Study on Clustering Methods for Grouping Related Tags)

  • 한승희
    • 한국문헌정보학회지
    • /
    • 제43권3호
    • /
    • pp.399-416
    • /
    • 2009
  • 본 연구에서는 태그 공간에서 정보의 효율적 탐색을 위해 이용자에게 제공될 수 있는 연관 태그 클러스터의 생성을 위해 다양한 유사계수와 클러스터링 기법을 적용한 후 그 결과를 평가하고 비교 분석함으로써 연관 태그의 클러스터링에 가장 적합한 클러스터링 알고리즘을 확인하고자 하였다. Delicious에서 임의의 태그 10개를 대상으로 각각 300개의 문서에서 추출한 연관 태그를 대상으로 태그쌍 간의 연관성을 측정한 후 계층적 기법과 비계층적 기법을 적용하여 생성된 클러스터를 대상으로 클러스터 적합도를 측정한 결과, 일반적으로 용어 클러스터링에서 널리 활용되는 것으로 알려진 워드 기법이 코사인 유사계수와 결합했을 때 거의 모든 실험 대상에 대해 유사한 경향을 보이면서 가장 우수한 성능을 나타내는 것으로 나타났다. 연관 태그 클러스터는 정보관리 측면에서 유사한 합목적성을 갖는 태그끼리 군집을 이루면서 용어의 중의성을 해소함으로써 태그 공간에서의 이용자의 정보 탐색에 유용하게 활용될 것이다.

블로그 검색에서의 태그 계층구조를 이용한 포스트 군집화 (Post Clustering Method using Tag Hierarchy for Blog Search)

  • 이기준;김경민;이명진;김우주;홍준석
    • 한국전자거래학회지
    • /
    • 제16권4호
    • /
    • pp.301-319
    • /
    • 2011
  • 웹 3.0으로 진화중인 웹 환경 하에서 블로그는 사용자 주도적인 웹의 특성을 가장 잘 표현하는 집합체 중 하나로, 기존의 웹 정보자원과 구분되는 새로운 형태의 지식베이스로써의 역할을 담당하고 있다. 기존의 웹 정보자원들이 사이트 단위로 광범위한 주제를 다루었던 것에 반해, 블로그의 정보자원은 사용자의 관심사에 따라 특정 정보들이 블로그 단위로 밀집되어 있으며 또한 사용자 태깅에 의해 게시된 정보자원에 대한 분류기준을 가지고 있다. 본 연구에서는 이러한 블로그의 특징들을 이용하여 보다 좀 더 효과적인 정보검색에 활용하기 위하여 블로그의 제목 키워드나 태그를 활용하여 태그 계층구조를 만들고 그 계층구조를 적용한 포스트군집화 방법론을 개발하여 기존의 블로그 검색과는 다른 특성을 가진 검색결과를 제시하였다. 이를 위하여 블로그 태그간의 관계성이 반영된 태그 계층구조를 생성하고 태그 유사도에 따른 태그군집화 방법을 개발하였다. 본 논문은 제안된 방법론을 구현한 프로토타입 시스템을 통해 실제사례에서의 연구의 적용 가능성을 판단하였으며, 군집 유사도 평가기준인 CSIM(Cluster SIMilarity)을 사용하여 골든 스탠다드의 유사도 비교를 통해 개발된 방법론과 시스템의 성과를 평가하였다.

Visually Weighted Neighbor Voting을 이용한 이미지 태그 정제 기술 (Image Tag Refinement using Visually Weighted Neighbor Voting)

  • 이시형;;노용만
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2011년도 하계학술대회
    • /
    • pp.16-17
    • /
    • 2011
  • 온라인을 통한 이미지 공유는 사용자들이 활발하게 이용하고 있는 분야 중 하나이다. 사용자의 활발한 참여로 거대해진 이미지 데이터 베이스 내에서 효율적으로 이미지 검색을 수행하기 위해서는 이미지를 정확하기 표현하고 있는 태그의 존재가 매우 중요하다. 하지만, 최근 이미지에 등록 태그 중에서 상당 부분이 이미지와는 직접 관련이 없는 노이즈 태그라는 조사결과는 노이즈 태그로 인해서 이미지 검색의 정확성이 저하될 수 있다는 가능성을 암시한다. 그래서 노이즈 태그를 효과적으로 구분하기 위해서는 태그의 종류에 적합한 태그 정제 기술을 도입할 필요가 있다. 본 연구는 이를 위해서 이미지의 시각적 유사도에 기반한 Visually weighted neighbor voting 방법을 제안했다. 이를 통해서 이미지와 태그 사이의 관련성을 효과적으로 측정할 수 있었다. 그리고 기존 기술보다 안정적으로 노이즈 태그를 구분할 수 있음을 실험을 통해서 증명하였다.

  • PDF

개인화된 정보 필터링 에이전트를 위한 유전 알고리즘 (Genetic algorithm for personalized information filtering agent)

  • 손윤희;박상호
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2001년도 추계학술발표논문집
    • /
    • pp.423-428
    • /
    • 2001
  • 유전 알고리즘을 이용한 정보 필터링 에이전트는 기존의 검색엔진에서 찾고자 하는 문서에 대해 검색된 문서의 유사도가 낮은 문제점을 해결한다. 본 논문에서는 HTML 태그의 중요도 가중치와 HTML 태그 안의 위치에 대한 가중치를 유전 알고리즘을 이용하여 학습한다. 여기서 학습된 가중치가 높은 태그와 태그 안의 위치 그리고 출현하는 빈도수에 대한 중요도 가중치를 다시 유전 알고리즘을 이용하여 학습하고 여기서 학습된 가중치로 검색된 문서를 필터링하여 정보 검색 성능을 향상시킬 수 있는 방법을 제안한다. 이 때 태그의 중요도 가중치 값을 학습하는 방법으로 하나의 태그를 유전자로 매핑하고 일련의 태그 집합을 염색체로 표현한 유전 알고리즘을 이용한다. 태그 안의 위치에 대한 중요도 가중치 값도 같은 방법을 이용한다. 여기서 나온 태그와 위치 그리고 빈도 수에 대한 중요도 가중치 값을 다시 유전자 알고리즘 이용하여 계산하다. 이 값으로 검색된 문서를 필터링하여 기존의 정보검색보다 검색자가 원하는 검색문서에 상당한 정확율을 제공하는 방법을 제안한다.

  • PDF

연관 태그 및 유사 사용자 가중치를 이용한 웹 콘텐츠 랭킹 시스템 (A Web Contents Ranking System using Related Tag & Similar User Weight)

  • 박수진;이시화;황대훈
    • 한국멀티미디어학회논문지
    • /
    • 제14권4호
    • /
    • pp.567-576
    • /
    • 2011
  • 웹 2.0의 발전에 따라 다양한 기술들이 제공되며 그 중 대두되는 기술로 사용자가 관심 있는 웹페이지를 태깅 및 북마킹하는 소셜 북마킹 기술이다. 그러나 현재 소셜 북마킹 시스템들은 웹 콘텐츠의 중요 정보인 다른 사용자들의 관심 정도를 측정할 수 있는 북마크 수 및 검색과 분류를 목적으로 하는 태그 정보를 각각 독립적으로 검색에 활용하며 또한, 다른 사용자들과의 유사도를 반영하지 못하여 소셜 북마킹 시스템의 특징을 반영하지 못한 검색결과를 도출하고 있는 실정이다. 이에 본 연구에서는 선행 연구를 기반으로 태그 클러스터링을 통한 연관 태그 추출 및 북마크 정보와 다른 사용자의 유사도를 혼합한 웹 콘텐츠 랭킹 알고리즘을 제안하였다. 또한 제안 알고리즘의 효율성 분석을 위해 기존 검색 방법론 및 선행 연구의 방법론과의 비교평가를 시행하였으며, 그 결과 본 연구의 핵심적인 특징인 태그 정보 및 북마크 수와 유사도를 활용한 방법이 기존 방법론보다 효율적인 결과를 도출하였다.

딜리셔스에서 유사태그 추출에 관한 연구 (Mining Semantically Similar Tags from Delicious)

  • 이관
    • 정보관리학회지
    • /
    • 제26권2호
    • /
    • pp.127-147
    • /
    • 2009
  • 자연언어에서 유사어의 처리는 사람과 컴퓨터간의 의사소통에 적지 않은 장애가 되어왔고, 이는 사용자의 임의적 단어사용에 기반을 두고 있는 웹 2.0 애플리케이션, 특히 소셜태깅 분야에 있어서 그 장애의 정도가 더 심각해질 수 있다. 본 연구는 한 대표적인 웹 2.0 애플리케이션에서 자동 유사어 추출에 관한 문제를 다루고 있다. 더 구체적으로, 가장 널리 사용되는 소셜북마킹 애플리케이션인 딜리셔스를 기반으로, 유사태그를 추출하는 방법(FolkSim)을 제시하고자 한다. 제시한 방법의 평가를 위하여, 문서유사도의 측정을 위해서 쓰여진 고전적 벡터모델에 의거한 유사태그를 추출하는 방법(CosSim)과 그 결과들을 서로 비교분석하여 보았다. 몇 가지 면에서 FolkSim가 더 나은 결과 산출해내는 증거들이 관찰되어졌다. 또한, FolkSim 방법에 의한 유사태그가 만들어지지 않는 경우에 대비하여, 그 대안 또한 제시하고 있다.

유사어 벡터 확장을 통한 XML태그의 유사성 검사 (Similarity checking between XML tags through expanding synonym vector)

  • 이정원;이혜수;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권9호
    • /
    • pp.676-683
    • /
    • 2002
  • XML(extensible Markup Language)문서가 웹 문서의 표준으로 자리 매김 할 수 있는 가장 큰 성공요인은 사용자가 문서 타입을 기술할 수 있는 유연성(flexibility)이다. 그러나 XML의 유연성으로 야기되는 문제점은 동일한 의미를 표현하기 위해 XML문서 작성자마다 서로 다른 태그명과 구조를 사용한다는 점이다. 즉 서로 다른 태그 집합, 요소(element), 속성(attribute)에 대한 서로 다른 이름 또는 다른 문서 구조로 인해 다른 태그로 표현된 문서는 서로 다른 부류의 문서로 간주되기 쉽다. 따라서 본 논문은 XML태그에 내재된 의미 정보(semantic information)와 구조 정보(structured information)를 추출하여 의미적으로 최대한 유사한 동의어로 확장하고, XML문서의 확장된 태그간의 의미적 유사도를 비교 분석할 수 있는 개념 기반의 태그 패턴 매처(Tag Pattern Matcher)를 설계 구현하였다. 두 XML문서의 태그간의 의미적 유사도에 가중치를 부여하여 기존의 비구조적인(semi-structured) 문서를 위한 벡터 스페이스 모델(vector space model)을 확장함으로써 두 XML문서가 유사한지를 파악할 수 있다.

구조와 내용 유사도에 기반한 XML 웹 문서 검색시스템 구축 (An Implementation of XML document searching system based on Structure and Semantics Similarity)

  • 박우창;서여진
    • 인터넷정보학회논문지
    • /
    • 제6권2호
    • /
    • pp.99-115
    • /
    • 2005
  • XML은 인터넷상에서 데이터 표현과 변환을 위한 표준이며, 이러한 XML 문서에서 필요한 정보를 찾아내기 위해 XML 문서 검색 시스템이 필요하다. 본 연구는 이러한 필요성에 기반을 두어 XML 구조를 최대한 활용하여, 주어진 XML 문서에 대해 구조와 내용이 가장 가까운 문서들을 찾아내는 검색 시스템을 개발하였다. 검색 메트릭은 XML 문서들 중 각 태그의 이름에 대한 유사도, 각 태그가 포함하는 값의 유사도와 태그 간 구조에 대한 유사도를 모두 고려하며, 검색 후 유사도의 결과 값에 따라 검색 결과를 순위화 하여 보여준다. 검색 방법은 전통적인 키워드 검색 방식, 태그와 값을 입력하여 검색할 수 있는 방식, XML 문서를 입력하여 검색하는 세 가지 질의 방식을 제공함으로서 사용자들의 기호에 따라 원하는 방식을 골라 검색할 수 있도록 구성하여 시스템의 유용성을 높였다. 개발된 XML 문서 검색 시스템은 INEX에서 제공된 XML 문서들을 대상으로 하여 테스트하였다.

  • PDF

RFID 태그의 위치추적을 위한 색인 기법에 대한 연구 (A Study of Indexing Scheme for Tracing of RFID Tags)

  • 안성우;홍봉희
    • 한국공간정보시스템학회:학술대회논문집
    • /
    • 한국공간정보시스템학회 2005년도 추계학술대회
    • /
    • pp.161-167
    • /
    • 2005
  • RFID 태그 객체의 위치정보는 시간에 따라 궤적 정보가 누적되는 이동체와 유사한 특성을 가지지만 태그의 위치는 논리적인 리더의 위치로 인식되며 위치보고가 리더의 인식영역 안에서만 이루어지므로 시간축에 평행한 이산적인 시간간격 형태로 나타나는 차이점이 있다. 기존 이동체의 위치 추적 색인에서는 이동체의 위치를 연결된 다중선으로 표현하여 색인에 저장을 하기 때문에 시공간적으로 연결되지 않은 태그의 위치 정보를 저장하면 궤적 검색 비용이 매우 높아지는 문제가 발생한다. 이 논문에서는 이동체와는 다른 태그의 위치 특성을 반영하여 태그의 궤적 검색을 효율적으로 수행하는 색인 기법을 제안한다. 제안된 색인에서는 시간적으로 연결되지 않은 태그의 궤적 정보를 검색하기 위하여 동일 태그의 위치 간의 연결 정보를 유지하는 기법을 제시하고 있다. 또한, 부모 태그와 자식 태그간의 포함관계를 유지하는 기법을 제시함으로써 상품의 역학조사와 같이 물품에 부착된 태그간의 포함관계를 이용한 순방향 및 역방향 궤적 검색을 효율적으로 수행할 수 있도록 하고 있다.

  • PDF

RFID 태그 추적을 위한 $TPIR^{*}$-Tree ([ $TPIR^{*}$ ]-Tree for tracing RFID tags)

  • 이세호;안성우;홍봉희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.22-24
    • /
    • 2005
  • RFID 시스템은 전자태그를 상품에 부착하여 리더를 통해 태그를 인식함으로써 상품의 정보 및 위치정보를 추적할 수 있다. 태그 객체의 위치정보는 시간에 따라 궤적 정보가 누적되는 이동체와 유사한 특성을 가지지만 이동체의 위치와 달리 태그의 위치는 리더의 위치로 인식되며 위치보고가 리더의 인식영역 안에서만 이루어지므로 시간축에 평행한 interval의 형태를 나타난다. 태그가 리더의 인식영역에 들어와 나가지 않으면 궤적이 완성되지 않아 리더에 머물고 있는 태그의 궤적을 표현할 수 없으므로 질의 시 이러한 태그를 검색할 수 없다. 시공간 이동체 색인에서는 이러한 태그의 특성을 표현하기 힘들기 때문에 태그의 특성을 고려한 색인이 필요하게 되었다. TPIR-Tree(Time Parameterized Interval R-tree)는 시간 매개변수 간격으로 태그의 interval을 정의하여 리더안에 머무는 태그의 interval을 표현할 수 있다. 그러나 각 interval이 시공간적으로 연결되어 있지 않아 색인 상에서 태그의 궤적을 검색하는 것은 매우 높은 검색 비용을 가지는 단점이 있다. 이 논문에서는 태그 궤적 검색 시 TPIR-Tree의 높은 검색 비용문제를 해결한 $TPIR^{*}$-Tree를 제안한다. 제안된 $TPIR^{*}$-Tree는 색인에서 태그의 궤적 정보를 유지할 수 있도록 하기 위해서 시간적으로 연결되지 않은 각 interval을 연결하기 위한 기법을 제시하고 있다. 또한. interval을 색인에 삽입할 때 연결정보를 유지하기 위해 이전 interval을 효율적으로 검색할 수 있는 방법을 제시하고 있다.

  • PDF