• 제목/요약/키워드: 의미적 유사성 검색

검색결과 96건 처리시간 0.027초

계량화된 지식 추상화 계층을 이용한 협력적 질의 처리 (Cooperative Query Answering Using the Metricized Knowledge Abstraction Hierarchy)

  • 신명근
    • 한국컴퓨터정보학회논문지
    • /
    • 제11권3호
    • /
    • pp.87-96
    • /
    • 2006
  • 데이터베이스 시스템에서 협력적 질의응답이란 질의 내용과 정확히 일치하는 자료뿐만 아니라 좀 더 넓은 인근 범위의 자료 또는 근사적인 자료를 검색해 주는 것을 말한다. 협력적 질의응답은 질의 분석, 질의 유연화, 유연화된 질의에 따른 근사적 자료 제공의 세 단계로 이루어져 있다. 질의 유연화를 수행하기 위해 의미적 관계를 표현하는 지식추상화 방법과 자료 사이의 정량적인 유사도를 거리로 표현하는 방법들이 지식표현 방법으로 사용된다. 본 논문에서는 보다 효과적으로 질의 유연화 단계를 지원하기 위해, 다단계 데이터 추상화 계층과 거리 척도를 지원하는 계량화된 지식추상화 계층(MKAH: Metricized Knowledge Abstraction Hierarchy)을 제안한다. MKAH는 카테고리화 될 수 있는 자료에 대해 질의 유연화를 효과적으로 지원하며 두 값 사이의 정량적인 의미상의 유사도를 제공하여, 질의 결과에 순위가 매겨질 수 있도록 한다. MKAH의 실용성과 효율성을 검증하기 위하여 경력직 검색 분야에 대한 원형 시스템을 구현해보았다. 다양한 실험을 통하여 MKAH가 풍부한 의미 표현이 가능하면서 질적으로도 높은 거리 척도를 제공해 준다는 것을 보였다. 그 결과 MKAH를 채택하는 도메인은 다른 정량적인 숫자 도메인과 호환될 수 있다는 점과, 큰 규모의 시스템을 만드는 데에도 장점이 있음을 확인하였다.

  • PDF

태그간 의미관계를 이용한 효율적인 이미지 태그 랭킹 기법 (An Efficient Technique for Image Tag Ranking using Semantic Relationship between Tags)

  • 홍현기;허지욱;정진우;이동호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2010년도 한국컴퓨터종합학술대회논문집 Vol.37 No.1(C)
    • /
    • pp.31-36
    • /
    • 2010
  • 최근 대두되고 있는 웹2.0의 특징은 일반 사용자들이 능동적으로 정보를 생산해내고 공유하는데 있다. 웹 2.0의 참여형 아키텍쳐를 구성하는 핵심요소로 인식되고 있는 폭소노미(Folksonomy)는 과거 택소노미(Taxonomy)와 같이 전문가에 의하여 구축되는 분류 체계가 아닌 사용자들이 협동적으로 태그(Tag)들을 만들고 관리하는 소셜 태깅(Social Tagging)에 의한 분류 시스템이다. 최근 이러한 폭소노미를 활용하여 이미지를 공유하고 검색하고자 하는 다양한 시도들이 진행되고 있다. 그러나 Flickr와 같은 태그 기반 이미지 공유 시스템에서는 태그의 문법적, 의미적 모호성과 이미지에 대한 태그들의 중요성 또는 상관관계를 고려하지 않아 태그 기반 검색 시 정확성 및 신뢰성을 보장할 수 없다. 이러한 문제를 해결하기 위해 폭소노미에 기반한 이미지 공유 데이터베이스에서 적합한 태그들을 태그 전달(Tag Propagation)하거나 확률 및 출현빈도에 기반하여 태그 랭킹을 수행하기 위한 연구들이 활발히 진행되고 있지만 여전히 만족할만한 성능을 보이지 못하고 있다. 본 논문에서는 이미지 공유 데이터베이스에서 유사한 이미지들로부터 이미지에 보다 적합한 태그들을 부여하기 위해서, WordNet을 활용하여 태그들 간의 의미관계에 기반한 효율적인 태그 랭킹 기법을 제안한다. 또한, 신뢰성 있는 태그 기반 검색을 위하여 제안한 태그 랭킹 기법이 현재 이미지 공유 시스템의 랭킹 결과보다 정확성을 높일 수 있음을 실험 예제를 통하여 확인하였다.

  • PDF

허밍 질의 처리 시스템의 성능 향상을 위한 효율적인 빈번 멜로디 인덱싱 방법 (An Efficient Frequent Melody Indexing Method to Improve Performance of Query-By-Humming System)

  • 유진희;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권4호
    • /
    • pp.283-303
    • /
    • 2007
  • 최근 방대한 양의 음악데이타를 효율적으로 저장하고 검색하기 위한 방법의 필요성이 증대되고 있다. 현재 음악 데이타 검색에서 가장 일반적으로 쓰이는 방법은 텍스트 기반의 검색 방법이다. 그러나 이러한 방법은 사용자가 키워드를 기억하지 못할 경우 검색이 어려울 뿐만 아니라 키워드와 정확하게 일치하는 정보만 검색해 주기 때문에 유사한 내용을 가진 정보를 검색하기에 부적절하다. 이러한 문제점을 해결하기 위해 본 논문에서는 내용 기반 인덱싱 방법(Content-Based Indexing Method)을 사용하여 사용자가 부정확한 멜로디(Humming)로 질의하였을 경우라도 원하는 음악을 효율적으로 찾아주는 허밍 질의처리 시스템(Query-By-Humming System)을 설계한다. 이를 위해 방대한 음악 데이타베이스에서 한 음악을 대표하는 의미 있는 멜로디를 추출하여 인덱싱하는 방법을 제안한다. 본 논문에서는 이러한 의미 있는 멜로디를 사용자가 자주 질의할 가능성이 높은 멜로디로서 하나의 음악에서 여러 번 나타나는 반면 멜로디와 긴 쉼표 후에 시작되는 쉼표 단위 멜로디로 정의한다. 실험을 통해 사용자들이 이들 멜로디를 자주 질의한다는 가정을 증명하였다. 본 논문은 성능 향상을 위한 3가지 방법을 제안한다. 첫 번째는 검색속도를 높이기 위해 인덱스에 저장할 멜로디를 문자열 형태로 변환한다. 이때 사용되는 문자 변환 방법은 허밍에 포함된 에러를 허용한 방법으로써 검색 결과의 정확도를 높일 수 있다. 두 번째는 사용자가 자주 질의할 가능성이 높은 의미 있는 멜로디를 인덱싱 하여 검색 속도를 높이고자 한다. 이를 위해 신뢰도가 높은 의미 있는 멜로디를 생성하는 빈번 멜로디 추출 알고리즘과 쉼표 단위 멜로디 추출 방법을 제안한다. 세 번째로는 정확도를 향상시키기 위한 3단계 검색 방법을 제안한다. 이는 데이타베이스 접근을 최소화하여 정확한 검색 결과를 얻기 위하여 제안되었다. 또한 기존 허밍 질의 처리 시스템의 대표적인 인덱싱 방법으로 제안되었던 N-gram 방법과의 성능 비교를 통해 본 논문이 제안하는 방법의 성능이 보다 더 향상되었음을 검증하였다.

다중 특징을 이용한 영상 및 비디오 내용 기반 검색 시스템 설계 (Content-Based Retrieval System Design for Image and Video using Multiple Fetures)

  • 고병철;이해성;변혜란
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권12호
    • /
    • pp.1519-1530
    • /
    • 1999
  • 오늘날 멀티미디어 정보의 양이 매우 빠른 속도로 증가함에 따라 멀티미디어 데이타베이스에 대한 효율적인 관리는 더욱 중요한 의미를 가지게 되었다. 게다가 영상과 같은 비 문자형태의 데이타에 대한 사용자들의 내용기반 검색욕구 증가로 인해 비디오 인덱싱에 대한 관심은 더욱 고조되고 있다. 따라서 본 논문에서는 우선적으로 분할된 샷 경계면에서 추출된 대표 프레임과 정지 영상 데이타베이스로부터 유사 영상과 유사 대표 프레임을 검색할 수 있는 환경을 제공한다. 우선적으로 영상에 의한 질의는 기존에 주로 사용되어온 색상 히스토그램방식을 탈피하여 본 논문에서 제안하는 CS와 GS방식을 이용하여 색상 및 방향성 정보도 고려하도록 설계하였다. 또한 얼굴에 의한 질의는 대표 프레임으로부터 얼굴 영역을 추출해 내고 얼굴의 경계선 값 및 쌍 직교 웨이블릿 변환에 의해 얻어진 2개의 특징값을 이용하여 유사 인물이 포함된 대표 프레임을 검색해 내도록 설계하였다. Abstract There is a rapid increase in the use of digital video information in recent years, it becomes more important to manage multimedia databases efficiently. There is a big concern about video indexing because users require content-based image retrieval. In this paper, we first propose query-by-image system environment which allows to retrieve similar images from the chosen representative frames or images from the image databases. This algorithm considers not only the discretized color histogram but also the proposed directional information called CS & GS method. Finally, we designe another query environment using query-by-face. In this system , user selects a people in the representative frame browser and then system extracts a face region from that frame. After that system retrieves similar representative frames using 2 features, edge information and biorthogonal wavelet transform.

주제 유사성 기반 클러스터링을 이용한 블로그 검색기법 연구 (Study for Blog Clustering Method Based on Similarity of Titles)

  • 이기준;이명진;김우주
    • 지능정보연구
    • /
    • 제15권2호
    • /
    • pp.61-74
    • /
    • 2009
  • 웹 2.0에 기반한 정보화 사회에 있어 참여를 통한 자료의 축적 속도는 더욱 더 가속화 되어가고 있다. 이러한 현상속에서, 웹 2.0으로 인해 정보의 저장 및 공유 형태 역시 단순 웹 페이지에서 블로그로 나아가 포드캐스팅, 비디오 등의 다양한 모습으로 분화되어가고 있는 실정인데, 이는 웹 상의 정보에 대한 통합적이고 효율적인 접근을 오히려 방해할 수 있는 요소이기에 보다 효과적인 정보 검색 방법을 요구하게 된다. 본 연구에서는 특히 블로그 검색에 초점을 맞추어 기존 웹 검색 방식의 문제점을 도출, 해결하고자 한다. 논문에서 제안하고자 바는 특정 검색어에 대해 블로그 검색을 수행한 후, 검색 결과에서 주요 주제들을 효과적으로 추출하고, 주제별로 결과물들을 클러스터링하여 순위별로 제공하고자 하는 것이다. 이를 통해 블로그 검색에의 정보 추출에서 사용자에게 특정 검색어에 대해 보다 동적인 추가 주제 카탈로그를 제시함으로써 대량의 의미 없는 정보들을 단순 브라이징하는 방식을 벗어날 수 있으며, 빠르게 검색 의도에 유의한 자료들에 접근할 수 있도록 할 수 있다.

  • PDF

정보검색(情報檢索)에 있어서 용어(用語)의 통계적(統計的) 관련성(關聯性)을 응용(應用)한 클러스터링기법(技法) (A Study on the Clustering Technique Associated with Statistical Term Relatedness in Information Retrieval)

  • Jeong, Jun-Min
    • 정보관리연구
    • /
    • 제18권4호
    • /
    • pp.98-117
    • /
    • 1985
  • 본(本) 논문(論文)에서는 통계적(統計的) 용어조합(用語組合)과 클러스터링기법(技法)에 관한 문헌(文獻)을 간단히 살펴보았다. 선행연구(先行硏究)들로부터 통계적(統計的) 용어조합(用語組合)은 조합기법(組合技法)의 비효율성(非效率性)때문이 아니라 문헌집단(文獻集團)의 이질성(異質性) 때문에 검색(檢索)과 분류(分類)에 적당치 않다는 사실(事實)을 발견(發見)할 수 있다. 그 결과(結果)로부터 정보검색(情報檢索)의 최적화(最適化)를 위한 조합기법(組合技法)으로서 클러스터링과 통계적(統計的) 색인(索引)의 개념(槪念)을 이용(利用)할 수 있다. 본(本) 논문(論文)의 가설(假說)은 클러스터파일내(內)에서 통계적(統計的) 용어조합(用語組合)을 사용(使用)함으로써 정보검색(情報檢索)시스템의 성능(性能)을 상당히 향상(向上)시킬 수 있다는 것이다. 달리말해서, 파일들을 모으고 의미적(意味的)으로 관련(關聯)있는 모든 문헌(文獻)들을 함께 모아줌으로써, 유사조합(類似組合)(spurious association)의 문제(問題)를 상당히 해결(解決)할 수 있을 것이다. 실제적(實際的)으로, 본(本) 논문(論文)에서는 조합기법(組合技法)의 방법론(方法論)을 어떻게 생성(生成)할 수 있을 것인가를 고려했다. 자동용어(自動用語) 상관성(相關性)을 위하여 스타일(stiles)의 조합인자(組合因子)를 이용(利用)했으며 클러스터링 환경(環境)을 위해 커널기법(技法)(kernel method)을 사용(使用)했다.

  • PDF

스키마간 연관성을 이용한 테이블 군집화 기법 (Table Clustering Using Inter-schema Association)

  • 조순이;이도헌
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.85-87
    • /
    • 2001
  • 업무 데이터 분석을 통한 종합적인 의사결정을 지원할 수 있도록 데이터웨어하우스, OLAP, 데이터마이닝을 적용하려는 기업의 요구가 많아졌다. 그래서 기초 데이터의 이해, 선별, 수집, 가공, 정제가 매우 중요한 과정이나 테이블명 및 속성명이 표준화되어있지 않고 코드나 시스템 카탈로그와 같은 기본 데이터는 부정확하고 부족하다. 본 논문에서는 거의 스키마 정보에만 의존하여 테이블의 의미적 연관성에 근거한 유사한 특성을 가진 집단끼리 분류하는 대략적인 군집분석 방법을 제안한다. 질의 수행시 사용자가 설정한 임계 거리에 ㄸ라 관련된 군집만 검색함으로써 신속한 응답시간을 보장하고, 분석시점에서 다양한 질의에 유연하게 대처할 수 있다는 장점이 있다. 또한 실제 데이터에 본 연구를 적용하여 산출한 군집결과와 사람이 매뉴얼하게 그룹핑한 군집결과와 비교한다.

  • PDF

범주 기반 평가를 이용한 검색시스템의 성능 향상 (Improving Performance of Search Engine Using Category based Evaluation)

  • 김형일;윤현님
    • 한국콘텐츠학회논문지
    • /
    • 제13권1호
    • /
    • pp.19-29
    • /
    • 2013
  • 정보에 대한 공간 복잡도가 높은 현재의 인터넷 환경에서는 사용자가 원하는 정보를 정확히 제공하는 것이 검색엔진의 목표이다. 그러나 대다수 검색엔진이 활용하는 내용 기반 기법은 현재의 인터넷 환경에서는 효과적인 도구로 사용될 수 없다. 내용 기반 기법은 어휘의 형태적 특성을 이용하여 웹페이지 가중치를 결정하기 때문에 웹페이지에 대한 변별력이 우수하지 못하다는 단점이 있다. 이러한 문제점을 해결하여 사용자에게 효과적인 정보를 제공하기 위해, 본 논문에서는 범주 기반 평가 기법을 제안한다. 범주 기반 평가 기법은 질의어를 의미관계로 확장하여 웹페이지와 유사성을 측정한다. 웹페이지 가중치 적용에 있어서, 범주 기반 평가 기법은 웹페이지 검색에 대한 사용자 반응과 질의어 범주를 가중치에 활용함으로써 웹페이지에 대한 변별력을 증가시킨다. 본 논문에서 제안한 기법은 사용자가 원하는 정보를 검색엔진을 통해 효과적으로 제공할 수 있는 장점이 있으며, 다양한 실험을 통해 범주 기반 평가 기법의 활용성을 확인하였다.

검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델 (A Term Cluster Query Expansion Model Based on Classification Information of Retrieval Documents)

  • 강현수;강현규;박세영;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-12
    • /
    • 1999
  • 정보 검색 시스템은 사용자 질의의 키워드들과 문서들의 유사성(similarity)을 기준으로 관련 문서들을 순서화하여 사용자에게 제공한다. 그렇지만 인터넷 검색에 사용되는 질의는 일반적으로 짧기 때문에 보다 유용한 질의를 만들고자 하는 노력이 지금까지 계속되고 있다. 그러나 키워드에 포함된 정보가 제한적이기 때문에 이에 대한 보완책으로 사용자의 적합성 피드백을 이용하는 방법을 널리 사용하고 있다. 본 논문에서는 일반적인 적합성 피드백의 가장 큰 단점인 빈번한 사용자 참여는 지양하고, 시스템에 기반한 적합성 피드백에서 배제한 사용자 참여를 유도하는 검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델(Term Cluster Query Expansion Model)을 제안한다. 이 방법은 검색 시스템에 의해 검색된 상위 n개의 문서에 대하여 분류기를 이용하여 각각의 문서에 분류 정보를 부여하고, 문서에 부여된 분류 정보를 이용하여 분류 정보의 수(m)만큼으로 문서들을 그룹을 짓는다. 적합성 피드백 알고리즘을 이용하여 m개의 그룹으로부터 각각의 용어 클러스터(Term Cluster)를 생성한다. 이 클러스터가 사용자에게 문서 대신에 피드백의 자료로 제공된다. 실험 결과, 적합성 알고리즘 중 Rocchio방법을 이용할 때 초기 질의보다 나은 성능을 보였지만, 다른 연구에서 보여준 성능 향상은 나타내지 못했다. 그 이유는 분류기의 오류와 문서의 특성상 한 영역으로 규정짓기 어려운 문서가 존재하기 때문이다. 그러나 검색하고자 하는 사용자의 관심 분야나 찾고자 하는 성향이 다르더라도 시스템에 종속되지 않고 유연하게 대처하며 검색 성능(retrieval effectiveness)을 향상시킬 수 있다.사용되고 있어 적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

의미 있는 태그 클러스터 구축을 위한 설계 방안 (A Design of Building a Meaningful Tag Cluster)

  • 박병재;우종우
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2008년도 추계학술발표대회
    • /
    • pp.658-661
    • /
    • 2008
  • 태깅은 웹 2.0의 핵심 기술 중 하나로, 매우 유연하고 역동적인 분류 체계를 제공한다. 하지만 유연성과 역동성의 확보에 의해 계층 구조나 연관 관계와 같은 태그의 관계성이 부족하거나 존재하지 않는 한계점을 가지고 있는 것 또한 사실이다. 이런 한계점을 보완하기 위한 방법으로 계층 관계를 형성하기 위한 계층 클러스터링 방법과, 연관 관계를 형성하기 위한 협업 필터링 방법이 존재한다. 이 두 가지 방법은 태그의 관계성을 제공하지만, 연관 관계와 계층 관계 중 하나만 제공한다는 단점을 가진다. 본 논문에서는 태그 검색 시 연관 관계뿐 아니라 계층 구조의 탐색을 제공해주기 위한 태그 클러스터링 알고리즘을 설계하였다. 제안한 알고리즘은 사용자 태그셋을 활용하여 태그의 유사성을 계산하는 방법을 제시하고, 기존의 시각화 방법(태그 구름)과 다른 새로운 형태로 시각화 할 수 있는 결과 데이터를 제공한다.