• 제목/요약/키워드: Query Expansion

검색결과 130건 처리시간 0.029초

KNetIRS : 키워드망을 이용한 정보검색 시스템 (KNetIRS : Information Retrieval System using Keyword Network)

  • 우선미;유춘식;이종득;김용성
    • 한국정보처리학회논문지
    • /
    • 제4권9호
    • /
    • pp.2185-2196
    • /
    • 1997
  • 기존의 정보검색 시스템들은 질의가 정확하지 않더라도 원하는 정보를 검색할 수 있도록 하기 위해 시소리스 (thesaurus)를 사용했다. 그러나 시소러스를 구축하고 유지하는데 드는 비용이 매우 높고 검색에 있어서도 완전하다고 볼 수 없다. 그래서 본 논문에서는 이러한 문제점들을 해결하기 위하여 키워드망을 이용한 정보검색 시스템인 KNetIRS를 설계 및 구현한다. 키워드망은 문서로부터 직접 추출한 키워드들로 구성된다. KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 키워드망 브라우저(Keyword Network Browser)를 사용하여 질의를 확장하고, 분할 연산(spilt function)을 정의하여 "정보 검색", "정보", 그리고 "검색"과 같은 복합어에 관한 처리를 한다.

  • PDF

웹 검색 개인화를 위한 개념네트워크 프로파일 기반 순위 재조정 기법 (New Re-ranking Technique based on Concept-Network Profiles for Personalized Web Search)

  • 김한준;노준호;장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제12권2호
    • /
    • pp.69-76
    • /
    • 2012
  • 본 논문은 웹 검색 개인화를 실현하기 위해 개념네트워크 구조의 사용자 프로파일에 기반한 새로운 형태의 순위 재조정 기법을 제안한다. 기본적으로 개인화 검색은 개인 사용자의 검색 성향을 담고 있는 사용자 프로파일을 기반으로 이루어지며, 이를 활용하여 초기에 주어진 검색 질의어를 확장하거나 검색결과의 순위를 재조정하게 된다. 제안 기법은 순위 재조정 기법을 주축으로 질의어 확장 기법을 융합한 형태를 취한다. 기본 아이디어는 사용자 프로 파일에 의해 추천된 확장 질의어로부터 도출된 문서집합들에 공통적으로 출현하는 문서들의 중첩도를 평가하여, 그 결과값을 순위 재조정에 활용하는 것이다. 성향이 다른 다수의 실험자들이 검색 질의어 유형을 구분하여 실험을 수행함으로써 제안기법이 기존 기법에 비해 우수함을 보인다.

중첩 클러스터를 이용한 피드백 문서의 재샘플링 기법 (Resampling Feedback Documents Using Overlapping Clusters)

  • 이경순
    • 정보처리학회논문지B
    • /
    • 제16B권3호
    • /
    • pp.247-256
    • /
    • 2009
  • 대부분의 잠정적 적합피드백기법들은 질의에 대해 검색된 상위검색문서들이 적합하다고 가정하고, 그 문서들을 질의 확장을 위한 피드백 문서로 이용하고 있다. 그러나 초기검색결과에는 상당한 양의 부적합 문서를 포함하고 있는 것이 현실이다. 이 논문에서는 보다 좋은 피드백 문서를 선택하기 위해서 중첩클러스터를 이용한 피드백문서의 재샘플링 기법을 제안한다. 주요 아이디어는 질의 중심적인 초기검색문서집합에 대해서 중첩이 허용된 문서클러스터를 이용하여 문서들 사이의 관계를 반영하여 질의에 핵심역할을 하는 지배적 문서를 찾고, 이 문서들을 반복적으로 피드백 하여 질의가 내포하는 핵심 주제를 강조하는 것이다. 대규모 실험집합인 TREC GOV2와 WT10g에 대한 실험비교에서, 최근 잠정적 적합피드백 기법들 중에서 가장 좋은 성능을 보이고 있는 적합모델보다 재샘플링기법이 우수한 성능향상을 보였다. 제안기법에 대한 검증을 위해서 피드백문서에 포함된 적합문서의 정도를 나타내는 적합밀도를 측정하였다. 재샘플링 기법이 TREC 실험집합에 대해서 적합모델에 비해 높은 적합밀도를 보였고, 이 결과 적합피드백에서 검색성능을 향상시키게 되었다. 이는 제안 기법이 잠정적 적합피드백에서 유효한 방법임을 알 수 있다.

2차원 배열 데이터에서 유사 구역의 효율적인 탐색 기법 (An Efficient Method for Finding Similar Regions in a 2-Dimensional Array Data)

  • 최연정;이기용
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권4호
    • /
    • pp.185-192
    • /
    • 2017
  • 여러 과학 분야에서 측정 또는 시뮬레이션의 결과로 2차원 배열 데이터가 활발히 생성되고 있다. 현재 배열 데이터에 대한 다양한 질의 처리 기법들이 연구되고 있으나 2차원 배열 데이터에서 크기가 미리 알려져 있지 않은, 값이 서로 유사한 구역을 찾는 문제는 거의 다루어지지 않았다. 따라서 본 논문에서는 주어진 2차원 배열 데이터에서 사용자가 지정한 값 이상의 크기를 갖는, 원소 값들이 서로 유사한 구역을 빠르게 찾는 방법을 제안한다. 본 논문의 제안 방법은 2차원 배열의 각 원소 쌍에 대해, 해당 원소로만 이루어진 크기가 1인 구역부터 시작하여 두 구역을 동일한 모양을 유지하면서 오른쪽 및 아래쪽으로 단계적으로 확장시켜나간다. 만약 두 구역의 값의 차이가 사용자가 지정한 값 이상으로 커지면 확장을 중단한다. 따라서 제안 방법은 배열에서 유사 구역이 될 가능성이 있는 부분들만 접근하여 유사 구역을 효율적으로 찾아낼 수 있다. 본 논문에서는 성능 분석과 다양한 실험을 통해 제안 방법이 매우 효율적으로 유사 구역을 찾을 수 있음을 보인다.

2단계 퍼지 지식베이스를 이용한 질의 처리 모델 (Query Processing Model Using Two-level Fuzzy Knowledge Base)

  • 이기영;김영운
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권4호
    • /
    • pp.1-16
    • /
    • 2005
  • 웹 기반의 학술분야 전문 검색 시스템은 사용자의 정보 요구 표현을 극히 제한적으로 허용함으로써 검색된 정보의 내용 분석과 정보 습득의 과정이 일관되지 못해 무분별한 정보 제공이 이루어진다. 따라서 본 논문에서는 문서 지식 구조를 파악하여 사용자 질의 용어와 색인어 사이의 내용 기반 유사도를 반영한 순위 재조정 모델을 제안한다. 이를 위해 전자는 시소러스 및 유사관계 행렬을 구축하여 주제 분석 메커니즘을 제공하고, 후자는 사용자 요구를 분석하기 위해 질의 확장 등의 탐색 모형을 수립하는 알고리즘을 제안한다. 따라서 본 논문에서 제안한 알고리즘은 검색 시스템의 정보 구조를 활용한 검색으로 재현율을 유지하면서 동시에 기존 퍼지 검색 모델의 단점인 정확률을 향상시키는 2단계 탐색모형을 수립하는 내용 기반검색 기법이라 할 수 있다.

  • PDF

SQL 질의 애트리뷰트 값 제거 방법을 이용한 효과적인 SQL Injection 공격 탐지 방법 연구 (A Method for SQL Injection Attack Detection using the Removal of SQL Query Attribute Values)

  • 이인용;조재익;조규형;문종섭
    • 정보보호학회논문지
    • /
    • 제18권5호
    • /
    • pp.135-148
    • /
    • 2008
  • 인터넷이 발전함에 따라 웹 애플리케이션을 이용한 서비스가 대중화되었고, 웹 애플리케이션의 취약점을 목표로 하는 공격들도 증가하게 되었다. 많은 웹 공격 중의 하나인 SQL Injection 공격은 민감한 데이터를 처리하는 곳에서는 매우 치명적이고 위험하기 때문에 이를 탐지하고 예방하기 위한 연구들이 다양하게 이루어져 왔다. 이로 인하여 SQL Injection 공격들이 많이 감소했지만 아직도 이를 우회하는 방법들이 존재하며, 기존의 연구 방법들 또한 매우 복잡하여 실제 웹 애플리케이션에 적용하여 사용하기 어렵다. 따라서 본 논문에서는 SQL Injection 공격 탐지를 위해 웹 애플리케이션에 고정되어 있는 정적 SQL 질의와 사용자로부터 생성되는 동적 SQL 질의의 애트리뷰트 값을 제거한 정적 및 동적 분석 방법을 제안하고, 실험을 통하여 효율성을 검증하였다.

검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델 (A Term Cluster Query Expansion Model Based on Classification Information of Retrieval Documents)

  • 강현수;강현규;박세영;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-12
    • /
    • 1999
  • 정보 검색 시스템은 사용자 질의의 키워드들과 문서들의 유사성(similarity)을 기준으로 관련 문서들을 순서화하여 사용자에게 제공한다. 그렇지만 인터넷 검색에 사용되는 질의는 일반적으로 짧기 때문에 보다 유용한 질의를 만들고자 하는 노력이 지금까지 계속되고 있다. 그러나 키워드에 포함된 정보가 제한적이기 때문에 이에 대한 보완책으로 사용자의 적합성 피드백을 이용하는 방법을 널리 사용하고 있다. 본 논문에서는 일반적인 적합성 피드백의 가장 큰 단점인 빈번한 사용자 참여는 지양하고, 시스템에 기반한 적합성 피드백에서 배제한 사용자 참여를 유도하는 검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델(Term Cluster Query Expansion Model)을 제안한다. 이 방법은 검색 시스템에 의해 검색된 상위 n개의 문서에 대하여 분류기를 이용하여 각각의 문서에 분류 정보를 부여하고, 문서에 부여된 분류 정보를 이용하여 분류 정보의 수(m)만큼으로 문서들을 그룹을 짓는다. 적합성 피드백 알고리즘을 이용하여 m개의 그룹으로부터 각각의 용어 클러스터(Term Cluster)를 생성한다. 이 클러스터가 사용자에게 문서 대신에 피드백의 자료로 제공된다. 실험 결과, 적합성 알고리즘 중 Rocchio방법을 이용할 때 초기 질의보다 나은 성능을 보였지만, 다른 연구에서 보여준 성능 향상은 나타내지 못했다. 그 이유는 분류기의 오류와 문서의 특성상 한 영역으로 규정짓기 어려운 문서가 존재하기 때문이다. 그러나 검색하고자 하는 사용자의 관심 분야나 찾고자 하는 성향이 다르더라도 시스템에 종속되지 않고 유연하게 대처하며 검색 성능(retrieval effectiveness)을 향상시킬 수 있다.사용되고 있어 적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

컴포넌트 검색을 지원하는 퍼지 기반 시소러스 구축 (Fuzzy based Thesaurus Construction Supporting Component Retrieval)

  • 김귀정;한정수;송영재
    • 정보처리학회논문지D
    • /
    • 제10D권5호
    • /
    • pp.753-762
    • /
    • 2003
  • 컴포넌트 검색을 위한 많은 방법론이 제시되고 있고 그 중 유사 컴포넌트 검색을 위한 시소러스 개념이 도입되고 있다. 본 논문은 컴포넌트의 효율적인 검색을 위하여 컴포넌트를 구성하는 클래스들을 상속관계에 따라 개념적으로 분류하였고, 시소러스 방법에 퍼지 논리를 적용하여 객체지향 시소러스를 구축하였다. 제안한 방법은 개념들 사이의 범주를 자동으로 표현할 수 있으며, 각 클래스와 범주에 대한 매칭도와 비매칭도를 비교함으로서 클래스 사이의 퍼지 정도를 계산하여 시소러스를 구축하였다. 컴포넌트 검색은 컴포넌트를 구성하는 클래스들을 이용하여 유의어 테이블을 기반으로 후보 컴포넌트들을 검색한 후 퍼지 유사도 측정 방법을 이용하여 우선순위로 검색한다. 또한 시뮬레이션을 통하여 최적의 질의 확장 임계치를 설정함으로서 검색 성능을 크게 향상시켰다.

CBIR 기반 데이터 확장을 이용한 딥 러닝 기술 (CBIR-based Data Augmentation and Its Application to Deep Learning)

  • 김세송;정승원
    • 방송공학회논문지
    • /
    • 제23권3호
    • /
    • pp.403-408
    • /
    • 2018
  • 딥 러닝의 학습을 위해서 일반적으로 많은 양의 데이터가 필요하다. 그러나 많은 양의 데이터 세트를 만드는 것은 쉽지 않기 때문에, 회전, 반전 (flipping), 필터링 (filtering) 등의 간단한 데이터 확장 (data augmentation) 기법을 통해 작은 데이터 세트를 좀 더 큰 데이터 세트로 만드는 여러 시도들이 있었다. 그러나 이러한 기법들은 이미 보유하고 있는 데이터 세트만을 이용하기 때문에 확장성에 제약을 갖는다. 이런 문제를 해결하기 위해 본고에서는 보유하고 있는 영상 데이터를 이용하여 새로운 영상 데이터를 획득하는 기술을 제안한다. 이는 기존 데이터 세트의 영상 데이터를 CBIR(Contents based image retrieval)의 쿼리로 이용하여 유사 영상들을 검색하여 획득하는 방식으로 이루어진다. 최종적으로 CBIR을 이용해 확장한 데이터를 딥 러닝으로 학습시켜 확장 전후의 성능을 비교하였다.

효과적인 의견 자질 결합을 위한 실험적 연구 (Experimental Study for Effective Combination of Opinion Features)

  • 한경수
    • 정보관리학회지
    • /
    • 제27권3호
    • /
    • pp.227-239
    • /
    • 2010
  • 의견 검색은 사용자의 정보 요구에 주제적으로 연관되면서도 의견이 포함되어 있는 정보를 검색하는 태스크이다. 본 연구는 효과적인 의견 검색을 위해 사용자 정보 요구를 표현하는 방법과 이 요구를 만족시킬만한 여러 의견 자질들을 효과적으로 결합할 수 있는 방법에 대하여 실험을 통해 분석하였다. 본 실험에서는 추론 네트워크 모델을 기본 검색 모델로 사용하였고, Blogs06 컬렉션과 100개의 TREC 토픽에 대해 실험을 수행하였다. 실험 결과, 가상의 '의견' 개념을 설정하여 효과적으로 의견 검색의 정보 요구를 표현할 수 있었으며, 극히 소량의 일반 의견 단어집만을 사용했는데도 동일한 환경에서 기존 모델과 견줄 만한 의견 검색 성능을 달성할 수 있었다.