• 제목/요약/키워드: Analysis of Query

검색결과 457건 처리시간 0.023초

NDSL 검색 질의어와 기술용어간의 관계에 대한 분석적 연구 (A Relation Analysis between NDSL User Queries and Technical Terms)

  • 강남규;조민희;권오석
    • 정보관리연구
    • /
    • 제39권3호
    • /
    • pp.163-177
    • /
    • 2008
  • 본 논문에서는 NDSL을 검색하기 위해 이용자가 입력하는 검색 질의어를 대상으로 질의어에 사용되는 키워드와 학술지에서 추출한 기술용어와의 관계를 분석하고자 한다. 관계 분석을 위해 사용된 키워드는 17개월 동안의 NDSL 검색 질의어에서 추출한 약 83만3,000개, 기술용어는 NDSL, INSPEC, FSTA 3개 영문 학술지 데이터베이스 약 4,100만건에서 추출한 약 97만5,000개이다. 그리고 분석에 사용된 키워드와 기술용어는 2어절 이상의 영어 단어이며, 이들 간의 관계 분석은 키워드와 기술용어간의 일치성, 연관성, 기술용어에 대한 빈도 분석 등이다.

형식개념분석기법을 이용한 사용자 질의 기반의 연관관계 추출 자동화지원도구의 개발 (On Development of an Automatic Tool for Extracting Association Rules of a user query using Formal Concept Analysis)

  • 김응희;황석형;김홍기
    • 정보처리학회논문지D
    • /
    • 제15D권3호
    • /
    • pp.429-440
    • /
    • 2008
  • 형식개념분석기법(Formal Concept Analysis)은, 주어진 데이터로부터 공통속성을 갖는 객체들을 개념단위로 추출, 계층화하여 데이터에 내재된 개념들의 구조를 가시화 해주는 데이터분석기법으로써, 최근 다양한 분야에서 응용되고 있다. 본 연구에서는, 형식개념분석기법을 토대로, 사용자의 질의에 대한 함의관계(Implication)와 연관관계(Association rule)에 관한 정보추출과, 추출된 제반 정보들을 구조화하여 가시적으로 표현하기 위한 기법을 제안하고, 이를 지원하기 위하여, 함의/연관관계 추출 및 가시화 지원도구인 QAG-Wizard를 개발하였다. 본 연구결과는, 주어진 데이터의 속성을 기반으로 하는 사용자의 질의에 대하여, 데이터에 내재되어 있는 관계정보를 보다 다양하게 추출하고 직관적으로 표현 가능하므로, 데이터분석과 마이닝 뿐만 아니라, 질의기반의 정보검색분야 등에서 다양한 목적에 맞추어 활용될 수 있다.

정보 검색 시스템의 성능 향상을 위한 구문 분석과 검색어 확장 (Syntactic Analysis and Keyword Expansion for Performance Enhancement of Information Retrieval System)

  • 윤성희
    • 한국산학기술학회논문지
    • /
    • 제5권4호
    • /
    • pp.303-308
    • /
    • 2004
  • 자연어 질의문장을 입력하는 방법은 정보 검색 시스템 사용자에게 가장 이상적인 인터페이스이다. 본 논문은 자연어 질의문장을 입력하는 검색 시스템을 위해 자연어 처리 기술에 기반 하여 사용자의 입력 질의 문장을 분석하고 검색어를 확장하는 다중검색 기법을 제안한다. 질의 문에 대한 형태소 분석 및 구문 분석을 수행하고, 구문 트리를 순회하여 구조적으로 연관된 복합명사를 조합하거나 분할하고, 이형표기 용어와 축약표기 용어들을 확장하여 다중 검색함으로써 재현율을 11.3%, 정확도를 4.7% 높였다.

  • PDF

클러스터링을 이용한 시소러스 브라우저의 설계에 대한 이론적 연구 (A Theoretical Study of Designing Thesaurus Browser by Clustering Algorithm)

  • Seo, Hwi
    • 한국도서관정보학회지
    • /
    • 제30권3호
    • /
    • pp.427-456
    • /
    • 1999
  • This paper deals with the problems of information retrieval through full-test database which arise from both the deficiency of searching strategies or methods by information searcher and the difficulties of query representation, generation, extension, etc. In oder to solve these problems, we should use automatic retrieval instead of manual retrieval in the past. One of the ways to make the gap narrow between the terms by the writers and query by the searchers is that the query should be searched with the terms which the writers use. Thus, the preconditions which should be taken one accorded way to solve the problems are that all areas of information retrieval such as should taken one accorded way to solve the problems are that all areas of information retrieval such as contents analysis, information structure, query formation, query evaluation, etc. should be solved as a coherence way. We need to deal all the ares of automatic information retrieval for the efficiency of retrieval thought this paper is trying to solve the design of thesaurus browser. Thus, this paper shows the theoretical analyses about the form of information retrieval, automatic indexing, clustering technique, establishing and expressing thesaurus, and information retrieval technique. As the result of analyzing them, this paper shows us theoretical model, that is to say, the thesaurus browser by clustering algorithm. The result in the paper will be a theoretical basis on new retrieval algorithm.

  • PDF

Enabling Dynamic Multi-Client and Boolean Query in Searchable Symmetric Encryption Scheme for Cloud Storage System

  • Xu, Wanshan;Zhang, Jianbiao;Yuan, Yilin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권4호
    • /
    • pp.1286-1306
    • /
    • 2022
  • Searchable symmetric encryption (SSE) provides a safe and effective solution for retrieving encrypted data on cloud servers. However, the existing SSE schemes mainly focus on single keyword search in single client, which is inefficient for multiple keywords and cannot meet the needs for multiple clients. Considering the above drawbacks, we propose a scheme enabling dynamic multi-client and Boolean query in searchable symmetric encryption for cloud storage system (DMC-SSE). DMC-SSE realizes the fine-grained access control of multi-client in SSE by attribute-based encryption (ABE) and novel access control list (ACL), and supports Boolean query of multiple keywords. In addition, DMC-SSE realizes the full dynamic update of client and file. Compared with the existing multi-client schemes, our scheme has the following advantages: 1) Dynamic. DMC-SSE not only supports the dynamic addition or deletion of multiple clients, but also realizes the dynamic update of files. 2) Non-interactivity. After being authorized, the client can query keywords without the help of the data owner and the data owner can dynamically update client's permissions without requiring the client to stay online. At last, the security analysis and experiments results demonstrate that our scheme is safe and efficient.

How Query by humming, a Music Information Retrieval System, is Being Used in the Music Education Classroom

  • Bradshaw, Brian
    • Journal of Multimedia Information System
    • /
    • 제4권3호
    • /
    • pp.99-106
    • /
    • 2017
  • This study does a qualitative and quantitative analysis of how music by humming is being used by music educators in the classroom. Music by humming is part division of music information retrieval. In order to define what a music information retrieval system is first I need to define what it is. Berger and Lafferty (1999) define information retrieval as "someone doing a query to a retrieval system, a user begins with an information need. This need is an ideal document- perfect fit for the user, but almost certainly not present in the retrieval system's collection of documents. From this ideal document, the user selects a group of identifying terms. In the context of traditional IR, one could view this group of terms as akin to expanded query." Music Information Retrieval has its background in information systems, data mining, intelligent systems, library science, music history and music theory. Three rounds of surveys using question pro where completed. The study found that there were variances in knowledge, training and level of awareness of query by humming, music information retrieval systems. Those variance relationships where based on music specialty, level that they teach, and age of the respondents.

대용량 데이터 처리를 위한 고속 분산 인메모리 플랫폼 기반 재귀적 질의 알고리즘들의 구현 및 비교분석 (A Comparative Analysis of Recursive Query Algorithm Implementations based on High Performance Distributed In-Memory Big Data Processing Platforms)

  • 강민서;김재성;이재길
    • 정보과학회 논문지
    • /
    • 제43권6호
    • /
    • pp.621-626
    • /
    • 2016
  • 재귀적 질의 알고리즘은 소셜네트워크 서비스의 도달가능 질의와 같은 많은 응용프로그램에 사용된다. 하지만 최근에 소셜네트워크 서비스의 규모가 커짐에 따라 그래프 데이터의 크기 또한 커지고 있다. 따라서 재귀적 질의 알고리즘을 싱글 머신에서 가동하는 것이 거의 불가능해졌다. 본 논문에서는 이러한 문제점을 해결하기 위해서 고속 분산 인메모리 플랫폼인 스파크와 트위스터에서 재귀적 질의 알고리즘을 구현하였다. 구현된 알고리즘은 아마존 EC2 머신 50대에서 Real-world 데이터 셋인 LiveJournal과 ClueWeb으로 실험하였다. 실험결과 상대적으로 노드 수는 적고 평균 차수(degree)는 높은 LiveJournal 데이터 셋에서는 스파크에서 구현된 재귀적 알고리즘의 성능이 트위스터의 것보다 좋았다. 그리고 상대적으로 노드 수는 많고 평균 차수는 낮은 ClueWeb 데이터 셋에서는 트위스터에서 구현된 재귀적 알고리즘의 성능이 스파크의 것보다 좋았다.

MeSH 기반의 LDA 토픽 모델을 이용한 검색어 확장 (The MeSH-Term Query Expansion Models using LDA Topic Models in Health Information Retrieval)

  • 유석진
    • 한국도서관정보학회지
    • /
    • 제52권1호
    • /
    • pp.79-108
    • /
    • 2021
  • 헬스 분야에서 정보 검색의 어려움 중의 하나는 일반 사용자들이 전문적인 용어들을 이해하기가 어렵다는 점이다. 헬스와 관련된 전문 용어들은 일반 사용자들이 검색어로 사용하기 어렵기 때문에 이러한 전문 용어들이 자동적으로 검색어에 더해질 수 있다면 좀 더 검색의 효과를 높일 수 있을 것이다. 제안된 검색어 확장 모델은 전문 용어를 포함하는 MeSH(Medical Subject Headings)를 검색어 확장을 위한 단어 후보 군으로 이용하였다. 문서들은 MeSH용어들로 표현이 되고 이렇게 표현된 문서들의 집합에 대해서 LDA(Latent Dirichlet Analysis) 토픽들이 생성된 후, (검색어+초기 검색어에 의해 검색된 상위 k개 문서들)에 연관된 토픽 단어들이 원래의 검색어를 확장하는 데 쓰여졌다. MeSH로 구성된 토픽 단어들은 임의로 정해진 토픽 확률 임계값과 토픽을 구성하는 단어의 확률 임계값보다 높았을 때 초기의 검색어에 포함되었다. 특정수의 토픽을 갖는 LDA 모델에서 이러한 적절한 임계값의 설정을 통해 선택된 토픽 단어들은 검색어 확장에 이용되어 검색시에 infAP(inferred Average Precision)와 infNDCG(inferred Normalized Discounted Cumulative Gain)를 높이는데 효과적으로 작용하였다. 또한 토픽 확률값과 토픽 단어의 확률값을 곱하여 계산된 토픽 단어의 스코어가 높은 상위 k개의 단어를 검색어를 확장하는 데 이용하였을 때에도 검색의 성능이 향상될 수 있음을 확인하였다.

XML-GDM을 기반으로 한 UML 클래스 다이어그램으로 사상을 위한 XML문서와 질의의 객체 모델링 (Object Modeling for Mapping from XML Document and Query to UML Class Diagram based on XML-GDM)

  • 박대현;김용성
    • 정보처리학회논문지D
    • /
    • 제17D권2호
    • /
    • pp.129-146
    • /
    • 2010
  • 최근 다양한 분야에서 폭넓게 활용되고 있는 XML 문서는 유연하고도 개방적인 특성으로 인해 정보교환이나 전송을 위한 수단으로 널리 이용되고 있다. 한편 XML 문서를 위한 시각적, 직관적 질의 언어인 XML-GL은 질의에 대한 의미와 결과 문서의 구조를 시각적으로 표현할 수 있기 때문에 XML 문서에 대한 구조 검색과 정보의 공유가 용이하다. 그리고 UML은 정해진 표기법과 다양한 다이어그램을 이용하여 객체지향 분석과 설계를 위한 도구로 사용되고 있다. 따라서 본 논문은 XML-GL의 데이터 모델인 XML-GDM을 기반으로 표현된 XML 문서를 UML 클래스 다이어그램으로 사상하기 위한 새로운 객체 모델링 방안을 제안한다. 이를 통해서 XML 문서를 직관적인 방법으로 객체지향데이터로 변환하고 저장/관리할 수 있다. 또한 객체지향 검색방법을 적용하면 보다 효율적으로 XML 문서를 검색할 수가 있다.

DBMS WAS 우회접속의 쿼리정보 역추적 연구 (A Study on Traceback by WAS Bypass Access Query Information of DataBase)

  • 백종일;박대우
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권12호
    • /
    • pp.181-190
    • /
    • 2009
  • 초고속 인터넷의 웹 서비스를 사용하여 WAS를 통한 DBMS 접근이 늘어나고 있다. 불특정 다수에 의한 DBMS에 대한 3-Tier와 우회접속에 대한 접근 및 권한제어를 위해서는 DB보안 기술의 적용이 필요하다. WAS를 통해 DBMS에 우회접속을 하면 DBMS는 우회접속 사용자의 IP정보를 저장하지 못하고, 직전 시스템에 접속한 사용자인 WAS의 정보를 저장하게 된다. 본 논문에서는 WAS를 통해 DBMS에 우회접속하는 쿼리정보를 역추적하여 보안감사기록과 포렌식자료를 연구한다. 통신 경로에서 MetaDB를 구축해 웹을 통해 login한 사용자에 대한 세션과 쿼리 정보를 저장하고, DBMS에도 로그 되는 쿼리 정보를 저장해서 time stamp쿼리를 비교 매핑 하여 실제 사용자를 식별한다. 보안 신뢰성의 향상 방법으로, log을 받아 Pattern분석 후에 Rule을 만들어 적용하고, Module을 개발해 정보의 수집 및 압축을 통해 데이터 저장소에 보관한다. 보관된 정보는 지능형 DB보안 클라이언트를 이용한 분석과 정책 기반 관리 모듈의 통제를 통해 역추적의 오탐률을 최소화할 수 있게 한다.