• Title/Summary/Keyword: 질의 클러스터

Search Result 161, Processing Time 0.029 seconds

Query Expansion based on Knowledge Extraction and Latent Dirichlet Allocation for Clinical Decision Support (의학 문서 검색을 위한 지식 추출 및 LDA 기반 질의 확장)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • Annual Conference on Human and Language Technology
    • /
    • 2015.10a
    • /
    • pp.31-34
    • /
    • 2015
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질의 유형 정보를 이용한 LDA 기반 질의 확장 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출한다. UMLS와 위키피디아를 사용하여 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 질의와 관련된 병명을 이용하여 추가 증상, 검사 방법, 치료 방법 정보를 확장 질의로 선택한다. 또한, LDA를 실행한 후, Word-Topic 클러스터에서 질의와 관련된 클러스터를 추출하고 Document-Topic 클러스터에서 초기 검색 결과와 관련이 높은 클러스터를 추출한다. 추출한 Word-Topic 클러스터와 Document-Topic 클러스터 중 같은 번호를 가지고 있는 클러스터를 찾는다. 그 후, Word-Topic 클러스터에서 의학 용어를 추출하여 확장 질의로 선택한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

Query Expansion Based on Word Graph Using Core Query Clusters (핵심질의 클러스터를 이용한 어휘 그래프 기반 질의 확장)

  • Jo, Seung-Hyeon;Jang, Gye-Hun;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2011.04a
    • /
    • pp.430-432
    • /
    • 2011
  • 본 논문에서는 질의 조합을 기반한 핵심질의 클러스터와 비핵심질의 클러스터를 각각 어휘 그래프로 표현한다. 이 때, 핵심질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 핵심질의 클러스터의 어휘 그래프에서 비핵심질의 클러스터의 어휘 그래프를 빼서 확장어휘를 선택한다. 본 논문의 유효성을 검증하기 위해 웹문서 테스트컬렉션인 TREC WT10g 에 대해 실험하였고, 언어모델보다 평균정확률의 평균(MAP)이 9.4% 향상되었다.

Document Reranking Model Using Clusters (문서 클러스터를 이용한 재순위화 모델)

  • Lee, Kyung-Soon;Park, Young-Chan;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1998.10c
    • /
    • pp.81-87
    • /
    • 1998
  • 본 연구에서는 정보검색시스템의 모델로 문서 클러스터를 이용한 재순위화 모델을 제시한다. 이 방법은 검색단계와 분석단계로 이루어지는데, 검색단계에서는 역화일기법을 이용해서 질의어를 포함하는 문서들을 검색하여 질의어-문서 유사도에 따라 순위를 결정한다. 분석단계에서는 이미 구축된 문서 클러스터를 이용해서 검색되어진 문서들의 분석을 통해 질의어-클러스터 유사도를 계산한다. 질의어-문서 유사도와 질의어-클러스터 유사도를 결합하고, 이 유사도에 기반해서 문서들을 재순위화한다. 이때 이용하는 클러스터는 정적 클러스터이고, 질의어에 따라 서로 다른 클러스터를 생성하는 동적인 뷰를 제공한다. 재순위화 모델은 역화일 기법과 클러스터 분석기법이 가지는 장점을 결합하여 질의어 뿐만 아니라 문서에 포함된 모든 단어들을 분석함으로써 문서의 문맥을 고려할 수 있다. 제안하는 모델은 역화일 기법을 이용한 검색 결과에 비해서 우수한 성능 향상을 나타내고 있다.

  • PDF

A Method for Precision Improvement Based on Core Query Clusters and Term Proximity (핵심질의 클러스터와 단어 근접도를 이용한 문서 검색 정확률 향상 기법)

  • Jang, Kye-Hun;Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.17B no.5
    • /
    • pp.399-404
    • /
    • 2010
  • In this paper, we propose a method for precision improvement based on core clusters and term proximity. The method is composed by three steps. The initial retrieval documents are clustered based on query term combination, which occurred in the document. Core clusters are selected by using proximity between query terms. Then, the documents in core clusters are reranked based on context information of query. On TREC AP test collection, experimental results in precision at the top documents(P@100) show that the proposed method improved 11.2% over the language model.

Method of Document Retrieval Using Word Embeddings and Disease-Centered Document Clusters (단어 의미 표현과 질병 중심 의학 문서 클러스터 기반 의학 문서 검색 기법)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • 한국어정보학회:학술대회논문집
    • /
    • 2016.10a
    • /
    • pp.51-55
    • /
    • 2016
  • 본 논문에서는 임상 의사 결정 지원을 위한 UMLS와 위키피디아를 이용하여 지식 정보를 추출하고 질병중심 문서 클러스터와 단어 의미 표현을 이용하여 질의 확장 및 문서를 재순위화하는 방법을 제안한다. 질의로는 해당 환자가 겪고 있는 증상들이 주어진다. UMLS와 위키피디아를 사용하여 병명과 병과 관련된 증상, 검사 방법, 치료 방법 정보를 추출하고 의학 인과 관계를 구축한다. 또한, 위키피디아에 나타나는 의학 용어들에 대하여 단어의 효율적인 의미 추정 기법을 이용하여 질병 어휘의 의미 표현 벡터를 구축하고 임상 인과 관계를 이용하여 질병 중심 문서 클러스터를 구축한다. 추출한 의학 정보를 이용하여 질의와 관련된 병명을 추출한다. 이후 질의와 관련된 병명과 단어 의미 표현을 이용하여 확장 질의를 선택한다. 또한, 질병 중심 문서 클러스터를 이용하여 문서 재순위화를 진행한다. 제안 방법의 유효성을 검증하기 위해 TREC Clinical Decision Support(CDS) 2014, 2015 테스트 컬렉션에 대해 비교 평가한다.

  • PDF

An Energy Efficient Query Processing Mechanism using Cache Filtering in Cluster-based Wireless Sensor Networks (클러스터 기반 WSN에서 캐시 필터링을 이용한 에너지 효율적인 질의처리 기법)

  • Lee, Kwang-Won;Hwang, Yoon-Cheol;Oh, Ryum-Duck
    • Journal of the Korea Society of Computer and Information
    • /
    • v.15 no.8
    • /
    • pp.149-156
    • /
    • 2010
  • As following the development of the USN technology, sensor node used in sensor network has capability of quick data process and storage to support efficient network configuration is enabled. In addition, tree-based structure was transformed to cluster in the construction of sensor network. However, query processing based on existing tree structure could be inefficient under the cluster-based network. In this paper, we suggest energy efficient query processing mechanism using filtering through data attribute classification in cluster-based sensor network. The suggestion mechanism use advantage of cluster-based network so reduce energy of query processing and designed more intelligent query dissemination. And, we prove excellence of energy efficient side with MATLab.

Query Expansion Based on Word Graphs Using Pseudo Non-Relevant Documents and Term Proximity (잠정적 부적합 문서와 어휘 근접도를 반영한 어휘 그래프 기반 질의 확장)

  • Jo, Seung-Hyeon;Lee, Kyung-Soon
    • The KIPS Transactions:PartB
    • /
    • v.19B no.3
    • /
    • pp.189-194
    • /
    • 2012
  • In this paper, we propose a query expansion method based on word graphs using pseudo-relevant and pseudo non-relevant documents to achieve performance improvement in information retrieval. The initially retrieved documents are classified into a core cluster when a document includes core query terms extracted by query term combinations and the degree of query term proximity. Otherwise, documents are classified into a non-core cluster. The documents that belong to a core query cluster can be seen as pseudo-relevant documents, and the documents that belong to a non-core cluster can be seen as pseudo non-relevant documents. Each cluster is represented as a graph which has nodes and edges. Each node represents a term and each edge represents proximity between the term and a query term. The term weight is calculated by subtracting the term weight in the non-core cluster graph from the term weight in the core cluster graph. It means that a term with a high weight in a non-core cluster graph should not be considered as an expanded term. Expansion terms are selected according to the term weights. Experimental results on TREC WT10g test collection show that the proposed method achieves 9.4% improvement over the language model in mean average precision.

Efficient-Clustering using the Dynamic Sky line Query in Sensor Network Environment (센서 네트워크 환경에서 동적 스카이라인 질의를 이용한 효율적인 클러스터링)

  • Jo, Yeong-Bok;Lee, Sang-Ho
    • Proceedings of the Korean Institute of Intelligent Systems Conference
    • /
    • 2007.11a
    • /
    • pp.287-291
    • /
    • 2007
  • 기존 센서네트워크 환경의 노드들이 모바일 환경으로 바뀌면서 클러스터를 구축하고 클러스터 헤더를 선정함에 있어 기존 방법은 정적 노드를 대상으로 구축되어 있기 때문에 이를 동적 노드에 적합한 방법으로 구축하기 위해 기존 연속적인 스카이라인 질의방법을 이용하여 클러스터를 구축하고 클러스터헤더를 선정함으로 센서네트워크의 효율적인 환경을 구축하고자 한다. 기존은 클러스터 헤드 선정을 클러스터를 구축하고 구축된 클러스터 내에서 에너지 잔여량을 비교 하여 가장 에너지가 많은 노드를 헤드로 선정하여 라우팅을 고려하는 기법을 사용하였다. 그러나 센서 노드가 모바일 노드일 경우 위치도 함께 고려되어야 할 속성 중 하나일 것이다. 따라서 이 논문에서는 클러스터 헤더 선정기법에서 기존 방식과 달리 클러스터 헤더를 선정하고 클러스터 헤더를 선정하고 클러스터 헤더를 기준으로 R hop 까지를 하나의 클러스터로 설정하는 효율적인 영역 결정 기법을 제안하였다.

  • PDF

Reranking Clusters based on Query Term Position and Context (질의의 위치와 문맥을 반영한 클러스터 기반 재순위화)

  • Jo, Seung-Hyeon;Jang, Gye-Hun;Lee, Kyung-Soon
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.471-474
    • /
    • 2010
  • 질의와 질의 주변에 나오는 어휘는 의미적으로 연관되어있다는 가정하에 질의뿐만 아니라 질의 주변에 나오는 문맥 어휘들도 가중치를 높여준다면 검색에 효율을 높일 수 있을 것이다. 본 논문에서는 질의와 질의 주변에 나오는 문맥 어휘들에게 가중치를 주어 질의 어휘의 위치 가중치를 반영한 문서를 표현하고, 위치 가중치가 반영된 문서 벡터들 사이의 유사도를 계산하여 클러스터 기반 재순위화를 하여 성능을 향상시키는 방법을 제안한다. 뉴스 집합인 TREC AP 문서를 이용하여 언어모델, 위치 가중치를 이용한 언어모델, 클러스터 기반 재순위화 모델의 비교실험을 통해 유효성을 검증한다.

Analysis and Evaluation of Data Partitioning Methods or On-line Scaling in a Shared Nothing Database Cluster (비공유 데이터베이스 클러스터에서 온-라인 확장을 위한 데이터 분할 기법의 분석 및 평가)

  • Jang, Yong-Il;Lee, Chung-Ho;Lee, Jae-Dong;Bae, Hae-Young
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11c
    • /
    • pp.1859-1862
    • /
    • 2002
  • 비공유 데이터베이스 클러스터는 그 구조의 특성 상 동적인 질의 패턴의 변화, 특정 데이터에 대한 질의 집중에 의한 부하 불균형 및 집중, 사용자 증가에 의한 처리량 한계 등의 문제가 발생한다. 이러한 문제를 해결하기 위해 데이터베이스 클러스터는 최근에 제안된 온-라인 확장기법을 사용하며, 이 기법은 데이터 베이스의 확장성에 의해 큰 영향을 받는다. 일반적으로 클러스터 시스템에서 사용되는 데이터 분할 기법에는 키 값의 순서대로 분할하는 라운드-로빈 분할 기법, 해쉬 함수를 이용해 데이터를 분할하는 해쉬 분할 기법, 범위에 따라 각 노드에 데이터를 분할하는 범위 분할기법, 그리고 조건식에 따라 데이터를 분할하는 조건식 분할 기법이 있다. 본 논문에서는 이 네 가지 분할 기법의 특성을 정리하고, 비공유 데이터베이스 클러스터에서 확장성에 있어서 우수한 분할 기법을 각 분할 기법의 성능평가를 통해 얻는다. 성능평가에서는 각각의 분한 기법을 평가하기 위해 확장 시 발생되는 이동 데이터의 크기, 질의처리에 대한 영향, CPU 사용률, 그리고 온-라인 확장기법의 수행 시 발생되는 특성에 대한 영향을 분석하며, 얻어진 결과를 토대로 비공유 데이터베이스 클러스터에서 가장 적합하면서도 온-라인 확장 기법적용을 위해 확장성이 우수한 데이터 분할기법을 찾는다.

  • PDF