• Title/Summary/Keyword: 검색 가중치

Search Result 401, Processing Time 0.024 seconds

An Effective Snippet Generation Method using Text Summarization Techniques based on Pseudo Relevance Feedback (유사 적합성 피드백 기반의 문서 요약 기법을 이용한 효과적인 스니펫 생성)

  • An, Hong-Guk;Ko, Young-Joong;Seo, Jung-Yun
    • 한국HCI학회:학술대회논문집
    • /
    • 2007.02a
    • /
    • pp.174-181
    • /
    • 2007
  • 정보 검색의 결과로 나타나는 요약문을 스니펫(snippet)이라 한다. 사용자는 자신이 원하는 정보를 얻기 위해 문서를 검색하는데, 이 때 스니펫은 사용자가 원하는 문서를 찾는데 중요한 역할을 한다. 본 논문에서는 정보검색 분야에서 높은 성능을 보이는 유사 적합성 피드백을 자동 문서 요약에 맞게 적용하여 높은 성능의 스니펫 생성 시스템을 구현한다. 우선, 사용자의 질의가 포함된 문장들을 일차적으로 요약 문장 후보로 추출한다. 그리고 추출된 문장 후보로부터 명사들을 질의 후보로 고려한다. 각 문장이 질의의 포함 여부에 따라 문장의 적합성을 판단하게 되고, 유사 적합성 피드백 확률 모델에 적용한 후 질의 후보들의 가중치를 추정하여 가중치 순위를 통해 확장할 질의들을 결정한다. 확장된 질의들과 기존의 질의들의 가중치를 합산하여 각 문장의 순위를 매기게 되고 가장 높은 순위의 문장들이 스니펫으로 제시된다. 논문에서 제안한 기법은 추가적인 핵심 질의들을 자동으로 확장하여 중요한 문장을 추출할 수 있다. 이 연구를 위해서 일반 상용 정보 검색 서비스에서 제공하는 스니펫을 수집하였고 이들의 정확도와 시스템의 정확도를 비교하였다. 실험 결과를 통해 살펴본 제안된 시스템의 성능은 상용 정보 검색기에서 제공되고 잇는 스니펫의 정확도 보다 우수한 성능을 보였다.

  • PDF

A Design and Implementation of a Content_Based Image Retrieval System using Color Space and Keywords (칼라공간과 키워드를 이용한 내용기반 화상검색 시스템 설계 및 구현)

  • Kim, Cheol-Ueon;Choi, Ki-Ho
    • The Transactions of the Korea Information Processing Society
    • /
    • v.4 no.6
    • /
    • pp.1418-1432
    • /
    • 1997
  • Most general content_based image retrieval techniques use color and texture as retrieval indices. In color techniques, color histogram and color pair based color retrieval techniques suffer from a lack of spatial information and text. And This paper describes the design and implementation of content_based image retrieval system using color space and keywords. The preprocessor for image retrieval has used the coordinate system of the existing HSI(Hue, Saturation, Intensity) and preformed to split One image into chromatic region and achromatic region respectively, It is necessary to normalize the size of image for 200*N or N*200 and to convert true colors into 256 color. Two color histograms for background and object are used in order to decide on color selection in the color space. Spatial information is obtained using a maximum entropy discretization. It is possible to choose the class, color, shape, location and size of image by using keyword. An input color is limited by 15 kinds keyword of chromatic and achromatic colors of the Korea Industrial Standards. Image retrieval method is used as the key of retrieval properties in the similarity. The weight values of color space ${\alpha}(%)and\;keyword\;{\beta}(%)$ can be chosen by the user in inputting the query words, controlling the values according to the properties of image_contents. The result of retrieval in the test using extracted feature such as color space and keyword to the query image are lower that those of weight value. In the case of weight value, the average of te measuring parameters shows approximate Precision(0.858), Recall(0.936), RT(1), MT(0). The above results have proved higher retrieval effects than the content_based image retrieval by using color space of keywords.

  • PDF

Calculation of similarity by weighting title and summary in word co-occurrence of research reports (연구 보고서의 공기관계 정보에 제목 및 요약의 가중치를 적용한 유사도 계산)

  • Kim, Nam-Hun;Joo, Jong-Min;Park, Hyuk-Ro;Yang, Hyung-Jeong
    • Proceedings of The KACE
    • /
    • 2017.08a
    • /
    • pp.37-40
    • /
    • 2017
  • 본 논문에서는 국가 연구 보고서의 공기 관계 정보와 제목, 요약 등에 가중치를 적용한 유사도 계산방법을 제안한다. 이를 위해 국가 연구개발 보고서에서 텍스트를 추출하여 한 문장 단위로 문서를 분할하고, 기본 불용어와 보고서에서 특징적으로 나타나는 불용어를 처리하고 형태소 분석을 한 뒤 공기관계를 추출하였다. 또한 문서의 유사도 계산시 정확성을 높이기 위해 제목과 요약 부분에 가중치를 부여하였다. 이를 통해 본 논문에서 제안하는 방법이 문서 검색 라이브러인 루씬(Lucene)을 이용한 방법보다 2.5%의 검색성능 향상을 그리고 Knn-휴리스틱 방법보다는 1.1%의 검색성능 향상을 보였다. 이러한 결과를 통해 문서의 요약과 제목 그리고 공기관계 정보가 연구보고서의 유사도를 계산 하는데 영향을 미친다는 것을 보였다.

  • PDF

Weighting and Query Structuring Scheme for Disambiguation in CLTR (교차언어 문서검색에서 중의성 해소를 위한 가중치 부여 및 질의어 구조화 방법)

  • Jeong, Eui-Heon;Kwon, Oh-Woog;Lee, Jong-Hyeok
    • Annual Conference on Human and Language Technology
    • /
    • 2001.10d
    • /
    • pp.175-182
    • /
    • 2001
  • 본 논문은 사전에 기반한 질의변환 교차언어 문서검색에서, 대역어 중의성 문제를 해결하기 위한, 질의어 가중치 부여 및 구조화 방법을 제안한다. 제안하는 방법의 질의 변환 과정은 다음의 세 단계로 이루어진다. 첫째, 대역어 클러스터링을 통해 먼저 질의어 단어의 적합한 의미를 결정짓고, 둘째, 문맥정보와 지역정보를 이용하여 후보 대역어들간의 상호관계를 분석하며, 셋째, 각 후보 대역어들을 연결하여, 후보 질의어를 만들고 각각에 가중치를 부여하여 weighted Boolean 질의어로 생성하게 된다. 이를 통해, 단순하고 경제적이지만, 높은 성능을 낼 수 있는 사전에 의한 질의변환 교차언어 문서검색 방법을 제시하고자 한다.

  • PDF

A Direction Computation and Media Retrieval Method of Moving Object using Weighted Vector Sum (가중치 벡터합을 이용한 이동객체의 방향계산 및 미디어 검색방법)

  • Suh, Chang-Duk;Han, Gi-Tae
    • The KIPS Transactions:PartD
    • /
    • v.15D no.3
    • /
    • pp.399-410
    • /
    • 2008
  • This paper suggests a new retrieval method using weighted vector sum to resolve a problem of traditional location-based retrieval method, nearest neighbor (NN) query, and NN query using direction. The proposed method filters out data with the radius, and then the remained retrieval area is filtered by a direction information compounded of a user's moving direction, a pre-fixed interesting direction, and a pre-fixed retrieval angle. The moving direction is computed from a vector or a weighted vector sum of several vectors using a weight to adopt several cases. The retrieval angle can be set from traditional $360^{\circ}$ to any degree you want. The retrieval data for this method can be a still and moving image recorded shooting location, and also several type of media like text, web, picture offering to customer with location of company or resort. The suggested method guarantees more accurate retrieval than traditional location-based retrieval methods because that the method selects data within the radius and then removes data of useless areas like passed areas or an area of different direction. Moreover, this method is more flexible and includes the direction based NN.

Weighting of XML Tag using User's Query (사용자 질의를 이용한 XML 태그의 가중치 결정)

  • Woo Seon-Mi;Yoo Chun-Sik;Kim Yong-Sung
    • The KIPS Transactions:PartD
    • /
    • v.12D no.3 s.99
    • /
    • pp.439-446
    • /
    • 2005
  • XML is the standard that can manage systematically WWW documents and increase retrieval efficiency. Because XML documents have the information of contents and that of structure in single document, users can get more suitable retrieval result by retrieving the information of content as well as that of logical structure. In this paper, we will propose a method to calculate the weights of XML tags so that the information of XML tag is used to index decision. A proposed method creates term vector and weight vector for XML tags, and calculates weight of tag by reflecting user's retrieval behavior (user's query). And it decides the weights of index terms of XML document by reflecting the weights of tags. And we will perform an evaluation of proposed method by comparison with existing researches using weights of paragraphs.

Effective Scheme for File Search Engine in Mobile Environments (모바일 환경에서 파일 검색 엔진을 위한 효과적인 방식)

  • Cho, Jong-Keun;Ha, Sang-Eun
    • The Journal of the Korea Contents Association
    • /
    • v.8 no.11
    • /
    • pp.41-48
    • /
    • 2008
  • This study focuses on the modeling file search engine and suggesting modified file search schema based on weight value using file contents in order to improve the performance in terms of search accuracy and matching time. Most of the file search engines have used string matching algorithms like KMP(Knuth.Morris.Pratt), which may limit portability and fast searching time. However, this kind of algorithms don't find exactly the files what you want. Hence, the file search engine based on weight value using file contents is proposed here in order to optimize the performance for mobile environments. The Comparison with previous research shows that the proposed schema provides better.

A Question Answering System Using the Information of the Category Information of Thesaurus (시소러스범주정보를 이용한 질의응답시스템)

  • 김수민;백대호;김상범;임해창
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.179-183
    • /
    • 2000
  • 정보검색시스템은 사용자의 질의를 입력받아 사용자가 원하는 정보를 검색해주는 시스템을 의미한다. 그러나, 대부분의 정보검색시스템은 단어와 연산자의 조합으로 이루어진 질의를 입력받아 문서를 검색해 주고, 사용자는 그 문서들 중에서 원하는 정보를 다시 찾아내야 한다. 본 논문에서는 영어 자여어질의를 입력 받아 사용자가 원하는 정보에 좀 더 근접한 형태의 답으로서 제한된 길이의 짧은 답을 제시하는 시스템을 구현한다. 시스템은 크게 질의분석단계, 문서검색 및 분석단계, 정보추출단계의 세 단계로 나눌 수 있다. 사용자 질의분석단계에서는 의문사 정보와 오토마타, 시소러스 범주 정보를 이용하여 질의에 대한 정답이 될 수 있는 단어의 속성을 예측하였다. 문서분서단계에서는 정답이 될 수 있는 단어의 후보를 선정하기 위해서 시소러스의 범주정보를 사용하였고, 선정된 정답후보중에서 정답을 추출하기 위해 각 후보단어의 질의단어와의 평균거리가중치, 범주간유사도, 공기질의어비율을 사용하였다. 실험을 통해 평균거리가중치만을 이용하는 것 보다 범주간유사도와 공기질의어비율을 함께 이용하는 것이 성능의 향상을 보였다.

  • PDF

Korean-to-English Query Translation based on Multilingual Ontology in Cross-Language Text Retrieval (교차언어 문서검색에서 다국어 온톨로지에 기반한 한영 질의어 변환)

  • Chun, Jung-Hoon;Choi, Key-Sun
    • Annual Conference on Human and Language Technology
    • /
    • 1999.10e
    • /
    • pp.43-49
    • /
    • 1999
  • 본 논문에서는 교차언어 문서검색(CLTR: Cross-Language Text Retrieval)에서의 한-영 질의어 변환을 다룬다. 질의어 변환시 영어 대역어 획득과정에서는 다음 두 가지를 고려한다. 첫째, 한국어 질의어를 구성하는 단어가 한가지 개념을 기호화하지만 이에 대응되는 영어 대역어들이 하나 이상인 경우이다. 둘째, 질의어 구성 단어가 둘 이상의 개념들을 기호화하는 다의성을 지닌 경우이다. 전자의 경우는 영어 대역어들이 모두 동일한 개념, 또는 유사한 개념을 나타내므로 그대로 검색에 이용한다 해도 검색 성능을 크게 좌우하지 않지만, 후자의 경우는 모든 개념을 다 검색에 이용하게 되면 정확률(precision)이 크게 떨어지게 된다. 이에 본 연구에서는 개념 선택단계와 선택된 개념의 영어 대역어들에 가중치를 주는 가중치 부가단계로 나누어 질의어 변환을 수행한다. 본 논문의 질의어 변환에서 영어 대역어는 대역사전 대신 다국어 온톨로지인 KAIST 분류어휘표와 한영 음차복원 모듈을 통해 얻어진다.

  • PDF

Optimizing the Additional Term Weight Ratio in Query Expansion Search based on Dictionary Definition (사전 의미 기반의 질의확장 검색에서 추가 용어 가중치 최적화)

  • 최영란;전유정;박순철
    • Journal of Korea Society of Industrial Information Systems
    • /
    • v.8 no.2
    • /
    • pp.45-53
    • /
    • 2003
  • The significances of this paper are of two points. One is that this research develops the query expansion search by adding the related terms based on the dictionary to the original query terms. This method shortens the process of the conventional model of query expansion utilizing the feedback data of the search. The other is that this research tries to find out the optimal point of precisions and recalls by differentiating the weight ratio between original quay and additional terms. This method shows that the efficiency and precision of query expansion search increase.

  • PDF