• Title/Summary/Keyword: 검색어 추출

Search Result 329, Processing Time 0.028 seconds

A Customized Tourism System Using Log Data on Hadoop (로그 데이터를 이용한 하둡기반 맞춤형 관광시스템)

  • Ya, Ding;Kim, Kang-Chul
    • The Journal of the Korea institute of electronic communication sciences
    • /
    • v.13 no.2
    • /
    • pp.397-404
    • /
    • 2018
  • As the usage of internet is increasing, a lot of user behavior are written in a log file and the researches and industries using the log files are getting activated recently. This paper uses the Hadoop based on open source distributed computing platform and proposes a customized tourism system by analyzing user behaviors in the log files. The proposed system uses Google Analytics to get user's log files from the website that users visit, and stores search terms extracted by MapReduce to HDFS. Also it gathers features about the sight-seeing places or cities which travelers want to tour from travel guide websites by Octopus application. It suggests the customized cities by matching the search terms and city features. NBP(next bit permutation) algorithm to rearrange the search terms and city features is used to increase the probability of matching. Some customized cities are suggested by analyzing log files for 39 users to show the performance of the proposed system.

Relevance Feedback Agent for Improving Precision in Korean Web Information Retrieval System (한국어 웹 정보검색 시스템의 정확도 향상을 위한 연관 피드백 에이전트)

  • Baek, Jun-Ho;Choe, Jun-Hyeok;Lee, Jeong-Hyeon
    • The Transactions of the Korea Information Processing Society
    • /
    • v.6 no.7
    • /
    • pp.1832-1840
    • /
    • 1999
  • Since the existed Korean Web IR systems generally use boolean system, it is difficult to retrieve the information to be wanted at one time. Also, because of the feature that web documents have the frequent abbreviation and many links, the keyword extraction using the inverted document frequency extracts the improper keywords for adding ambiguous meaning problem. Therefore, users must repeat the modification of the queries until they get the proper information. In this paper, we design and implement the relevance feedback agent system for resolving the above problems. The relevance feedback agent system extracts the proper information in response to user's preferred keywords and stores these keywords in preference DB table. When users retrieve this information later, the relevance feedback agent system will search it adding relevant keywords to user's queries. As a result of this method, the system can reduce the number of modification of user's queries and improve the efficiency of the IR system.

  • PDF

A Classification of Endings for an Efficient Morphological Analysis of Korean (고성능 한국어 형태소 분석을 위한 어미 분류)

  • 은종진;박선영
    • Proceedings of the Korean Society for Cognitive Science Conference
    • /
    • 2000.06a
    • /
    • pp.41-47
    • /
    • 2000
  • 한국어 형태소 분석에서 가장 중요한 부분 중 하나가 바로 용언구(서술어)를 분석하는 것이다. 형태소 분석 뿐만 아니라 구문 분석, 의미 분석 단계에서도 정확한 용언구 분석은 매우 중요한 작업 중의 하나이다. 또한, 용언구에는 [체언+지정사+어미] 패턴도 포함되므로, 정보 검색기의 핵심 모듈인 명사 추출기(색인기)의 성능에도 용언구의 분석은 높은 비중을 차지한다. 본 논문에서는 용언구 분석의 정확성을 높이고, 견고하면서 속도도 향상시킬 수 있는 방법으로 새로운 어미 분류를 제안하고자 한다.

  • PDF

An Entity-centric Integrated Search System Using URI (URI를 이용한 개체 중심적 통합 검색 시스템)

  • Jung, Han-Min;Lee, Mi-Kyoung;Sung, Won-Kyung
    • Journal of KIISE:Software and Applications
    • /
    • v.35 no.7
    • /
    • pp.405-416
    • /
    • 2008
  • To overcome the limitation of keyword-based integrated search, this study shows entity-centric integrated search method using URI scheme. Our system generates entity pages in ways of analyzing user's keyword and instances matched with it, selecting optimal entity type, and calling unit services simultaneously. Topic information extracted from articles is propagated to persons, institutions, and locations by reasoning for providing topic-centric information. With comparative experiments based on search results and usability tests, we proved that this approach is superior to keyword-based integrated search served by CiteSeer and Google Scholar.

Applying Emotional Information Retrieval Method to Information Appliances Design -The Use of Color Information for Mobile Emotion Retrieval System- (감성검색법을 기초로 한 정보기기 콘텐츠 디자인 연구 -색채정보를 이용한 모바일 감성검색시스템을 사례로-)

  • Kim, Don-Han;Seo, Kyung-Ho
    • Science of Emotion and Sensibility
    • /
    • v.13 no.3
    • /
    • pp.501-510
    • /
    • 2010
  • The knowledge base on emotional information is one of the key elements in the implementation of emotion retrieval systems for contents design of Mobile devices. This study proposed a new approach to the knowledge base implementation by automatically extracting color components from full-color images. In this study, the validity of the proposed method was empirically tested. Database was developed using 100 interior images as visual stimuli and a total of 48 subjects participated in the experiment. In order to test the reliability of the proposed 'emotional information knowledge base', firstly 'recall ratio' that refers to frequencies of correct images from the retrieved images was derived. Secondly, correlation Analysis was performed to compare the ratings by the subjects to what the system calculated. Finally, the rating comparison was used to run a paired-sample t-test. The analysis demonstrated satisfactory recall ration of 62.1%. Also, a significant positive correlation (p<.01) was observed from all the emotion keywords. The paired Sample t-test found that all the emotion keywords except "casual" retrieved the images in the order from more relevant to less relevant images and the difference was statistically significant (t(9)=5.528, p<.05). Findings of this study support that the proposed 'emotional information knowledge base' established only with color information automatically extracted from images can be effectively used for such visual stimuli search tasks as commercial interior images.

  • PDF

Ontology-based Culture·Tourist Attraction Search Application (온톨로지 기반의 문화·관광지 검색 어플리케이션 구현)

  • Hwang, Tae-won;Seo, Jung-hee;Park, Hung-bog
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.05a
    • /
    • pp.772-774
    • /
    • 2017
  • Currently, there are many simple searches for local culture and tourism, but systematic information retrieval using ontology technology is weak. The keyword-based search, which is an existing search method, derives a search result that is different from a user's wanted intention. On the other hand, semantic search using ontology constructs shows the information related to the search term by creating a relation between words and words. Therefore, when tourists search for cultural and tourist attractions in the area, they provide information that includes meaning relevance in the search results. If the ontology provides information on the culture, sightseeing area, transportation, Can be more easily grasped. In this paper, we propose an ontology-based retrieval system based on culture and tourist sites utilizing public institutions database by using mobile application by extending search system which relied only on existing internal database to provide accurate and reliable information to users. This efficient structure of the ontology makes it possible to provide information suitable for the user quickly and accurately.

  • PDF

An Algorithm for extracting English-Korean Transliteration pairs using Automatic I-K Transliteration (자동 음차표기를 이용한 영-한 음차표기 대역쌍의 자동 추출)

  • 오종훈;배선미;최기선
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.04b
    • /
    • pp.928-930
    • /
    • 2004
  • 지금까지 기계번역과 교차언어 정보검색 등과 같은 자연언어응용에서 사용되는 번역지식을 자동으로 구축하는 연구가 활발히 진행되어 왔다. 번역지식을 자동으로 구축하는 연구는 대역사전에 등재되어 있지 않은 미등록어에 대한 대역정보를 문서에서 자동으로 획득하는 것을 목표로 한다. 최근에는 이러한 미등록어 중 음차표기 번역지식에 대한 연구가 활발히 진행되고 있다. 음차표기는 주로 영어 단어를 발음에 기반하여 비영어권의 언어로 표기하는 것을 의미한다. 음차표기된 단어들은 새로운 개념을 나타내는 신조어가 많기 때문에 사전에 등재되어 있지 않온 경우가 많다. 따라서 효과적인 번역지식 구축을 위해서는 이러한 음차표기 번역지식을 자동으로 획득하는 것은 매우 중요하다. 본 논문에서는 영-한 음차표기 대역쌍을 문서에서 자동으로 추출하는 알고리즘을 제안한다. 본 논문의 기법은 한국어 음차표기의 인식, 영-한 자동음차표기, 한국어 음차표기와 자동음차표기된 영어단어간의 음성적 유사도 비교를 통하여 음차표기 대역쌍을 추출한다. 본 논문의 기법은 약 93%의 정확률과 68%의 재현율을 나타내었다.

  • PDF

Design and Implementation of Paper Classification Systems based on Keyword Extraction and Clustering (키워드 추출과 군집화 기반의 논문 분류 시스템의 설계 및 구현)

  • Lee, Yun-Soo;Pheaktra, They;Lee, Jong-Hyuk;Gil, Joon-Min
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.05a
    • /
    • pp.48-51
    • /
    • 2018
  • 컴퓨터 및 기술의 발전으로 힘입어 수많은 논문이 오프라인뿐 아니라 온라인으로 발행되고 있고, 새로운 분야들도 계속 생기면서 사용자들은 방대한 논문들 중 자신이 필요로 하는 논문을 검색하거나 분류하기에 많은 어려움을 겪고 있다. 이러한 한계를 극복하기 위해 본 논문에서는 유사 내용의 논문을 분류하고 이를 군집화하는 방법을 제안한다. 제안하는 방법은 TF-IDF를 이용하여 각 논문의 초록으로 부터 대표 주제어를 추출하고, K-means 클러스터링 알고리즘을 이용하여 추출한 TF-IDF 값을 근거로 논문들을 유사 내용의 논문으로 군집화한다.

Fuzzy Query Processing through Two-level Similarity Relation Matrices Construction (2계층 유사관계행렬 구축을 통한 질의 처리)

  • 이기영
    • Journal of the Korea Computer Industry Society
    • /
    • v.4 no.10
    • /
    • pp.587-598
    • /
    • 2003
  • This paper construct two-level word similarity relation matrices about title and to scientific treatise. As guide keyword similarity relation matrices which is constructed to co-occurrence frequency base same time keeps recall rater by query expansion by tolerance relation, it is index structure to improve the precision rate by two-level contents base retrieval. Therefore, draw area knowledge through subject analysis and reasoned user's information request and area knowledge to fuzzy logic base. This research is research to improve vocabulary mismatch problem and information expression having essentially on query.

  • PDF

An Algorithm of Documents Classification and Query Extension using Fuzzy Function (퍼지 함수에 의한 질의어 확장과 문서 분류 알고리즘)

  • Eun, Hye-Ju;Ha, Yan;Kim, Yong-Sung
    • Journal of KIISE:Software and Applications
    • /
    • v.28 no.3
    • /
    • pp.272-284
    • /
    • 2001
  • 웹 기반 검색 시스템에서사용자의 관심이 많은 문서를 선별하여 제공하기 위해 프로파일이나 시소러스에 관한 연구가 이루어지고 있다. 그러나, 프로파일이나 시소러스를 구축하고 유지보수 하는데 많은 시간과 노력이 필요하다. 특히 구축된 시소러스에 대해 구조화 및 적합성의 문제가 있다. 따라서, 이러한 문제점을 극복하고자 본 논문에서는 문서에서 추출한 용어 빈도를 문서에서 용어의 중요 정도로 사상시키기 위해 시그모이드 멤버 쉽 함수를 적용한다. 또한, 이 중요 정도에 따라 질의어를 확장하고 의미적으로 연결된 문서를 동일한 문서 집단으로 분류할 수 있는 알고리즘을 제안하여 사용자의 선호도가 반영된 문서를 선별하고 제공하고자 한다.

  • PDF