• 제목/요약/키워드: relevant information retrieval

검색결과 188건 처리시간 0.026초

트렌드 지수를 반영한 블로그 랭킹 알고리즘 (The Blog Ranking Algorithm Reflecting Trend Index)

  • 이용석;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권3호
    • /
    • pp.551-558
    • /
    • 2017
  • 블로그의 성장은 다양한 정보제공이라는 긍정적 측면과 마케팅적 활용이라는 부정적 수단으로 사용되고 있는 문제를 가지고 있다. 본 연구는 대형 포털의 블로그 포스트의 랭킹 결과를 OpenAPI를 이용하여 수집하였고, 탐색적 데이터 분석기법을 통해서 상위 랭크된 블로그의 특징들을 조사하였다. 분석 결과를 보면 상위 랭크에 영향을 주는 요소로는 블로거의 영향력과 포스트의 최근 생성일에 관련성이 높은 것을 알 수 있었다. 이런 평가 알고리즘의 약점으로 인해 파워 블로거의 포스트 중심으로 검색 결과를 편중되게 보여주는 문제가 있었다. 본 연구에서는 다양한 대중의 관심사를 나타내는 트렌드 지수를 통해 랭킹 점수 적용의 공정성을 확보하고, 전문가에 의해 검증된 신뢰 DB정보를 추가하여 컨텐츠 신뢰성을 높이는 알고리즘을 제안하였다. 개선된 알고리즘을 맛집 검색 결과가 실제 지역 학생들의 추천 맛집정보와의 유사도가 높은 것을 확인하였다. 개선된 알고리즘으로 좀 더 신뢰할 수 있는 정보제공이 가능해 졌으며, 방문자수 증가시키는 불법 앱에 의한 순위 조작이 어려워지는 부가적 개선 효과가 기대된다.

소파변환을 사용한 오디오 데이터 베이스 검색 기반에서의 오디오 색인에 관한 연구 (A Study on Audio Indexing Using Wavelet Transform for Content-based Retrieval in Audio Database)

  • 최귀열;곽칠성
    • 한국정보통신학회논문지
    • /
    • 제4권2호
    • /
    • pp.461-468
    • /
    • 2000
  • 디지털 기술 발전에 따른 오디오 데이터의 증가는 여러 컴퓨터 응용에 사용되면서 데이터를 관리하고 사용하기 위해, 내용기반 질의와 유사성 검색과 같은 새로운 기능을 갖는 데이터베이스 시스템의 개발이 불가피하게 됐다. 내용 기반 질의를 위한 빠르고 정확한 검색은 이러한 응용 시스템들에 필요하다. 효율적인 내용기반 색인과 유사성 검색의 설계는 관련성 있는 데이터의 빠른 검색을 제공하기 위한 주된 요소이다. 본 논문에서는 소파(Wavelet) 변환을 이용한 한국 전통 음악 데이터베이스의 오디오 색인을 위한 방법을 제안한다. 또한 소파 변환을 이용해 오디오 데이터에 대한 색인의 가능성을 보인다.

  • PDF

시맨틱 웹 기반 와인 지식 검색을 위한 웹 서비스 설계 (Framework Design for Wine Knowledge-based Semantic Web Services)

  • 전현주;윤호창;최광웅
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2005년도 춘계 종합학술대회 논문집
    • /
    • pp.237-243
    • /
    • 2005
  • Well-Being과 관련해서 삶의 질과 관련된 관심이 증가하면서 와인의 관심과 수요가 증가하고 있다. 이와 같은 시기에 와인의 종류 또는 와인과 어울리는 음식과 같은 여러 가지 지식에 관한 서비스를 온톨로지를 이용하여 사용자가 와인에 관한 정보를 보다 효율적으로 얻도록 하는 것이 필요 된다. 본 연구에서는 와인 온톨로지를 기반으로 시멘틱웹 기술을 활용한 와인 지식 검색 서비스 설계를 제안한다.

  • PDF

ChatPub: 검색 증강 생성 기반 청년 관련 정책 추천 서비스 (ChatPub: Retrieval Augmented Generation-based Service to Aid in Finding Relevant Policies for Korean Youth)

  • 김강산;박진호;양승빈;전창민;구형준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.812-813
    • /
    • 2024
  • 본 논문은 검색 증강 생성 기법과 ChatGPT 를 결합한 사용자 맞춤 정책 추천 서비스인 ChatPub 을 소개한다. ChatPub 은 대한민국 청년을 대상으로 최소한의 개인 정보를 제공받아 적합한 정책을 추천해 주는 웹 서비스다. 정책 정보 사이트를 실시간으로 반영하는 데이터베이스를 참조함으로써 최신 정책 정보를 반영할 수 있으며, 사용자 친화적인 채팅 인터페이스를 통해 원하는 정책 정보에 쉽게 접근할 수 있다. 본 서비스를 통해 청년 정책의 접근성을 높이고 다양한 혜택을 쉽게 알림으로써 더 많은 기회를 제공할 수 있다.

잠정적 부적합 문서와 어휘 근접도를 반영한 어휘 그래프 기반 질의 확장 (Query Expansion Based on Word Graphs Using Pseudo Non-Relevant Documents and Term Proximity)

  • 조승현;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권3호
    • /
    • pp.189-194
    • /
    • 2012
  • 본 논문에서는 정보검색 성능 향상을 위해 잠정적 적합 문서 및 부적합 문서와 어휘 그래프를 이용한 질의 확장 방법을 제안한다. 언어모델에 의한 초기 검색 결과 상위 문서들은 질의 어휘 조합과 근접도를 기반으로 핵심 질의를 포함하는 문서들로 구성된 핵심 질의 클러스터와 핵심 질의를 포함하지 않는 문서들로 구성된 비핵심 질의 클러스터로 분류된다. 이때, 핵심 질의 클러스터는 잠정적 적합 문서 집합으로, 비핵심 질의 클러스터는 잠정적 부적합 문서 집합으로 본다. 각 클러스터는 어휘들과 질의 어휘와의 가까운 정도에 따라 어휘 그래프로 표현된다. 각 어휘에 대한 중요도는 핵심 질의 클러스터 그래프에서의 어휘 가중치에서 비핵심 질의 클러스터 그래프에서의 어휘의 가중치를 빼서 계산한다. 이는 부적합 문서에서 높은 가중치를 갖는 어휘는 확장 질의에서 제외시키는 역할을 한다. 중요도가 높은 어휘 순으로 확장할 질의를 선택한다. 웹 문서 테스트컬렉션인 TREC WT10g에서의 실험 결과에서 제안 방법이 언어모델(LM)에 비해 평균 정확률의 평균(MAP)에서 9.4% 성능 향상을 보였다.

Method of Improving Personal Name Search in Academic Information Service

  • Han, Heejun;Lee, Seok-Hyoung
    • International Journal of Knowledge Content Development & Technology
    • /
    • 제2권2호
    • /
    • pp.17-29
    • /
    • 2012
  • All academic information on the web or elsewhere has its creator, that is, a subject who has created the information. The subject can be an individual, a group, or an institution, and can be a nation depending on the nature of the relevant information. Most information is composed of a title, an author, and contents. An essay which is under the academic information category has metadata including a title, an author, keyword, abstract, data about publication, place of publication, ISSN, and the like. A patent has metadata including the title, an applicant, an inventor, an attorney, IPC, number of application, and claims of the invention. Most web-based academic information services enable users to search the information by processing the meta-information. An important element is to search information by using the author field which corresponds to a personal name. This study suggests a method of efficient indexing and using the adjacent operation result ranking algorithm to which phrase search-based boosting elements are applied, and thus improving the accuracy of the search results of personal names. It also describes a method for providing the results of searching co-authors and related researchers in searching personal names. This method can be effectively applied to providing accurate and additional search results in the academic information services.

유사도 알고리즘을 활용한 시맨틱 프로세스 검색방안 (Semantic Process Retrieval with Similarity Algorithms)

  • 이홍주
    • Asia pacific journal of information systems
    • /
    • 제18권1호
    • /
    • pp.79-96
    • /
    • 2008
  • One of the roles of the Semantic Web services is to execute dynamic intra-organizational services including the integration and interoperation of business processes. Since different organizations design their processes differently, the retrieval of similar semantic business processes is necessary in order to support inter-organizational collaborations. Most approaches for finding services that have certain features and support certain business processes have relied on some type of logical reasoning and exact matching. This paper presents our approach of using imprecise matching for expanding results from an exact matching engine to query the OWL(Web Ontology Language) MIT Process Handbook. MIT Process Handbook is an electronic repository of best-practice business processes. The Handbook is intended to help people: (1) redesigning organizational processes, (2) inventing new processes, and (3) sharing ideas about organizational practices. In order to use the MIT Process Handbook for process retrieval experiments, we had to export it into an OWL-based format. We model the Process Handbook meta-model in OWL and export the processes in the Handbook as instances of the meta-model. Next, we need to find a sizable number of queries and their corresponding correct answers in the Process Handbook. Many previous studies devised artificial dataset composed of randomly generated numbers without real meaning and used subjective ratings for correct answers and similarity values between processes. To generate a semantic-preserving test data set, we create 20 variants for each target process that are syntactically different but semantically equivalent using mutation operators. These variants represent the correct answers of the target process. We devise diverse similarity algorithms based on values of process attributes and structures of business processes. We use simple similarity algorithms for text retrieval such as TF-IDF and Levenshtein edit distance to devise our approaches, and utilize tree edit distance measure because semantic processes are appeared to have a graph structure. Also, we design similarity algorithms considering similarity of process structure such as part process, goal, and exception. Since we can identify relationships between semantic process and its subcomponents, this information can be utilized for calculating similarities between processes. Dice's coefficient and Jaccard similarity measures are utilized to calculate portion of overlaps between processes in diverse ways. We perform retrieval experiments to compare the performance of the devised similarity algorithms. We measure the retrieval performance in terms of precision, recall and F measure? the harmonic mean of precision and recall. The tree edit distance shows the poorest performance in terms of all measures. TF-IDF and the method incorporating TF-IDF measure and Levenshtein edit distance show better performances than other devised methods. These two measures are focused on similarity between name and descriptions of process. In addition, we calculate rank correlation coefficient, Kendall's tau b, between the number of process mutations and ranking of similarity values among the mutation sets. In this experiment, similarity measures based on process structure, such as Dice's, Jaccard, and derivatives of these measures, show greater coefficient than measures based on values of process attributes. However, the Lev-TFIDF-JaccardAll measure considering process structure and attributes' values together shows reasonably better performances in these two experiments. For retrieving semantic process, we can think that it's better to consider diverse aspects of process similarity such as process structure and values of process attributes. We generate semantic process data and its dataset for retrieval experiment from MIT Process Handbook repository. We suggest imprecise query algorithms that expand retrieval results from exact matching engine such as SPARQL, and compare the retrieval performances of the similarity algorithms. For the limitations and future work, we need to perform experiments with other dataset from other domain. And, since there are many similarity values from diverse measures, we may find better ways to identify relevant processes by applying these values simultaneously.

질의응답문서 검색에서 문서구조를 이용한 질의재생성에 관한 연구 (Query Reconstruction for Searching QA Documents by Utilizing Structural Components)

  • 최상희;서은경
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.229-243
    • /
    • 2006
  • 질의응답문서는 이용자가 입력한 질의, 질의설명, 답을 아는 다른 이용자가 제시한 응답으로 구성된 구조화된 문서로서, 최근 웹 문서처럼 검색이 일반적으로 일어나고 있는 정보원이다. 이 연구에서는 질의응답문서의 구조적 특성을 기반으로 질의를 재생성하여 질의응답문서의 검색효율을 향상시키고자 하였다. 질의재생성 실험에서 성능이 비교된 문서구조는 질의와 응답내용이다. 질의를 기반으로 질의를 재생성하는 방식에서는 질의응답검색 시스템에 입력되어 있는 유사질의를 활용하여 클러스터링하는 기법이 적용되었다. 응답정보를 기반으로 질의를 재생성하는 방식에서는 가장 유사한 기존 질의에 대해 응답된 내용에서 단락검색으로 적합한 문장들을 선정하여 활용하는 기법이 적용되었다. 실험 결과 응답정보를 활용하여 질의를 재생성하는 방식이 정확률은 유지하면서 더 다양한 검색결과를 제공하는 것으로 나타났다.

한글로마자표기에 대한 국제기관의 규정과 표기의 실제에 관한 연구 (A Study on Romanization Rules and Practices of the International institutions for Korean language materials)

  • 오경묵
    • 정보관리학회지
    • /
    • 제24권4호
    • /
    • pp.33-51
    • /
    • 2007
  • 인터넷 환경에서 정보검색의 기본적인 사안은 선택된 언어의 문자와 긴밀한 연관을 갖고있다. 매큔-라이샤워시스템은 학술적 및 비학술적 적용을 위한 국제표준으로서, 목록 및 검색시 이용되고 있을 뿐만 아니라 대부분의 한국자료 이용자들에게서 널리 사용되고 있다. 현재 ISO, UNGEGN, LC, ALA, BL, 영국지명위원회와 유럽, 호주, 캐나다 등의 유관기관들은 모두 매큔-라이샤워시스템을 채택하여 사용하고 있다. 따라서 현재 도서관 일각에서 진행하려고 시도하는 2000년식 새한글로마자시스템으로의 표기방식 전환은 도서관 목록과 온라인DB 등에서 많은 혼란을 일으키게 할 것이다. 본 논문에서는 국제기관에서의 이 분야에 대한 노력을 소개하고, 현재 사용하고 있는 상세한 규정을 통하여 로마자시스템을 심층적으로 분석, 소개하여 향후 이 문제를 둘러싼 한국 도서관계가 현명한 판단과 대처를 할 수 있도록 연구결과를 제시하였다.

동적 로봇에이전트를 이용한 주문형 검색엔진의 설계 및 구현 (Design and Realization of Retrieval Engine On Demand Using a Dynamic Robot Agent)

  • 김성;박철우;이충석;박규석
    • 정보처리학회논문지D
    • /
    • 제8D권5호
    • /
    • pp.631-636
    • /
    • 2001
  • 전자상거래 관련기술은 짧은 기간에 급속한 발전을 이루었으며, 최근에는 그 영역이 B2B로 까지 확장되고 있다. 이와 같은 전자상거래의 발전에 발맞추어서 수많은 사이트들이 상품들에 비교.분석 정보도 요구되고 있다. 현재 국내에도 쇼핑몰간의 가격비교 정보가 제공되고 있으나 그 갱신주기가 길어 효율적이지 못하며 보다 빠른 갱신을 위한 무절제한 정보 수집으로 인해 대상 쇼핑몰에 많은 부하를 발생시키고 있다. 본 논문에서는 대상 쇼핑몰의 상태에 다라 로봇의 동작이 동적으로 변경되는 동적 로봇에이전트를 이용하여 대상 쇼핑몰의 상품정보에 대해 대상 서버의 부하를 최소로 줄이면서 최단 시간 내에 수집. 분석하여 고객에게 동일 상품에 대한 최저가의 쇼핑몰을 제시하여 맞춤서비스를 제공할수 있는 주문형 검색엔진을 설계 및 구현하였다.

  • PDF