• 제목/요약/키워드: Search Keywords

검색결과 574건 처리시간 0.026초

Protein Sequence Search based on N-gram Indexing

  • Hwang, Mi-Nyeong;Kim, Jin-Suk
    • Bioinformatics and Biosystems
    • /
    • 제1권1호
    • /
    • pp.46-50
    • /
    • 2006
  • According to the advancement of experimental techniques in molecular biology, genomic and protein sequence databases are increasing in size exponentially, and mean sequence lengths are also increasing. Because the sizes of these databases become larger, it is difficult to search similar sequences in biological databases with significant homologies to a query sequence. In this paper, we present the N-gram indexing method to retrieve similar sequences fast, precisely and comparably. This method regards a protein sequence as a text written in language of 20 amino acid codes, adapts N-gram tokens of fixed-length as its indexing scheme for sequence strings. After such tokens are indexed for all the sequences in the database, sequences can be searched with information retrieval algorithms. Using this new method, we have developed a protein sequence search system named as ProSeS (PROtein Sequence Search). ProSeS is a protein sequence analysis system which provides overall analysis results such as similar sequences with significant homologies, predicted subcellular locations of the query sequence, and major keywords extracted from annotations of similar sequences. We show experimentally that the N-gram indexing approach saves the retrieval time significantly, and that it is as accurate as current popular search tool BLAST.

  • PDF

멀티미디어 정보관리 데이터베이스 시스템에서 자연어를 사용한 정보 검색 (Information Retrieval Using Natural Language for Multimedia Information Management Database System)

  • 이현창;배상현
    • 한국정보통신학회논문지
    • /
    • 제8권5호
    • /
    • pp.1035-1041
    • /
    • 2004
  • 오늘날 사용자가 요구하는 데이터 타입은 주로 멀티미디어 데이터 타입들이다. 이들 멀티미디어데이터 타입의 특성은 기존의 데이터에 비하여 데이터의 크기가 크다는데 있다. 멀티미디어 데이터는 크기가 크기 때문에 멀티미디어 데이터 탐색 연산시 한번에 여러 데이터를 주기억 장치에 가져올 수 없으며, 이것은 많은 입출력 발생과 멀티미디어 데이터 시스템의 성능을 저하시키는 요인이 된다. 그러므로 본 논문에서는 보다 신속한 멀티미디어 데이터 접근을 이루기 위해 인덱스 방법에 관해 살펴보며, 이 기술을 이용하여 멀티미디어 데이터 접근을 많이 요구하는 응용프로그램에 적절하게 대처할 수 있으며, 사용자는 자연어를 사용하여 검색을 수행할 수 있다. 뿐만 아니라 정확한 매칭을 요구하는 키워드 매칭 인덱스 기법보다 자연어를 이용함으로써 사용자의 편리성과 신속한 결과 얻을 수 있도록 성능을 향상 시켰다.

연관 키워드 기반의 지리 및 지역정보 검색시스템 : "경기21서치 2.0" (Gyeonggi21Search 2.0: A Geographic and Regional Information Retrieval System based on Correlated Keywords)

  • 윤성관;이용;장용희;성동현;권용진
    • Spatial Information Research
    • /
    • 제17권1호
    • /
    • pp.1-14
    • /
    • 2009
  • 웹에서 다양한 웹 지리 지역정보를 검색할 수 있는 시스템에 대한 요구가 증가하고 있다. 그러나 현재의 웹 검색 시스템은 사용자가 키워드로 지역 웹 문서를 검색하고 해당 웹 문서를 지도와 비교하여 공간정보를 취득하며, 다른 관련 정보를 얻기 위해서는 검색과 비교를 반복해야 하는 어려움이 있다. 본 논문에서는 이러한 검색 과정을 단순화하기 위해 웹 지리 지역정보에 포함된 지리공간단어를 활용하고 웹 정보와 공간정보가 유기적으로 통합된 검색시스템을 제안하였다. 이를 위해 현재의 웹 공간으로부터 "현실 지식 응용"이라는 3-계층 공간 모델을 제안하였다. 이 구조에서는 계층 간 정보가 관련성이 높도록 연결되어 있고, 사용자는 연결 구조를 탐험하는 것만으로 웹 지리 지역정보 및 지리적인 특성에 대한 다양한 관계 정보, 그리고 공간정보를 효율적으로 얻을 수 있었다.

  • PDF

키워드 중심 학술정보서비스 개선 연구 - NDSL 추천 및 분류를 중심으로 - (An Improvement study in Keyword-centralized academic information service - Based on Recommendation and Classification in NDSL -)

  • 김선겸;김완종;이태석;배수영
    • 한국도서관정보학회지
    • /
    • 제49권4호
    • /
    • pp.265-294
    • /
    • 2018
  • 최근 정보의 폭발적인 증가로 인해 사용자에게 적합한 정보를 제공하기 위한 정보의 필터링이 매우 중요시 되고 있다. 한국과학기술정보연구원에서 운영하고 있는 학술정보서비스인 NDSL은 방대한 자료를 보유함에도 불구하고 사용자들은 검색 외에 자료 획득이 쉽지가 않다. 본 논문은 사용자에게 적합한 정보를 제공하기 위하여 키워드 특성을 활용한 서비스인 PIN(Profiling service In NDSL)을 제안한다. PIN은 키워드만을 가지고 검색하는 것이 아닌 사용자 본인 및 유사 사용자가 등록한 관심 키워드, 동시이용 키워드, 검색 키워드로 분석된 워드 클라우드를 제공하고 이를 통하여 사용자에게 맞춤형 논문, 보고서, 특허, 동향의 콘텐츠를 추천한다. 또한 콘텐츠를 보다 쉽게 접근하기 위하여 중복분류가 가능한 학술연구분류체계 기반 분류를 제공한다. 이를 검증하기 위해 NDSL의 축적된 2016년도의 국내논문의 데이터를 기반으로 분류별로 키워드를 추출하고 이를 통해 매칭 기반의 분류 모델을 만든 후 트레이닝 및 테스트를 거쳐 결과를 도출한다.

연관규칙 마이닝을 활용한 뉴스기사 키워드의 연관성 탐사 (Discovering News Keyword Associations Using Association Rule Mining)

  • 김한준;장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제11권6호
    • /
    • pp.63-71
    • /
    • 2011
  • 현재 대부분의 웹포털 사이트는 인기도 또는 중요도가 높은 키워드를 제공하는 서비스가 제공되고 있는데, 구체적으로 태그 클라우드 형태와 연관 검색 서비스와 같은 사용자 친화형 서비스를 지원하고 있다. 하지만 일반적으로 뉴스기사는 날짜와 분야별로 기사들이 분류되어 있기에, 사용자는 카테고리별로 나누어진 기사를 읽을 수만 있을 뿐 그 기사와 연관된 다른 기사를 쉽게 찾아보지는 못한 실정이다. 또한 연관 검색어 서비스도 사용자가 검색한 입력내용을 기반으로 연관성 정도를 분석하기에 충분한 객관성을 보장하지 못하고 있다. 본 논문에서는 기존의 태그 클라우드 방식에서 좀 더 나아가 축적된 뉴스 기사로 부터 검색 키워드와 밀접히 연관된 키워드를 추출하여 제공하는 기사 검색 방식을 제안한다. 제안 기법은 기본적으로 연관규칙 마이닝을 이용하여 키워드 연관성을 추출하게 되며, 뉴스기사 특성을 반영하여 문장 내부에 존재하는 키워드에 한정하여 연관성을 추출한다. 연관된 키워드 집합을 이용하여 키워드와 가장 밀접한 기사를 검색할 뿐만 아니라, 연관 키워드간의 관계성을 보여줌으로써 뉴스 기사들 속에 숨겨진 연관정보의 탐색을 가능하게 한다.

문서 분석 기반 주요 요소 추출 시스템 (Document Analysis based Main Requisite Extraction System)

  • 이종원;여일연;정회경
    • 한국정보통신학회논문지
    • /
    • 제23권4호
    • /
    • pp.401-406
    • /
    • 2019
  • 본 논문에서는 XML 형태의 논문이나 보고서로 작성된 문서를 분석하는 시스템을 제안한다. 논문이나 보고서에서 지정한 키워드를 추출하고 이를 사용자에게 보여준 뒤 사용자가 해당 문서 내에서 검색을 원하는 키워드를 입력하면 각 키워드들을 포함하고 있는 문단들을 추출한다. 시스템은 사용자가 입력한 키워드들의 빈도수를 확인하고 가중치를 계산한 뒤 가중치가 가장 낮은 키워드만을 포함한 문단들을 제거한다. 또한, 정제된 문단들을 10개의 영역으로 나눈 뒤 영역별 문단들의 중요도를 계산하고 각 영역들의 중요도를 비교하여 가장 높은 중요도를 갖는 주요 영역을 사용자에게 알려준다. 이러한 특징들로 인해 제안하는 시스템을 활용할 경우 기존의 문서 분석 시스템을 활용하여 논문이나 보고서를 분석하는 것보다 압축률이 높은 형태로 주요 문단들을 제공받을 수 있다. 이로 인해 문서를 이해하는데 필요한 시간을 줄일 수 있을 것으로 사료된다.

SNA(Social Network Analysis)를 활용한 코로나19 전후의 가정과교육 유튜브 콘텐츠 변화 분석 (Social Network Analysis of Changes in YouTube Home Economics Education Content Before and After COVID-19)

  • 심재영;김은경;고은미;김형선;박미정
    • Human Ecology Research
    • /
    • 제60권1호
    • /
    • pp.1-20
    • /
    • 2022
  • This paper presents a social network analysis of changes in Home Economics education content loaded on YouTube before and after the outbreak of COVID-19. From January 1, 2008 to June 30, 2021, a basic analysis was conducted of 761 Home Economics education videos loaded on YouTube, using NetMiner 4.3 to analyze important keywords and the centrality of video titles and full texts. Before COVID-19, there were 164 Home Economics education videos posted on YouTube, increasing significantly to 597 following the emergence of the pandemic. In both periods, there was more middle school content than high school content. The content in the child-family field was the most, and the main keywords were youth and family. Before COVID-19, a performance evaluation indicated that the proportion of student content was high, whereas after the outbreak of the disease, teacher content increased significantly due to the effect of distance learning. However, compared with video use, the self-expression and participation of users were lower in both periods. The centrality analysis indicated that in the title, 'family' exhibited a high degree of both centrality and eigenvector centrality over the entire period. Degree centrality of the video title was found to be high in the order of class, online, family, management, etc. after the outbreak of COVID-19, and the connection of keywords was strong overall. Eigenvector centrality indicated that career, search, life, and design were influential keywords before COVID-19, while class, youth, online, and development were influential keywords after COVID-19.

2대 포털사이트 빅데이터를 이용한 한방관련 키워드 분석 (An Analysis of Key Words Related to Traditional Korean Medicine Using Big Data of Two Search Engines)

  • 안정윤;금가정;장아령;송지청
    • 한국의사학회지
    • /
    • 제30권2호
    • /
    • pp.45-61
    • /
    • 2017
  • Objectives : This research aims to investigate the consumer's interest in the Korean Medicine (KM) industry by using Google-trends and Naver-Data lab. A quick and uncomplicated way for those who are already involved with KM industry but do not have expertise in utilizing Big-data searches, is introduced. Methods : 'Direct keyword' was set by FGI (Focus Group Interview) and 'Detailed keyword' was set by using relevant word search and autocomplete search functions in the search engine. By inquiring Naver-Data lab, keyword search volumes are compared by age and sex, date range, and originating region of the researcher. It is possible to determine whether the data is reliable or authentic through examining the associated query. Selected direct keywords used through FGI (Focus Group Interview) were 'Acupuncture', 'Herbal Medicine', 'Cupping', 'Musculoskeletal Disease', 'Diet', and 'Stemina'. Based on these keywords, the following results were derived from the keyword analysis. Results : From August 2016, there was a noticeable surge of interest in men's 'Cupping'. The search for 'Diet' increased in the second quarter of 2016 from all ages. The search volume of 'Stemna' for individuals in their 20s is higher than that of those in their 30s or 40s'. Researchers from the region of Chungcheongbuk-do had a higher level of interest in analgesics and less interest in Korean Medicine. There is a greater interest in the KM market from European countries and America, than from Korea, China, and other Asian countries. Discussion : Despite the limitations of the research, it is meaningful to introduce a quick and easy data search method to compare information by age, sex, and region. Conclusion : The future of research into Korea Medicine and this market is confirmed by our data results which indicate interest from Europe, the United States, and other western countries, but less interest from Korea, China and other Asian countries.

자연어의 논리식으로의 변환을 이용한 고급검색 및 이를 활용한 히스토리 검색 (An Advanced Search that Converts Natural Language into the Logic Advanced Search and with Developed History Search Method)

  • 이대홍;유한석;박상원
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제9권6호
    • /
    • pp.195-204
    • /
    • 2020
  • 현재 웹에서 존재하는 웹페이지는 16억개 이상이며 이중에서 원하는 검색결과를 얻기란 쉽지 않은 일이다. 대부분의 검색엔진에서는 정밀한 검색결과를 제공하기 위하여 논리식의 형태로 검색할 수 있게 하고 있다. 하지만 일반적인 경우 사람들은 원하는 정보를 논리식 형태로 검색하는데 익숙하지 않다. 때문에 복잡한 논리식 형태로 검색하기 보다는 자연어로 검색한다. 따라서 본 논문에서는 사용자가 입력하는 자연어 질의를 검색엔진의 고급검색을 사용할 수 있는 논리식으로 변환하여 검색결과의 품질을 향상시켜주는 검색방법을 제안한다. 또한 사용자들은 검색형태의 특징 중 하나인 단순성에 의해 길게 검색하기 보다는 여러 번의 짧은 검색을 이용하는 경우가 훨씬 많다. 이에 따라 사용자들에게 편리성을 제공하기 위하여 앞에서 제안한 검색방법을 활용한 히스토리 검색방법을 제안한다. 본 논문의 검색방법들을 사용한 결과 자연어 상태의 검색결과보다 논리식으로 변환한 검색결과의 정확도가 개선되었고 누락되는 키워드 없이 사용자가 검색하고자하는 모든 키워드를 반영할 수 있다. 이러한 검색방법이 검색엔진의 발전에 기여할 것으로 기대한다.

RDF 데이타에 대한 효율적인 검색 기법 (An Efficient Keyword Search Method on RDF Data)

  • 김진하;송인철;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권6호
    • /
    • pp.495-504
    • /
    • 2008
  • 최근 문서나 웹 페이지뿐만 아니라 관계형 데이타나 XML 데이타, RDF 데이타 같은 구조화된 데이타에 대해서도 검색을 지원하고자 하는 연구가 활발히 진행되고 있다. 본 논문에서는 RDF 데이타에 대한 효율적인 검색 기법을 제안한다. 제안하는 기법은 먼저 RDF 데이타의 크기를 줄여 검색 성능을 높이고 검색 결과로 관련 있는 정보를 함께 반환해 주기 위해 RDF 데이타에서 관련 있는 노드와 에지를 묶어 새로운 RDF 그래프를 생성한다. 또한 검색 과정에서 검색의 결과를 정렬하기 위해 RDF 데이타 그래프의 노드와 예지에 키워드와의 연관도를 부여할 때, RDF 온톨로지 데이타의 특성을 활용함으로써 보다 사용자의 의도에 부합하는 검색 결과를 반환한다. 실제 RDF 데이타를 사용한 성능 비교 결과는 제안하는 기법이 RDF 데이타의 크기를 최대 2배까지 줄이고 기존 기법에 비해 검색 속도가 최대 5배 빠르다는 것을 보여준다.