• 제목/요약/키워드: 정보 검색 비용

검색결과 519건 처리시간 0.024초

비트 분할 시그니처 화일을 이용한 XML 인덱스 구조 (XML Indexing Structure Using Bit-Sliced Signature File)

  • 강인선;홍석진;이태원;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.109-111
    • /
    • 2002
  • 데이터베이스에 저장된 맡은 양의 XML 데이터를 빠르게 검색하는 과정에서, 경로식을 만족하는 노드를 추출하는 부분은 가장 많은 비용을 요구한다. 기존 방법은 여러 번의 조인을 통해 이를 처리하기 때문에 많은 비용이 드는 단점이 있다. 본 연구에서는 각 노드의 경로에 대한 시그니처를 만들고, 질의문의 경로식에 대한 시그니처와의 비트연산을 통해 후보 경로 집합을 선택하는 방법을 제안한다. 이 방법은 조인 연산 없이 경로식을 처리하기 때문에 기존의 조인 연산비용을 줄일 수 있으며, 기존 관계형 데이터베이스에 쉽게 적용시킬 수 있는 장점이 있다.

  • PDF

효율적인 생물정보 서열검색을 위한 PC-클러스터 시스템 구현 (Implementation of PC-Cluster System for Efficient Bioinformatics Sequence Analysis)

  • 공재근;좌용권;박정선;유선주;이문상
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.37-39
    • /
    • 2004
  • 최근 들어 유전자 서열의 생산량 증가에 비례하여 유전자 발현 마이크로 칩과 같은 새로운 분석방법과 기술들이 도입되면서 연구자들이 매일 수천 개의 서열을 효율적으로 분석해야 할 필요성이 증대되고 있다. 이러한 생명공학분야의 급속한 발전은 대용량 유전자 서열에 대한 빠른 분석이 가능한 컴퓨팅 자원을 요구하고 있으나 IT 인프라에 대한 막대한 투지비용으로 인해 관련 연구기관에서 쉽게 이들 컴퓨팅 자원을 도입하지 못하고 있는 실정이다. 본 연구에서는 저가의 PC 서버를 고속의 네트워크로 연결한 PC 클러스터를 활용하여 시스템의 안정성과 신뢰성을 보장함과 동시에 범용성을 지닌 생물정보 서열검색 시스템을 구축하였다. 이러한 효율적인 시스템 구축을 통해 생물정보 데이터베이스로 서열 검색 시스템을 제공하고, 대용량 서열 데이터베이스의 검색 시간을 단축하였다.

  • PDF

물류 통합 환경을 위한 도메인 온톨로지 기반의 검색 프레임워크 (Construction of Domain Ontology-based Framework for an Logistics Integrated Environment)

  • 배시영;고진광;최현호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2012년도 춘계학술발표대회
    • /
    • pp.1091-1094
    • /
    • 2012
  • 산업 및 무역, 유통 기업들은 수많은 물류자원이 된다. 이러한 기업들은 물류 비용을 절감하기 위해 전문 물류 기업에 물품 운송 부분을 맡긴다. 전문 물류 관리 기업들은 컴퓨터와 인터넷의 발전으로 공급자, 구매자와 타사 기업들간에 인터넷으로 서로 연결된다. 하지만 서로 다른 회사에서 사용하고 관리하는 소프트웨어 때문에 이기종데이터는 타사 기업을 위한 물류 정보시스템에 큰 문제가 된다. 따라서, 본 연구에서는 전문 물류 회사를 위한 도메인 온톨로지 기반의 검색 프레임워크를 제안한다. 제안한 도메인 온톨로지 기반의 검색 프레임워크는 통합 환경에서 전문 물류 회사를 위한 다양한 시스템과 프로세스를 포함한 문서로 제공될 수 있고 여러 다양한 문서의 통합 검색을 지원하며 문서 안의 의미 정보를 고려할 수 있다.

분석 비용을 줄여주는 다중 서열 수집과 번역을 위한 생물정보학 도구 (A Labor-Saving Bioinformatics Tool for Multiple Sequence Collection and Translation)

  • 이승희;이혜리;이건명;이찬희
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2007년도 춘계학술대회 학술발표 논문집 제17권 제1호
    • /
    • pp.43-47
    • /
    • 2007
  • 많은 생물학적 데이터베이스와 도구들이 네트워크 상에서 이용 가능하다. 데이터베이스와 도구를 효과적으로 활용하면, 비용을 줄이면서 우수한 품질의 분석결과를 얻을 수 있다. 이 논문에서는 서열분석시 관련된 서열을 자동으로 수집하여, 아미노산 서열로 변환하는 도구에서 대해서 소개한다. 개발된 도구는 필요한 서열을 주어진 질의를 기반으로 하나의 DNA 서열 정보와 관련된 서열을 검색하도록 하고, 분석자가 관심 있는 항목을 쉽게 선택하게 하여, 이것을 아미노산 서열로 번역하고, 찾은 ORF를 기반으로 유사한 것을 추천하고, 번역된 ORF 서열과 어울리는 관련된 모든 정보를 검색하는 분석 과정을 자동화한 것이다.

  • PDF

글로버스를 이용한 분산 웹 크롤러의 설계 및 구현 (Design and Implementation of Distributed Web Crawler Using Globus Environment)

  • 이지선;김양우;이필우
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.712-714
    • /
    • 2004
  • 대부분의 웹 검색 엔진들과 많은 특화된 검색 도구들은 웹 페이지의 색인화와 분석을 위한 전처리 단계로 대규모 웹 페이지들을 수집하기 위해 웹 크롤러에 의존한다. 일반적인 웹 크롤러는 몇 주 또는 몇 달의 주기에 걸쳐 수백만 개의 호스트들과 상호작용을 통해 웹 페이지 정보를 수집한다. 본 논문에서는 이러한 크롤러의 성능향상과 효율적인 실행을 위해 그리드 미들웨어인 글로버스 툴킷을 이용하여 분산된 크롤러를 제안한다. 본 웹 크롤러의 실행은 그 기능의 분산처리를 위한 각 호스트 서버들을 글로버스로 연결하고, 인증하여, 작업을 할당하는 단계와, 크롤러 프로그램이 실행되어 자료를 수집하는 단계. 마지막으로 이렇게 수집된 웹 페이지 정보들을 처음 명령한 시스템으로 반환하는 단계로 나누어진다. 결과 수집 작업을 보다 분산화 할 수 있게 하였으며 여러 대의 저 비용의 시스템에서 고 비용, 고 사양의 서버의 성능을 얻을 수 있었으며, 확장이 용이하고, 견고한 크롤러 프로그램 및 시스템 환경을 구축할 수 있었다.

  • PDF

확장 불리언 질의에 대한 비용 기반 최적화 (Cost-based Optimization of Extended Boolean Queries)

  • 박병권
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.29-40
    • /
    • 2001
  • 본 논문에서는 역색인 파일을 미용하여 학장 불리언 질의를 처리할 때 최소 비용의 질의 처리 방법을 구해 주는 질의 최적화 알고리즘을 제시한다. 확장 불리언 질의를 처리하는 방법은 질의를 구성하는 키위드의 처리 순서에 따라 여러 가지가 있을 수 있으므로 확장 불리언 질의 최적화 문제는 결국 최적 키워드 처리 순서를 구하는 문제로 귀결된다. 본 논문에서는 이 문제가 데이터베이스 질의 최적화에서 최적 조인 순서를 구하는 문제와 구조적으로 유사함을 보이고 이 분야의 연구 결과를 이용하여 문제를 해결한다. 즉, 확장 불리언 질의 처리에 대한 비용 모델을 수립하고 키워드 선택률과 역색인 파일 접근 비용을 이용하여 키워드 순위 개념을 도입한 후 이를 이용하여 최적 키워드 처리 순서를 구하는 알고리즘을 도출한다. 그리고 도출한 질의 최적화 알고리즘의 최적성을 증명하고. 실험을 통하여 실제로 최소비용의 질의 처리 방법을 구함을 보이고, 질의 최적화를 하지 않을 경우와 비교하였을 때 그 성능이 월등히 우수함을 보인다. 본 논문에서 제시한 질의 최적화 알고리즘은 정보검색시스템의 질의 처리 성능 향상에 큰 기여를 하리라 믿는다.

  • PDF

엔터프라이즈 환경의 REIM 데이터 웨어하우스 개발 (Development of REIM Data Warehouse in an Enterprise Environment)

  • 최성만;유철중;장옥배;이정열
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (2)
    • /
    • pp.370-372
    • /
    • 2003
  • 기존의 연구비 관리업무는 예산계획, 예산편성 및 예산정산 부분으로 관리됨으로써 여러 가지 문제점이 발생된다. 연구비의 안정적인 확보와 효율적인 운영 및 투명한 집행을 위하여 이러한 문제점의 해결이 절실하게 요구되고있는 실정이다. 본 논문은 이러한 문제점들을 해결하고자 엔터프라이즈 환경의 연구비 통합관리 데이터 웨어하우스를 개발하였다. 본 논문에서의 핵심 요소는 정보검색 에이전트와 정보통합 에이전트이다. 정보검색 에이전트에서는 기존의 예산계획 DB, 예산편성 DB, 예산정산 DB의 데이터를 이용하여 사용자가 원하는 정보를 찾아주는 역할을 수행한다. 정보통합 에이전트에서는 정보검색 에이전트에서 수집한 데이터를 추출, 전송, 가공, 로딩하여 통합 데이터베이스에 저장한다. 또한, 정보통합 에이전트에서는 다수의 정보소스를 사용자가 하나하나 접근하여 검사하는 노력을 줄여주고 사용자에게 불필요하다고 판단되는 데이터를 걸러주는 역할을 수행한다. 엔터프라이즈 환경의 REIM 데이터 웨어하우스는 사용자 요구사항을 최대한 반영한 기능들로 연구비 관리정책의 수립에 필요한 다양한 형태의 의사결정 지원정보를 제공한다. 최종 사용자에게는 원하는 분석정보를 신속하게 접근하여 단편적인 관점보다는 종합적인 관점에서 다양한 분석자료를 제공받을 수 있도록 하였다. 또한, 3개의 시스템을 하나로 통합한 결과 데이터의 공유, 시스템 통합, 운영비용 절감, 의사결정 지원환경을 단순화시키는 효과를 제공한다.

  • PDF

패턴 정보를 이용한 설계패턴 검색 시스템 구축 (Construction of Design Pattern Retrieval System using Pattern Information)

  • 김귀정;송영재
    • 정보처리학회논문지D
    • /
    • 제8D권1호
    • /
    • pp.88-98
    • /
    • 2001
  • 본 연구는 설계패턴의 효율적인 관리와 재사용을 위하여 패턴 정보를 이용한 설계패턴 검색 시스템을 구축하였다. 패턴 정보는 패턴 속성정보와 패턴 메타정보로 구성하였고, 패턴 속성정보는 패턴 패싯 분류와 패턴 검색을 위한 유사도 측정에 이용되며, 패턴 구조를 UML로 모델링하기 위하여 패턴 메타 정보를 이용하였다. Gamma 분류 방법을 확장하여 각 설계패턴이 사용될 수 있는 여러 경험적 상황을 패싯 항목으로 설정하고 패턴 정보로 관리하였다. 또한 E-SARM 검색 방법을 사용하여 검색된 패턴은 메타정보를 이용하여 UML 클래스 다이어그램으로 나타낼 수 있도록 하였고, E-SARM을 설계패턴의 검색에 적용하여 최적의 결과를 얻을 수 있는 환경을 시뮬레이션 하였다. 패턴 뷰어를 통한 신규 패턴 등록이 가능하며, 등록된 패턴은 패턴 속성정보와 메타정보로 관리된다. 따라서 본 시스템은 효율적인 패턴 관리가 가능하고, UML 모델링을 지원하며, 관련 패턴의 우선순위 검색이 가능하여 패턴 선택 비용이 적고, 재사용성이 높은 설계패턴 검색 시스템이다.

  • PDF

웹 검색을 활용한 기사 표절 탐지 시스템 (A Plagiarism Detection System for Newspaper Articles by using Web Search)

  • 조정현;김유섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2008년도 한국컴퓨터종합학술대회논문집 Vol.35 No.1 (C)
    • /
    • pp.420-424
    • /
    • 2008
  • 최근 문서 저작권에 대한 관심과 중요도가 높아지고 있고 문서 표절에 관한 연구도 지속적으로 이루어지고 있다. 최근 기사의 표절 또는 무단도용 문제가 적지 않게 발생하고 있다. 현재까지의 문서 표절 연구는 실시간 특성이 매우 강한 신문 기사의 표절 문제에 적용하기 어려웠다. 따라서 현재는 이러한 표절 기사를 가려내기 위해 수 많은 신문사에서 하루 수천 건씩 올라오는 기사들을 눈으로 일일이 가려내는 상황이다. 본 논문에서는 이러한 시간과 비용의 문제를 줄이기 위해 네이버와 다음에서 제공하는 웹 검색 OpenAPI를 활용해 표절 가능성이 있는 기사들을 자동으로 탐지해 내는 시스템을 제안한다. 제안하는 시스템은 하나의 원본 기사에서 5개의 문장을 랜덤으로 추출하고 각각의 문장을 검색어(query)로 사용해 연동된 OpenAPI를 사용하여 웹에서 기사를 검색한다. 또한 5번의 검색에서 추출되는 URL의 검색 빈도를 계산하여 해당 기사의 표절 가능성을 사용자가 쉽게 예측 할 수 있도록 하였다.

  • PDF

검색 엔진을 이용한 키워드 연관성 분석 (The Keyword Relationship Analysis Using Searching Engine)

  • 이주연;노정현;조수현;이중화;박유현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.1077-1080
    • /
    • 2014
  • 대량으로 발생하는 키워드들 간의 연관성을 분석하고자 하는 연구는 꾸준히 진행되어 왔다. 많은 용어들의 관계를 분석하기 위한 방법으로 전문가 집단의 인력과 시간을 수행할 수 있지만, 시간과 비용이 많이 소모된다. 이를 해결하기 위한 방법으로 이미 관련 키워드 서비스를 제공하기 위한 시스템을 구축해 놓은 검색엔진을 사용해서 키워드들 간의 관계를 분석해 볼 수 있다. 본 논문에서는 IT분야의 논문에서 저자들이 자유롭게 작성하는 관심 분야를 키워드로 선정하고, 이 키워드들 간의 관계를 분석하기 위해 검색 엔진에서 출력하는 검색 결과 수를 사용한다. 검색 엔진에서 제공하는 검색 결과 수가 높을수록 다른 키워드와 연관성이 높은 키워드임을 알 수 있다.