• 제목/요약/키워드: 대용량 검색 엔진

검색결과 45건 처리시간 0.026초

효율적인 온톨로지 검색과 추론을 위한 인덱스 (Index for Efficient Ontology Retrieval and Inference)

  • 송승재;김인성;전종훈
    • 한국전자거래학회지
    • /
    • 제18권2호
    • /
    • pp.153-173
    • /
    • 2013
  • 근래에 들어와서 각광받고 있는 시맨틱 웹과 관련기술의 부상으로 온톨로지에 대한 관심이 증대되었으며, 그중에서도 고난이도의 추론을 요구하는 의미기반 시맨틱 검색을 위해서 온톨로지를 효율적으로 저장하고 검색하는 다양한 기법들이 활발히 연구되어왔다. W3C에서의 표준권고안은 RDFS, OWL을 활용하도록 하고 있다. 하지만 메모리 기반으로 구현되어 있는 에디터나 추론엔진들, 온톨로지의 원형을 그대로 유지하여 저장하는 트리플 저장소를 이용하여 대용량 온톨로지를 처리하기에는 성능상의 한계가 있다. 따라서 이를 해결하기 위해 관계형 데이터베이스 엔진을 이용하여, 온톨로지를 저장하고 효율적으로 활용하기 위한 다양한 방식의 추론엔진과 질의처리 알고리즘들이 제안되었으나, 온톨로지 프로퍼티의 다섯 가지 핵심특성에 따른 추론 결과를 완전하게 획득하지는 못하고 있는 실정이다. 본 논문에서는 하이퍼 큐브 인덱스(Hyper Cube Index)를 제안함으로서 관계형 데이터베이스에 저장한 온톨로지를 효율적으로 검색할 수 있는 환경을 제공하는 것은 물론, 온톨로지 프로퍼티의 핵심특성을 빠짐없이 투영하여 숨겨진 추론 결과를 획득할 수 있는 방안을 제시한다.

부분 정보에 기반한 효과적인 음악 무드 분류 방법 (Effective Mood Classification Method based on Music Segments)

  • 박근한;박상용;강석중
    • 한국멀티미디어학회논문지
    • /
    • 제10권3호
    • /
    • pp.391-400
    • /
    • 2007
  • 기술의 발전으로 인하여, 대용량의 음악 데이터들을 저장하고 검색하는 것이 중요하게 되었다. 그러나 음악데이터들을 손쉽게 분류하고 검색하기 위한 방법론에 대한 집중적인 연구는 이루어 지지 않고 있다. 본 논문에서는 내용기반의 음악 분류/검색에 대한 새로운 방법론을 제안한다. 기존의 분류화 (classification) 방법들이 음악파일 전체에 대해서 수행하는데 비해 음악파일의 부분만을 분석하여 비슷한 성능을 낼 수 있다는 것을 보여 주었고, 소리의 톤(tone) 표현에 기반한 새로운 피쳐를 제안하여 기존의 피쳐들에 비해 효과적으로 분류를 할 수 있다는 것을 보여주었다. 또한 속도향상을 위한 여러가지 방법론들을 적용하여 실 제품 적용 시 보다 효과적인 방법론이 될 수 있음을 보여주었다. 제안한 방법론을 MuSE (Music Search/Classification Engine)엔진으로 구현함으로써 PC와 PDA상에서 잘 동작함을 보여주었다.

  • PDF

대용량 자원 기반 과학기술 핵심개체 탐지를 위한 정보추출기술 통합에 관한 연구 (A Study on the Integration of Information Extraction Technology for Detecting Scientific Core Entities based on Large Resources)

  • 최윤수;정창후;최성필;류범종;김재훈
    • 정보관리연구
    • /
    • 제40권4호
    • /
    • pp.1-22
    • /
    • 2009
  • 대용량 문서에서 정보를 추출하는 작업은 정보검색 분야 뿐 아니라 질의응답과 요약분야에서 매우 유용하다. 정보추출은 비정형 데이터로부터 정형화된 정보를 자동으로 추출하는 작업으로써, 개체명 인식, 전문용어 인식, 대용어 참조해소, 관계 추출 작업 등으로 구성된다. 이들 각각의 기술들은 지금까지 독립적으로 연구되어왔기 때문에, 구조적으로 상이한 입출력 방식을 가지며, 하부모듈인 언어처리 엔진들은 특성에 따라 개발 환경이 매우 다양하여 통합 활용이 어렵다. 과학기술문헌의 경우 개체명과 전문용어가 혼재되어 있는 형태로 구성된 문서가 많으므로, 기존의 연구결과를 이용하여 접근한다면 결과물 통합과정의 불편함과 처리속도에 많은 제약이 따른다. 본 연구에서는 생의학 분야 과학기술 문헌을 분석하여 전문용어 및 개체명 등을 통합 추출할 수 있는 기반 프레임워크를 개발한다. 이를 위하여, 문장자동분리, 품사태깅, 기저구인식 등과 같은 기반 언어 분석 모듈은 물론 이를 활용한 개체명 인식기, 전문용어 인식기를 개발하고 이들을 하나의 플랫폼으로 통합한 과학기술 핵심개체 인식 체계를 제안한다. 전체 플랫폼의 성능을 체계적으로 평가하기 위해서, KEEC 2009를 비롯한 다양한 말뭉치를 기반으로 세부 요수 모듈에 대한 성능 평가를 수행하였으며, 비교적 높은 수준의 성능을 확보하였다. 본 논문에서 개발된 핵심개체자동인식 플랫폼은 정보검색, 질의응답, 문서색인, 사전구축 등 다양한 정보서비스 분야에 활용될 수 있다.

오디세우스/IR: 정보 검색 기능과 밀결합된 고성능 객체 관계형 DBMS (Odysseus/m: a High-Performance ORDBMS Tightly-Coupled with IR Features)

  • 황규영;이민재;이재길;김민수;한욱신
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권3호
    • /
    • pp.209-215
    • /
    • 2005
  • 상용 ORDBMS 개발사들은 자신의 DBMS에 사용자 정의 타입과 사용자 정의 함수를 추가하는 확장 방법을 제공하고 있다. 이러한 확장은 상위 레벨 인터페이스를 사용하여 이루어진다. 이러한 기법을 소결합(loose-coupling)이라 부른다. 소결합의 장점은 구현하기 쉽다는 것이나, 높은 성능이 요구되는 대용량 데이타베이스에서 새로운 데이타 타입과 연산을 추가하기에는 적합하지 않다. 본 논문에서는, 이러한 요구 조건.을 충족하기 위해 밀결합(tight-coupling)이라는 개념을 사용하는 것을 제안한다. 밀결합에서 새로운 데이타 타입과 연산은 DBMS의 엔진 내부에 통합된다. 따라서, 새로운 데이타 타입과 연산이 높은 성능으로 일관성 있게 제공된다. 이 밀결합 아키텍처는 정보 검색 기능과 공간 데이타베이스 기능을 한국과학기술원/첨단정보기술연구센터에서 개발 중인 객체 관계형 DBMS 오디세우스/IR에 통합하기 위해 사용되고 있다. 본 논문에서는, 오디세우스/1R을 소개하고 오디세우스/IR과 밀결합된 정보 검색 기능(미국 특허 등록)을 설명한다. 다음으로, 오디세우스/1R을 사용한 단일 시스템(non-parallel) 설정에서 2,000만건의 웹 페이지를 관리할 수 있는 웹 검색 엔진을 보인다.

SoFA: 검색 지향 시스템을 위한 분산 파일 시스템 (SoFA: A Distributed File System for Search-Oriented Systems)

  • 최은미;쩐도안타인;비핀 우바디야;파흐릇딘 아지모프;루왕용;장옥향;김상범;김필성
    • 한국시뮬레이션학회논문지
    • /
    • 제17권4호
    • /
    • pp.229-239
    • /
    • 2008
  • 분산 파일 시스템(DFS)은 분산 환경에서 장애와 사본에 대한 투명성을 보장하며 파일을 다수의 물리적인 컴퓨터 노드들에게 저장할 수 있는 메카니즘을 제공한다. 검색엔진, 그리드 컴퓨팅, 데이터 마이닝 어플리케이션등과 같이 많은 양의 데이터를 처리하는 어플리케이션들은 데이터 저장을 위한 백엔드 인프라 구조를 제공할 필요가 있다. 분산 파일 시스템은 이러한 저장 데이터 기반을 위한 주요 구성요소가 된다. 많은 프로젝트의 관심사가 되는 네트워크 컴퓨팅은 이와 같이 설계 및 구현된 분산파일 시스템을 갖추고 있으며, 다양한 아키텍처와 기능들을 시스템의 특성에 따라서 제공하고 있다. 이 논문에서는 대용량의 검색 지향적인 시스템에서 사용되는 SOFA 분산 파일 시스템, 메카니즘들과 성능들을 소개한다.

  • PDF

XSTAR: XML 질의의 SQL 변환 알고리즘 (XSTAR: XQuery to SQL Translation Algorithms on RDBMS)

  • 홍동권;정민경
    • 한국지능시스템학회논문지
    • /
    • 제17권3호
    • /
    • pp.430-433
    • /
    • 2007
  • XML이 다양한 분야에 널지 이용되면서 대용량의 XML을 효과적으로 관리하는 여러 가지 방법들이 연구되고 있다. 특히 지금가지 상업적, 기술적으로 성공적인 데이터 모델인 관계형 데이터베이스를 기반으로 한 여러 가지 방법들이 연구되고 있다. 본 논문은 관계형 DBMS를 사용하여 XML 질의어인 XQuery를 SQL로 변환하는 알고리즘인 XSTAR(XQuery to SQL Translation Algorithms on RDBMS)를 설계 및 구현한다. 본 연구의 XSTAR 알고리즘은 기본적인 XPath 뿐만 아니라 XQuery FLWOR 표현식, XQuery함수, 그리고 전문 검색(Fulltext 검색[8])과 관련된 몇몇 특수한 기능을 효율적으로 지원할 수 있으며, 질의의 결과 값을 XML 형태로 재생성하여 사용자에게 반환한다. 본 논문에서 제안하는 XSTAR 알고리즘은 현재 웹 상에서 공개적으로 시범 운용되고 있는 XML 문서의 관리 및 질의 처리 시스템인 XPERT(XML Query Processing Engine using Relational Technologies, http://dblab.kmu.ac.kr/project.jsp")의 질의 처리 엔진으로 사용되고 있다.

웹을 이용한 개체명 부착 말뭉치의 자동생성과 정제 (Automatic Generation of Named Entity Tagged Corpus using Web Search Engine)

  • 안주희;이승우;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2002년도 제14회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-91
    • /
    • 2002
  • 최근 정보 추출, 질의응답 시스템 등의 고정밀 자연어처리 어플리케이션이 부각됨에 따라 개체명 인식의 중요성이 더욱 커지고 있다. 이러한 개체명 인식을 위한 학습에는 대용량의 어휘자료를 필요로 하기 때문에 충분한 학습 데이터, 즉 개체명 태그가 부착된 충분한 코퍼스가 제공되지 못하는 경우 자료희귀문제(data sparseness problem)로 인하여 목적한 효과를 내지 못하는 경우가 않다. 그러나 태그가 부착된 코퍼스를 생성하는 일은 시간과 인력이 많이 드는 힘든 작업이다. 최근 인터넷의 발전으로 웹 데이터는 그 양이 매우 많으며, 습득 또한 웹 검색 엔진을 사용해서 자동으로 모음으로써 다량의 말뭉치를 모으는 것이 매우 용이하다. 따라서 최근에는 웹을 무한한 언어자원으로 보고 웹에서 필요한 언어자원을 자동으로 뽑는 연구가 활발히 진행되고 있다. 본 연구는 이러한 연구의 첫 시도로 웹으로부터 다량의 원시(raw) 코퍼스를 얻어 개체명 태깅 학습을 위한 태그 부착 코퍼스를 자동으로 생성하고 이렇게 생성된 말뭉치를 개체면 태깅 학습에 적용하는 비교 실험을 통해 수집된 말뭉치의 유효성을 검증하고자 한다. 향후에는 자동으로 웹으로부터 개체 명 태깅 규칙과 패턴을 뽑아내어 실제 개체명 태거를 빨리 개발하여 유용하게 사용할 수 있다.

  • PDF

Z39.50 서버의 설계 및 CORBA를 이용한 Z39.50 서버와 데이터베이스 엔진의 통합 (Design of a Z39.50 Server, and Integration of the Z39.50 Server and Database Engines using COBRA)

  • 손충범;유재수
    • 한국정보처리학회논문지
    • /
    • 제7권12호
    • /
    • pp.3775-3784
    • /
    • 2000
  • CORBA는 분산환경에서 이기종 간의 시스템을 통합하는 방법을 제시하고 있다. 기존에 Z39.50 프로토콜을 지원하는 서버들이 많이 개발되어 현재 도서관, 기업 등에서 사용 중에 있으며, 이런 서버들은 저마다의 데이터베이스를 구축하여 정보 서비스를 제공하고 있다. 본 논문에서는 기존의 서버들보다 다양한 Z39.50 서비스들을 지원하는 Z39.50 서버를 설계 및 구현한다. 또한 CORBA를 이용하여 다양한 데이터베이스 엔진들과 구현된 Z39.50 서버를 통합한다. 구현한 Z39.50 서버는 기본적인 서비스인 접속, 탐색, 종료 서비스를 제공하고, 검색어 조회하는 스캔서비스, 대용량의 레코드들을 전송하기 위한 분할서비스, 서버의 구현 정보를 설명하는 설명 기능을 지원한다.

  • PDF

동물 영역 지식 기반의 지능형 정보 에이전트 (A Knowledge-Based Intelligent Information Agent for Animal Domain)

  • 이용현;오정욱;변영태
    • 인지과학
    • /
    • 제10권1호
    • /
    • pp.67-78
    • /
    • 1999
  • 네트워크의 기술 발달로 웹상의 정보 제공자가 증가함에 따라 정보 사용자가 필요한 정보를 신속하고 정확하게 획득하기는 것이 더욱 어려워졌다. 이를 위해서 키워드 정합 방식의 검색 엔진이 많이 개발 보급되고 있으나 여전히 많은 부담이 사용자에게 주어지고 있는 상황이다. 이러한 문제를 해결하기 위해서 본 논문에서는 특정 영역인 동문 분야에 대한 지식 베이스를 기반으로 사용자의 의도에 보다 적합하고 해당 영역에 적절한 형태로 사용자 질이를 가공하고, 대용량의 다양한 정보로부터 사용자가 필요로 하는 정보를 제공하는 일을 해주는 지능적인 정보검색 대리자, 정보 에이전트(HIIA-la : Hongik Information Agent)를 제안한다. HIIA-la는 온톨로지 형태에 접근한 동물 관련 지식 베이스를 가지고 있으며, 이를 기반으로 사용자 또는 다른 에이전트 시스템의 정보 요청에 대해 필요한 정보를 제공할 뿐만 아니라, 관련 웹 문서 정보도 제공된다. 효율적인 웹 문서의 제공을 위하여 방대한 양의 웹 문서를 대상으로 동물 영역에 관련된 문서를 저장·색인하는 웹DB를 가지고 있다. 또한 사용자의 의도를 좀더 명확하게 표현할 수 있도록 유연한 연사자로의 질의 확장을 하였으며, 축적된 처리 결과와 사용자의 피드백 정보를 통해 학습을 하게 된다. 본 논문에서는 이와 같이 요소들을 포함하는 HIIA-la를 구현하고, 실험을 통해 시스템의 효율성을 보인다.

  • PDF

생명정보 콘텐트 업데이트에 관한 연구 (A Study on Update of Bioinformatics Contents)

  • 안부영;한정민;홍순찬;이상호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2007년도 추계학술발표대회
    • /
    • pp.452-455
    • /
    • 2007
  • 생명과학 기술의 급속한 발달로 인류 복지 증진에 많은 기여를 하였지만 아직도 각종 질병 등으로 많은 사람들이 고통 받고 있으며, 이를 극복하기 위한 연구 및 기술개발은 세계 각처에서 계속되고 있다. 이러한 연구 및 기술개발의 결과로 산출되는 생명정보 데이터의 양은 기하급수적으로 증가하고 있기에 이런 방대한 양의 생명정보 데이터를 분석하고 분석된 데이터에서 인류 복지에 유용한 정보를 얻기 위한 생명정보학(Bioinformatics)이 등장하게 되었다. 이에, 한국과학기술정보연구원(KISTI)은 IT 기반 생명정보 인프라 구축의 중심기관으로 CCBB(Center for Conputationa Biology & Bioinformatics) 웹사이트를 운영하고 있다. CCBB는 전산학적인 기술을 이용한 생명현상 연구를 지원하기 위하여 21종의 생명정보 콘텐트(DB 및 분석도구)를 수집 분석 구축 제공하고 있다. 이 중에서 GenBank, PDB, PIR, Swiss-prot 등의 데이터베이스는 KISTI에서 개발한 KRISTAL 검색엔진을 통하여 국내에서도 빠르고 쉽게 검색 가능하도록 자체 구축하고 있으며, 이와 더불어 BLAST, FASTA, ClustalW 등의 주요 분석 도구 또한 제공하고 있다. 본 논문에서는 CCBB에서 제공중인 21종의 콘텐트 중에서 GenBank, REBASE, GeneCards, InterProScan 등 4종의 대용량 고효율 생명정보 콘텐트의 소개 및 업데이트 방법에 관한 내용을 기술하고자 한다.