• 제목/요약/키워드: 질의어 확장

검색결과 168건 처리시간 0.03초

절단검색을 지원하는 전자사전 구조 (An Electronic Dictionary Structure supporting Truncation Search)

  • 김철수
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제9권1호
    • /
    • pp.60-69
    • /
    • 2003
  • 역화일을 파일구조로 이용하는 정보 검색 시스템에서는 검색자가 검색할 분야의 완전 단어를 알고 있어야 검색이 가능하다. 그러나 검색자가 완전 단어가 아닌 단어의 부분 문자열을 알고 있는 경우가 많다. 이럴 경우 부분 문자열을 포함하는 색인어들을 검색할 수 있다면 관련 문서들을 검색할 수 있다. 또한 검색된 문헌 수가 너무 적을 경우 부분 문자열을 포함하는 단어를 색인어로 가지는 모든 문서들을 검색하기 위한 방법이 필요하다. 이런 요건들을 충족시키기 위해서는 사용자는 용어 절단 방법을 이용하여 질의어를 구성할 수 있어야 하고, 검색 시스템은 절단 검색을 지원할 수 있는 전자 사전이 필요하다. 본 논문에서는 절단검색을 효율적으로 지원할 수 있는 전자 사전 구조를 설계하고 구현한다. 이 전자 사전은 저장된 단어 수에 관계없이 주어진 한 개의 단어 검색 시간 및 역 문자열로 구성된 단어 검색 시간이 빠르고 일정하다. 절단검색을 효율적으로 지원하기 위하여 트라이 구조를 이용하였으며, 빠른 검색 시간을 지원하기 위해 배열을 이용한 방법을 사용하였다. 절단된 용어의 검색 과정에서 확장할 문자열의 길이를 최소화하여 검색 시간을 줄였다.

KNetIRS : 키워드망을 이용한 정보검색 시스템 (KNetIRS : Information Retrieval System using Keyword Network)

  • 우선미;유춘식;이종득;김용성
    • 한국정보처리학회논문지
    • /
    • 제4권9호
    • /
    • pp.2185-2196
    • /
    • 1997
  • 기존의 정보검색 시스템들은 질의가 정확하지 않더라도 원하는 정보를 검색할 수 있도록 하기 위해 시소리스 (thesaurus)를 사용했다. 그러나 시소러스를 구축하고 유지하는데 드는 비용이 매우 높고 검색에 있어서도 완전하다고 볼 수 없다. 그래서 본 논문에서는 이러한 문제점들을 해결하기 위하여 키워드망을 이용한 정보검색 시스템인 KNetIRS를 설계 및 구현한다. 키워드망은 문서로부터 직접 추출한 키워드들로 구성된다. KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 역파일 (Iinverted file)의 개념에 기반을 둔 키워드망을 이용하여 데이터베이스에서 적합한 문서만을 탐색한다. 그리고 KNetIRS는 키워드망 브라우저(Keyword Network Browser)를 사용하여 질의를 확장하고, 분할 연산(spilt function)을 정의하여 "정보 검색", "정보", 그리고 "검색"과 같은 복합어에 관한 처리를 한다.

  • PDF

디지털 콘텐츠의 효율적 검색과 관리를 위한 UCI 식별체계의 온톨로지 적용 (Applying Ontologies to UCI for the Efficient Search and Management of Digital Contents)

  • 하은옥;김윤호
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.215-228
    • /
    • 2009
  • 디지털 콘텐츠 식별체계인 UCI(Universal Content Identifier)는 디지털 콘텐츠의 투명한 유통과정과 효율적 검색과 관리를 위해서 만든 URN(Uniform Resource Name)에 기반을 둔 식별체계이다. UCI 식별자를 부여받은 디지털콘텐츠는 사용자가 원하는 콘텐츠를 정확하게 전달하기 위해서는 다양한 메타데이터 정보를 필요로 한다. 그러나 UCI에서 제공하는 식별 메타데이터만으로는 콘텐츠에 대한 다양한 정보를 표현하기에는 부족하며, 정보의 보다 정확한 표현과 효율적 검색 및 관리를 위해서는 UCI에서 제공하는 메타데이터와 함께 메타데이터 내에 표현된 개념과 그 의미 관계를 정형화하고 명시적인 방법으로 정의하는 온톨로지를 필요로 한다. 본 논문에서는 UCI 식별체계의 메타데이터간 개념관계를 온톨로지로 확장하고 도메인 온톨로지를 설계함으로써 구축된 UCI 메타데이터 정보를 효율적으로 이용하여 의미 기반의 검색과 관리를 가능하게 하였으며, 다양한 질의어를 통하여 메타데이터만을 이용하는 UCI식별체계에 비하여 효율적인 검색과 관리가 가능함을 보였다.

  • PDF

지식베이스 확장을 위한 멀티소스 비정형 문서에서의 정보 추출 시스템의 개발 (Development of Information Extraction System from Multi Source Unstructured Documents for Knowledge Base Expansion)

  • 최현승;김민태;김우주;신동욱;이용훈
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.111-136
    • /
    • 2018
  • 지식베이스를 구축하는 작업은 도메인 전문가가 온톨로지 스키마를 이해한 뒤, 직접 지식을 정제하는 수작업이 요구되는 만큼 비용이 많이 드는 활동이다. 이에, 도메인 전문가 없이 다양한 웹 환경으로부터 질의에 대한 답변 정보를 추출하기 위한 자동화된 시스템의 연구개발의 필요성이 제기되고 있다. 기존의 정보 추출 관련 연구들은 웹에 존재하는 다양한 형태의 문서 중 학습데이터와 상이한 형태의 문서에서는 정보를 효과적으로 추출하기 어렵다는 한계점이 존재한다. 또한, 기계 독해와 관련된 연구들은 문서에 정답이 있는 경우를 가정하고 질의에 대한 답변정보를 추출하는 경우로서, 문서의 정답포함 여부를 보장할 수 없는 실제 웹의 비정형 문서로부터의 정보추출에서는 낮은 성능을 보인다는 한계점이 존재한다. 본 연구에서는 지식베이스 확장을 위하여 웹에 존재하는 멀티소스 비정형 문서로부터 질의에 대한 정보를 추출하기 위한 시스템의 개발 방법론을 제안하고자 한다. 본 연구에서 제안한 방법론은 "주어(Subject)-서술어(Predicate)"로 구분된 질의에 대하여 위키피디아, 네이버 백과사전, 네이버 뉴스 3개 웹 소스로부터 수집된 비정형 문서로부터 관련 정보를 추출하며, 제안된 방법론을 적용한 시스템의 성능평가를 위하여, Wu and Weld(2007)의 모델을 베이스라인 모델로 선정하여 성능을 비교분석 하였다. 연구결과 제안된 모델이 베이스라인 모델에 비해, 위키피디아, 네이버 백과사전, 네이버 뉴스 등 다양한 형태의 문서에서 정보를 효과적으로 추출하는 강건한 모델임을 입증하였다. 본 연구의 결과는 현업 지식베이스 관리자에게 지식베이스 확장을 위한 웹에서 질의에 대한 답변정보를 추출하기 위한 시스템 개발의 지침서로서 실무적인 시사점을 제공함과 동시에, 추후 다양한 형태의 질의응답 시스템 및 정보추출 연구로의 확장에 기여할 수 있을 것으로 기대한다.

양식 조피볼락(Sebastes schlegeli) 치어의 대량폐사 원인인 비브리오병에 관하여 (Vibro ordalii, the causative agent of massive mortality in cultured rockfish(Sebastes schlegeli) larvae)

  • 박성우;김영길;최동림
    • 한국어병학회지
    • /
    • 제9권2호
    • /
    • pp.137-145
    • /
    • 1996
  • 1995년과 1996년 충남의 조피볼락 종묘생산장에서 발생한 대량폐사의 원인을 조사하였다. 병어로 부터 분리된 원인균은 생화학적 및 생물학적 특성에 의해 Vibrio ordalii로 동정되었다. 당년생과 일년생 조피볼락에 대한 병원성 조사를 위하여 수온 $18^{\circ}C$$25^{\circ}C$에서의 감염실험을 실시한 결과 $25^{\circ}C$의 일년생 시험어에 비해 $18^{\circ}C$의 당년생 치어가 훨씬 높은 비율로 감염되었다. 이러한 결과는 양어장에서의 질병발생예를 포함한 현장조사 결과와 일치하고 있었다. 병어의 병리조직학적 관찰결과 아가미는 2차새변과 뇌의 모세혈관의 확장, 호흡상피의 박리, 간실질의 위축, 신장의 괴사가 관찰되었고 소화관계는 뚜렷한 병변이 없었다.

  • PDF

다중 해시 조인의 파이프라인 처리에서 분할 조율을 통한 부하 균형 유지 방법 (A Load Balancing Method using Partition Tuning for Pipelined Multi-way Hash Join)

  • 문진규;진성일;조성현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.180-192
    • /
    • 2002
  • Shared nothing 다중 프로세서 환경에서 조인 어트리뷰트의 자료 불균형(data skew)이 파이프라인 해시 조인 연산의 성능에 주는 영향을 연구하고, 자료 불균형을 대비하여 적재부하를 Round-robin 방식으로 정적 분할하는 방법과 자료분포도를 이용하여 동적 분할하는 두 가지 파이프라인 해시 조인 알고리즘을 제안한다. 해시 기반 조인을 사용하면 여러 개의 조인을 파이프라인 방식으로 처리할 수 있다. 다중 조인은 파이프라인 방식 처리는 조인 중간 결과를 디스크를 통하지 않고 다른 프로세서에게 직접 전달하므로 효율적이다. Shared nothing 다중 프로세서 구조는 대용량 데이타베이스를 처리하는데 확장성은 좋으나 자료 불균형 분포에 매우 민감하다. 파이프라인 해시 조인 알고리즘이 동적 부하 균형 유지 메커니즘을 갖고 있지 않다면 자료 불균형은 성능에 매우 심각한 영향을 줄 수 있다. 본 논문은 자료 불균형의 영향과 제안된 두 가지 기법을 비교하기 위하여 파이프라인 세그먼트의 실행 모형, 비용 모형, 그리고 시뮬레이터를 개발한다. 다양한 파라미터로 모의 실험을 한 결과에 의하면 자료 불균형은 조인 선택도와 릴레이션 크기에 비례하여 시스템 성능을 떨어뜨림을 보여준다. 그러나 제안된 파이프라인 해시 조인 알고리즘은 다수의 버켓 사용과 분할의 조율을 통해 자료 불균형도가 심한 경우에도 좋은 성능을 갖게 한다.

지역축제의 성장단계별분석과 관리전략 : 함평나비축제와 화천산천어축제를 중심으로 (Management Strategies and the Growth Stages Analysis of Local Festival : Cases of Hampyeong Butterfly Festival and Hwacheon Sancheoneo Ice Festival)

  • 김현욱
    • 한국콘텐츠학회논문지
    • /
    • 제15권5호
    • /
    • pp.537-549
    • /
    • 2015
  • 본 연구는 국내에서 이미 성공적인 지역문화축제로 인정을 받은 두 개의 지역축제를 대상으로 시간의 경과에 따라 나타나는 특징들을 제품생명주기이론에 따라 구분하여 분석을 시도 하였다. 분석결과 두 축제 모두 축제의 도입기에는 축제의 핵심프로그램의 안착과 축제의 주제에 대한 인지도를 제고하는데 관심과 역량을 집중했으며, 성장기에는 인지도 향상에 따라 증가하는 수요를 유지하기 위하여 핵심프로그램들의 질적 향상, 새로운 프로그램의 개발과 보완, 방문객 편의와 안전에 대한 프로그램의 확장에 초점을 두었고 도입기에서의 인지도 제고에 대한 홍보 전략도 축제의 내용과 프로그램에 대한 홍보로 수정하였으며, 국내 뿐 아니라 외국에 대한 홍보 전략도 수립하였다. 마지막으로 성숙기에는 감소되거나 둔화되는 방문객수와 경제적 효과를 극복하기 위해 두 축제는 새로운 수요의 창출과 기존의 소비량이 늘어날 수 있도록 방문객의 편의, 안전을 위한 프로그램과 핵심프로그램의 개선과 보완을 통한 서비스질의 향상과 입장료 인하 또는 상품권의 제공과 같은 경제적 이익의 제공, 성장기에서 추진했던 외국홍보의 강화 그리고 소외계층의 참여확대를 통한 사회적 기여 이미지 제고 등의 전략적 변화를 보였다. 따라서 두 축제의 이러한 성장단계별 전략적 변화는 새로이 지역축제를 기획하거나 이미 개최중이지만 미온적 성장에 그치고 있는 지역축제들의 주체들에게 정책적 함의를 제시한다.

FCA 기반 계층적 구조를 이용한 문서 통합 기법 (Methods for Integration of Documents using Hierarchical Structure based on the Formal Concept Analysis)

  • 김태환;전호철;최종민
    • 지능정보연구
    • /
    • 제17권3호
    • /
    • pp.63-77
    • /
    • 2011
  • 월드와이드웹(World Wide Web)은 인터넷에 연결된 컴퓨터를 통해 사람들이 정보를 공유할 수 있는 매우 큰 분산된 정보 공간이다. 웹은 1991년에 시작되어 개인 홈페이지, 온라인 도서관, 가상 박물관 등 다양한 정보 자원들을 웹으로 표현하면서 성장하였다. 이러한 웹은 현재 5천억 페이지 이상 존재할 것이라고 추정한다. 대용량 정보에서 정보를 효과적이며 효율적으로 검색하는 기술을 적용할 수 있다. 현재 존재하는 몇몇 검색 도구들은 초 단위로 gigabyte 크기의 웹을 검사하여 사용자에게 검색 정보를 제공한다. 그러나 검색의 효율성은 검색 시간과는 다른 문제이다. 현재 검색 도구들은 사용자의 질의에 적합한 정보가 적음에도 불구하고 많은 문서들을 사용자에게 검색해준다. 그러므로 대부분의 적합한 문서들은 검색 상위에 존재하지 않는다. 또한 현재 검색 도구들은 사용자가 찾은 문서와 관련된 문서를 찾을 수 없다. 현재 많은 검색 시스템들의 가장 중요한 문제는 검색의 질을 증가 시키는 것이다. 그것은 검색된 결과로 관련 있는 문서를 증가시키고, 관련 없는 문서를 감소시켜 사용자에게 제공하는 것이다. 이러한 문제를 해결하기 위해 CiteSeer는 월드와이드웹에 존재하는 논문에 대해 한정하여 ACI(Autonomous Citation Indexing)기법을 제안하였다. "Citaion Index"는 연구자가 자신의 논문에 다른 논문을 인용한 정보를 기술하는데 이렇게 기술된 논문과 자신의 논문을 연결하여 색인한다. "Citation Index"는 논문 검색이나 논문 분석 등에 매우 유용하다. 그러나 "Citation Index"는 논문의 저자가 다른 논문을 인용한 논문에 대해서만 자신의 논문을 연결하여 색인했기 때문에 논문의 저자가 다른 논문을 인용하지 않은 논문에 대해서는 관련 있는 논문이라 할지 라도 저자의 논문과 연결하여 색인할 수 없다. 또한 인용되지 않은 다른 논문과 연결하여 색인할 수 없기 때문에 확장성이 용이하지 못하다. 이러한 문제를 해결하기 위해 본 논문에서는 검색된 문서에서 단락별 명사와 동사 및 목적어를 추출하여 해당 동사가 명사 및 목적어를 취할 수 있는 가능한 값을 고려하여 하나의 문서를 formal context 형태로 변환한다. 이 표를 이용하여 문서의 계층적 그래프를 구성하고, 문서의 그래프를 이용하여 문서 간 그래프를 통합한다. 이렇게 만들어진 문서의 그래프들은 그래프의 구조를 보고 각각의 문서의 영역을 구하고 그 영역에 포함관계를 계산하여 문서와 문서간의 관계를 표시할 수 있다. 또한 검색된 문서를 트리 형식으로 보여주어 사용자가 원하는 정보를 보다 쉽게 검색할 수 있는 문서의 구조적 통합 방법에 대해 제안한다. 제안한 방법은 루씬 검색엔진이 가지고 있는 순위 계산 공식을 이용하여 문서가 가지는 중요한 단어를 문서의 참조 관계에 적용하여 비교하였다. 제안한 방법이 루씬 검색엔진보다15% 정도 높은 성능을 나타내었다.