• 제목/요약/키워드: multiple query

검색결과 253건 처리시간 0.025초

위키피디아 기반의 효과적인 개체 링킹을 위한 NIL 개체 인식과 개체 연결 중의성 해소 방법 (A Method to Solve the Entity Linking Ambiguity and NIL Entity Recognition for efficient Entity Linking based on Wikipedia)

  • 이호경;안재현;윤정민;배경만;고영중
    • 정보과학회 논문지
    • /
    • 제44권8호
    • /
    • pp.813-821
    • /
    • 2017
  • 개체 링킹은 입력된 질의에 존재하는 개체를 표현한 개체 표현(entity mention)을 지식베이스에 존재하는 개체와 연결하여 의미를 파악하는 연구이다. 개체 링킹에 관한 연구는 지식 베이스 구축 문제, 다중 표현 문제, 개체 연결 중의성 문제, NIL 개체 인식 문제가 존재한다. 본 연구에서는 지식 베이스 구축 문제와 다중 표현 문제를 해결하기 위해 위키피디아를 기반으로 개체 이름 사전을 구축한다, 또한, 문맥 유사도, 의미적 관련성, 단서 단어 점수, 개체 표현의 개체명 타입 유사도, 개체 이름 매칭 점수, 개체인기도 점수 자질들을 기반으로 SVM(support vector machine)을 학습하여, NIL 개체를 인식하는 문제와 개체 연결 중의성을 해소하는 방법을 제안한다. 구축한 지식 베이스를 기반으로 제안한 두 방법을 순차적으로 적용하였을 때 좋은 개체 링킹 성능을 얻었다. 개체 링킹 시스템의 성능은 NIL 개체 인식 성능이 83.66%, 중의성 해소 성능이 90.81%의 F1 점수를 보였다.

시각화된 환경에서 다차원 관점을 지원하는 객체기반 패싯 시소러스 관리 시스템 모델의 정형화 및 구현 (A Data Model for an Object-based Faceted Thesaurus System Supporting Multiple Dimensions of View in a Visualized Environment)

  • 김원중;양재동
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권9호
    • /
    • pp.828-847
    • /
    • 2007
  • 본 논문에서는 패싯 분류에 기반하여 다차원 사용자 관점의 도메인 시소러스를 체계적으로 구축하고, 각 관점에 따라 시각화된 환경에서 시소러스를 브라우징, 항해 그리고 검색할 수 있는 다차원 관점객체기반 패싯 시소러스 시스템을 제안한다. 기존의 패싯 시소러스 시스템들과 달리, 본 시스템은 개념들간의 다각적인 상관 관계를 객체 지향 패러다임에 따라 자동으로 설정 구축할 수 있고, 브라우징과 항해를 통해 다차원 시소러스의 복잡한 개념 구조를 적절히 시각화할 수 있기 때문에, 시소러스의 유지 보수 관리가 용이하다. 다차원 브라우징 및 항해는 계층화된 패싯 용어들간의 조합으로 이루어진 패싯화된 시소러스를 필요시 동적으로 생성함으로써 이루어진다. 패싯화된 시소러스는 일종의 다차원 가상 시소러스 계층들로 볼 수 있다. 제안하는 방식에 의한 시소러스 자동 구축은 패싯들의 조합으로 새로운 차원의 시소러스를 용이하게 추가할 수 있기 때문에, 융통성 있는 시소러스 확장이 가능하고 대량의 시소러스 인스턴스들을 관점에 따라 적절한 해석을 부여하는 방식으로 구조화하기 때문에 개별적 사용자 관점에 부합되는 인스턴스들을 참조 질의에 의해 효율적으로 검색할 수 있다. 본 논문에서는 먼저 제안 시스템을 체계화하기 위한 모델을 정형화하고 이를 바탕으로 모델의 실용성을 입증하기 위해 그 프로토타입을 구현하였다.

엔빌로프 기반 하한을 사용한 효율적인 회전-불변 윤곽선 이미지 매칭 (Efficient Rotation-Invariant Boundary Image Matching Using the Envelope-based Lower Bound)

  • 김상필;문양세;홍선경
    • 정보처리학회논문지D
    • /
    • 제18D권1호
    • /
    • pp.9-22
    • /
    • 2011
  • 본 논문에서는 윤곽선 이미지 매칭에서 회전-불변 거리 계산의 효율적 방법을 제안한다. 회전-불변 거리 계산은 이미지 시계열을 한 칸씩 회전하면서 매번 유클리디안 거리를 계산해야 하는 고비용의 연산이다. 본 논문에서는 엔빌로프 기반 하한을 사용하여 회전-불변 거리 계산을 크게 줄이는 획기적인 해결책을 제시한다. 이를 위해, 먼저 질의 시퀀스 대상의 단일 엔빌로프 작성과 이의 하한 개념을 제시하고, 이를 회전-불변 거리 계산에 사용하면 많은 수의 회전-불변 거리 계산을 줄일 수 있음을 보인다. 그런데, 단일 엔빌로프 기법은 하나의 엔빌로프가 가능한 모든 회전 시퀀스를 포함하기 때문에 하한이 커지고, 이에 따라 매칭 성능이 저하되는 문제점이 있다. 이러한 문제점을 해결하기 위하여, 본 논문에서는 회전 구간의 개념을 도입하여 단일 엔빌로프 기반 하한을 다중 엔빌로프 기반 하한 개념으로 확장한다. 또한, 다중 엔빌로프 기법에서 회전 구간을 결정하기 위한 방법으로 동일-너비 기법과 엔빌로프 최소화 기법을 제안한다. 실험 결과, 제안한 엔빌로프 기반 매칭 기법은 기존 기법에 비해 최대 수 배에서 수십 배까지 매칭 성능을 향상시킨 것으로 나타났다.

Gramene database: A resource for comparative plant genomics, pathways and phylogenomics analyses

  • Tello-Ruiz, Marcela K.;Stein, Joshua;Wei, Sharon;Preece, Justin;Naithani, Sushma;Olson, Andrew;Jiao, Yinping;Gupta, Parul;Kumari, Sunita;Chougule, Kapeel;Elser, Justin;Wang, Bo;Thomason, James;Zhang, Lifang;D'Eustachio, Peter;Petryszak, Robert;Kersey, Paul;Lee, PanYoung Koung;Jaiswal, kaj;Ware, Doreen
    • 한국작물학회:학술대회논문집
    • /
    • 한국작물학회 2017년도 9th Asian Crop Science Association conference
    • /
    • pp.135-135
    • /
    • 2017
  • The Gramene database (http://www.gramene.org) is a powerful online resource for agricultural researchers, plant breeders and educators that provides easy access to reference data, visualizations and analytical tools for conducting cross-species comparisons. Learn the benefits of using Gramene to enrich your lectures, accelerate your research goals, and respond to your organismal community needs. Gramene's genomes portal hosts browsers for 44 complete reference genomes, including crops and model organisms, each displaying functional annotations, gene-trees with orthologous and paralogous gene classification, and whole-genome alignments. SNP and structural diversity data, available for 11 species, are displayed in the context of gene annotation, protein domains and functional consequences on transcript structure (e.g., missense variant). Browsers from multiple species can be viewed simultaneously with links to community-driven organismal databases. Thus, while hosting the underlying data for comparative studies, the portal also provides unified access to diverse plant community resources, and the ability for communities to upload and display private data sets in multiple standard formats. Our BioMart data mining interface enable complex queries and bulk download of sequence, annotation, homology and variation data. Gramene's pathway portal, the Plant Reactome, hosts over 240 pathways curated in rice and inferred in 66 additional plant species by orthology projection. Users may compare pathways across species, query and visualize curated expression data from EMBL-EBI's Expression Atlas in the context of pathways, analyze genome-scale expression data, and conduct pathway enrichment analysis. Our integrated search database and modern user interface leverage these diverse annotations to facilitate finding genes through selecting auto-suggested filters with interactive views of the results.

  • PDF

다중 해시 조인의 파이프라인 처리에서 분할 조율을 통한 부하 균형 유지 방법 (A Load Balancing Method using Partition Tuning for Pipelined Multi-way Hash Join)

  • 문진규;진성일;조성현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권3호
    • /
    • pp.180-192
    • /
    • 2002
  • Shared nothing 다중 프로세서 환경에서 조인 어트리뷰트의 자료 불균형(data skew)이 파이프라인 해시 조인 연산의 성능에 주는 영향을 연구하고, 자료 불균형을 대비하여 적재부하를 Round-robin 방식으로 정적 분할하는 방법과 자료분포도를 이용하여 동적 분할하는 두 가지 파이프라인 해시 조인 알고리즘을 제안한다. 해시 기반 조인을 사용하면 여러 개의 조인을 파이프라인 방식으로 처리할 수 있다. 다중 조인은 파이프라인 방식 처리는 조인 중간 결과를 디스크를 통하지 않고 다른 프로세서에게 직접 전달하므로 효율적이다. Shared nothing 다중 프로세서 구조는 대용량 데이타베이스를 처리하는데 확장성은 좋으나 자료 불균형 분포에 매우 민감하다. 파이프라인 해시 조인 알고리즘이 동적 부하 균형 유지 메커니즘을 갖고 있지 않다면 자료 불균형은 성능에 매우 심각한 영향을 줄 수 있다. 본 논문은 자료 불균형의 영향과 제안된 두 가지 기법을 비교하기 위하여 파이프라인 세그먼트의 실행 모형, 비용 모형, 그리고 시뮬레이터를 개발한다. 다양한 파라미터로 모의 실험을 한 결과에 의하면 자료 불균형은 조인 선택도와 릴레이션 크기에 비례하여 시스템 성능을 떨어뜨림을 보여준다. 그러나 제안된 파이프라인 해시 조인 알고리즘은 다수의 버켓 사용과 분할의 조율을 통해 자료 불균형도가 심한 경우에도 좋은 성능을 갖게 한다.

영역 질의의 효과적인 처리를 위한 궤적 인덱싱 (Trajectory Indexing for Efficient Processing of Range Queries)

  • 차창일;김상욱;원정임
    • 정보처리학회논문지D
    • /
    • 제16D권4호
    • /
    • pp.487-496
    • /
    • 2009
  • 본 연구에서는 대용량 궤적 데이터베이스에서 영역 질의를 효과적으로 처리하기 위한 인덱싱 기법에 대하여 논의한다. 먼저, 기존 인덱싱기법의 문제점을 지적하고, 이러한 문제점을 해결하는 새로운 기법을 제안한다. 제안된 기법에서는 우선 시간 차원을 다수의 시간 구간으로 분할하고, 인덱싱의 대상이 되는 전체 라인 세그먼트들을 시간 구간별로 구분한다. 각 시간 구간에 속하는 라인 세그먼트들에 대하여 별도의 인덱스를 구축한다. 또한, 디스크에서 관리되는 과거 시간 구간에 대한 인덱스들과는 달리 최근 시간 구간에 대한 인덱스는 메인 메모리상에 관리함으로써 삽입과 검색의 성능을 크게 개선할 수 있다. 각 시간 구간에 속하는 라인 세그먼트들은 다음과 같은 방식으로 인덱스를 구축한다. 먼저, 2D-트리를 이용하여 전체 공간 차원을 유사한 수의 라인 세그먼트들이 배정되도록 다수의 셀들로 분할한다. 또한, 분할된 각 셀마다 시공간 차원 (x, y, t)에 대한 별도의 3차원 $R^*$-트리를 두어 보다 상세한 인덱싱을 지원한다. 이와 같은 다양한 전략을 이용함으로써 기존 기법의 문제점들을 해결 할 수 있다. 다양한 실험을 통하여 제안된 기법의 우수성을 정량적으로 검증한다. 실험 결과에 의하면, 기존 기법에 비하여 작은 인덱스 구조를 갖으면서도 검색 성능면에서 3$\sim$10배까지의 성능 향상 효과를 갖는 것으로 나타났다.

지식베이스 확장을 위한 멀티소스 비정형 문서에서의 정보 추출 시스템의 개발 (Development of Information Extraction System from Multi Source Unstructured Documents for Knowledge Base Expansion)

  • 최현승;김민태;김우주;신동욱;이용훈
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.111-136
    • /
    • 2018
  • 지식베이스를 구축하는 작업은 도메인 전문가가 온톨로지 스키마를 이해한 뒤, 직접 지식을 정제하는 수작업이 요구되는 만큼 비용이 많이 드는 활동이다. 이에, 도메인 전문가 없이 다양한 웹 환경으로부터 질의에 대한 답변 정보를 추출하기 위한 자동화된 시스템의 연구개발의 필요성이 제기되고 있다. 기존의 정보 추출 관련 연구들은 웹에 존재하는 다양한 형태의 문서 중 학습데이터와 상이한 형태의 문서에서는 정보를 효과적으로 추출하기 어렵다는 한계점이 존재한다. 또한, 기계 독해와 관련된 연구들은 문서에 정답이 있는 경우를 가정하고 질의에 대한 답변정보를 추출하는 경우로서, 문서의 정답포함 여부를 보장할 수 없는 실제 웹의 비정형 문서로부터의 정보추출에서는 낮은 성능을 보인다는 한계점이 존재한다. 본 연구에서는 지식베이스 확장을 위하여 웹에 존재하는 멀티소스 비정형 문서로부터 질의에 대한 정보를 추출하기 위한 시스템의 개발 방법론을 제안하고자 한다. 본 연구에서 제안한 방법론은 "주어(Subject)-서술어(Predicate)"로 구분된 질의에 대하여 위키피디아, 네이버 백과사전, 네이버 뉴스 3개 웹 소스로부터 수집된 비정형 문서로부터 관련 정보를 추출하며, 제안된 방법론을 적용한 시스템의 성능평가를 위하여, Wu and Weld(2007)의 모델을 베이스라인 모델로 선정하여 성능을 비교분석 하였다. 연구결과 제안된 모델이 베이스라인 모델에 비해, 위키피디아, 네이버 백과사전, 네이버 뉴스 등 다양한 형태의 문서에서 정보를 효과적으로 추출하는 강건한 모델임을 입증하였다. 본 연구의 결과는 현업 지식베이스 관리자에게 지식베이스 확장을 위한 웹에서 질의에 대한 답변정보를 추출하기 위한 시스템 개발의 지침서로서 실무적인 시사점을 제공함과 동시에, 추후 다양한 형태의 질의응답 시스템 및 정보추출 연구로의 확장에 기여할 수 있을 것으로 기대한다.

워드넷 기반 협동적 평가와 하이퍼링크를 이용한 검색엔진의 성능 향상 (Improving Performance of Search Engine By Using WordNet-based Collaborative Evaluation and Hyperlink)

  • 김형일;김준태
    • 정보처리학회논문지B
    • /
    • 제11B권3호
    • /
    • pp.369-380
    • /
    • 2004
  • 본 논문에서는 정색엔진의 성능 향상을 위하여 질의어의 모호성 해결과 새로운 가중치 부여 방식을 제안한다. 일반적인 검색엔진은 질의어의 형태와 같은 것들이 포함되어 있는 웹 페이지를 결과로 보여주는 내용기만 방식을 사용하고 있다. 검색 결과로 나타난 웹 페이지들의 순위를 결정하는데 있어서도 주어진 질의어와 웹 페이지 사이의 키워드 매칭에 의한 내용기반 방식을 사용한다. 이와 같이 질의어의 형태만으로 웹페이지들과 유사도를 비교한다는 것은 정확한 검색에 많은 장애를 준다. 또한 질의어의 의미에 모호성이 존재할 경우에는 사용자의 의도와 관련 없는 것들이 결과로 나타나기도 한다. 이러한 원인의 발생은 일반적인 검색엔진들이 내용기반 방법을 기반으로 웹 검색에 이용되기 때문이다. 본 논문에서는 질의어에 모호성이 있는 경우 워드넷을 이용하여 모호성을 해결하도록 하는 사용자 인터페이스를 구현했다. 그리고 사용자의 클릭 수를 각 웹 페이지의 가중치에 누적함으로써 다수 사용자의 협동적 평가에 따른 웹 페이지의 중요도가 검색 순위에 반영되도록 하였다. 클릭수의 누적에 있어서 질의어의 의미 카테고리별로 가중치를 구분하여 저장함으로써 보다 세분화된 웹 페이지 가중치 부여 방식을 사용하였다 그리고 점 페이지의 하이퍼링크를 웹 페이지의 가중치에 적용하였다. 웹 페이지의 가중치에 하이퍼링크를 적용함으로써 웹 페이지의 대표성을 가중치에 부여하여 가중치에 신뢰도를 증가시켰다. 실험용 정색엔진이 일반 검색엔진에 비해 높은 검색 정확도를 나타내는 것을 실험을 통해 확인하였다.

분산 이동 객체 데이타베이스를 위한 과거 위치 정보 관리 (Long-term Location Data Management for Distributed Moving Object Databases)

  • 이호;이준우;박승용;이충우;황재일;나연묵
    • 한국공간정보시스템학회 논문지
    • /
    • 제8권2호
    • /
    • pp.91-107
    • /
    • 2006
  • 최근의 위치 측위 기술과 무선 기술의 발전에 따라 위치 기반 서비스에 대한 관심이 크게 증가하고 있다. 기존 연구의 단일 노드 기반 시스템으로는 처리하기 힘든 휴대폰 사용자와 같은 최소 백만 단위이상의 대용량의 객체를 처리하기 위해 제시된 클러스터 기반 분산 컴퓨팅 구조로 GALIS가 제안되었다. GALIS는 이동 객체의 현재 위치정보를 관리하는 SLDS와 과거 시간의 흐름에 따라 과거 위치정보를 관리하는 LLDS로 구성된다 LLDS는 분산된 다수의 노드로 구성되며 각 노드는 독립된 지역에 위치한 이동 객체의 정보를 관리한다. 본 논문에서는 이전의 GALIS 프로토타입에서 구현되지 않았던 이탈시간 관리 기법을 제안하여 노드간 이동 경로를 가진 이동객체를 추적하기 위한 질의유형에 대해 보다 정확하고 빠른 응답을 얻을 수 있음을 보인다. LLDS는 객체의 과거 위치 정보가 타임 존을 이동할 때 필터링하여 저장하므로 보다 효율적인 저장공간의 활용이 가능하다. 이때 LLDS가 모든 이동 객체의 위치 정보에 대해 해당 타임 존으로 이동시키고 정보를 필터링하는 작업을 타임 존 시프팅이라 한다. 본 논문에서는 GALIS에서 제안한 타임 존 시프팅을 구현하기 위해서 실시간 시프팅, 일괄 타임존 시프팅, 테이블 분할 시프팅 세 가지 기법을 제안하였고, 이를 구현하여 각 방법의 성능을 질의 테스트를 통해 제안된 세 가지 방법 중 테이블 분할 시프팅 방법이 보다 효율적임을 살펴볼 수 있었다.

  • PDF

보편적 학습설계 측면에서의 고등학교 국어과 교수 실태: 소셜 빅데이터 및 설문조사 분석 (An Analysis of High School Korean Language Instruction Regarding Universal Design for Learning: Social Big Data Analysis and Survey Analysis)

  • 신미경;이옥인
    • 한국산학기술학회논문지
    • /
    • 제21권1호
    • /
    • pp.326-337
    • /
    • 2020
  • 본 연구의 목적은 뉴스 기사에 나타난 고등학교 국어과 교수 및 보편적 학습설계에 대한 사회의 관심도를 소셜 빅데이터 분석 방법으로 살펴보는 것이었다. 또한 고등학교 국어 수업에서 교사들이 어떻게 보편적 학습설계를 수업에 적용하고 있는지를 살펴보기 위하여 총 330명의 고등학생들을 대상으로 설문조사를 실시하였다. 소셜 빅데이터 분석 결과, 총 10,339건의 검색 건수 중, 고등학교 국어 교수에 대한 관심과 비교하여 보편적 학습설계에 대한 관심은 현저하게 낮았다. 빅데이터 연관어 분석 결과, 고등학교 국어 교수와 연관되어 검색되어진 용어는 '교육과정'(17.22%)이 가장 높았다. 고등학생들은 국어 교사들이 수업 중 매일 활용하는 빈도가 가장 높은 테크놀로지 관련 수업도구를 컴퓨터(38.79%)라고 인식하였다. 그리고 고등학생들은 국어 교사들이 '교사 주도의 설명식 수업'(52.12%)을 위하여 테크놀로지를 활용하는 빈도가 가장 높다고 응답하였다. 1학년 학생들은 2-3학년 학생들보다 테크놀로지 관련 수업 도구 및 다양한 수업 목적으로 테크놀로지를 활용하는 경우가 더 높은 것으로 나타났다(ps<.05). 마지막으로, 5점 평점 척도 설문조사 결과, 고등학생들은 국어 교사들이 다양한 방식의 학습 참여 제공 및 다양한 방식의 행동과 표현 수단 제공과 관련된 보편적 학습설계 지침을 위해서는 '중간' 정도로 적용한다고 여겼다. 반면 다양한 방식의 표상 제공을 위한 실천 부분에서는 수업 내용을 이해하기 쉽도록 다양한 방식으로 학습자료를 제공하거나 학생들이 새로운 정보를 충분히 이해할 수 있도록 다양한 자료를 제공하는 사항들에서는 상대적으로 더욱 긍정적으로 인식하였다. 1학년 학생들의 경우 교사들의 UDL 적용 실태에 관하여 더욱 긍정적으로 인식하고 있었다.