• 제목/요약/키워드: Query generation

검색결과 118건 처리시간 0.023초

의미적 의존 링크 토픽 모델을 이용한 생물학 약어 중의성 해소 (Semantic Dependency Link Topic Model for Biomedical Acronym Disambiguation)

  • 김선호;윤준태;서정연
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.652-665
    • /
    • 2014
  • 생물학 도메인은 약어 표현이 빈번하며, 실제로 문서에서 중요한 의미를 지니는 개체명들이 약어로 표현되는 경우가 많다. 본 연구에서는 토픽과 링크 정보를 이용하여 약어 중의성을 해결하고 동일한 의미를 가지는 다양한 형태의 약어 원형들(variant forms)에 대한 그룹핑을 시도한다. 이를 위하여 LDA(latent Dirichlet allocation) 기반 의미적 의존 링크 토픽 모델(semantic dependency topic model)을 제안한다. 해당 모델은 생성 모델(generative model)의 일종으로 문서 집합의 각 문서에 등장하는 단어들은 문서에서 발생하는 토픽 분포와 토픽 당 단어 분포에 의해 생성되어 있는 것으로 가정하고, 관측 가능한 문서 집합의 단어들로부터 문서에 내재된 숨어있는 토픽 구조를 추론하여 단어 생성과 토픽 파라미터를 연결시킨다. 본 연구에서는 토픽 정보 외에 단어들 사이에 존재하는 의미적 의존성(semantic dependency)을 링크로 정의하고, 단어 간에 존재하는 링크 정보, 특히 원형과 문장에서 공기하는 단어들 사이의 링크를 파라미터화하여 중의성 해결에 이용하였다. 결과적으로 주어진 문서에 등장하는 약어에 대해 가장 가능성 있는 원형은 해당 모델을 이용하여 추론된 단어-토픽, 문서-토픽, 단어-링크 확률에 의해서 결정된다. 제안하는 모델은 MEDLINE 초록으로부터 Entrez 인터페이스를 이용해 22개의 약어 집합과 186개의 가능한 약어 원형을 이용하여 질의를 생성하고, 이를 이용해 검색된 문서들을 대상으로 학습과 테스트에 이용하였다. 실험은, 주어진 문서에 등장하는 해당 약어에 대한 원형이 무엇인지 예측하는 방식으로 98.3%의 정확률의 높은 성능을 보였다.

전사적 응용시스템 테스트를 위한 DB이미지 생성에 관한 연구 (Automatic Generation of DB Images for Testing Enterprise Systems)

  • 권오승;홍사능
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.37-58
    • /
    • 2011
  • 데이터베이스를 사용하는 프로그램을 테스트하는 것은 일반 소프트웨어의 경우보다 훨씬 더 복잡하고 어렵다. 테스트 데이터에 더하여 데이터베이스 상태가 테스트의 절차와 결과에 결정적인 영향을 미치는 것이 주요 원인이다. 테스트에 적합한 데이터베이스 상태를 만들어주려면 많은 시간과 노력이 필요한 것은 물론이거니와 IT와 업무에 대한 상당한 지식이 있어야 한다. 이러한 어려움에도 불구하고 데이터베이스 응용 프로그램의 테스트에 대한 연구와 지원은 매우 부족하다. 이 논문은 테스트에 알맞은 데이터베이스 상태의 생성과 유지에 관한 연구 결과를 보고한다. 연구의 핵심은 프로그램에서 사용하는 SQL을 로그파일에서 추출하여 분석한 결과와 데이터베이스 스키마와 테이블, 로그, 전문 등의 다양한 원천(source)에서 수집한 정보를 결합하여 프로그램의 테스트에 적합한 사전, 사후 상태를 자동으로 만들어주는 테스트 지원도구의 개발이다. 연구에서 제시한 절차와 도구는 단위 테스트와 통합 테스트의 지원과 더불어 회귀 테스트의 수행에 따르는 어려움을 극복하는데 큰 도움이 될 것이다. 실무적으로는 연구의 결과가 데이터베이스 상태의 생성과 유지에 소요되는 시간과 노력을 줄여 개발인력의 생산성을 제고하고, 다양한 케이스의 테스트와 회귀 테스트를 지원하여 대상 프로그램의 품질 향상에 기여할 것으로 기대한다. 학문적으로는 프로그램에서 사용하는 SQL의 패턴을 분석할 수 있는 상태 전이 도형과, 패턴의 표현 및 추론이 가능한 문법을 정의하여 전사적 응용 프로그램 테스트에 대한 폭 넓은 이해와 새로운 접근 방식을 가능하게 하였다.

ECoMOT : 비디오 데이터내의 이동체의 제적을 이용한 효율적인 내용 기반 멀티미디어 정보검색 시스템 (ECoMOT : An Efficient Content-based Multimedia Information Retrieval System Using Moving Objects' Trajectories in Video Data)

  • 심춘보;장재우;신용원;박병래
    • 정보처리학회논문지B
    • /
    • 제12B권1호
    • /
    • pp.47-56
    • /
    • 2005
  • 이동체는 시간의 흐름에 따라 공간적인 위치, 모양, 크기등과 같은 다양한 속성들이 변화하며, 이러한 이동체는 시간과 공간적인 특성을 모두 가지고 있는 비디오 데이터의 중요한 특징정보에 해당한다. 본 논문에서는 멀티미디어 데이터 중에서도 특히 비디오 데이터내의 이동체의 궤적 정보를 이용하여 보다 효율적인 비디오 데이터 자체의 내용을 기반으로 하는 멀티미디어 정보검색 시스템인 ECoMOT(Efficient Content-based Multimedia Information Retrieval System using Moving Objects' Trajectories)을 제안한다. ECoMOT 시스템은 비디오 데이터내의 이동체의 궤적을 토대로 내용 기반 검색을 지원하기 위해 다음과 같은 기법을 포함한다. : (1) 다수의 이동체들의 궤적 정보를 모델링하기 위한 다중 궤적(multiple trajectory) 모델링 기법; (2) 다수의 이동체들로 구성된 주어진 두 궤적들 간의 유사도를 측정하여 유사성이 높은 순으로 검색할 수 있는 다중 궤적 기반 유사 궤적 검색 기법; (3) 대용량 궤적 데이터에서 원하는 궤적을 빠르게 검색할 수 있는 중첩 시그니쳐-기반 궤적 색인 기법(superimposed signature-based trajectory indexing technique); (4) 그래픽 인터페이스를 이용한 편리한 이동체의 궤적 추출 과 질의 생성 및 검색 인터페이스.

XML 기반 디지털 방송용 메타데이타 관리시스템 (Metadata Management System for XML-based Digital Broadcasting)

  • 박종현;김병규;이용희;이민우;정민옥;강지훈
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제11권4호
    • /
    • pp.334-348
    • /
    • 2005
  • 차세대 디지털 방송은 다양한 서비스와 함께 방송 사용자와 제공자 사이의 양방향 통신을 가능하게 한다. 새로운 방송 환경을 위한 중요한 요소 중 하나는 분산되어있는 환경에서 여러 소비자와 공급자 간의 상호운용성의 유지에 있다. 이를 위하여 디지털 방송을 위한 메타데이타의 표준이 제안되었고, TV-Anytime 메타데이타는 이러한 요구를 만족시키기 위한 차세대 방송 표준 메타데이타의 하나이다. TV-Anytime 메타데이타는 향후 다양한 서비스로의 확장을 위하여 그 말단이 MPEG-7으로 정의되어 있다. MPEG-7은 멀티미디어 컨텐츠를 기술하기 위한 메타데이타 표준으로, 방송용 컨텐츠를 기술하기 위해서 사용된다면 내용기반 검색과 같은 다양한 서비스를 제공한다. 이러한 방송용 메타데이타를 효율적으로 관리하기 위한 시스템은 실제 방송 환경에서 사용자에게 보다 질 좋은 서비스를 제공하기 위해서 필수적이다. 방송용 메타데이타의 가장 큰 특징 중 하나는 단일의 XML 스키마를 기반으로 XML로 기술된다는 것이다. 이러한 점은 기존의 XML 관리 시스템을 사용하여 방송용 메타데이타를 관리할 수 있다는 가능성을 보인다. 그러나 이들 대부분은 범용적인 방법을 사용하여 XML데이타를 관리하고 있으므로 방송용 메타데이타를 관리하기 위한 특화된 방법으로 보기는 어렵다. 본 논문에서는 방송용 메타데이타의 특성을 파악하여 방송 환경에 적절한 방송용 메타데이타 관리 시스템을 설계하고 구현한다. 우리의 메타데이타 관리 시스템은 실제 방송 환경에서 사용되는 표준 메타데이타를 기반으로 구현하므로, 방송 환경에 최적의 기능을 수행할 수 있을 것으로 기대된다. 또한, 우리는 방송용 메타데이타의 검색을 위한 질의어로 XML 표준 질의어인 XQuery를 사용하여 시스템 간의 상호 운용성을 확보할 수 있도록 한다.

이동 객체의 유사 부분궤적 검색을 위한 시그니쳐-기반 색인 기법 (Signature-based Indexing Scheme for Similar Sub-Trajectory Retrieval of Moving Objects)

  • 심춘보;장재우
    • 정보처리학회논문지D
    • /
    • 제11D권2호
    • /
    • pp.247-258
    • /
    • 2004
  • 최근 비디오 데이타베이스, 시공간 데이타베이스, 모바일 데이타베이스와 같은 데이타베이스 응용 분야에서 이동 객체를 기반으로 하는 검색 기법에 관한 연구가 활발히 이루어지고 있다. 본 논문에서는 이동 객체의 궤적에 대한 효율적인 유사 부분궤적 검색을 지원하는 새로운 시그니쳐-기반 색인 기법을 제안한다. 제안하는 시그니쳐-기반 색인 기법은 궤적 데이타를 토대로 궤적 시그니쳐를 생성하는 방법에 따라 중첩 시그니쳐-기반 색인 기법(Superimposed signature-based Indexing scheme for similar Sub-trajectory Retrieval : SISR)과 합성 시그니쳐-기반색인 기법(Concatenated signature-based Indexing scheme for similar Sub-trajectory Retrieval : CISR)으로 나뉜다. 생성된 궤적 시그니쳐 정보는 시그니쳐 파일에 저장되고, 검색시 주어진 사용자 질의 궤적 정보를 기반으로 데이타 파일을 직접 접근하기 전에 전체 궤적 시그니쳐들을 탐색하여 필터링을 수행한다. 이를 통해 데이타 파일의 검색 범위를 현저히 줄임으로써 검색 성능을 향상시킨다. 또한 검색된 궤적 데이터와의 유사성을 측정하기 위해 k-워핑 알고리즘을 적용시켜 검색의 효율성을 높인다. 마지막으로, 순차 색인 기법, SISR기법, 그리고 CISR 기법을 삽입시간, 검색 시간 그리고 부가 저장 공간측면에서 성능 평가를 수행한다. 성능 평가 결과, 제안하는 두 가지 기법이 검색 성능 측면에서 순차 색인 기법에 비해 성능이 우수함을 나타내고, 아울러 SISR 기법이 CISR 기법에 비해 보다 우수한 성능을 보인다.

Descriptor 조합 및 동일 병명 이미지 수량 역비율 가중치를 적용한 유사도 기반 작물 질병 검색 기술 설계 및 구현 (Design and Implementation of a Similarity based Plant Disease Image Retrieval using Combined Descriptors and Inverse Proportion of Image Volumes)

  • 임혜진;정다운;유성준;구영현;박종한
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제14권6호
    • /
    • pp.30-43
    • /
    • 2018
  • 영상의 특징인 색상, 모양, 질감 등을 이용해 영상을 검색하는 연구들은 많이 진행되어 왔다. 또한 작물의 질병 영상과 관련된 연구들도 진행되고 있다. 농업 현장에서 재배되는 작물에 발생한 질병을 확인하는데 도움이 되기 위해 본 논문에서는 시설원예 작물의 질병 영상을 이용한 유사도 기반 작물 질병 검색 시스템을 제안한다. 제안하는 시스템은 단일 Descriptor를 사용하지 않고, 조합 Descriptor를 통해 기존 대비 영상의 유사도 검색 성능을 높였고 유사도 검색 결과를 가독성 높게 사용자에게 제공하기 위해 가중치 기반 산출방법을 적용했다. 본 논문에서는 총 13개의 개별 Descriptor를 이용해 조합을 진행했다. 조합 Descriptor를 이용해 6개 작물의 질병에 대해 유사도 검색을 진행했고 작물별로 평균 accuracy가 높은 조합 Descriptor를 선정해 유사도 검색에 사용했다. 검색된 결과는 병명의 비율을 기반으로 한 산출방법과 가중치를 기반으로 한 산출방법을 사용해 백분율로 나타냈다. 병명의 비율을 기반으로 한 산출방법은 질의 영상과 유사도 검색에 사용되는 영상의 수가 많은 병명이 1순위로 출력되는 문제점이 있다. 이를 해결하기 위해 가중치를 기반으로 한 산출방법을 사용했다. 작물의 병명별 테스트 영상을 두 가지 산출방법에 적용해 검색 성능을 측정했다. 작물의 질병별로 두 가지 산출방법에 대해 검색 성능 값의 평균을 비교한 결과 고추, 사과 작물에서는 병명의 비율을 기반으로 한 산출방법의 성능이 가중치를 기반으로 한 산출방법의 성능보다 평균 약 11.89%의 높은 성능 결과를 보였다. 국화, 딸기, 배, 포도 작물에서는 가중치를 기반으로 한 산출방법이 병명의 비율을 기반으로 한 산출방법의 성능보다 평균 약 20.34%의 높은 성능 결과를 보였다. 또한 본 논문에서 제안하는 시스템의 UI/UX는 실제 사용자의 피드백을 통해 편리하게 구성했다. 시스템의 화면마다 상단에 제목과 설명을 출력했고 사용자가 질병의 정보를 보기 편리하게 화면을 구성했다. 검색된 질병의 정보는 위에서 제안한 산출방법을 토대로 유사한 질병의 영상과 병명을 출력한다. 시스템의 환경은 PC 환경 기반의 웹 브라우저와 모바일 디바이스 환경 기반의 웹 브라우저를 통해 사용할 수 있도록 구현했다.

법령정보 검색을 위한 생활용어와 법률용어 간의 대응관계 탐색 방법론 (Term Mapping Methodology between Everyday Words and Legal Terms for Law Information Search System)

  • 김지현;이종서;이명진;김우주;홍준석
    • 지능정보연구
    • /
    • 제18권3호
    • /
    • pp.137-152
    • /
    • 2012
  • 인터넷 환경에서 월드 와이드 웹이 등장한 이후 웹을 통해 수많은 웹 페이지들이 생산됨에 따라 사용자가 원하는 정보를 검색하기 위한 다양한 형태의 검색 서비스가 여러 분야에서 개발되어 활용되고 있다. 특히 법령 검색은 사용자가 현재 자신이 처한 상황에 필요한 법령을 검색하여 법령에 대한 지식을 얻기 위한 창구로써 국민의 편의를 제공하기 위해 반드시 필요한 서비스 중 하나이다. 이에 법제처는 2009년부터 국민 누구나 편리하게 법령에 관련된 정보를 검색할 수 있도록 국가의 법령뿐만 아니라 행정규칙이나 판례 등 모든 법령정보를 검색할 수 있는 검색 서비스를 제공하고 있다. 하지만 현재까지의 검색엔진 기술은 기본적으로 사용자가 입력한 질의어를 문서에 포함하고 있는지의 여부에 따라 해당 문서를 검색 결과로 제시한다. 법령 검색 서비스 또한 해당 법령에 등장하는 키워드를 활용하여 사용자에게 검색 결과를 제공해주고 있다. 따라서 법제처의 이런 노력에도 불구하고 법령이 전문가의 시각에서 작성되었기 때문에 법에 익숙하지 않은 일반 사용자는 자신이 필요한 법령을 검색하기 어려운 한계점을 가지고 있다. 이는 일반적으로 법령에 사용되는 용어들과 일반 사용자가 실생활에 사용하는 단어가 서로 상이하기 때문에 단순히 키워드의 단순 매칭 형태의 검색엔진에서는 사용자들이 주로 사용하는 생활용어를 이용해서 원하는 법령을 검색할 수 없다. 본 연구에서는 법률용어에 관한 사전지식이 부족한 일반 사용자가 일상에서 주로 사용되는 생활용어를 이용하여 키워드 기반의 법령정보 검색 사이트에서 정확한 법령정보 검색이 가능하도록 생활용어와 법률용어 간의 대응관계를 탐색하고 이를 이용하여 법령을 검색할 수 있는 방법론을 제안하고자 한다. 우선 생활용어와 법률용어 간의 대응관계를 발견하기 위해 본 논문에서는 사용자들의 집단지성을 활용한다. 이를 위해 사용자들이 블로그의 분류 및 관리, 검색에 활용하기 위해 작성한 태그 정보를 이용하여 질의어인 생활용어와 관련된 태그들을 수집한다. 수집된 태그들은 K-means 군집분석 기법을 통해 태그들을 클러스터링하고, 생활용어와 가장 가까운 법률용어를 찾기 위한 평가 방법을 통해 생활용어에 대응될 수 있는 적절한 법률용어를 선택한다. 선택된 법률용어는 해당 생활용어와 명시적인 관계성이 부여되며, 이러한 생활용어와 법률용어와의 관계는 온톨로지 기반의 시소러스를 기술하기 위한 SKOS를 이용하여 표현된다. 이렇게 구축된 온톨로지는 사용자가 생활용어를 이용하여 검색을 수행할 경우 생활용어에 대응되는 적절한 법률용어를 찾아 법령 검색을 수행하고 그 결과를 사용자에게 제시한다. 본 논문에서 제시하고자 하는 방법론을 통해 법령 및 법률용어에 관련된 사전 지식이 없는 일반 사용자도 편리하고 효율적으로 법령을 검색할 수 있는 서비스를 제공할 것으로 기대한다.

중장년층 일자리 요구사항 분석 및 인력 고용 매칭 시스템 개발 (Job Preference Analysis and Job Matching System Development for the Middle Aged Class)

  • 김성찬;장진철;김성중;진효진;이문용
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.247-264
    • /
    • 2016
  • 저출산 및 인구 고령화가 가속화되면서, 중장년 퇴직자 등 노동 소외 계층의 취업난 해결은 우리 사회의 핵심 과제로 등장하고 있다. 온라인에는 수많은 일자리 요구 정보가 산재해 있으나, 이를 중장년 구직자에게 제대로 매칭시키지는 못하고 있다. 워크넷 취업 로그에 따르면 구직자가 선호하는 직종에 취업하는 경우는 약 24%에 불과하다. 그러므로, 이러한 문제를 극복하기 위해서는 구직자에게 일자리 정보를 매칭시킬 때 선호하는 직종과 유사한 직종들을 추천하는 소프트 매칭 기법이 필수적이다. 본 연구는 중장년층에 특화된 소프트 직업 매칭 알고리즘과 서비스를 고안하고 개발하여 제공하는 것을 목표로 한다. 이를 위하여 본 연구에서는 1) 대용량의 구직 활동 기록인 워크넷 로그로부터 중장년층의 일자리 특성 및 요구 추세를 분석하였다. 2) 중장년층의 일자리 추천을 위해 직종 유사도 기준으로 일자리 분류표(KOCM)를 재정렬하였다. 이 결과를 이용하여, 3) 중장년에 특화된 인력 고용 소프트 매칭 직업 추천 알고리즘(MOMA)을 개발하여 구인 구직 웹사이트에 적용하였다. 자체 저작한 중장년층 특화 일자리 분류표(KOCM)를 이용한 소프트 일자리 매칭 시스템의 정확도를 측정하였을 때, 실제 고용 결과 기준, 하드 매칭 대비 약 20여 배의 성능 향상을 보였다. 본 연구내용을 적용하여 개발한 중장년층 특화 구직 사이트는 중장년층의 구직 과정에서 입력 정보 부담을 최소화하고 소프트 매칭을 통해 사용자의 요구직종에 적합한 일자리를 정확하고 폭넓게 추천함으로 중장년층의 삶의 질 향상에 기여할 수 있을 것으로 기대된다.