• 제목/요약/키워드: 질의어 정제

검색결과 9건 처리시간 0.021초

메타 검색에서 외래어 질의 정제 효과 (The Refinement Effect of Foreign Word Transliteration Query on Meta Search)

  • 이재성
    • 정보처리학회논문지B
    • /
    • 제15B권2호
    • /
    • pp.171-178
    • /
    • 2008
  • 문서에서 외래어가 일관되게 사용되지 않고 여러 이형태로 사용되고 있기 때문에, 정확한 질의어 일치를 지원하는 검색 시스템에서 외래어 질의로 문서를 검색하는데 어려움이 많다. 본 논문에서는 하나의 외래어로 질의할 경우, 원 질의어와 같은 뜻의 다양한 이형태 외래어 질의로 자동 확장하고 정제하여 더 많은 관련 문서를 손쉽게 검색할 수 있는 메타 검색 방법을 제안한다. 이 방법은 1차로 원 질의어에서 다양한 외래어 이형태를 통계적 방법으로 확장하고, 2차로 그 결과를 각 검색 엔진에게 질의하여 일정 개수 이상의 질의어가 문서에 나타났는지, 원 질의어의 문맥과 유사한 문맥에서 그 질의어가 쓰였는지를 비교하여, 같은 뜻의 유효한 외래어를 판별해 내고 이를 이용하여 검색할 수 있도록 한다. 실험 결과, 기준점으로 쓰인 1차로 만든 이형태로 검색했을 때 F값은 평균 38%이었으나, 제안된 방법인 2차로 정제된 질의어로 검색했을 때의 F값은 평균 81%로 매우 향상된 결과를 보였다.

질의 재구성 기반의 XQuery 질의 정제 (XQuery query Refinement Based on Query Rewriting)

  • 최성일;박종현;강지훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (C)
    • /
    • pp.62-65
    • /
    • 2006
  • XML은 웹 상에서 데이터의 표현과 교환을 위한 표준이다. XQuery는 XML 질의를 위한 W3C 표준으로서 XML 문서를 효율적으로 검색하기 위해서 W3C에서 제안한 표준질의어이다. XQuery가 등장하면서, 이를 빠르게 처리하기 위한 연구가 많이 진행 중이며, 이 연구 중 한 분야는 XQuery 질의를 정제하는 것이다. 사용자에 따라 다양하게 작성되는 XQuery 질의들은 정제되어 있지 않을 수 있다. 질의의 불필요한 연산이나 표현을 제거하여 간결하게 만드는 것은 질의를 효율적으로 처리하게 하여 성능을 향상시키는데 도움을 준다. 이에 대한 이전의 연구들은 XML 데이터의 저장구조나 시스템에 의존적인 질의 정제방법을 사용하므로 이들 방법을 일반적인 XQuery 질의 정제로 볼 수는 없다. 그러나 우리의 정제방법은 XQuery 질의를 기반으로 하여 일반적인 상황에서도 질의의 정제가 가능하므로 XQuery를 입력으로 하는 다른 시스템에서 우리의 방법으로 입력 질의를 정제하여 효율적으로 질의를 처리할 수 있다. 본 논문에서는 XQuery 질의를 효율적으로 처리하기 위하여 두가지 정제방법을 제안한다. 첫째는 불필요한 연산이나 표현을 제거하는 방법이고, 둘째는 질의의 순서를 재배치하는 방법이다. 이 방법들을 통하여 질의를 보다 빠르고 효율적으로 처리하도록 한다. 끝으로, 우리는 성능평가를 통하여 우리의 정제방법의 효율성을 입증한다.

  • PDF

질의어 확장에 기반을 둔 클러스터링 및 필터링 문서의 검색효율 제고에 관한 연구 (A Study on the Improvement of Retrieval Effectiveness to Clustered and Filtered Document through Query Expansion)

  • 노동조
    • 한국비블리아학회지
    • /
    • 제14권1호
    • /
    • pp.219-230
    • /
    • 2003
  • 인터넷을 비롯한 대다수의 정보검색에서 사용자가 느끼는 공통된 어려움중의 하나는 검색결과가 너무 많다는 것이다. 본 연구는 검색결과를 줄이는 방법의 하나로써 검색 문헌에 대한 정제 방법에 대하여 논의한 것이다. 궁극적으로 종전의 검색시스템에서 제대로 고려하지 않은 개념망을 통한 질의어 확장과 확장 질의어와 전처리된 문서와의 유사도 측정을 통한 문서의 선택, 백과사전 정보에 의한 의미 확장과 클러스터링, 필터링 기법 등이 정보검색의 효율을 향상시키는데 효과적인 방안임을 제안한다.

  • PDF

개념어의 습득을 위한 지식기반 질의응답 시스템 (Knowledge-Based Question Answering System for Aquisition of Concept Word)

  • 이재홍;최호섭;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-100
    • /
    • 2003
  • 본 논문에서는 현실 세계가 가지고 있는 지식이 어느 정도 체계적으로 정제되어 있는 국어사전, 백과사전 등을 중심으로, Hybrid Method를 이용한 통계(Statistics)기반 지식베이스와 어휘분류(Lexicon Classification)기반 지식베이스를 효율적으로 구축하여 질의응답시스템에 활용한다. 또한 특정한 문서를 보여주는 일반적인 질의응답시스템과는 달리, 이러한 지식베이스를 이용하여 사용자에게 정확한 개념어(정답어)를 습득하게끔 해주고, 사용자의 인지 체계 속에 어렴풋이 내포되어 있는 개념적 지식을 더욱더 표면적으로 확장해 나갈 수 있는 질의응답시스템을 구축하는 방안을 제시한다.

  • PDF

Q&A 문서의 검색 결과 요약을 활용한 질의응답 시스템 (Question and Answering System through Search Result Summarization of Q&A Documents)

  • 유동현;이현아
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권4호
    • /
    • pp.149-154
    • /
    • 2014
  • 지식iN과 같은 사용자 참여 질의응답 커뮤니티에서 원하는 질문에 대한 답을 찾기 위해서는 검색 결과로 제공되는 다양한 문서를 일일이 확인하여 판단하는 과정이 필요하다. 만일 사용자가 원하는 답변을 자동으로 정제하여 제시할 수 있다면, 질의응답의 사용성이 크게 향상될 수 있다. 본 논문에서는 질의응답 데이터 분석을 통해 사용자의 질문의 유형을 단어, 목록, 도표, 글의 4가지 유형으로 분류하고, 문서 내 통계적 특성을 활용하여 각 분류별 답변을 자동으로 제시하기 위한 방식을 제안한다. 단어, 목록, 글 유형은 질의어에 대해 검색된 질문을 군집화하고, 군집 내 빈도와 질의어에 대한 근접도, 답변 신뢰도 등으로 계산된 답변 내 어휘의 적합도를 활용하여 요약한 답변을 사용자에게 제시한다. 도표형은 답변들에서 사용자의 의견 정보를 추출하여 의견 통계를 도표로 제시한다.

실시간 센서 네트워크에서 불완전 센서 스트림 데이터를 위한 질의 처리 시스템 (Query Processing System for Incomplete Sensor Stream Data of in Real-time Sensor Network)

  • 장유호;이상호;김용승;오염덕
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2014년도 제49차 동계학술대회논문집 22권1호
    • /
    • pp.123-124
    • /
    • 2014
  • 무선 센서 네트워크는 센서들을 근거리 네트워크로 연결하여 사용자와 현장의 정보를 실시간으로 연결해 주는 매개체 역할을 한다. 이러한 무선 센서 네트워크는 기존의 컴퓨팅 시스템과는 달리 제한된 자원과 환경 속에서 동작을 해야 하고, 접근이 힘든 곳이나 지속적인 관리가 필요한 지역에서 효율적으로 사용된다. 본 논문에서는 무선 센서네트워크의 제한된 자원 속에서 불완전 스트림 데이터를 효율적으로 정제하고 처리하여 빠르고 정확한 질의어 처리가 가능한 질의 시스템을 제안하였다.

  • PDF

로그분석을 통한 이용자의 웹 문서 검색 행태에 관한 연구 (Investigating Web Search Behavior via Query Log Analysis)

  • 박소연;이준호
    • 정보관리학회지
    • /
    • 제19권3호
    • /
    • pp.111-122
    • /
    • 2002
  • 본 연구에서는 웹 검색 이용자들의 전반적인 검색 행태를 이해하기 위하여 국내에서 널리 사용되고 있는 웹 검색 서비스 네이버에서 생성된 검색 트랜잭션 로그를 분석하였다. 본 연구에서는 웹 검색 트랜잭션 로그 분석에 필요한 세션 정의 방법을 설명하고 로그 정제 및 질의 유형 분류방법을 제시하였으며, 한글 검색 트랜잭션 로그 분석에 필수절인 검색어 정의 방법을 제안하였다. 본 연구의 결과는 보다 효과적인 국내 웹 검색 시스템 개발과 서비스 구축에 기여할 것으로 기대된다.

석유탄화수소를 이용한 단세포단백질의 생산에 관한 연구 -V. 균체의 회수, 정제 및 예비 동물사육 시험- (Production of Single-Cell Protein on Petroleum Hydrocarbon -V. Recovery and Purification of the Yeast Cell and Its Preliminary Animal Feeding Test-)

  • 변유량;권태완;지규만;김춘수
    • 한국식품과학회지
    • /
    • 제4권4호
    • /
    • pp.252-258
    • /
    • 1972
  • 경유(輕油)를 기질(基質)로 한 석유탄화수소발효액(石油炭化水素醱酵液)으로부터 효과적(效果的)으로 균체(菌體)를 회수(回收), 정제(精製)하기 위한 몇가지 지견(知見)과 예비동물사육시험(飼備動物飼育試驗)결과를 요약(要約)하면 다음과 같다. 1) 발효배양액(醱酵培養液)으로부터 균체(菌體) cream의 정치분리(精置分離)는 30분만에 종료(終了)되며 이때 cream의 균체농도(菌體濃渡)는 5.6%였다. 2) pH 9 이상의 강알칼리성에서 균체(菌體) emulsion은 불안정(不安定)하였으며 열처리(熱處理), 동결(凍結)에 의하여 emulsion으로부터 $60{\sim}80%$의 균체(菌體)를 분리(分離)할 수 있었다. 3) Emulsion 파괴(破壞)를 위한 식용계면활성제(食用界面活性劑)로는 트리오가 가장 우수하였으며 그 적합한 농도(濃渡)는 0.3%였다. 이 외에 Aldo, Monogly 5-7 및 G-4도 유효(有效)하였다. 4) NaCl, KCl 등의 할로겐화알칼리금속염이 균체(菌體) emulsion 파괴(破壞)에우수하였으며 트리오와 같은 계면활성제(界面活性劑)와 혼합(混合)하여 사용하므로서 90% 이상의 균체(菌體)를 분리(分離)할 수 있었다. 5) 건조반제품(乾燥半製品)을 hexane-ethyl alcohol 및 iso-propyl alcohol의 공비혼합물(共沸混合物)로 유출(抽出)하는 것이 가장 기대(期待)되는 균체(菌體)의 정제방법(精製方法)이며 추출온도(抽出溫度)는 $58^{\circ}C$, 추출시간(抽出時間)은 30분(分), 균체(菌體) 대(對) 용매비율(溶媒比率)은 1 : 3이 적합하였다. 6) 균체단백질(菌體蛋白質)의 사양실험결과 어백과 5% 대체(代替)한 수준(水準)에시는 대조구(對照區)보다 3.3%의 더 좋은 증체(增體)를 보였으나 8% 대체구(代替區)는 다른 처리구에 비하여 간(肝)중량이 더 무거운 것이 인정되었다.

  • PDF

지식베이스 확장을 위한 멀티소스 비정형 문서에서의 정보 추출 시스템의 개발 (Development of Information Extraction System from Multi Source Unstructured Documents for Knowledge Base Expansion)

  • 최현승;김민태;김우주;신동욱;이용훈
    • 지능정보연구
    • /
    • 제24권4호
    • /
    • pp.111-136
    • /
    • 2018
  • 지식베이스를 구축하는 작업은 도메인 전문가가 온톨로지 스키마를 이해한 뒤, 직접 지식을 정제하는 수작업이 요구되는 만큼 비용이 많이 드는 활동이다. 이에, 도메인 전문가 없이 다양한 웹 환경으로부터 질의에 대한 답변 정보를 추출하기 위한 자동화된 시스템의 연구개발의 필요성이 제기되고 있다. 기존의 정보 추출 관련 연구들은 웹에 존재하는 다양한 형태의 문서 중 학습데이터와 상이한 형태의 문서에서는 정보를 효과적으로 추출하기 어렵다는 한계점이 존재한다. 또한, 기계 독해와 관련된 연구들은 문서에 정답이 있는 경우를 가정하고 질의에 대한 답변정보를 추출하는 경우로서, 문서의 정답포함 여부를 보장할 수 없는 실제 웹의 비정형 문서로부터의 정보추출에서는 낮은 성능을 보인다는 한계점이 존재한다. 본 연구에서는 지식베이스 확장을 위하여 웹에 존재하는 멀티소스 비정형 문서로부터 질의에 대한 정보를 추출하기 위한 시스템의 개발 방법론을 제안하고자 한다. 본 연구에서 제안한 방법론은 "주어(Subject)-서술어(Predicate)"로 구분된 질의에 대하여 위키피디아, 네이버 백과사전, 네이버 뉴스 3개 웹 소스로부터 수집된 비정형 문서로부터 관련 정보를 추출하며, 제안된 방법론을 적용한 시스템의 성능평가를 위하여, Wu and Weld(2007)의 모델을 베이스라인 모델로 선정하여 성능을 비교분석 하였다. 연구결과 제안된 모델이 베이스라인 모델에 비해, 위키피디아, 네이버 백과사전, 네이버 뉴스 등 다양한 형태의 문서에서 정보를 효과적으로 추출하는 강건한 모델임을 입증하였다. 본 연구의 결과는 현업 지식베이스 관리자에게 지식베이스 확장을 위한 웹에서 질의에 대한 답변정보를 추출하기 위한 시스템 개발의 지침서로서 실무적인 시사점을 제공함과 동시에, 추후 다양한 형태의 질의응답 시스템 및 정보추출 연구로의 확장에 기여할 수 있을 것으로 기대한다.