• 제목/요약/키워드: Query answering

검색결과 55건 처리시간 0.02초

구간 데이타에 대한 히스토그램 구축 알고리즘의 확장 (Extensions of Histogram Construction Algorithms for Interval Data)

  • 이호석;심규석;이병기
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권4호
    • /
    • pp.369-377
    • /
    • 2007
  • 히스토그램은 원본 데이타를 효과적으로 요약하는 기법중의 하나이며, 선택도 측정과 근사 질의 처리 등에 널리 사용되고 있다. 기존의 히스토그램 구축 알고리즘들은 하나의 값으로 표현되는 점 데이타에 대하여 적용 가능한 알고리즘이었다. 그러나 일상생활에서는 하루 동안의 온도, 주식 가격과 같은 구간 데이타들도 점 데이터만큼 흔하게 접할 수 있다. 본 논문에서는 점 데이타에 대한 히스토그램 구축 알고리즘을 구간 데이타에 대하여 확장한다. 합성 데이타를 사용한 실험을 통하여 기존의 점 데이타에 대한 히스토그램을 초보적으로 확장하는 방법보다 본 논문에서 제시된 알고리즘의 성능이 좋다는 것을 보였다.

데이터웨어하우징에서 MIN/MAX질의를 고려한 뷰관리 정책 (View Maintenance Policy for considering MIN/MAX query in Data warehousing)

  • 김근형;김두경
    • 한국정보통신학회논문지
    • /
    • 제6권8호
    • /
    • pp.1336-1345
    • /
    • 2002
  • 데이터웨어하우스에서 실체뷰는 사용자의 정보처리 요구에 신속하게 응답하기 위한 주요한 수단이다. 데이터웨어하우스내에 실체뷰의 개수가 많을수록 사용자의 질의요구를 실체뷰내에서 처리할 수 있는 확률이 높아지므로 신속한 응답이 가능하다. 데이터웨어하우스내에 유지할 수 있는 실체뷰의 개수에 대한 주요 제약은 기본릴레이션의 변화에 기인하는 실체뷰 갱신시간이다. 본 논문에서는 MIN/MAX 함수를 포함하는 실체뷰에 대해서 기본릴레이션의 MIN/MAX값의 변화가 빈번할 경우에도 실체뷰 갱신시간을 절약할 수 있는 효율적인 실체뷰 갱신정책을 제안한다. 기본릴레이션의 MIN/MAX값의 변경을 삽입/삭제연산으로 구분하여 실체뷰를 갱신하면 실체뷰의 MIN/MAX값 갱신을 위하여 기본릴레이션에 접근해야 할 횟수가 줄어든다.

추론을 위한 OWL-DL과 SWRL의 효율적 결합 (Efficieint Combination of OWL-DL and SWRL for Maintaining Decidability)

  • 서은석;박준상;박영택
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.372-377
    • /
    • 2006
  • 유비쿼터스 컴퓨팅 시대의 도래와 시맨틱 웹에 대한 관심이 높아짐에 따라 관련 기술인 온톨로지와 이를 이용한 추론 기술에 대한 요구가 증가하고 있다. 따라서, 추론이 가능한 시맨틱 웹 기반의 모델링과 추론에 대한 연구가 필요하다. 모델링을 위해 사용되는 OWL-DL과 임의의 사용자 규칙을 표현하는 SWRL은 각각 W3C의 표준안으로서, 유비쿼터스 컴퓨팅 환경에 효율적으로 자동적인 개인화 서비스[1][2]를 제공하는데 있어서 적합하다. 그러나 OWL-DL과 SWRL의 단순한 결합은 질의응답(Query Answering)에 대한 처리가 비결정 가능한(undecidable) 문제를 야기한다. 본 논문에서는, 비결정가능성 문제의 원인인 무한반복의 가능성을 제거하기 위한 블록(blocking) 방법을 제안한다. OWL-DL이 지닌 서술논리(Description Logic)의 표현력을 유지하고, 그에 따른 추론의 질적인 성능을 유지하는 범위에서 블록방법을 사용하여 결정 가능한 질의응답을 수행하는데 궁극적인 목적을 두고 있다. OWL-DL의 TBox에 위치하는 존재 정량자(Existential Quantifier)를 대체하고 ABox에 삽입하여, 무한반복의 가능성을 없애는 해결 방법을 제시한다. 실험은 비결정가능성 문제를 DL-Safe 규칙을 통해 해결한 KAON2와 비교하여 진행한다.

  • PDF

본문 데이타베이스 연구에 관한 고찰과 그 전망 (Future and Directions for Research in Full Text Databases)

  • 노정순
    • 한국문헌정보학회지
    • /
    • 제17권
    • /
    • pp.49-83
    • /
    • 1989
  • A Full text retrieval system is a natural language document retrieval system in which the full text of all documents in a collection is stored on a computer so that every word in every sentence of every document can be located by the machine. This kind of IR System is recently becoming rapidly available online in the field of legal, newspaper, journal and reference book indexing. Increased research interest has been in this field. In this paper, research on full text databases and retrieval systems are reviewed, directions for research in this field are speculated, questions in the field that need answering are considered, and variables affecting online full text retrieval and various role that variables play in a research study are described. Two obvious research questions in full text retrieval have been how full text retrieval performs and how to improve the retrieval performance of full text databases. Research to improve the retrieval performance has been incorporated with ranking or weighting algorithms based on word occurrences, combined menu-driven and query-driven systems, and improvement of computer architectures and record structure for databases. Recent increase in the number of full text databases with various sizes, forms and subject matters, and recent development in computer architecture artificial intelligence, and videodisc technology promise new direction of its research and scholarly growth. Studies on the interrelationship between every elements of the full text retrieval situation and the relationship between each elements and retrieval performance may give a professional view in theory and practice of full text retrieval.

  • PDF

LUKE 기반의 한국어 문서 검색 모델 (LUKE based Korean Dense Passage Retriever)

  • 고동률;김창완;김재은;박상현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.131-134
    • /
    • 2022
  • 자연어처리 분야 중 질의응답 태스크는 전통적으로 많은 연구가 이뤄지고 있는 분야이며, 최근 밀집 벡터를 사용한 리트리버(Dense Retriever)가 성공함에 따라 위키피디아와 같은 방대한 정보를 활용하여 답변하는 오픈 도메인 QA(Open-domain Question Answering) 연구가 활발하게 진행되고 있다. 대표적인 검색 모델인 DPR(Dense Passage Retriever)은 바이 인코더(Bi-encoder) 구조의 리트리버로서, BERT 모델 기반의 질의 인코더(Query Encoder) 및 문단 인코더(Passage Encoder)를 통해 임베딩한 벡터 간의 유사도를 비교하여 문서를 검색한다. 하지만, BERT와 같이 엔티티(Entity) 정보에 대해 추가적인 학습을 하지 않은 언어모델을 기반으로 한 리트리버는 엔티티 정보가 중요한 질문에 대한 답변 성능이 저조하다. 본 논문에서는 엔티티 중심의 질문에 대한 답변 성능 향상을 위해, 엔티티를 잘 이해할 수 있는 LUKE 모델 기반의 리트리버를 제안한다. KorQuAD 1.0 데이터셋을 활용하여 한국어 리트리버의 학습 데이터셋을 구축하고, 모델별 리트리버의 검색 성능을 비교하여 제안하는 방법의 성능 향상을 입증한다.

  • PDF

H*-tree/H*-cubing: 데이터 스트림의 OLAP를 위한 향상된 데이터 큐브 구조 및 큐빙 기법 (H*-tree/H*-cubing-cubing: Improved Data Cube Structure and Cubing Method for OLAP on Data Stream)

  • 심상예;이연;이동욱;김경배;배해영
    • 정보처리학회논문지D
    • /
    • 제16D권4호
    • /
    • pp.475-486
    • /
    • 2009
  • 데이터 큐브는 다차원 데이터 분석 및 멀티레벨 데이터 분석에 많이 사용되고 있는 중요한 데이터 구조이다. 최근 데이터 스트림의 온라인 분석에 대한 수요가 증가하면서 스트림 큐브, Flow 큐브, S-큐브 등의 다양한 데이터 큐브 구조와 기법이 제안되었다. 그러나 기존 기법들은 데이터 큐브 생성 시 고비용이 요구되는 단점을 가지고 있어 효과적인 데이터 구조, 질의 방법 및 알고리즘에 대한 연구가 필요하다. 스트림 큐브 기법에서는 H-큐빙 기법을 사용하여 큐보이드를 선택하고, 계산된 셀들을 인기 패스에 있는 큐보이드들로 구성된 H-트리에 저장한다. 그러나 스트림 큐브 기법에서는 H-트리에 데이터를 비순차적으로 삽입하기 때문에 H-큐빙 기법을 사용하여 질의를 처리할 때 제한성을 갖고 있다. 본 논문에서는 데이터의 트리 구조의 각 층에 대한 인덱스를 구축하여 스트림 데이터에 대한 빠른 삽입 연산을 지원하는 $H^*$-tree 구조와, popular-path에 존재하지 않는 큐보이드를 빨리 계산하여 스트림 데이터에 대한 빠른 애드 혹 질의 응답을 지원하는 $H^*$-cubing 기법을 제안한다. 성능평가를 통하여 제안한 $H^*$-tree 기법은 보다 적은 큐브 구축 시간을 지원하며, $H^*$-cubing 기법이 stream cube 기법보다 빠른 애드 혹질의 응답 시간을 소요하며, 보다 적은메모리를 사용함을 보여준다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

중첩된 버킷을 사용하는 다차원 히스토그램에 대한 개선된 알고리즘 (An Improved Algorithm for Building Multi-dimensional Histograms with Overlapped Buckets)

  • 문진영;심규석
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권3호
    • /
    • pp.336-349
    • /
    • 2003
  • 히스토그램은 최근들어 많은 관심을 끌고 있다. 히스토그램은 주로 상용 데이타베이스 관리 시스템에서 질의 최적화를 위해 속성의 값에 대한 데이타 분포를 추정하는데 사용되었다. 최근에는 근사 질의와 스트림 데이타에 대한 연구 분야에서 히스토그램에 대한 관심이 커지고 있다. 관계형 데이타베이스에서 두 개 이상의 속성에 대한 결합 데이타 분포를 근사시키는 가장 간단한 방법은 각 속성의 데이타 분포가 결합 데이타 분포에 독립적이라고 가정하는 속성 값 독립(Attribute Value Independence: AVI) 가정하 에서 각각의 속성에 대해서 히스토그램을 만드는 것이다 그러나 실제 데이타에서 이 가정은 잘 맞지 않는다. 따라서 이 문제를 해결하기 위해서 웨이블릿, 랜덤 샘플링, 다차원 히스토그램과 같은 기법들이 제안되 었다. 그 중에서 GENHIST는 실수형 속성에 대한 데이타 분포를 근사시키기 위해 고안된 다차원의 히스토그램이다. GENHIST는 데이타 분포를 좀 더 효과적으로 근사시키기 위해서 중첩되는 버킷을 사용한다. 본 논문에서는 SSE(Sum Squared Error)를 최소화시키는 중첩되는 버킷들의 최적 빈도를 결정하는 OPT 알고리즘을 제안한다. 처음에 GENHIST에 의해 중첩되는 버킷으로 구성되는 히스토그램을 만든 후에 OPT 알고리즘에 의해서 각 버킷의 빈도를 다시 계산해서 GENHIST를 개선시킬 수 있다. 실험 결과는 OPT 알고리즘이 GENHIST에 의해 만들어진 히스토그램의 정확도를 크게 개선시킴을 보여준다.

토지 컨설팅 정보시스템(ALGOSA) 구축 (Construction of Land Consulting Information System)

  • 이상길;정종철
    • Spatial Information Research
    • /
    • 제12권1호
    • /
    • pp.57-71
    • /
    • 2004
  • 이 토지 컨설팅 정보 시스템(Land Consulting Information System)은 토지에 건축, 형질 변경 등 개발행위와 관련하여 구입토지의 선정에서부터 개발의사결정에 이르는 여러가지 토지법률정보, 요구토지의 입지조건정보, 개발목적에 부합하는 토지의 분포정보, 매매나 세입 관련 부동산 정보 등 사람들의 다양한 요구조건과 의사결정 요소들을 컴퓨터 시스템을 통해 질의하고 검색, 분석함으로서 경제적이고 신속한 정보의 취득과 이를 통한 신뢰성 있는 개발과 구입의 의사결정 정보를 제공(지원)하기위한 목적에서 개발되었다. 시스템 기능의 인지도를 향상시키기 위해 "ALGOSA" 라 별칭의 로고를 부여하였으며, 일반 개인은 물론 현존하는 전국의 수만 업체에 이르는 부동산사무소(공인 중개사), 측량설계사무소, 건축설계사무소, 전문토지개발회사 등 컨설팅 업체를 중심으로 시스템 보급의 필요성이 기대되며, 나아가 지방자치단체의 개발관련 인허가부서에서도 이 시스템을 도입함으로서 개발행위 인허가 토지의 체계적 관리는 물론 불법 개발행위 단속과 객관적인 공시지가부여 기준제시를 위한 실제 토지이용 정보제공 등 폭넓은 시스템 도입의 효과가 기대된다.

  • PDF

마코프 논리 기반의 시맨틱 문서 검색 (Semantic Document-Retrieval Based on Markov Logic)

  • 황규백;봉성용;구현서;백은옥
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권6호
    • /
    • pp.663-667
    • /
    • 2010
  • 본 논문은 질의 문서와 의미가 유사한 문서를 검색하는 문제를 다룬다. 이 문제에 대한 기본적인 접근법은 각 문서를 bag-of-words 형태로 표현한 후, 코사인 유사도 등의 거리 기준에 기반하여 유사 문서를 판별하는 것이다. 그러나, 이처럼 문서에 출현하는 단어에만 의존하는 검색 방법은 의미적 유사성을 제대로 반영하기 어렵다는 단점을 가진다. 본 논문에서는 이러한 문제를 극복하기 위해 데이터 기반의 감독 학습(supervised learning) 기법과 관련 온톨로지 정보를 마코프 논리(Markov logic)에 기반하여 결합한다. 구체적으로, 단어들 사이에 존재하는 관계를 표현한 온톨로지와 유사도가 태깅된 문서 데이터에서 마코프 논리 망(Markov logic network)을 학습하며, 학습된 마코프 논리 망과 문서 데이터 및 새로 주어진 질의 문서에 대한 추론을 통해 질의 문서와 의미적으로 유사한 문서를 검색하는 기법을 제안한다. 제안하는 접근법은 서울시의 민원서비스 홈페이지에서 수집된 실제 민원 데이터에 적용되었으며, 적용 결과, 단순한 문서 간 거리에 기반한 유사 문서 검색 기법에 비해 월등히 높은 정확도를 보였다.