• 제목/요약/키워드: 연관 검색

검색결과 639건 처리시간 0.024초

KorQuAD를 활용한 한국어 오픈도메인 질의응답 시스템 (Korean Open Domain Question Answering System Using KorQuAD)

  • 조상현;김민호;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.321-325
    • /
    • 2019
  • 오픈 도메인 질의응답이란, 질문을 줬을 때 그 질문과 연관성이 높은 문서를 검색하고 검색된 문서에서 정답을 추출하는 태스크이다. 본 논문은 기계 독해 데이터인 KorQuAD를 활용한 오픈도메인 질의응답 시스템을 제안한다. 문서 검색기를 이용하여 질문과 관련 있는 위키피디아 문서들을 검색하고 검색된 문서에 단락 선택 모델을 통해서 문서 질문과 연관성이 높은 단락들을 선별하여 기계 독해 모델에서 처리해야 할 입력의 수를 줄였다. 문서 선별모델에서 선별된 여러 단락에서 추출된 정답 후보에서 여러 가지 정답 모형을 적용하여 성능을 비교하는 실험을 하였다. 본 논문에서 제안한 오픈도메인 질의응답 시스템을 KorQuAD에 적용했을 때, 개발 데이터에서 EM 40.42%, F1 55.34%의 성능을 보였다.

  • PDF

한시적 연관규칙을 위한 데이타 주도 탐사 기법 (Data-Driven Exploration for Transient Association Rules)

  • 조일래;김종덕;이도헌
    • 한국정보처리학회논문지
    • /
    • 제4권4호
    • /
    • pp.895-907
    • /
    • 1997
  • 연관규칙(asscociation rule) 탐사(mining)는 대용량 데이타베이스로부터 사건간의 동시 발생 경향을 발견하는 작업이다. 기존의 연관규칙은 전체 트랜잭션에 대하여 성립하는 사건 간의 연관 관계만을 고려하고 있다. 그러나 어떤 연관규칙은 비록 전체 시간구간에 대해서는 신뢰도가 그리 높지 않더라도 특징 기간에서 특별히 강한 신뢰도로 성립할 수 있고, 이러한 정보를 알 수 있다면 의사 결정에 매우 유용하리라고 생각한다. 본 논문 에서는 임의의 부분 시간구간에서 특별히 높은 신뢰도를 갖는 연관성을 한시적 연관규칙(transient assosiation rule)이라 정의하고, 대용량의 데이타베이스로부터 한시적 연관규칙이 성립하는 시간구간을 탐사하는 효율적인 알고리즘을 제안한다. 제안된 알고리즘은 불필요한 구간 검색을 배제할 수 있는 데이타 주도(data-driven) 검색 기법을 제시하고, 한 번의 데이타베이스 스캐닝(scaning)으로 다음 단계의 검색에 필요한 정보를 획득하여 주기억장치 상에 관리할 수 있도록 하는 효과적인 자료구조를 설계한다. 아울러 실험을 통해, 제안 알고리즘이 현장에 적용할 만한 시간 비용으로 수행됨을 보인다.

  • PDF

지능적 웹 이미지 검색 엔진의 설계 (Design of Intelligeng Web Image Search Engine)

  • 박명선;이석호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.51-53
    • /
    • 1999
  • 기존의 웹 이미지 검색 엔진은 웹 이미지를 검색할 때 웹 이미지의 특징과, 웹 이미지를 포함한 HTML 문서의 텍스트를 이용한다. 그러나, 텍스트는 문맥에 따라 의미가 달라질 수 있으므로, 검색 대상을 미리 분류하면 검색 효율을 높일 수 있다. 본 논문은 웹 문서의 텍스트에서 이미지와 관련이 있는 이미지 설명 텍스트를 자동으로 추출하고, 검색 효율을 높이기 위하여 웹 이미지를 자동으로 분류하는 지능적 웹 이미지 검색 엔진을 제안한다. 지능적 웹 이미지 검색 엔진은 분류와 용어, 용어와 용어 사이의 연관도를 이용하여 분류의 정확도를 높인다.

  • PDF

모바일 클라우드 환경의 키워드 개념 망을 이용한 정보 검색 시스템 (Information Retrieval System using Keyword-Base Concept Nets in Mobile Cloud)

  • 문석재;윤창표
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2013년도 추계학술대회
    • /
    • pp.661-663
    • /
    • 2013
  • 본 논문은 모바일 클라우드에서 급격하게 증가하는 정보 검색을 위한 키워드 기반의 개념 망을 이용한 데이터를 효율적으로 검색 가능하도록 한 모델을 제안한다. 키워드 기반의 개념 망은 온톨로지를 적용한 방식이지만, 사용자가 효율적인 정보 검색을 하도록 지원하기 위해 개념 사이의 연관성을 추가한 것이다. 따라서 본 논문에서는 키워드 중심의 개념 망, 전문가 그룹이 추천한 분야 개념 망 그리고 프로세스 개념 망으로 구성한다. 이러한 3가지 종류의 개념을 이용하여 사용자는 모바일 클라우드 내에서 키워드 기반으로 정보를 검색하고, 검색된 결과에 따라 연관성 있는 정보를 검색할 수 있다.

  • PDF

연관규칙을 이용한 문헌정보학 전문용어 클러스터링 기법에 관한 연구 (A Clustering Technique Using Association Rules for The Library and Information Science Terminology)

  • 승현우;박미영
    • 한국문헌정보학회지
    • /
    • 제37권2호
    • /
    • pp.89-105
    • /
    • 2003
  • 본 논문에서는 대량의 웹 문서로부터 연관된 지식정보를 검색하기 위한 전문 검색엔진을 개발하기 위하여 텍스트에서 추출된 전문 용어를 효율적으로 클러스터링하기 위한 방법을 제안하고자 한다. 즉, 일반적인 용어들간의 무의미한 연관 규칙이 양산되는 것을 방지하기 위하여 전문 용어로 구성된 지식베이스 테이블을 이용하여 의미 있는 용어들간의 연관 규칙을 생성한다. 연관 규칙은 하나의 논문에서 사용된 전문 용어들의 집합을 트랜잭션 단위로 구성하여 Apriori 알고리즘을 적용하여 생성된다. 하나의 용어로부터 생성된 연관 규칙 집합은 해당 전문 용어와 관련된 클러스터로 구성된다.

검색 성능 향상을 위한 약품 온톨로지 기반 연관 피드백 (Relevance Feedback based on Medicine Ontology for Retrieval Performance Improvement)

  • 임수연
    • 정보관리학회지
    • /
    • 제22권2호
    • /
    • pp.41-56
    • /
    • 2005
  • 기계가 정보의 의미를 이해하고 처리할 수 있도록 기존의 웹을 확장하는 것을 목적으로 하는 시멘틱 웹은 온톨로지를 이용하여 지식을 공유하게 된다. 본 논문에서는 정교한 질의의 처리를 위하여 온톨로지 내에 존재하는 의미 관계들을 질의의 확장을 위한 연관피드백 정보로 이용하는 방안을 제안한다. 실험은 도메인 온톨로지인 Medicine 온톨로지를 대상으로 하였으며, 출현 용어들의 빈도정보만을 이용한 키워드 기반 문서검색과 제안한 온톨로지기반 문서검색의 성능을 비교하였다. 이 때, 두 시스템의 정확률과 재현율을 성능 평가의 기준으로 삼았다. 그 결과, 검색 엔진은 온톨로지에 정의된 개념들과 규칙들을 활용하면서 검색의 정확률을 향상시키는데 도움이 되었고 검색 성능을 향상시키기 위한 추론의 기반으로도 사용될 수 있었다.

한글 글자단위 검색 기능 구현에서의 검색 유형 정의 및 한글 부호계와의 연관성에 관한 연구 (A proposal on the framework of searching patterns for Hangul characters and Its relationship with Hangul code)

  • 이종화;김경석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1994년도 제6회 한글 및 한국어정보처리 학술대회
    • /
    • pp.282-287
    • /
    • 1994
  • 본 논문에서는 글자 단위를 기본으로 하는 한글 검색 기능을 구현할 때 적용될 수 있는 검색유형 (search pattern) 들은 어떠한 것들이 존재할 수 있는지에 대해 먼저 살펴보고, 검색 알고리즘에 적용시켜 본다. 이 때 부호계와의 연관성과 효율성을 따져보기 위해서 두 바이트 상용조합형, 두 바이트 KS C 5601 완성형, n-바이트 (3 바이트) 부호계, 그리고 국제 표준 한글 부호계의 첫-가-끝 부호계 등 여러가지 부호계를 사용할 때를 서로 비교해 본다. 각 부호계를 사용할 때 알고리즘이 조금씩 바뀌게된다. 그 변형을 살펴보면 그 효율을 측정할 수 있는데, 한글 글자단위 검색 등의 유형의 작업에서는 조합방식의 부호계를 사용하면 더욱 편리하다는 것을 알 수 있다. 이는 단순히 한글 글자단위 검색 기능에서 유리하다고 하기보다는 한글의 특성을 더 잘 반영하고 있다고 할 수 있는 것이다. 또한 조합방식의 부호체계 중에서도 별도의 연산값이 소리마디에서 글자를 분리해 낼 수 있는 부호계 (3-바이트 부호계, 첫-가-끝 부호계) 의 경우는 글자를 기본 단위로 처리하고자 하는 응용 분야에서 더욱 편리하게 사용될 수 있다.

  • PDF

시맨틱 연관성 검색을 위한 ${\rho}$-intersect 연산의 처리 (Processing of ${\rho}$-intersect Operation for Semantic Association Discovery)

  • 김성완
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2011년도 제43차 동계학술발표논문집 19권1호
    • /
    • pp.285-288
    • /
    • 2011
  • 시맨틱 웹상에서 메타 데이터를 표현하는 RDF 데이터에 대한 질의 처리를 위해 여러 가지 RDF 질의어가 제안되었으나 리소스간의 복잡한 관계성들의 발견(discovery)을 위한 충분한 지원을 하지 못하고 있다. 본 논문에서는 시맨틱 연관성 검색 유형의 하나인 ${\rho}$-intersect 연산의 처리 방법을 소개한다. 이를 위해 접미사 배열을 이용한 인덱싱과 ${\rho}$-intersect 연산의 특징을 고려한 최적화 방법을 활용한다. 제안된 처리 기법을 통해 전형적인 RDF 질의 유형뿐만 아니라 시맨틱 연관성 질의 유형도 지원할 수 있도록 한다.

  • PDF

질의응답 시스템에서 의미 연관성 참조를 위한 온톨로지의 자동 구축 (Automatic Ontology Construction for Semantic Relevance in Question Answering System)

  • 김혜정;강보영;황선욱;이상조
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.109-111
    • /
    • 2003
  • 본 논문에서는 질의응답 시스템에서 질의에 포함된 언어 정보와 검색 대상 문장 사이의 의미 연관성을 참조하여 정확한 결과를 추출 가능하도록 하는 온톨로지의 자동 구축 방법을 제시한다. 검색 대상 문장은 웹에서의 활용과 표준화를 위하여 단어 태그, 품사 정보 및 파싱 구조를 갖는 XML 문서로 변환하고, 이 구조를 이용한 연관성 분석을 위해 의미망을 갖는 온톨로지를 자동으로 생성할 수 있도록 하였다. 온톨로지에서 의미 연관성을 결정하는데 중요하게 활용되는 개념으로써는 동사의 행위, 명사절 그룹 매치, 복합명사 선별, 고유명사 매치, 품사 태깅 등이 있다. 제안한 방법의 성능은 NIST TREC-10의 질의 응답문을 사용해서 단어 패턴 매치 방법과 비교 분석하였으며, 본 논문에서 제안한 방식이 재현율과 정확율 측면에서 우수한 성능을 나타냄을 입증하였다.

  • PDF

개선된 Spreading Activation을 이용한 객체지향 컴포넌트의 검색 (Retrieval of Object-Oriented Component using Enhanced Spreading Activation)

  • 김귀정
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1949-1952
    • /
    • 2002
  • 본 연구는 객체지향 컴포넌트 검색을 위해서 개선된 Spreading Activation 방법을 이용하여 다중 패싯 분류된 컴포넌트를 효율적으로 검색할 수 있는 방법을 제안하였다. 객체지향 코드 기반의 관계정의를 위해 특성과 컨텍스트 간에 연관관계를 설정하고, 컨덱스트의 자동 추출을 위한 Spreading Activation 방법의 초기 활성값을 정의하였다. 쿼리에 대해 자동 검색된 컨텍스트에 의해 후보컴포넌트가 선정되고, 쿼리와 컴포넌트 간의 신뢰도가 계산됨으로써 컴포넌트가 검색될 수 있도록 하였다. 본 연구는 다중 패싯 분류된 객체지향 컴포넌트의 검색에 효율적이며, 사용자 수작업의 부담을 최대한 감소시켜 컴포넌트의 재사용성을 높일 수 있도록 하였다.

  • PDF