• 제목/요약/키워드: 검색 언어

검색결과 949건 처리시간 0.024초

과도한 지식을 요구하지 않는 공통기반축에 의한 용어 번역과 한영 교차정보검색에의 응용 (Knowledge-poor Term Translation using Common Base Axis with application to Korean-English Cross-Language Information Retrieval)

  • 최용석;최기선
    • 인지과학
    • /
    • 제14권1호
    • /
    • pp.29-40
    • /
    • 2003
  • 교차언어 정보검색은 다국어 정보검색의 일부분으로 질의어에서 사용하는 언어와 검색대상인 문서의 언어가 서로 다른 경우의 정보검색을 의미한다. 교차언어 정보검색의 성능 향상을 위해서는 양질의 언어자원이 대량으로 필요한 경우가 많기 때문에 이를 해결하기 쉽지 않다. 본 논문에서는 사전에 기반한 대역어 후보 선정 시, 가중치를 부여해 질의어를 변환하는 방식을 제안한다. 가중치 계산에 이용되는 의미거리는 영어 명사와 한국어 명사를 같은 벡터 공간에 표현하고, 두 벡터간의 관계를 이용해 거리를 계산한다. 서로 다른 두 언어의 명사를 한 공간에 표현하기 위해 "공통 기반축"의 개념을 제시하고, 구축 방법을 제안한다. 고급 자원인 온톨로지를 확보하지 않고, 제안하는 방법으로 우수한 정보검색 결과를 얻을 수 있다는 것을 실험을 통해 보여준다.을 통해 보여준다.

  • PDF

OWL 기반의 SPARQL을 이용한 시맨틱 검색 (OWL-Based Semantic Search using SPARQL)

  • 하상범;한은영;최호준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (2)
    • /
    • pp.706-708
    • /
    • 2005
  • 시맨틱 웹의 등장으로 시맨틱 검색에 대한 관심이 높아졌다. 이에 본 논문에서는 시맨틱 웹 환경의 자원들을 이용하여 시맨틱 검색을 수행하는 검색방법을 제안한다. 기존의 SPARQL(Simple Protocol and RDF Query Language) 시맨틱 질의언어는 추론의 기능 없이 RDF(Resource Description Framework)에서 제공하는 SPO(subiect, predicate, object) 형태의 트리플 패턴 매치만을 제공한다. 본 논문의 시스템은 기존의 SPARQL질의 시스템에 시맨틱 추론기능을 추가하여 검색 결과에 효율성을 증가 시키는 것을 목적으로 한다. 본 논문에서의 시스템은 다음과 같은 특징을 갖는다. 첫째, 시맨틱 웹 환경의 온톨로지 구축을 위해서 W3C에서 온톨로지 언어로 표준화된 OWL(Web Ontology Language)를 사용하여 검색 환경을 구축한다. 둘째, 온톨로지와 메타데이터를 추론하여 시맨틱 검색을 유도하는 OWL추론기를 사용한다. 시맨틱 추론은 온롤로지의 공리(Axiom)을 충분히 활용하는 온톨로지기반 시맨틱 추론과 검색 도메인에 맞는 규칙을 활용하는 사용자 컨텍스트 기반의 시맨틱 추론으로 이루어진다. 셋째, 다양한 시맨틱 검색을 위해 W3C에서 제안되어 차세대 시맨틱 검색 질의언어로 연구중인 SPARQL을 사용한다. 이와 같은 특징은 시맨틱 검색 시스템이 시맨틱 웹 환경의 자원을 충분히 활용하는 결과를 가져온다.

  • PDF

영상을 이용한 정보검색 (Information Retrieval Using Images)

  • 최윤경;이은애;하석운
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (1)
    • /
    • pp.37-39
    • /
    • 2002
  • 정보 검색 시스템은 인터넷에 존재하는 수많은 정보 중에서 사용자가 필요한 특정 정보만을 포함하는 문서를 검색할 수 있다. 현재 정보 검색 시스템은 텍스트를 입력하는 방식을 이용한다. 검색어를 이용하게 되면 몇 개의 키워드를 통하여 원하는 정보를 신속하게 찾을 수 있지만 언어를 기반으로 하기 때문에 각 나라의 언어와 키워드를 알아야 사용할 수 있다는 단점이 있다. 이런 문제점을 해결하기 위해 본 시스템은 언어와 키워드를 알지 못하더라도 정보 검색이 가능하도록 누구나 쉽게 의미를 알 수 있는 영상을 질의로 하는 시스템을 제안한다. 본 시스템은 데이터베이스 내에 200개의 비교 대상 영상들을 5개의 대분류로 나눈 후 각각 3개의 소분류로 나누어 영상의 특징 및 키워드를 추출하여 영상특징키워드 데이터베이스(IFKDB, Image Feature Keyword DataBase)에 저장하였다. 사용자 인터페이스를 통해 새로운 영상을 만들거나 흑은 기존에 만들어진 영상을 선택하여 질의로 사용하면 질의 영상의 특징 중 에지를 추출하여 IFKDB와 비교하여 유사도가 높은 영상의 키워드 중 적정 개수를 선택하여 정보 검색의 키워드로 사용할 수 있게 하였다. 사용자가 그린 단순한 영상으로 검색이 가능하고 사용자가 원하는 영상과 비슷한 영상을 찾을 수 있으며 영상으로 정보 검색이 가능하므로 검색의 편의성을 제공한다.

  • PDF

국내 문자정보 데이터베이스의 색인에 관한 연구 (Development of an Indexing Model for Korean Textual Databases)

  • 정영미
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.19-43
    • /
    • 1996
  • 본 연구에서는 국내 텍스트 데이터베이스의 색인언어 및 색인기법에 관한 현황을 분석하고, 3개의 텍스트 데이터베이스를 대상으로 하여 자연언어 색인과 통제언어 색인의 검색 성능을 평가하는 실험을 수행하였다. 조사결과 국내 텍스트 데이터베이스의 대부분이 자연언어 색인 방식을 사용하고 있었으며 검색 실험에서는 적절한 탐색전략을 사용하는 경우 자연언어가 통제언어보다 검색성능이 우수한 것으로 평가되었다. 색인현황에 관한 조사와 검색 성능의 실험 결과에 근거하여 국내 텍스트 데이터베이스를 위한 효율적인 색인 모형을 제시하였다.

  • PDF

검색 증강 LLM을 통한 한국어 질의응답 (Korean QA with Retrieval Augmented LLM)

  • 서민택;나승훈;임준호;김태형;류휘정;장두성
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.690-693
    • /
    • 2023
  • 언어 모델의 파라미터 수의 지속적인 증가로 100B 단위의 거대 언어모델 LLM(Large Language Model)을 구성 할 정도로 언어 모델의 크기는 증가 해 왔다. 이런 모델의 크기와 함께 성장한 다양한 Task의 작업 성능의 향상과 함께, 발전에는 환각(Hallucination) 및 윤리적 문제도 함께 떠오르고 있다. 이러한 문제 중 특히 환각 문제는 모델이 존재하지도 않는 정보를 실제 정보마냥 생성한다. 이러한 잘못된 정보 생성은 훌륭한 성능의 LLM에 신뢰성 문제를 야기한다. 환각 문제는 정보 검색을 통하여 입력 혹은 내부 표상을 증강하면 증상이 완화 되고 추가적으로 성능이 향상된다. 본 논문에서는 한국어 질의 응답에서 검색 증강을 통하여 모델의 개선점을 확인한다.

  • PDF

인터넷기반 멀티미디어 정보검색시스템 : 옥서'95의 색인 및 검색 (Design and Implementation of a Multimedia Information Retrieval System based on Internet)

  • 강현규;장호욱;전미선;박세영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1996년도 제8회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.85-92
    • /
    • 1996
  • 본 논문은 인터넷 기반의 멀티미디어 정보 검색 시스템인 옥서 '95의 정보 색인 및 검색에 대한 설계 및 구현에 대하여 논한다. 정보 구축시 키워드의 확장 개념으로서의 키팩트 추출과 모호성 해소 그리고 키팩트, 하이퍼 문서 및 멀티미디어 데이타의 색인을 한다. 또한 검색시 자연언어 질의에 대한 키팩트의 추출, 확장 및 서열처리를 통하여 사용자가 원하는 정보를 검색하게 한다. 검색대상의 문서로서 백과사전, 신문기사, 기술문서를 다루었으며 여러가지 검색 기능을 설계 및 구현하였다. 전문을 대상으로 색인 및 검색을 하였으며 앞으로 전자도서관이나 정보통신 서비스에 활용할 예정이다.

  • PDF

패션앱 후기글 평가분석에 기반한 의류 검색추천 챗봇 개발을 위한 학습데이터 EVAD 구축 (Construction of Evaluation-Annotated Datasets for EA-based Clothing Recommendation Chatbots)

  • 최수원;황창회;유광훈;남지순
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.467-472
    • /
    • 2021
  • 본 연구는 패션앱 후기글에 나타나는 구매자의 의견에 대한 '평가분석(Evaluation Analysis: EA)'을 수행하여, 이를 기반으로 상품의 검색 및 추천을 수행하는 의류 검색추천 챗봇을 개발하는 LICO 프로젝트의 언어데이터 구축의 일환으로 수행되었다. '평가분석 트리플(EAT)'과 '평가기반요청 쿼드러플(EARQ)'의 구성요소들에 대한 주석작업은, 도메인 특화된 단일형 핵심어휘와 다단어(MWE) 핵심패턴들을 FST 방식으로 구조화하는 DECO-LGG 언어자원에 기반하여 반자동 언어데이터 증강(SSP) 방식을 통해 진행되었다. 이 과정을 통해 20여만 건의 후기글 문서(230만 어절)로 구성된 EVAD 평가주석데이터셋이 생성되었다. 여성의류 도메인의 평가분석을 위한 '평가속성(ASPECT)' 성분으로 14가지 유형이 분류되었고, 각 '평가속성'에 연동된 '평가내용(VALUE)' 쌍으로 전체 35가지의 {ASPECT-VALUE} 카테고리가 분류되었다. 본 연구에서 구축된 EVAD 평가주석 데이터의 성능을 평가한 결과, F1-Score 0.91의 성능 평가를 획득하였으며, 이를 통해 향후 다른 도메인으로의 확장된 적용 가능성이 유효함을 확인하였다.

  • PDF

웹기반 말뭉치 정보 검색 시스템 (Web-based Corpus Information Retrieval System)

  • 이정호;임희석
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2008년도 추계학술발표논문집
    • /
    • pp.260-263
    • /
    • 2008
  • 본 논문은 대용량의 한글어 말뭉치를 이용하여 언어학적 통계정보를 자동으로 검색할 수 있는 웹기반 언어정보 검색 시스템을 제안하고 구현하였다. 구현한 시스템을 통해 형태소, 품사, 어절 정보를 자동으로 획득할 수 있었다. 본 시스템은 언어학적 지식이 부족한 비전문가도 말뭉치 검색을 효율적으로 수행할 수 있으며, 웹기반으로 구현되었기 때문에 시스템 접근의 용의성에 의의가 있다.

  • PDF

퍼지 지식베이스를 이용한 효과적인 다언어 문서 검색 (Effective Cross-Lingual Text Retrieval using a Fuzzy Knowledge Base)

  • 최명복
    • 한국인터넷방송통신학회논문지
    • /
    • 제8권1호
    • /
    • pp.53-62
    • /
    • 2008
  • 다언어 문서검색(CLTR; Cross-Lingual Text Retrieval)은 하나의 언어로 질의가 주어질 때, 그 질의의 언어와는 다른 언어로 되어 있는 문서들을 검색하는 정보 검색을 말한다. 본 논문에서는 두 언어 사이의 용어들 간에 부분 매칭을 다룰 수 있도록 하기 위해 퍼지 다언어 시소러스 기반의 다언어 문서검색 시스템을 제안한다. 제안된 다언어 문서검색 시스템에서는 효과적인 추론을 위해 퍼지 용어 매트릭스를 정의하여 이용한다. 정의된 퍼지 용어 매트릭스에서 용어들 간의 모든 관련도가 전이폐쇄 알고리즘을 이용하여 추론함으로써 용어들 간의 묵시적인 링크가 모두 검색에 반영된다. 이에 따라 제안된 방법은 인간 전문가에 좀 더 가까운 정보검색을 수행하여 검색 효과를 높이게 된다.

  • PDF

인터넷 홈페이지 검색시스템 구현과 검색효율 향상 (Implementation of an Internet Homepage Retrieval System and Improvement of Retrieval Efficiency)

  • 박현주;최재덕;강상배;박승;박용욱;권혁철
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1997년도 제9회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.227-232
    • /
    • 1997
  • 이 논문은 인터넷 홈페이지를 검색하는 정보검색시스템인 미리내 시스템을 제시한다. 웹 문서의 특성을 고려하여 로봇의 기능을 확장하고, 색인, 등록, 수정, 삭제, 분류의 자동화를 구현하여 관리효율을 높인다. 자동화에 따른 문제점과 해결방법을 제시하고, 불리언질의검색 외에 자연언어질의 검색에서 질의어 확장의 방법으로 웹페이지 링크속성검색, Relevance feedback을 통한 검색효율을 높인다.

  • PDF