• 제목/요약/키워드: Multi-lingual Information Retrieval

검색결과 4건 처리시간 0.017초

A Method of Chinese and Thai Cross-Lingual Query Expansion Based on Comparable Corpus

  • Tang, Peili;Zhao, Jing;Yu, Zhengtao;Wang, Zhuo;Xian, Yantuan
    • Journal of Information Processing Systems
    • /
    • 제13권4호
    • /
    • pp.805-817
    • /
    • 2017
  • Cross-lingual query expansion is usually based on the relationship among monolingual words. Bilingual comparable corpus contains relationships among bilingual words. Therefore, this paper proposes a method based on these relationships to conduct query expansion. First, the word vectors which characterize the bilingual words are trained using Chinese and Thai bilingual comparable corpus. Then, the correlation between Chinese query words and Thai words are computed based on these word vectors, followed with selecting the Thai candidate expansion terms via the correlative value. Then, multi-group Thai query expansion sentences are built by the Thai candidate expansion words based on Chinese query sentence. Finally, we can get the optimal sentence using the Chinese and Thai query expansion method, and perform the Thai query expansion. Experiment results show that the cross-lingual query expansion method we proposed can effectively improve the accuracy of Chinese and Thai cross-language information retrieval.

다국어 질의응답을 위한 한국어 해석 시스템 설계 및 구현 (Design and Implementation of a Korean Analysis System for Multi-lingual Query Answering)

  • 강원석;황도삼
    • 컴퓨터교육학회논문지
    • /
    • 제7권4호
    • /
    • pp.43-50
    • /
    • 2004
  • 다국어 질의 응답 시스템은 여러 언어의 질의에 대한 응답을 하는 시스템이다. LASSO 시스템은 다국어 질의응답 시스템 중의 하나이다. 본 논문은 LASSO 시스템을 위한 한국어 해석 시스템의 설계 및 구현에 관한 것이다. 질의 응답을 위한 한국어 해석 시스템은 한국어 질의를 처리할 수 있는 대화체 처리 기술이 필요하다. 그리고 다양한 분야의 질의에 대한 응답을 할 수 있는 범용의 시스템이어야 한다. 본 논문의 한국어 해석 시스템은 이와 같은 사항을 만족하기 위하여 심도 깊은 대화체 처리 기술보다 실용성이 높은 휴리스틱 규칙을 활용하였다. 이 시스템은 다국어 질의 응답 시스템의 한국어 인터페이스 역할을 하는 것으로 질의 응답 시스템의 목적에 맞게 설계, 구현되었다. 본 해석 시스템에 적용된 기술은 정보검색 분야와 한국어 해석 분야에 응용할 수 있다.

  • PDF

다국어 정보 검색을 위한 적대적 언어 적응을 활용한 ColBERT (ColBERT with Adversarial Language Adaptation for Multilingual Information Retrieval)

  • 김종휘;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.239-244
    • /
    • 2023
  • 신경망 기반의 다국어 및 교차 언어 정보 검색 모델은 타겟 언어로 된 학습 데이터가 필요하지만, 이는 고자원 언어에 치중되어있다. 본 논문에서는 이를 해결하기 위해 영어 학습 데이터와 한국어-영어 병렬 말뭉치만을 이용한 효과적인 다국어 정보 검색 모델 학습 방법을 제안한다. 언어 예측 태스크와 경사 반전 계층을 활용하여 인코더가 언어에 구애 받지 않는 벡터 표현을 생성하도록 학습 방법을 고안하였고, 이를 한국어가 포함된 다국어 정보 검색 벤치마크에 대해 실험하였다. 본 실험 결과 제안 방법이 다국어 사전학습 모델과 영어 데이터만을 이용한 베이스라인보다 높은 성능을 보임을 실험적으로 확인하였다. 또한 교차 언어 정보 검색 실험을 통해 현재 검색 모델이 언어 편향성을 가지고 있으며, 성능에 직접적인 영향을 미치는 것을 보였다.

  • PDF