• 제목/요약/키워드: multi-language

검색결과 675건 처리시간 0.022초

다국어 정보 검색을 위한 적대적 언어 적응을 활용한 ColBERT (ColBERT with Adversarial Language Adaptation for Multilingual Information Retrieval)

  • 김종휘;김윤수;이근배
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.239-244
    • /
    • 2023
  • 신경망 기반의 다국어 및 교차 언어 정보 검색 모델은 타겟 언어로 된 학습 데이터가 필요하지만, 이는 고자원 언어에 치중되어있다. 본 논문에서는 이를 해결하기 위해 영어 학습 데이터와 한국어-영어 병렬 말뭉치만을 이용한 효과적인 다국어 정보 검색 모델 학습 방법을 제안한다. 언어 예측 태스크와 경사 반전 계층을 활용하여 인코더가 언어에 구애 받지 않는 벡터 표현을 생성하도록 학습 방법을 고안하였고, 이를 한국어가 포함된 다국어 정보 검색 벤치마크에 대해 실험하였다. 본 실험 결과 제안 방법이 다국어 사전학습 모델과 영어 데이터만을 이용한 베이스라인보다 높은 성능을 보임을 실험적으로 확인하였다. 또한 교차 언어 정보 검색 실험을 통해 현재 검색 모델이 언어 편향성을 가지고 있으며, 성능에 직접적인 영향을 미치는 것을 보였다.

  • PDF

Gnu Ada'95 런타임 라이브러리 (GNARL): 태스킹의 구현과 성능향상 (Gnu Ada'95 Runtime Library (GNARL): Tasking Implementation and Performance Improvement)

  • 문승진;오동익
    • 한국정보처리학회논문지
    • /
    • 제5권11호
    • /
    • pp.2809-2822
    • /
    • 1998
  • GNARL은 GNAT Asa'95 컴파일러의 런타임 시스템으로, Ada'95언어의 멀티태스킹 기능의 지원을 담당한다. 공개 소프트웨어인 GNARL과 GNAT을 사용하면 프로그래밍언어, 컴파일러, 실시간 기능을 지원하는 런타임 시스템에 대한 연구를 자유롭게 수행 할 수 있는데, 본 연구에서는 GNARL과 GNAT의 총체적인 구조와 구현 원리 및 Asa'95의 멀티태스킹의 효율성, 예측성 및 안정성 향상에 대한 연구 결과에 대해 설명한다.

  • PDF

멀티 레이어 포인터 네트워크를 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing with Multi-layer Pointer Networks)

  • 박천음;황현선;이창기;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.92-96
    • /
    • 2017
  • 딥 러닝 모델은 여러 히든 레이어로 구성되며, 히든 레이어의 깊이가 깊어질수록 레이어의 벡터는 높은 수준으로 추상화된다. 본 논문에서는 Encoder RNN의 레이어를 여러 층 쌓은 멀티 레이어 포인터 네트워크를 제안하고, 멀티 태스크 학습 기반인 멀티 레이어 포인터 네트워크를 이용한 한국어 의존 구문 분석 모델을 제안한다. 멀티 태스크 학습 모델은 어절 간의 의존 관계와 의존 레이블 정보를 동시에 구하여 의존 구문 분석을 수행한다. 실험 결과, 본 논문에서 제안한 모델이 기존 한국어 의존 구문 분석 연구들 보다 좋은 UAS 92.16%, LAS 89.88%의 성능을 보였다.

  • PDF

디지탈 신호처리용 고정 소수점 최적화 유틸리티 (Fixed-point optimization utility for digital signal processing programs)

  • 김시현;성원용
    • 전자공학회논문지C
    • /
    • 제34C권9호
    • /
    • pp.33-42
    • /
    • 1997
  • Fixed-point optimization utility software that can aid scaling and wordlength determination of digital signal processign algorithms written in C or C$\^$++/ language is developed. This utility consists of two programs: the range estimator and the fixed-point simulator. The former estimates the ranges of floating-point variables for automatic scaling purpose, and the latter translates floating-point programs into fixed-point equivalents for evaluating te fixed-point performance by simulation. By exploiting the operator overloading characteristics of C$\^$++/ language, the range estimation and the fixed-point simulation can be conducted just by modifying the variable declaration of the original program. This utility is easily applicable to nearly all types of digital signal processing programs including non-linear, time-varying, multi-rate, and multi-dimensional signal processing algorithms. In addition, this software can be used for comparing the fixed-point characteristics of different implementation architectures.

  • PDF

A Hybrid Approach for the Morpho-Lexical Disambiguation of Arabic

  • Bousmaha, Kheira Zineb;Rahmouni, Mustapha Kamel;Kouninef, Belkacem;Hadrich, Lamia Belguith
    • Journal of Information Processing Systems
    • /
    • 제12권3호
    • /
    • pp.358-380
    • /
    • 2016
  • In order to considerably reduce the ambiguity rate, we propose in this article a disambiguation approach that is based on the selection of the right diacritics at different analysis levels. This hybrid approach combines a linguistic approach with a multi-criteria decision one and could be considered as an alternative choice to solve the morpho-lexical ambiguity problem regardless of the diacritics rate of the processed text. As to its evaluation, we tried the disambiguation on the online Alkhalil morphological analyzer (the proposed approach can be used on any morphological analyzer of the Arabic language) and obtained encouraging results with an F-measure of more than 80%.

계층적 신경망을 이용한 다중크기의 다중활자체 한글문자인식 (Multi-font/multi-size Hangul Character Recognition with Hierarchical Neural Networks)

  • 권재욱;조성배;김진형
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1990년도 제2회 한글 및 한국어정보처리 학술대회
    • /
    • pp.183-190
    • /
    • 1990
  • 본 논문에서는 인쇄체 한글문자를 실용적으로 인식하기 위하여 고안된 계층적 신경망을 소개하고, 이를 다중활자체의 한글문자를 인식하는 문제에 적용하였다. 이 신경망은 입력된 문자영상을 6가지의 유형으로 분류한 후, 해당 유형을 처리하는 신경망에서 실제 문자를 인식하도록 구성되었다. 또한 각 신경망을 모든 입력영상의 모든 출력노드에 대해 고르게 학습시키기 위하여 Backpropagation 알고리즘을 개선한 Descending Epsilon 알고리즘을 도입하였다. 그 결과 사용빈도수가 높은 한글 520자에 대해 94.4 - 98.4%의 인식률을 얻음으로써 본 논문에서 제안한 시스템이 다양한 활자체로 이루어진 실제 문서인식시스템의 문자인식부에 효과적으로 사용될 수 있음을 제시하였다.

  • PDF

콘도르 정보 검색 시스템 (Information Retrieval System : Condor)

  • 박순철;안동언
    • 한국산업정보학회논문지
    • /
    • 제8권4호
    • /
    • pp.31-37
    • /
    • 2003
  • 본 연구는 다중어 질의어를 제공하는 대용량 정보검색 시스템, 콘도르에 대한 고찰이다. 이 시스템은 전북대학교, (주)서치라인, 그리고 카네기멜론 대학교가 컨소시엄 형태로 개발하였다. 이 시스템의 질의처리는 확률 모델을 기반하고 있으며 최근 정보검색 시스템에서 제공하는 문서 클러스터링 기능을 제공하고 있다. 특히 시스템의 특징은 다중어 질의어를 처리하고 질의를 중심으로 온라인으로 문서를 클러스터링하고 요약하는 것이다. 본 시스템은 이미 국내의 3,000만개 웹페이지에 대한 테스트를 마쳤으며 그 안정성을 확보하고 있다.

  • PDF

지능형 의료 정보 제공을 위한 멀티 에이전트 시스템에서 에이전트 플랫폼 (The Agent Platform in Multi-Agent System Providing Intelligent Medical Information)

  • 최원기;이상욱;김일곤
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2000년도 추계정기학술대회:지능형기술과 CRM
    • /
    • pp.445-454
    • /
    • 2000
  • 의료 정보 시스템은 많은 지식과 의료 인력과의 연계가 필요하기 때문에, 멀티 에이전트 시스템의 활용 영역으로 적합하다. 본 논문에서는 지능형 의료 정보 제공을 위한 멀티 에이전트 시스템인 MAMI(Multi-Agent system for Medical Image)의 에이전트 플랫폼의 설계 및 구현 대해 기술한다. MAMI는 여러 의료 정보 중 의료 영상을 위한 멀티 에이전트 시스템이다. MAMI의 가장 중요한 구성 요소로서는 에이전트 플랫폼을 들 수 있다. 에이전트 플랫폼은 에이전트들이 동작할 수 있는 물리적 기반을 제공해 준다. MAMI는 FIPA(foundation for Intelligent Physical Agent)가 제안하는 관리 모델을 따르고 있다. MAMI에서는 COM(Common Object Model)과 XML(Extensible Markup Language)로 인코딩된 ACL(Agent Communication Language)을 메시지 교환에 이용하고 있다. 의료 영역의 특성상 의사와 같은 의료 전문 인력과의 연계는 반드시 필요하다. MAMI는 이를 위해서 의료 인력을 하나의 에이전트로 개념화하여 시스템에 연결한다. MAMI의 에이전트 플랫폼은 소프트웨어 에이전트와 휴먼 에이전트들이 지식을 공유하기에 적합한 물리적 기반을 제 공해주어 지능형 의료 정보 서비스를 용이하게 해준다.

  • PDF

영역 전환 전략을 사용한 다 영역 대화 프레임워크 (Multi-domain Dialog Framework using Domain Switching Strategy)

  • 최원석;강상우;서정연
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2010년도 제22회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.152-154
    • /
    • 2010
  • 다 영역 대화 시스템 개발에서는 영역 확장이 쉬워야 하며 처리하는 대화 영역이 늘어나더라도 대화 과정에서 사용자 편의성을 유지해야 하는 점이 중요하다. 본 논문에서는 이런 특성을 가지는 다 영역 대화 시스템을 작성하기 위한 프레임워크를 제안한다. 이 프레임워크는 공통의 인터페이스를 구현하는 영역 전문가(Domain Expert) 기반으로 동작하므로 영역 확장이 용이하다. 또한 진행 중이던 대화를 종료하지 않은 채 타 대화 영역으로 이동하는 영역 전환(Domain Switching) 현상은 다 영역 대화를 복잡하게 만드는 주요한 원인 중 하나로써 이를 효과적으로 관리할 수 있는 영역 전환 전략을 사용하여 사용자 편의성을 확보하였다.

  • PDF

초등학교 '가정통신문'의 텍스트 언어학적 분석 - 구조, 기능, 화행 유형을 중심으로- (Textual Linguistic analysis of 'Letters to parents' in elementary schools)

  • 김유미
    • 비교문화연구
    • /
    • 제26권
    • /
    • pp.487-508
    • /
    • 2012
  • The purpose of this study is to analyze communication between school and parents using the "letters to the parents", in order to examine possible areas of improvement for enhancing educational opportunities and school life adjustment for children from multi-cultural families. The letters to the parents used in elementary schools were analysed through genre analysis specifically for this study. At first, the Korean language textbooks for married female immigrants were investigated to see how many letters to parents were included in them. Second, letters to parents were collected to research their structure and content. They were categorized by the text type according to functions and speech acts. It is expected that the results of this study will be helpful for the Korean language education of married female immigrants.