• 제목/요약/키워드: Language Adaptation

검색결과 181건 처리시간 0.022초

DAKS: 도메인 적응 기반 효율적인 매개변수 학습이 가능한 한국어 문장 분류 프레임워크 (DAKS: A Korean Sentence Classification Framework with Efficient Parameter Learning based on Domain Adaptation)

  • 김재민;채동규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 춘계학술발표대회
    • /
    • pp.678-680
    • /
    • 2023
  • 본 논문은 정확하면서도 효율적인 한국어 문장 분류 기법에 대해서 논의한다. 최근 자연어처리 분야에서 사전 학습된 언어 모델(Pre-trained Language Models, PLM)은 미세조정(fine-tuning)을 통해 문장 분류 하위 작업(downstream task)에서 성공적인 결과를 보여주고 있다. 하지만, 이러한 미세조정은 하위 작업이 바뀔 때마다 사전 학습된 언어 모델의 전체 매개변수(model parameters)를 학습해야 한다는 단점을 갖고 있다. 본 논문에서는 이러한 문제를 해결할 수 있도록 도메인 적응기(domain adapter)를 활용한 한국어 문장 분류 프레임워크인 DAKS(Domain Adaptation-based Korean Sentence classification framework)를 제안한다. 해당 프레임워크는 학습되는 매개변수의 규모를 크게 줄임으로써 효율적인 성능을 보였다. 또한 문장 분류를 위한 특징(feature)으로써 한국어 사전학습 모델(KLUE-RoBERTa)의 다양한 은닉 계층 별 은닉 상태(hidden states)를 활용하였을 때 결과를 비교 분석하고 가장 적합한 은닉 계층을 제시한다.

Translation, Adaptation and Cross-Cultural Validation of Hearing Handicap Inventory for Adult in Malay Language

  • Zam, Tengku Zulaila Hasma binti Tengku Zam;Dzulkarnain, Ahmad Aidil Arafat;Rahmat, Sarah;Jusoh, Masnira
    • Journal of Audiology & Otology
    • /
    • 제23권3호
    • /
    • pp.129-134
    • /
    • 2019
  • Background and Objectives: Sine a self-reported questionnaire for hearing-impaired listeners is not available by Malay language yet, it is important to develop or translate any available existing questionnaires. The aim of this study was to translate, adapt and validate the Hearing Handicap Inventory for Adult (HHIA) to be used by the audiologist among the hearing-impaired population in Malaysia. Subjects and Methods: The HHIAs was translated to Malay language using forward-backward translation techniques by four-panellists (two for each level). The translated HHIA was then reconciled and harmonized for cultural aspects and content of the questionnaire by the researchers and two expert panels before being pilot-tested among 10 hearing-impaired patients. Questionnaire validation was conducted among 80 adults with a hearing loss to calculate for Cronbach's α (internal reliability), Spearman's correlation (inter-item correlation) and factor analysis. Results: None of the translated items were removed from the scale. The overall Cronbach's α was 0.964; 0.927 and 0.934 for both social and emotional subscales, respectively. The factor analysis (force-concept inventory) demonstrated a two-structure with a strong correlation between all items in either component 1 or 2, that resembled the original scale. The Mann-Whitney test revealed significantly higher scores for those adults with a hearing loss than those adults with normal hearing. Conclusions: The Malay HHIA has been successfully translated and validated for the purpose of determining the psychosocial aspects of adults with hearing loss in the local population.

Translation, Adaptation and Cross-Cultural Validation of Hearing Handicap Inventory for Adult in Malay Language

  • Zam, Tengku Zulaila Hasma binti Tengku Zam;Dzulkarnain, Ahmad Aidil Arafat;Rahmat, Sarah;Jusoh, Masnira
    • 대한청각학회지
    • /
    • 제23권3호
    • /
    • pp.129-134
    • /
    • 2019
  • Background and Objectives: Sine a self-reported questionnaire for hearing-impaired listeners is not available by Malay language yet, it is important to develop or translate any available existing questionnaires. The aim of this study was to translate, adapt and validate the Hearing Handicap Inventory for Adult (HHIA) to be used by the audiologist among the hearing-impaired population in Malaysia. Subjects and Methods: The HHIAs was translated to Malay language using forward-backward translation techniques by four-panellists (two for each level). The translated HHIA was then reconciled and harmonized for cultural aspects and content of the questionnaire by the researchers and two expert panels before being pilot-tested among 10 hearing-impaired patients. Questionnaire validation was conducted among 80 adults with a hearing loss to calculate for Cronbach's α (internal reliability), Spearman's correlation (inter-item correlation) and factor analysis. Results: None of the translated items were removed from the scale. The overall Cronbach's α was 0.964; 0.927 and 0.934 for both social and emotional subscales, respectively. The factor analysis (force-concept inventory) demonstrated a two-structure with a strong correlation between all items in either component 1 or 2, that resembled the original scale. The Mann-Whitney test revealed significantly higher scores for those adults with a hearing loss than those adults with normal hearing. Conclusions: The Malay HHIA has been successfully translated and validated for the purpose of determining the psychosocial aspects of adults with hearing loss in the local population.

유비쿼터스 컴퓨팅 환경에서 PARLAY X를 이용하는 MDA기반의 적응성 있는 문맥인식 서비스 (An MDA-Based Adaptive Context-Aware Service Using PARLAY X in Ubiquitous Computing Environments)

  • 홍성준
    • 정보처리학회논문지C
    • /
    • 제12C권3호
    • /
    • pp.457-464
    • /
    • 2005
  • 본 논문은 유비쿼터스 컴퓨팅 환경에서 PARLAY X기반 서비스 전송 플랫폼상의 MDA(Model Driven Architecture)기반 SCE(Service Creation Environment)를 이용하는 ACS(Adaptive Conte저-aware Service)에 관하여 서술하였다. 유비쿼터스 컴퓨팅 환경에서는 망 수준에서 문맥인식성과 더불어 적응성이 요구된다. 그러나 기존의 문맥인식성 미들웨어는 적응성에 대한 고려가 부족하다. 그러므로 본 논문의 목적은 유비쿼터스 컴퓨팅 환경에서 문맥인식성과 적응성이 동시에 지원 가능한 PARLAY X기반의 신규 망 서비스 구조 및 PARLAY X API를 개발하고자 하는 것이다. 본 논문에서 제안한 ACS(Adaptive Context-aware Service)는 사용자 주변에 변화하는 문맥 제약조건을 감지하고, 변화하는 문맥 제약 조건에 따라서 적응성 있는 망 서비스를 제공하는 것을 의미하며, ACS를 이용하는 예로 위치와 속도 등의 문맥정보를 인식한 후, 사용자에게 망에서 문맥정보에 따라서 적합한 차별화된 QoS를 지원하는 경우를 보였다. An의 구조는 SCE, Adaptive Context Broker, 그리고 PARLAY G/W로 구성되어 있다. SCE는 기존 지능망의 망 서비스와 같은 망 서비스로서 문맥인식성과 적응성을 표현하고 지원하기 위한 망 서비스 개발 환경으로 본 논문에서는 CCL(Context-based Constraint Language)을 이용하였다. Adaptive Context Broker는 SCE의 문맥인식성 및 적응성 표현과 기존 PARLAY G/W사이의 브로커 역할을 한다. PARLAY G/W는 PARLAY X기반의 서비스 전송 플랫폼을 위한 API(Application Programming Interface)를 제공한다.

Korean Broadcast News Transcription Using Morpheme-based Recognition Units

  • Kwon, Oh-Wook;Alex Waibel
    • The Journal of the Acoustical Society of Korea
    • /
    • 제21권1E호
    • /
    • pp.3-11
    • /
    • 2002
  • Broadcast news transcription is one of the hardest tasks in speech recognition because broadcast speech signals have much variability in speech quality, channel and background conditions. We developed a Korean broadcast news speech recognizer. We used a morpheme-based dictionary and a language model to reduce the out-of·vocabulary (OOV) rate. We concatenated the original morpheme pairs of short length or high frequency in order to reduce insertion and deletion errors due to short morphemes. We used a lexicon with multiple pronunciations to reflect inter-morpheme pronunciation variations without severe modification of the search tree. By using the merged morpheme as recognition units, we achieved the OOV rate of 1.7% comparable to European languages with 64k vocabulary. We implemented a hidden Markov model-based recognizer with vocal tract length normalization and online speaker adaptation by maximum likelihood linear regression. Experimental results showed that the recognizer yielded 21.8% morpheme error rate for anchor speech and 31.6% for mostly noisy reporter speech.

MPEG-21 DID 구성 툴과 DIA 세션 모빌리티 툴 개발에 대한 연구 (Study on DIDL parser and DIA Session Mobility Implementation)

  • 김도년;박용철;장도임;김택수
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 2003년도 하계종합학술대회 논문집 Ⅲ
    • /
    • pp.1483-1486
    • /
    • 2003
  • This paper describes design and implementation of the DIDL(Digital Item Declaration Language) parser and Session mobility in Digital Item Adaptation. The DIDL is a declaration language which is a uniform and flexible abstraction and interoperable schema for declaring Digital Items. Session mobility specifies a mechanism to preserve a user's current state of interaction with a Digital Item. In this paper, Session mobility is implemented through the DIDL. For session mobility, the XDI (context digital item) shall capture the configuration-state of a Content digital item, shich is defined by the state of Selection elements in DIDL.

  • PDF

도메인 적응 기술을 이용한 한국어 의미역 인식 (Korean Semantic Role Labeling Using Domain Adaptation Technique)

  • 임수종;배용진;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.56-60
    • /
    • 2014
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 15% 정도 성능 하락이 발생한다. 본 논문은 이러한 다른 도메인에 적용시 발생하는 성능 하락 현상을 극복하기 위해서 기존의 소스 도메인 학습 데이터를 활용하여, 소규모의 타겟 도메인 학습 데이터 구축만으로도 성능 하락을 최소화하기 위해 한국어 의미역 인식 기술에 prior 모델을 제안하며 기존의 도메인 적응 알고리즘과 비교 실험하였다. 추가적으로 학습 데이터에 사용되는 자질 중에서, 형태소 태그와 구문 태그의 자질 값을 기존보다 단순하게 적용하여 성능의 변화를 실험하였다.

  • PDF

한국어 의미역 결정을 위한 Korean PropBank 확장 및 도메인 적응 기술 적용 (Extending Korean PropBank for Korean Semantic Role Labeling and Applying Domain Adaptation Technique)

  • 배장성;오준호;황현선;이창기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.44-47
    • /
    • 2014
  • 한국어 의미역 결정(Semantic Role Labeling)은 주로 기계 학습에 의해 이루어지며 많은 말뭉치 자원을 필요로 한다. 그러나 한국어 의미역 결정 시스템에서 사용되는 Korean PropBank는 의미역 부착 말뭉치와 동사 격틀이 영어 PropBank의 1/8 수준에 불과하다. 따라서 본 논문에서는 한국어 의미역 결정 시스템을 위해 의미역 부착 말뭉치와 동사 격틀을 확장하여 Korean PropBank를 확장 시키고자 한다. 의미역 부착 말뭉치를 만드는 일은 많은 자원과 시간이 소비되는 작업이다. 본 논문에서는 도메인 적응 기술을 적용해보고 기존의 학습 데이터를 활용하여, 적은 양의 새로운 학습 말뭉치만을 가지고 성능 하락을 최소화 할 수 있는지 실험을 통해 알아보고자 한다.

  • PDF

대상 영역 코퍼스를 이용한 번역사전의 특정 영역화를 위한 워크벤치 (A Workbench for Domain Adaptation of an MT Lexicon with a Target Domain Corpus)

  • 노윤형;이현아;김길창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2000년도 제12회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.163-168
    • /
    • 2000
  • 기계번역에서 좋은 품질의 번역 결과를 얻기 위해서는 대상으로 하고 있는 전문 영역에 맞게 시스템의 번역 지식을 조정해야 한다. 본 연구에서는 대상 영역 코퍼스를 이용하여 기계번역 시스템의 특정 영역화를 지원하는 워크벤치를 설계하고 구현한다. 워크벤치는 대상 영역의 코퍼스에서 대상 영역의 지식을 추출하는 영역 지식 추출기와, 추출된 지식을 사용자에게 제시하여 사용자가 사전을 편집할 수 있는 환경을 제공하는 영역 지식 검색기와 사전 편집기로 구성된다. 구현된 워크벤치를 이용하여 일반 영역 사전을 군사 정보 영역으로 특정 영역화를 해 본 결과, 효율성과 정확성에서의 향상이 있었다.

  • PDF

도메인 적응 기술 기반 질문 문장에 대한 의미역 인식 연구 (A Study of Semantic Role Labeling using Domain Adaptation Technique for Question)

  • 임수종;김현기
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.246-249
    • /
    • 2015
  • 기계학습 방법에 기반한 자연어 분석은 학습 데이터가 필요하다. 학습 데이터가 구축된 소스 도메인이 아닌 다른 도메인에 적용할 경우 한국어 의미역 인식 기술은 10% 정도 성능 하락이 발생한다. 본 논문은 기존 도메인 적응 기술을 이용하여 도메인이 다르고, 문장의 형태도 다를 경우에 도메인 적응 알고리즘을 적용하여, 질의응답 시스템에서 필요한 질문 문장 의미역 인식을 위해, 소규모의 질문 문장에 대한 학습 데이터 구축만으로도 한국어 질문 문장에 대해 성능을 향상시키기 위한 방법을 제안한다. 한국어 의미역 인식 기술에 prior 모델을 제안한다. 제안하는 방법은 실험결과 소스 도메인 데이터만 사용한 실험보다 9.42, 소스와 타겟 도메인 데이터를 단순 합하여 학습한 경우보다 2.64의 성능향상을 보였다.

  • PDF