Search | Korea Science

Knowledge Transfer in Multilingual LLMs Based on Code-Switching Corpora (코드 스위칭 코퍼스 기반 다국어 LLM의 지식 전이 연구)

Seonghyun Kim;Kanghee Lee;Minsu Jeong;Jungwoo Lee
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.301-305
- /
- 2023
최근 등장한 Large Language Models (LLM)은 자연어 처리 분야에서 눈에 띄는 성과를 보여주었지만, 주로 영어 중심의 연구로 진행되어 그 한계를 가지고 있다. 본 연구는 사전 학습된 LLM의 언어별 지식 전이 가능성을 한국어를 중심으로 탐구하였다. 이를 위해 한국어와 영어로 구성된 코드 스위칭 코퍼스를 구축하였으며, 기본 모델인 LLAMA-2와 코드 스위칭 코퍼스를 추가 학습한 모델 간의 성능 비교를 수행하였다. 결과적으로, 제안하는 방법론으로 학습한 모델은 두 언어 간의 희미론적 정보가 효과적으로 전이됐으며, 두 언어 간의 지식 정보 연계가 가능했다. 이 연구는 다양한 언어와 문화를 반영하는 다국어 LLM 연구와, 소수 언어를 포함한 AI 기술의 확산 및 민주화에 기여할 수 있을 것으로 기대된다.
PDF

Cross-linguistic Semantic Priming Effects in Visual Word Recognition (언어간 의미 점화 효과)

최원일;오현금;남기춘
- Proceedings of the Korean Society for Cognitive Science Conference
- /
- 2002.05a
- /
- pp.157-162
- /
- 2002
본 연구는 영어 단어 재인 과정에서 나타나는 한국인의 어휘 수준과 의미 수준 양상을 알아보기 위해 실시되었다 이를 위해 본 연구에서는 세 종류의 실험을 시행하였는데, 첫 번째 실험에서는 한국어 처리 기제와 영어 처리 기제의 독립 여부를 알아보기 위하여 한국어로는 여러 의미를 갖지만 영어로는 한 가지 의미만을 가지는 영어단어를 점화 자극으로 하고, 한국어와는 관련된 의미를 갖지만 영어와는 무관련한 한국어 단어를 목표 자극으로 사용하여(예, bridge-팔)언어간 의미 점화 어휘판단 과제를 시행하였다. 두 번째 실험에서는 비교적 개념 구조가 한국어와 영어에서 유사하다고 생각되어지는 외래어를 자극으로 사용하여 언어간(예, elevator-승강기), 언어 내(예, 엘리베이터-승강기) 어휘판단과제를 실시하였다. 연구 결과 첫 번째 실험에서는 유의미한 점화효과가 나타나지 않았고, 두 번째 실험에서는 언어간에는 SOA에 따라서 결과가 달랐고, 언어 내에는 촉진적 점화효과가 나타났다 이러한 결과는 영어의 일반 어휘에 대한 의미 표상 체계는 독립적으로 존재하였고, 외래어와 같이 특수한 어휘에 대해서는 다른 표상 체계를 갖고 있는 것으로 나타났다
PDF

Effects of categorization on linguistic spatial representation and non-linguistic spatial representation (언어적 공간표상과 비언어적 공간표상에서의 범주화의 효과)

서원식;한광희
- Proceedings of the Korean Society for Cognitive Science Conference
- /
- 2002.05a
- /
- pp.119-124
- /
- 2002
공간적 관계정보(spatial relation)가 언어적 표상시스템과 비언어적 표상시스템에서 어떻게달라지는가를 범주화 모델의 원형이론 모델을 적용하여 알아보고자 하였다. 이전의 연구들에 따르면 공간적 관계정보에 대한 프로토타입이 언어적 범주와 비언어적 범주에서 다르다는 연구 결과(Crawford 등 2000, Huttenlocher 등 1991)와 동일하다. (Hayward & Tarr 1995)는 상반된 연구 결과가 제기되고 있다. 하지만 이전 연구들에서의 문제점은 언어/비언어 표상체계 간의 편향을 통제하지 못했기 때문에 과제에 따라 서로 다른 결과가 나온 것이라고 볼 수 있다 본 연구에서는 두 대상간의 관계정보를 문장으로 제시한 조건, 그림으로 제시한 조건, 그리고 두 조건을 혼합한 조건을 사용하여 편향에 의한 효과를 제거하고자 하였다. 실험은 각 조건에 따라 짝으로 구성된 자극을 학습한 후 검사자극을 공간적 관계정보를 다양하게 하여 학습자극과 동일한지 아닌지를 판단하게 하였다. 실험결과 관계정보를 언어적으로 제시한 조건과 비언어적으로 제시한 조건간에 대상의 위치에 따른 반응시간의 경향성에서 차이가 없었으며, 대상이 단어인지 그림인지에 따라서 반응시간에서 통계적으로 차이가 나타났다. 그리고 두 표상체계에서 공간적 관계에 대한 프로토타입을 분석한 결과 수직축을 중심으로 전형성 효과가 나타나는 것을 알 수 있었다.
PDF

HTML5-based 실시간 Server and Database Language (HTML5 기반의 실시간 서버 및 데이터베이스 언어)

Yoo, Hwan-Soo;Kim, Seong-Whan
- Proceedings of the Korea Information Processing Society Conference
- /
- 2013.11a
- /
- pp.1022-1025
- /
- 2013
소프트웨어 개발자는 예전과 같이 PC 나 서버에서만 동작하는 소프트웨어만 만들어야 하는 것이 아니고, 스마트폰, 스마트패드, 스마트 TV, 스마트워치 등 개발해야 하는 플랫폼의 종류가 기하급수적으로 늘고 있다. 그러나 비용문제, 과열된 스타트업 시장으로 인한 채용문제로, 개발 초기 시 클라이언트, 네트워크, 데이터베이스에 숙련된 개발자를 충분히 보유하고 시작하는 경우는 드물다. 본 논문은 HTML 서비스, 실시간 네트워킹, 데이터베이스 CRUD를 지원하는 초보자도 사용하기 쉬운 새로운 언어를 소개한다. 우리는 언어 요구사항, 언어 산출물의 정의를 통하여 언어의 설계 및 구현을 한다. 실제로 실시간 네트워크 서버를 우리의 언어로 제작한 사례 연구를 통하여 우리의 언어가 우수하고 개발자의 노력대비 결과가 좋음을 보인다. 추후 이 언어를 활용하여 게임, 채팅 어플리케이션, 실시간 모니터링 등 특정 도메인에 맞는 어플리케이션을 개발자가 쉽게 작성할 수 있을 것이다.
https://doi.org/10.3745/PKIPS.y2013m11a.1022 인용 PDF

The study of Method for Optimization of Phrase Ordering Process and Word Alignment between Parallel Languages in Korean-English Statistic Based Machine Translation (영한 및 한영 통계기반 기계번역에서의 이중언어 간 어순처리 및 단어정렬 최적화 방안 연구)

Chong, Sang-won
- Proceedings of the Korea Information Processing Society Conference
- /
- 2013.05a
- /
- pp.293-296
- /
- 2013
통계기반 기계번역 시스템 (SBMT system)은 기계번역시스템 중에서 최근 활발히 연구되고 있는 분야이다. 통계기반 기계번역은 대용량의 말뭉치를 사용할 수 있어 특정 언어 쌍에 제한을 덜 받아 모델을 자동으로 학습할 수 있으며 다른 언어에 일반화하여 적용이 가능하다는 장점이 있다. 그러나 영어와 한국어 간 통계기반 기계번역에 있어서는 어순의 차이로 인한 문제를 해결할 필요성이 여전히 남아 있다. 이에 본 연구에서는 영어와 한국어 간 이중언어 말뭉치를 구축하고 통계기반 기계번역 훈련 시스템인 Moses 에 기반하여 구현한 베이스 시스템을 이용하여 이중언어 간 어순처리 및 단어정렬의 최적화 방안을 연구하였다.
https://doi.org/10.3745/PKIPS.y2013m05a.293 인용 PDF

Design and Implementation of Real-Time Language Satisfying Timing Constraints using the Results of Static Analysis (정적 분석을 이용하여 시간 제약 조건을 해결한 실시간 언어의 설계 및 구현)

Lee, Jun-Dong;Baek, Jeong-Hyeon;Won, Yu-Heon
- Journal of KIISE:Computing Practices and Letters
- /
- v.6 no.6
- /
- pp.620-627
- /
- 2000
실시간 프로그램은 다양한 응용분야에 중요하게 이용되고 있는데, 기존의 일반 언어는 시간적인 개념을 고려하여 설계하지 않았으므로 실시간 응용에 부적합하며, 이를 해결하기 위한 실시간 언어는 시간 개념을 표현하기 위하여 많은 문법이 추가되어 기존 프로그래머에 익숙치 못한 결점이 있다. 본 연구에서는 기존의 C언어에 익숙한 프로그래머들이 저항감 없이 실시간 프로그래밍을 할 수 있는 언어를 설계하고 구현한다. 이 구현에서는 시간 트리를 이용함으로써 원시 언어와 목적 언어의 연결이 가능하며, 정적 분석을 이용한 결과를 코드 생성에 이용함으로써 외부적인 타이머 없이 시간적인 사건의 처리가 가능하다.
PDF

A Convergence Study on the Relationship between Empathy Abilities and Job Satisfaction of Speech and Language Rehabilitation in Daegu and Gyeongbuk (대구·경북지역 언어재활사의 공감능력과 직무만족도 간의 관련성에 대한 융합 연구)

Kim, Sun-Hee
- Journal of the Korea Convergence Society
- /
- v.12 no.6
- /
- pp.57-63
- /
- 2021
The purpose of the convergence study is to provide basic data for improving job satisfaction of speech and language therapists by identifying the relationship between personal characteristics, empathy ability, and job satisfaction of speech and language therapists, especially between cognitive and emotional empathy ability and job satisfaction. The subjects of the study were 111 people of speech and language therapists working in Daegu and Gyeongbuk. For data analysis, t-test, ANOVA, and correlation analysis were performed using the SPSS/PC 21.0 statistical program according to the purpose of the study. As a result of the study, the relationship between empathy ability and job satisfaction was found to be high, and there was a high correlation between cognitive and emotional empathy ability, which is a sub-factor of empathy ability, and job satisfaction. Therefore, follow-up research is needed to identify the empathy and job satisfaction about nationwide speech and language therapists for implementing various education programs and improving empathy skills in the future.
https://doi.org/10.15207/JKCS.2021.12.6.057 인용 PDF KSCI

Extracting Korean-English Parallel Sentences based on Measure of Sentences Similarity Using Sequential Matching of Heterogeneous Language Resources (이질적인 언어 자원의 순차적 매칭을 이용한 문장 유사도 계산 기반의 위키피디아 한국어-영어 병렬 문장 추출 방법)

Cheon, Juryong;Ko, Youngjoong
- Annual Conference on Human and Language Technology
- /
- 2014.10a
- /
- pp.127-132
- /
- 2014
본 논문은 위키피디아로부터 한국어-영어 간 병렬 문장을 추출하기 위해 이질적 언어 자원의 순차적 매칭을 적용한 유사도 계산 방법을 제안한다. 선행 연구에서는 병렬 문장 추출을 위해 언어 자원별로 유사도를 계산하여 선형 결합하였고, 토픽모델을 이용해 추정한 단어의 토픽 분포를 유사도 계산에 추가로 이용함으로써 병렬 문장 추출 성능을 향상시켰다. 하지만, 이는 언어 자원들이 독립적으로 사용되어 각 언어자원이 가지는 오류가 문장 간 유사도 계산에 반영되는 문제와 관련이 적은 단어 간의 분포가 유사도 계산에 반영되는 문제가 있다. 본 논문에서는 이질적인 언어 자원들을 이용해 순차적으로 단어를 매칭함으로써 언어 자원들의 독립적인 사용으로 각 자원의 오류가 유사도에 반영되는 문제를 해결하였고, 관련이 높은 단어의 분포만을 유사도 계산에 이용함으로써 관련이 적은 단어의 분포가 반영되는 문제를 해결하였다. 실험을 통해, 언어 자원들을 이용해 순차적으로 매칭한 유사도 계산 방법은 선행 연구에 비해 F1-score 48.4%에서 51.3%로 향상된 성능을 보였고, 관련이 높은 단어의 분포만을 유사도 계산에 이용한 방법은 약 10%에서 34.1%로 향상된 성능을 얻었다. 마지막으로, 제안한 유사도 방법들을 결합함으로써 선행연구의 51.6%에서 2.7%가 향상된 54.3%의 성능을 얻었다.
PDF

Properties and Quantitative Analysis of Bias in Korean Language Models: A Comparison with English Language Models and Improvement Suggestions (한국어 언어모델의 속성 및 정량적 편향 분석: 영어 언어모델과의 비교 및 개선 제안)

Jaemin Kim;Dong-Kyu Chae
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.558-562
- /
- 2023
최근 ChatGPT의 등장으로 텍스트 생성 모델에 대한 관심이 높아지면서, 텍스트 생성 태스크의 성능평가를 위한 지표에 대한 연구가 활발히 이뤄지고 있다. 전통적인 단어 빈도수 기반의 성능 지표는 의미적인 유사도를 고려하지 못하기 때문에, 사전학습 언어모델을 활용한 지표인 BERTScore를 주로 활용해왔다. 하지만 이러한 방법은 사전학습 언어모델이 학습한 데이터에 존재하는 편향으로 인해 공정성에 대한 문제가 우려된다. 이에 따라 한국어 사전학습 언어모델의 편향에 대한 분석 연구가 필요한데, 기존의 한국어 사전학습 언어모델의 편향 분석 연구들은 사회에서 생성되는 다양한 속성 별 편향을 고려하지 못했다는 한계가 있다. 또한 서로 다른 언어를 기반으로 하는 사전학습 언어모델들의 속성 별 편향을 비교 분석하는 연구 또한 미비하였다. 이에 따라 본 논문에서는 한국어 사전학습 언어모델의 속성 별 편향을 비교 분석하며, 영어 사전학습 언어모델이 갖고 있는 속성 별 편향과 비교 분석하였고, 비교 가능한 데이터셋을 구축하였다. 더불어 한국어 사전학습 언어모델의 종류 및 크기 별 편향 분석을 통해 적합한 모델을 선택할 수 있도록 가이드를 제시한다.
PDF

An Approach to Automatically Generating Infobox for Wikipedia in Cross-languages through Translation and Webgraph (번역과 웹그래프를 활용한 언어 간 위키피디아 인포박스 자동생성 기법)

Kim, Eun-Kyung;Choi, DongHyun;Go, Eun-Bi;Choi, Key-Sun
- Annual Conference on Human and Language Technology
- /
- 2011.10a
- /
- pp.9-15
- /
- 2011
여러 언어로 작성되는 위키피디아의 경우 언어 간에 등록되어 있는 정보의 양과 내용이 달라 언어 간 정보를 상호 추출하고 서로 통합하는 연구에 대한 관심이 증가하고 있다. 특히, 위키피디아의 요약본으로써 의미가 있는 인포박스는 위키피디아 아티클에 존재하는 구조화된 정보 중 가장 근간이 되는 정보로, 본 논문에서는 위키피디아에 존재하는 인포박스를 1)소스 언어 자원으로부터 획득하여 타겟 언어로 번역하고, 2)번역된 결과물과 웹그래프를 이용하여 타겟 언어 데이터에서 획득하는 정보와 결합하는 과정을 통해 자동으로 인포박스를 생성하는 기법에 대하여 설명한다. 웹그래프는 위키피디아에 존재하는 링크 구조를 통해 서로 다른 두 용어간의 관련도를 측정하여 인포박스에 추가될 내용을 파악하는데 사용한다. 본 논문의 기법은 언어 간 인포박스를 생성하는 측면에서, 영어 인포박스 데이터를 입력으로 하여 한국어 인포박스 데이터를 생성하는 방식으로 진행하였다. 평가를 위하여 기존 한국어에 실제 존재하는 인포박스 데이터와 비교 실험하는 방식을 사용하여 평균적으로 40%의 정확률과 83%의 재현율을 나타내었다. 하지만, 기존 한국어에 존재하는 인포박스 데이터의 내용이 인포박스에 포함될 완전한 데이터를 모두 포함했다고 볼 수 없으므로 본 논문에서 제안하는 수행한 실험의 정확률이 상대적으로 낮게 나온 것으로 분석되었다. 실제 사람이 수작업으로 새롭게 생성된 인포박스 데이터의 적합성을 판별한 경우 평균 76%의 정확률과 91%의 재현율을 나타내었다.
PDF

Search Result 1,352, Processing Time 0.03 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)