• 제목/요약/키워드: Korean Language Model

검색결과 1,580건 처리시간 0.032초

생성형 대규모 언어 모델과 프롬프트 엔지니어링을 통한 한국어 텍스트 기반 정보 추출 데이터셋 구축 방법 (A Study on Dataset Generation Method for Korean Language Information Extraction from Generative Large Language Model and Prompt Engineering)

  • 정영상;지승현;권다롱새
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.481-492
    • /
    • 2023
  • 본 연구는 생성형 대규모 언어 모델을 활용하여 텍스트에서 정보를 추출하기 위한 한글 데이터셋 구축 방법을 탐구한다. 현대 사회에서는 혼합된 정보가 빠르게 유포되며, 이를 효과적으로 분류하고 추출하는 것은 의사결정 과정에 중요하다. 그러나 이에 대한 학습용 한국어 데이터셋은 아직 부족하다. 이를 극복하기 위해, 본 연구는 생성형 대규모 언어 모델을 사용하여 텍스트 기반 제로샷 학습(zero-shot learning)을 이용한 정보 추출을 시도하며, 이를 통해 목적에 맞는 한국어 데이터셋을 구축한다. 본 연구에서는 시스템-지침-소스입력-출력형식의 프롬프트 엔지니어링을 통해 언어 모델이 원하는 결과를 출력하도록 지시하며, 입력 문장을 통해 언어 모델의 In-Context Learning 특성을 활용하여 데이터셋을 구축한다. 생성된 데이터셋을 기존 데이터셋과 비교하여 본 연구 방법론을 검증하며, 관계 정보 추출 작업의 경우 KLUE-RoBERTa-large 모델 대비 25.47% 더 높은 성능을 달성했다. 이 연구 결과는 한국어 텍스트에서 지식 요소를 추출하는 가능성을 제시함으로써 인공지능 연구에 도움을 줄 것으로 기대된다. 더욱이, 이 방법론은 다양한 분야나 목적에 맞게 활용될 수 있어, 다양한 한국어 데이터셋 구축에 잠재력을 가진다고 볼 수 있다.

LSTM 언어모델 기반 한국어 문장 생성 (LSTM Language Model Based Korean Sentence Generation)

  • 김양훈;황용근;강태관;정교민
    • 한국통신학회논문지
    • /
    • 제41권5호
    • /
    • pp.592-601
    • /
    • 2016
  • 순환신경망은 순차적이거나 길이가 가변적인 데이터에 적합한 딥러닝 모델이다. LSTM은 순환신경망에서 나타나는 기울기 소멸문제를 해결함으로써 시퀀스 구성 요소간의 장기의존성을 유지 할 수 있다. 본 논문에서는 LSTM에 기반한 언어모델을 구성하여, 불완전한 한국어 문장이 입력으로 주어졌을 때 뒤 이어 나올 단어들을 예측하여 완전한 문장을 생성할 수 있는 방법을 제안한다. 제안된 방법을 평가하기 위해 여러 한국어 말뭉치를 이용하여 모델을 학습한 다음, 한국어 문장의 불완전한 부분을 생성하는 실험을 진행하였다. 실험 결과, 제시된 언어모델이 자연스러운 한국어 문장을 생성해 낼 수 있음을 확인하였다. 또한 문장 최소 단위를 어절로 설정한 모델이 다른 모델보다 문장 생성에서 더 우수한 결과를 보임을 밝혔다.

Multi-task learning with contextual hierarchical attention for Korean coreference resolution

  • Cheoneum Park
    • ETRI Journal
    • /
    • 제45권1호
    • /
    • pp.93-104
    • /
    • 2023
  • Coreference resolution is a task in discourse analysis that links several headwords used in any document object. We suggest pointer networks-based coreference resolution for Korean using multi-task learning (MTL) with an attention mechanism for a hierarchical structure. As Korean is a head-final language, the head can easily be found. Our model learns the distribution by referring to the same entity position and utilizes a pointer network to conduct coreference resolution depending on the input headword. As the input is a document, the input sequence is very long. Thus, the core idea is to learn the word- and sentence-level distributions in parallel with MTL, while using a shared representation to address the long sequence problem. The suggested technique is used to generate word representations for Korean based on contextual information using pre-trained language models for Korean. In the same experimental conditions, our model performed roughly 1.8% better on CoNLL F1 than previous research without hierarchical structure.

자동 구두점 삽입을 이용한 Rich Transcription 생성 (Rich Transcription Generation Using Automatic Insertion of Punctuation Marks)

  • 김지환
    • 대한음성학회지:말소리
    • /
    • 제61호
    • /
    • pp.87-100
    • /
    • 2007
  • A punctuation generation system which combines prosodic information with acoustic and language model information is presented. Experiments have been conducted first for the reference text transcriptions. In these experiments, prosodic information was shown to be more useful than language model information. When these information sources are combined, an F-measure of up to 0.7830 was obtained for adding punctuation to a reference transcription. This method of punctuation generation can also be applied to the 1-best output of a speech recogniser. The 1-best output is first time aligned. Based on the time alignment information, prosodic features are generated. As in the approach applied in the punctuation generation for reference transcriptions, the best sequence of punctuation marks for this 1-best output is found using the prosodic feature model and an language model trained on texts which contain punctuation marks.

  • PDF

Enhancement of a language model using two separate corpora of distinct characteristics

  • 조세형;정태선
    • 한국지능시스템학회논문지
    • /
    • 제14권3호
    • /
    • pp.357-362
    • /
    • 2004
  • 언어 모델은 음성 인식이나 필기체 문자 인식 등에서 다음 단어를 예측함으로써 인식률을 높이게 된다. 그러나 언어 모델은 그 도메인에 따라 모두 다르며 충분한 분량의 말뭉치를 수집하는 것이 거의 불가능하다. 본 논문에서는 N그램 방식의 언어모델을 구축함에 있어서 크기가 제한적인 말뭉치의 한계를 극복하기 위하여 두개의 말뭉치, 즉 소규모의 구어체 말뭉치와 대규모의 문어체 말뭉치의 통계를 이용하는 방법을 제시한다. 이 이론을 검증하기 위하여 수십만 단어 규모의 방송용 말뭉치에 수백만 이상의 신문 말뭉치를 결합하여 방송 스크립트에 대한 퍼플렉시티를 30% 향상시킨 결과를 획득하였다.

국어 교과 지원을 위한 ICT활용 교수.학습 모형 개발에 관한 연구 (Development of ICT Teaching-Learning Model for Supporting Subject of Korean)

  • 김영기;한선관;김수열
    • 정보교육학회논문지
    • /
    • 제7권3호
    • /
    • pp.331-339
    • /
    • 2003
  • 본 연구는 국어 교과를 지원하는 ICT활용 교수 학습 모형의 개발에 관한 내용이다. 우선 국어 교과에서 ICT 활용 교수 학습 모형을 개발하기 위한 모형 개발의 유형을 3가지 제안하고, 국어 교과에서 적용되는 교수 학습모형 및 ICT 활용유형 등의 문헌연구 및 교과분석을 통하여 ICT활용 교수.학습 모형을 개발함으로써, 교수 학습 모형을 중심으로 ICT 활용을 위한 방안을 제시하였다. 본 연구에서 개발된 국어과 ICT 활용 교수 학습 모형은 다른 교과에서 ICT를 활용한 교수 학습 모형을 설계하는데 활용될 것으로 기대되며, 또한 국어과 교수 학습에서 단순히 매체를 이용한 흥미유발의 수준에서만 ICT를 활용하는 것이 아니라 필요한 단계에서 적절한 ICT를 효과적으로 사용할 수 있게 하고, 국어과 수업에 대한 전문성 향상에도 도움이 될 것으로 기대된다.

  • PDF

The Health Belief Model - Is it relevant to Korea?

  • Lee, Mi-Kyung;Colin William Binns;Kim, Kong-Hyun
    • Korean Journal of Health Education and Promotion
    • /
    • 제2권1호
    • /
    • pp.1-19
    • /
    • 2000
  • With rapid economic development, the emphasis of the public health movement in Korea has shifted towards addressing the burden of chronic disease. With this shift in direction comes a greater focus on health behaviour and the need for planning models to assist in lifestyle modification programs. The Health Belief Model (HBM), which originated in the US, has generated more research than any other theoretical approach to describe and predict the health behaviour of individuals. In recent years it has been applied in many different cultures and modifications have been suggested to accommodate different cultures. Given the centrality of language and culture, any attempts to use models of health behaviour developed in a different culture, must be studied and tested for local applicability. The paper reviews the applicability and suitability of the HBM in Korea, in the context of the Korean language and culture. The HBM has been used in Korea for almost three decades. The predictability of the HBM has varied in Korean studies as in other cultures. Overall, this literature review indicates that the HBM has been found applicable in predicting health and illness behaviours by Korean people. However if the HBM is used in a Korean context, the acquisition of health knowledge is an important consideration. Most new knowledge in the health sciences is originally published in English and less frequently in another foreign language. Most health knowledge in Korea is acquired through the media or from health professionals and its acquisition often involves translation from the original. The selection of articles for translation and the accuracy of translation into language acceptable in the Korean culture become important determinants of health knowledge. As such translation becomes an important part of the context of the HBM. In this paper modifications to the HBM are suggested to accommodate the issues of language and knowledge in Korea.

  • PDF

객체지향 시공간 데이터베이스 시스템의 객체기반 설계 및 질의어 (Object-Based Modeling and Language for an Object-Oriented Spatiao-Temporal Database System)

  • 김양희
    • 컴퓨터교육학회논문지
    • /
    • 제10권2호
    • /
    • pp.101-113
    • /
    • 2007
  • 본 논문에서는 객체지향 시공간 데이터베이스 시스템의 데이터 모델링과 질의어를 객체지향 기법을 사용하여 소개한다. 시공간 객체와 시공간 연산자를 다루기 위해 다음과 같은 두 단계 객체지향 데이터 모델을 제안 한다: 시공간 객체 모델과 시공간 내부 기술 모델 또한 객체지향 시공간 질의어인 STOQL을 제안한다. STOQL은 공간 객체의 다양한 출력과 시공간 및 비 공간 객체의 검색을 수행할 수 있는 통합 기능을 제공해준다.

  • PDF