• 제목/요약/키워드: 유사문장 비교

검색결과 109건 처리시간 0.023초

ChatGPT 기반 한국어 Vision-Language Pre-training을 위한 고품질 멀티모달 데이터셋 구축 방법론 (High-Quality Multimodal Dataset Construction Methodology for ChatGPT-Based Korean Vision-Language Pre-training)

  • 성진;한승헌;신종훈;임수종;권오욱
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.603-608
    • /
    • 2023
  • 본 연구는 한국어 Vision-Language Pre-training 모델 학습을 위한 대규모 시각-언어 멀티모달 데이터셋 구축에 대한 필요성을 연구한다. 현재, 한국어 시각-언어 멀티모달 데이터셋은 부족하며, 양질의 데이터 획득이 어려운 상황이다. 따라서, 본 연구에서는 기계 번역을 활용하여 외국어(영문) 시각-언어 데이터를 한국어로 번역하고 이를 기반으로 생성형 AI를 활용한 데이터셋 구축 방법론을 제안한다. 우리는 다양한 캡션 생성 방법 중, ChatGPT를 활용하여 자연스럽고 고품질의 한국어 캡션을 자동으로 생성하기 위한 새로운 방법을 제안한다. 이를 통해 기존의 기계 번역 방법보다 더 나은 캡션 품질을 보장할 수 있으며, 여러가지 번역 결과를 앙상블하여 멀티모달 데이터셋을 효과적으로 구축하는데 활용한다. 뿐만 아니라, 본 연구에서는 의미론적 유사도 기반 평가 방식인 캡션 투영 일치도(Caption Projection Consistency) 소개하고, 다양한 번역 시스템 간의 영-한 캡션 투영 성능을 비교하며 이를 평가하는 기준을 제시한다. 최종적으로, 본 연구는 ChatGPT를 이용한 한국어 멀티모달 이미지-텍스트 멀티모달 데이터셋 구축을 위한 새로운 방법론을 제시하며, 대표적인 기계 번역기들보다 우수한 영한 캡션 투영 성능을 증명한다. 이를 통해, 우리의 연구는 부족한 High-Quality 한국어 데이터 셋을 자동으로 대량 구축할 수 있는 방향을 보여주며, 이 방법을 통해 딥러닝 기반 한국어 Vision-Language Pre-training 모델의 성능 향상에 기여할 것으로 기대한다.

  • PDF

워드 임베딩 클러스터링을 활용한 리뷰 다중문서 요약기법 (Multi-Document Summarization Method of Reviews Using Word Embedding Clustering)

  • 이필원;황윤영;최종석;신용태
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.535-540
    • /
    • 2021
  • 다중문서는 하나의 주제가 아닌 다양한 주제로 구성된 문서를 의미하며 대표적인 예로 온라인 리뷰가 있다. 온라인 리뷰는 정보량이 방대하기 때문에 요약하기 위한 여러 시도가 있었다. 그러나 기존의 요약모델을 통해 리뷰를 일괄적으로 요약할 경우 리뷰를 구성하고 있는 다양한 주제가 소실되는 문제가 발생한다. 따라서 본 논문에서는 주제의 손실을 최소화하며 리뷰를 요약하기 위한 기법을 제시한다. 제안하는 기법은 전처리, 중요도 평가, BERT를 활용한 임베딩 치환, 임베딩 클러스터링과 같은 과정을 통해 리뷰를 분류한다. 그리고 분류된 문장은 학습된 Transformer 요약모델을 통해 최종 요약을 생성한다. 제안하는 모델의 성능 평가는 기존의 요약모델인 seq2seq 모델과 ROUGE 스코어와 코사인 유사도를 평가하여 비교하였으며 기존의 요약모델과 비교하여 뛰어난 성능의 요약을 수행하였다.

인위적 용수관리를 고려한 수문학적 가뭄의 정의 및 적용성 검토 : 한강유역을 중심으로 (Definition and application of the human-modified hydrological drought : a case study of Han River basin)

  • 신지예;문장원;김민지;김태웅
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.331-331
    • /
    • 2021
  • 수문학적 가뭄의 판단은 유출량과 저수지 수위 등을 비롯한 다양한 수문자료를 활용하여 가능하다. 가뭄판단을 위한 유량 자료로는 수위관측소 관측 유량, 유출모형을 통한 모의 유량 자료가 주로 활용된다. 최근에는 관측 유량 기반의 수문학적 가뭄 판단은 인위적인 용수 배분이 고려된 것이기 때문에 인간이 만든 수문학적 가뭄(Human-modified hydrological drought, 인위적 수문학적 가뭄)으로, 모의 유량 기반의 수문학적 가뭄 판단은 자연적인 수문과정이 반영된 자연유량을 활용한 것이기 때문에 기후영향 수문학적 가뭄(Climate-induced hydrological drought)이란 정의된다. 우리나라의 경우, 홍수기에 저류된 저수량을 비홍수기 동안, 특히 용수사용량이 많은 봄철 농번기에 활용하는 것이 수자원 관리의 기본방향이다. 따라서 우리가 직면하는 수문학적 가뭄은 대부분 댐 및 저류지에서의 용수 사용량 조절에 따라 영향을 받기 때문에, 기상인자가 직접적인 원인으로 작용되는 가뭄과는 다르다. 본 연구에서는 관측 유량과 자연유량 자료를 활용하여 위에서 정의된 두 종류의 수문학적 가뭄에 대하여 비교하고, 실제 발생되었던 가뭄 피해 정보와의 일치정도를 검토하였다. 가뭄의 판단은 각각의 가뭄지수를 표준유출량지수(Standardized Runoff Index, SRI)에 적용하며, 수정 Mann-Kendall 검증으로 두 지수들의 경향성을 비교하였다. 장기간의 관측 자료를 보유하고 있는 한강유역 일부지역에 적용한 결과 두 종류의 가뭄지수 모두 뚜렷한 경향성은 없으며, 댐 상류지역에서의 두 종류의 가뭄특성은 유사하게 나왔다. 하지만, 댐 하류지역에서는 인위적 수문학적 가뭄이 기후영향 수문학적 가뭄보다 발생빈도는 적으나, 지속기간은 약 한달 정도 짧고, 가뭄심도는 약 5~20 % 정도 증가하는 강도가 센가뭄이 발생되는 경향이 있음이 확인되었다. 이는 인위적인 용수 관리로, 약한 규모의 가뭄은 감소되고 있으나 큰 규모의 가뭄은 그 영향이 더 큰 것으로 예상할 수 있다. 해당 결과를 바탕으로 효율적인 용수 관리에 통하여 약한 가뭄 뿐만 아니라 대형 가뭄을 대비하기 위한 지속적인 노력이 필요함을 확인 할 수 있었다. 장기간의 관측 유량의 자료의 한계로 많은 지역에는 적용이 어려우나 해당 연구를 통하여 국내에서도 수문학적 가뭄의 개념을 재정립하고, 용수 공급 개념을 기반으로 하는 수문학적 가뭄 지수의 개발에 활용 가능할 것이다.

  • PDF

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

『사소절』 현전본에 대한 연구 (A Study on Hereditary Version of Sasojeol)

  • 한미경
    • 한국문헌정보학회지
    • /
    • 제49권3호
    • /
    • pp.57-79
    • /
    • 2015
  • 이 연구는 국내 8개 도서관과 미국과 일본의 3개 도서관에 소장되어 있는 61종의 "사소절" 현전본을 계통 분류하고, 주요 도서관 소장본을 비교 분석하였으며, 그 결과는 다음과 같다. 1) 61종의 "사소절" 조사 결과, 현전본의 종류는 5종("청장관사소절", "사소절", "사쇼졀", "현토사소절", "사소절지절")으로 계통 분류된다. 상세 조사결과, "사소절"과 "사소절지절"이 가장 많이 현전하고 있으며, 언문본 "사쇼졀"은 활자본 "사소절"을 언문으로 번역하였고 "현토사소절"은 활자본 "사소절"을 현토하였으며, "사소절지절"은 정고본 "청장관사소절"을 산정한 것임을 밝혔다. 2) 주요 도서관의 "청장관사소절" 소장본 비교 결과 국립중앙도서관과 장서각 소장본이 대체로 유사하며, "사소절" 소장본 비교 결과 경기대 소장본이 비교적 양호하게 전사하였음을 분석하였다. 3) "사소절지절"과 "청장관사소절"을 비교한 결과 "사소절지절"은 정고본 "청장관사소절"의 '사전편' 요약본이며, 22장의 문장이 추가되어 있음을 발견하였다.

트레이닝 데이터가 제한된 환경에서 N-Gram 사전을 이용한 트위터 스팸 탐지 방법 (A Method for Twitter Spam Detection Using N-Gram Dictionary Under Limited Labeling)

  • 최혁준;박정희
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권9호
    • /
    • pp.445-456
    • /
    • 2017
  • 본 논문에서는 트레이닝 데이터가 제한된 환경에서 n-gram 사전을 이용하여 불건전 정보를 포함하는 스팸 트윗을 탐지하는 방법을 제안한다. 불건전 정보를 포함하는 스팸 트윗은 유사한 단어와 문장을 사용하는 경향이 있다. 이러한 특성을 이용하여 스팸 트윗과 정상 트윗에 대한 n-gram 사전을 구축하고 나이브 베이스 분류기를 적용하여 효과적으로 스팸 트윗을 탐지할 수 있음을 보인다. 반면에, 실시간으로 대용량의 데이터가 유입되는 트위터의 특성은 초기 트레이닝 집합 구성에 매우 큰 비용을 요구 한다. 따라서, 초기 트레이닝 집합이 매우 작거나 존재하지 않는 환경에서 적용할 수 있는 스팸 트윗 탐지 방법이 필요하다. 이를 위해 트위터의 리트윗 기능을 활용하여 의사 라벨을 생성하고 초기 트레이닝 집합의 구성과 n-gram 사전 업데이트에 활용하는 방법을 제안한다. 2016년 12월 1일부터 2016년 12월 7일까지 수집된 한국어 트윗 130만 건을 사용한 다양한 실험 결과는 비교 방법들보다 제안하는 방법의 성능이 우수함을 입증한다.

가뭄감시를 위한 파머가뭄지수 개선 방안 연구: 잠재증발산량 산정 방법을 중심으로 (A study on PDSI improvement for drought monitoring: focused on the estimation method of potential evapotranspiration)

  • 문장원;강재원;조영현
    • 한국수자원학회논문집
    • /
    • 제50권12호
    • /
    • pp.863-875
    • /
    • 2017
  • 본 연구에서는 SC-PDSI를 이용하여 잠재증발산량 산정 방법이 가뭄지수 산정 결과에 미치는 영향을 평가하였다. 잠재증발산량 산정 방법으로 월열지수법, Penman-Monteith 방법, Hargreaves 공식 등 세 가지 방법을 이용하였으며, 기상청 56개 지점을 대상으로 세 가지 잠재증발산량 산정 방법에 따른 SC-PDSI를 산정하고 그 결과를 비교하였다. 분석 결과, Penman-Monteith 방법에 의한 결과와 Hargreaves 공식에 의한 결과는 월별로 큰 차이 없이 유사한 가뭄지수 산정 결과를 나타내고 있음을 확인하였으며, 월열지수법에 의한 결과는 상대적으로 큰 차이를 보이고 있음을 알 수 있었다. 월별로는 봄철과 겨울철 기간에 대해 산정된 가뭄지수와 가뭄상황 판단 결과가 차이를 보이고 있음을 확인하였다. 결론적으로 우리나라에서 PDSI를 산정하고자 할 경우에는 Penman-Monteith 방법이나 Hargreaves 공식을 이용하는 것이 바람직할 것으로 판단된다.

KoCheckGPT: 한국어 초거대언어모델 작성 글 판별기 (KoCheckGPT: Korean LLM written document detector)

  • 강명훈;이정섭;이승윤;홍성태;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.432-436
    • /
    • 2023
  • 초거대언어모델(LLM)의 도래에 따라 다양한 과업들이 도메인 관계 없이 제로샷으로 추론이 가능해짐에 따라서 LLM이 다양한 산업분야에 적용되고 있다. 대표적으로 ChatGPT와 GPT-4는 상용 API로 서비스를 제공하여 용이한 서비스 접근으로 다양한 이용층을 끌어들이고 있다. 그러나 현재 상용 API로 제공되고 있는 ChatGPT 및 GPT-4는 사용자의 대화 내역 데이터를 수집해 기업의 보안 문제를 야기할 수 있고 또한 생성된 결과물의 환각 문제로 인한 기업 문서의 신뢰성 저하를 초래할 수 있다. 특히 LLM 생성 글은 인간의 글과 유사한 수준으로 유창성을 확보한만큼 산업현장에서 LLM 작성 글이 판별되지 못할 경우 기업 활동에 큰 제약을 줄 수 있다. 그러나 현재 한국어 LLM 작성 글 탐지 서비스가 전무한 실정이다. 본 논문에서는 한국어 초거대언어모델 작성 글 판별기: KoCheckGPT 를 제안한다.KoCheckGPT는 산업현장에서 자주 사용되는 문어체, 개조식 글쓰기로 작성된 문서 도메인을 목표로 하여 글 전체와 문장 단위의 판별 정보를 결합하여 주어진 문서의 LLM 작성 여부를 효과적으로 판별한다. 다국어 LLM 작성 글 판별기 ZeroGPT와의 비교 실험 결과 KoCheckGPT는 우수한 한국어 LLM 작성 글 탐지 성능을 보였다.

  • PDF

과학과 교육과정의 핵심 개념 국제 비교 -미국, 캐나다, 호주, 영국을 중심으로- (International Comparison Study on Essential Concepts of Science Curriculum: Focus on the United States, Canada, Australia and England)

  • 김지현;정아준
    • 한국과학교육학회지
    • /
    • 제37권1호
    • /
    • pp.215-223
    • /
    • 2017
  • 본 연구에서는 과학과 교육과정의 핵심 개념을 국가별로 비교하여 우리나라의 핵심 개념 제시 방안을 탐색하였다. 최근 개정된 미국, 캐나다, 호주, 영국의 교과별 교육과정 문서를 살펴보면 Key ideas, Big ideas, Key concepts, Disciplinary core ideas, Fundamental concepts 등과 같은 용어를 새롭게 도입하면서 해당 개념의 의미, 역할 등을 상세히 기술하며 이를 다양한 방식으로 사용하여 과학교과의 내용을 구조화하고 있다. 본 연구에서는 분석 대상국의 핵심 개념을 다루는 용어의 의미와 위상, 역할을 용례를 통해 분석하여 이를 통해 우리나라의 핵심 개념 제시 방안을 검토해보았다. 비교 대상국의 과학과 핵심 개념의 의미를 비교해본 결과 4개국 모두 교과의 내용을 다루는 개념뿐 아니라 간학문적 통합 개념을 설정하여 사용하고 있었고, 분석 대상 국가 모두에서 해당 개념들이 상당한 위상을 가지고 교육과정 문서에 사용되는 것을 확인할 수 있었다. 분석 대상 국가인 미국, 캐나다, 호주, 영국에서 핵심개념은 그 내용과 의미가 유사한 경우에도 국가에 따라 역할로서 중시하는 면에는 차이가 있었으며, 과학과 교육과정을 구조화하는 방식은 다양하지만 이 구조화에서 핵심개념이 중요한 역할을 수행하는 공통점을 가지고 있었다. 핵심개념은 학문 및 학년을 연결하는 역할을 할 수도 있으며, 과학 지식 획득의 틀(framework)로 작용하기도 한다. 또한, 핵심 개념이 미국처럼 성취 기준을 제시하는 방식으로 구조화될 수도 있으며, 캐나다 온타리오의 경우와 같이 단원마다의 목표로 구조화될 수도 있다. 이를 통해 볼 때 우리 나라 또한 우리 과학교육의 맥락에 맞는 간학문적 통합 개념을 핵심 개념으로 지정하여 과학 교육과정에서 제시할 필요가 있을 것으로 생각된다. 또한, 핵심개념은 단순히 과학 교과의 지식 내용뿐 아니라 기능, 가치 등의 요소를 포함할 수 있으며, 표현 방식 또한 단어, 문장, 도식 등 다양한 방식으로 제시될 수 있을 것이다. 이를 위해 우리 교육 목표에 맞는 핵심 개념의 내용을 선정하고 적절한 방식으로 핵심 개념을 제시하는 방안을 채택하기 위한 논의가 필요하다.

우리나라 교과서와 International Baccalaureate Diploma Programme(IBDP) 교과서 비교·분석 -수학적 모델링의 관점에서 함수 영역을 중심으로- (A Comparative Study on International Baccalaureate Diploma Programme(IBDP) Textbooks and Korean Textbooks by the 2015 Revised Curriculum -Focus on function from a mathematical modeling perspective-)

  • 박우홍;고상숙
    • 한국학교수학회논문집
    • /
    • 제25권2호
    • /
    • pp.125-148
    • /
    • 2022
  • 본 연구의 목적은 International Baccalaureate Diploma Programme(이하 IBDP)의 수학 교과서와 우리나라 고등학교 수학 교과서의 함수 단원의 문제 중 모델링 문제의 수와 특징을 비교·분석하는데 있다. IBDP 교과서 3종과 우리나라 교과서 9종 선택한 후 이원분류법을 사용하여 교과서의 모든 문제를 실세계 문제와 그렇지 않은 문제로 분류한 후 실세계 문제는 수학적 모델 설정의 필요성에 따라 문장제와 모델링 문제로 분류한 다음 모델링 문제는 일반적 응용문제와 적절한 모델링 문제로 분류하였다. 12 종의 교과서 중 모델링 문제를 가장 많이 포함한 교과서는 IBDP의 '수학: 응용과 해석 HL' 교과서로 전체 문제대비 50.41%의 모델링 문제 비율을 나타내었다. 이 교과서는 2%에서 9% 사이의 모델링 문제 비율 분포를 보인 다른 교과서에 비해 학습자들에게 현저히 높은 모델링 기회를 제공하였다. 수학적 모델링의 6가지 하위 행동 요소 중 '수학적 분석' 요소와 '해석과 결과에 대한 분석' 요소는 모델링 문항 수와 매우 유사한 정도로 가장 많이 나타났으며 '수학화' 요소가 뒤를 이었다. 위의 연구 결과로 모델링 문제들에 대한 분석을 통해 각 교과서에서 등장하는 모델링 문제의 수와 비율에 대한 비교와 모델링 문제에서 어떠한 모델링 하위행동요소가 어느 정도로 나타나는지에 대한 이해에 도움을 줄 수 있을 것으로 기대한다.