Search | Korea Science

KFREB: Korean Fictional Retrieval-based Evaluation Benchmark for Generative Large Language Models (KFREB: 생성형 한국어 대규모 언어 모델의 검색 기반 생성 평가 데이터셋)

Jungseob Lee;Junyoung Son;Taemin Lee;Chanjun Park;Myunghoon Kang;Jeongbae Park;Heuiseok Lim
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.9-13
- /
- 2023
본 논문에서는 대규모 언어모델의 검색 기반 답변 생성능력을 평가하는 새로운 한국어 벤치마크, KFREB(Korean Fictional Retrieval Evaluation Benchmark)를 제안한다. KFREB는 모델이 사전학습 되지 않은 허구의 정보를 바탕으로 검색 기반 답변 생성 능력을 평가함으로써, 기존의 대규모 언어모델이 사전학습에서 보았던 사실을 반영하여 생성하는 답변이 실제 검색 기반 답변 시스템에서의 능력을 제대로 평가할 수 없다는 문제를 해결하고자 한다. 제안된 KFREB는 검색기반 대규모 언어모델의 실제 서비스 케이스를 고려하여 장문 문서, 두 개의 정답을 포함한 골드 문서, 한 개의 골드 문서와 유사 방해 문서 키워드 유무, 그리고 문서 간 상호 참조를 요구하는 상호참조 멀티홉 리즈닝 경우 등에 대한 평가 케이스를 제공하며, 이를 통해 대규모 언어모델의 적절한 선택과 실제 서비스 활용에 대한 인사이트를 제공할 수 있을 것이다.
PDF

Application of a large-scale climate ensemble simulation data to evaluate the scale of extreme rainfall: The case of 2018 Hiroshima extreme-scale rainfall event (극한 호우의 규모 평가를 위한 대규모 기후 앙상블 자료의 적용: 2018년 히로시마 극한 호우의 사례)

Kim, Youngkyu;Son, Minwoo
- Proceedings of the Korea Water Resources Association Conference
- /
- 2022.05a
- /
- pp.290-290
- /
- 2022
본 연구는 대규모 기후 앙상블 모의 결과를 이용하여 산정된 극한 강우량을 최근 발생한 극한 호우사상의 규모 평가에 적용하는 것을 목적으로 수행되었다. 2018 년 히로시마 호우사상은 지속시간 24 시간에서 재현기간 1,000 년에 상응하는 극한 규모를 나타냈기 때문에 짧은 기간동안 수집된 관측자료만으로 규모를 평가하기 어렵다. 따라서 이를 평가하고자 대규모 기후 앙상블 모의결과 기반의 d4PDF 자료를 이용하였다. 이 자료는 3,000 개의 연 최대 강우자료를 제공하고, 이를 토대로 통계적 모형 및 가정 없이 비모수적으로 10 년부터 1,000 년의 재현기간을 나타내는 지속시간 24 시간의 확률강우량을 산정했다. 산정된 d4PDF 의 확률강우량은 관측강우량의 확률강우량과 비교하였으며, 관측기간에 가까운 50 년의 재현기간에서는 두 확률강우량의 차이가 3.53%였지만 관측기간 (33 년)과 재현기간 (100 년 이상)의 차이가 증가할수록 오차가 10% 이상으로 증가하는 양상을 나타냈다. 이는 장기간 재현기간에서 관측강우량의 확률강우량은 불확실성을 내포하는 것을 의미한다. d4PDF 의 확률강우량에 대해서 2018 년 히로시마 호우사상은 300 년에 가까운 재현기간을 나타냈다. 미래 기후조건에서의 d4PDF 자료를 이용해 확률강우량을산정했으며, 현재 기후조건대비 미래 기후조건에서 10 년부터 1000 년의 재현기간을 나타내는 확률강우량은 모두 20% 이상으로 증가했다. 미래 기후조건의 확률강우량에 대해 2018 년 히로시마 호우사상은 100 년에 가까운 재현기간을 나타냈으며, 이는 미래 기후조건에서 히로시마 호우사상의 발생 확률이 0.33% (현재 기후)에서 1% (미래 기후)로 증가하는 것을 의미한다. 결과적으로, 대규모 기후 앙상블 모의결과 기반의 d4PDF 는 현재 기후조건과 미래 기후조건하에서 극한 규모의 호우사상의 정량적인 평가에 유용하게 활용될 수 있다.
PDF

Travel Demand Estimation using Traffic Counts on the Large Scale Network (대규모교통망에서 관측교통량기반 통행수요추정)

김종형;이승재;조범철
- Journal of Korean Society of Transportation
- /
- v.19 no.2
- /
- pp.43-52
- /
- 2001
대부분의 관측교통량기반 수요추정기법은 소규모 및 중규모 교통망 등의 상대적으로 규모가 작은 교통망에서 기본적으로 가정된 수요를 가지고 얻은 추정O/D를 기본O/D와 비교하여 그 추정의 정확성이 어느 정도인가를 오차분석법 등을 이용하여 비교.분석하는 것이 그 주요한 분석방향이라고 할 수 있었다. 이러한 접근법은 실제 현실에서는 알 수 없는 참O/D나 참관측교통량을 가정하고 제시된 모형을 면밀히 관찰하여 모형의 장단점이 무엇인지를 파악하거나 타모형과의 비교.분석을 용이하게 하고자 할 때 많이 이용된다. 그러나 이러한 가정된 교통망이나 참O/D(true O/D) 등은 모형의 적용가능성을 살필 경우에 이용 가능한 방법이라고 할 수 있지만, 참O/D를 알지 못하는 현실상황(대규모 교통망)에서는 추정O/D의 신뢰성을 평가하기란 매우 힘든 작업이거나 거의 불가능한 일이라 할 수 있다. 이러한 문제점을 보완하고자 본 연구에서는 서울시의 1996년도 교통센서스 자료를 이용하여 가정된 수요가 아닌 실제적이고 현실적인 자료를 가지고 대규모 교통망에서 이용될 수 있는 모형을 살펴보았다. 연구방법은 대규모 교통망에 기존의 단일차종기반모형과 본 연구에서 제시한 다차종(multiclass)기반모형을 적용하여 추정된 O/D에 TLFD(Trip Length Frequency Distribution)개념을 이용하여 추정된 O/D의 신뢰성을 평가하고자 하였다. 또한, $R^2$를 이용하여 모형 적용 전후의 관측교통량과 배분교통량을 비교하여 추정력을 분석하였다. 본 연구에서는 단일차종기반모형보다는 차종간 혼잡효과 및 노선선택비율을 차종별로 감안할 수 있는 다차종기반모형이 대규모교통망에서는 보다 적절한 결과를 나타내는 것으로 분석되었다.
PDF

Structuring Input and Output Control of Multiple Large Language Models for Fact-Checking (사실관계 확인을 위한 다중 대규모 언어모델의 입출력 제어 구조화 방법)

Jeesu Jung;Chihyeon Lee;Hyeonseok Kang;Sangkeun Jung;Yoonhyung Roh
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.155-161
- /
- 2023
최근 대규모 언어 모델의 활용 방법에 대한 많은 관심이 지속되고 있다. LLM이 생성한 정보의 가장 중요한 도전 과제는 출력 문장이 사실인지 판단하기 어렵다는 점이다. 본 논문은 하나 또는 복수의 LLM를 구조화하여, 생산되는 다양한 결과를 활용하는 방안을 탐구한다. LLM이 생성한 출력 정보를 고려하여 사실 관계 확인 과제를 수행함에 있어서, 성능 향상 가능성을 평가하기 위한 실험을 진행했다. 대규모 언어모델의 구조화를 통해 입력 정보의 제어를 할 경우, 기존 최고 성능보다 4.75의 정확도 향상을 관찰할 수 있었다.
PDF

Similarity Detection for Large Scale Software Using Abstracted Source Code (소스코드 요약을 이용한 대규모 소프트웨어 유사도 평가)

Park, Seong-Soo;Han, Hwan-Soo
- Proceedings of the Korean Information Science Society Conference
- /
- 2012.06a
- /
- pp.39-41
- /
- 2012
프로그램 코드의 유사도 측정에 대한 방법은 여러 가지 존재하고 있으며 유사도 측정 프로그램도 많이 존재한다. 이런 프로그램 유사도 측정 도구는 중소규모 소프트웨어 프로젝트에 많이 사용되고 있으나, 실제 대규모 소프트웨어의 유사도 검사를 위해서 사용하기에는 한계가 존재한다. 지금까지 대규모 소프트웨어의 유사도를 측정할 수 있는 객관적 방법이 거의 제시되지 않고 있어, 본 논문에서는 대규모 소프트웨어의 소스코드를 요약하여 서로 다른 프로그램의 유사도를 측정하는 방법을 제시한다.

실물옵션을 이용한 대규모 단계적 투자프로젝트의 평가모형에 관한 연구

최성호;김규태
- Proceedings of the Korean Operations and Management Science Society Conference
- /
- 2003.05a
- /
- pp.612-619
- /
- 2003
실물옵션은 전통적인 경제성 평가기준의 하나인 순현재가치 분석법이 의사결정 과정에서 경영의 유연성을 무시함으로써 투자 혹은 자산의 가치를 낮게 평가하는 단점을 제거하고 이를 평가에 적절히 포함시킬 수 있다고 여겨지고 있어 새로운 평가방법으로 주목을 받고 있다. 특히, 정보기술(IT) 분야에서는 다음과 같은 이유 때문에 전통적인 현금흐름할인 방법이 효과적이지 못할 수 있다. (1) 우선, 정보통신 분야에서 대부분의 정보기술 기반 투자 프로젝트는 막대한 자본이 소요되기 때문에 기업들은 이를 피하기 위하여 단계적인 투자계획을 세우는 경우가 많다. (2) 또한, 초기 기반에 대한 투자의 주요한 혜택이 대부분 그 이후 단계의 투자에서 구현되기 때문에 성급한 초기투자에 대한 경제성 평가는 이후의 혜택을 무시할 가능성이 많아진다. (3) 마지막으로 초기의 투자 프로젝트에 참여하지 못하면, 이 후의 프로젝트에 참여하기 어렵기 때문에 미래의 혜택을 얻을 수 없게 된다. 이러한 여러 가지 이유로 이를 적절히 평가할 수 있는 실물옵션 평가방법이 선호된다. 본 연구에서는 정보통신 분야의 투자와 같은 대규모 프로젝트의 특징을 평가방법의 입장에서 살펴보고, 실물옵션 개념을 응용하여 이러한 투자 형태의 평가를 위한 모델을 개발하고 적용방법을 생각해본다.
PDF

FubaoLM : Automatic Evaluation based on Chain-of-Thought Distillation with Ensemble Learning (FubaoLM : 연쇄적 사고 증류와 앙상블 학습에 의한 대규모 언어 모델 자동 평가)

Huiju Kim;Donghyeon Jeon;Ohjoon Kwon;Soonhwan Kwon;Hansu Kim;Inkwon Lee;Dohyeon Kim;Inho Kang
- Annual Conference on Human and Language Technology
- /
- 2023.10a
- /
- pp.448-453
- /
- 2023
대규모 언어 모델 (Large Language Model, LLM)을 인간의 선호도 관점에서 평가하는 것은 기존의 벤치마크 평가와는 다른 도전적인 과제이다. 이를 위해, 기존 연구들은 강력한 LLM을 평가자로 사용하여 접근하였지만, 높은 비용 문제가 부각되었다. 또한, 평가자로서 LLM이 사용하는 주관적인 점수 기준은 모호하여 평가 결과의 신뢰성을 저해하며, 단일 모델에 의한 평가 결과는 편향될 가능성이 있다. 본 논문에서는 엄격한 기준을 활용하여 편향되지 않은 평가를 수행할 수 있는 평가 프레임워크 및 평가자 모델 'FubaoLM'을 제안한다. 우리의 평가 프레임워크는 심층적인 평가 기준을 통해 다수의 강력한 한국어 LLM을 활용하여 연쇄적 사고(Chain-of-Thought) 기반 평가를 수행한다. 이러한 평가 결과를 다수결로 통합하여 편향되지 않은 평가 결과를 도출하며, 지시 조정 (instruction tuning)을 통해 FubaoLM은 다수의 LLM으로 부터 평가 지식을 증류받는다. 더 나아가 본 논문에서는 전문가 기반 평가 데이터셋을 구축하여 FubaoLM 효과성을 입증한다. 우리의 실험에서 앙상블된 FubaoLM은 GPT-3.5 대비 16% 에서 23% 향상된 절대 평가 성능을 가지며, 이항 평가에서 인간과 유사한 선호도 평가 결과를 도출한다. 이를 통해 FubaoLM은 비교적 적은 비용으로도 높은 신뢰성을 유지하며, 편향되지 않은 평가를 수행할 수 있음을 보인다.
PDF

Design and Implementation of a Simulator for the Performance Simulation of a Large-Scale Network Using OPNET (OPNET을 이용한 대규모 망 성능 모의실험을 위한 시뮬레이터 설계 및 구현)

Park, Jeong-Sook;Jeon, Yong-Hee
- The Journal of Korean Institute of Communications and Information Sciences
- /
- v.34 no.3B
- /
- pp.274-287
- /
- 2009
In the Internet environment in which best-effort services are provided, we need to guarantee end-to-end performance rather than hop performance to provide services with a variety of QoS(Quality of Service) requirements. The end-to-end performance is affected by many factors along the path of traffic flow. Most existing simulation studies are concentrated on a single node or a few nodes. We need much different approach considering the simulation execution time to simulate a large-scale network. In this paper, we derive requirements and present methodologies for the implementation of the simulator to simulate it. Then, we design and implement our simulator using OPNET. Performance evaluation is carried out using the simulator for large-scale KII (National Information Infrastructure in Korea). We use a self-similar traffic model and present some results on the end-to-end performance metric for the networks.
PDF KSCI

Strategic Environmental Assessment and Integration of Development and Environmental Planning in Korea (전략환경평가와 개발계획 및 환경계획의 통합)

Lee, Jong Ho;Cho, Jae Heon
- Journal of Environmental Impact Assessment
- /
- v.16 no.6
- /
- pp.433-446
- /
- 2007
환경영향평가는 대규모 개발사업을 대상으로, 계획 확정후 사업 실시단계에서 개발사업 시행에 따른 환경영향 저감방안을 중점 검토하는 제도인데, 사전환경성검토는 행정계획과 환경상 민감지역의 소규모 개발사업을 대상으로, 계획 확정 이전단계에서 환경적 측면에서 입지나 개발의 적정성 타당성을 사전에 검토하는 제도이다. 사전환경성검토는 2006년 6월부터 대상 행정계획을 구체적 개발사업의 상위 행정계획으로 확대하고, 계획의 적정성, 입지의 타당성을 미리 검토할 수 있도록 하고, 검토과정에서 주민, 전문가, 시민단체 등 이해관계자의 의견수렴을 거치도록 하는 전략환경평가 체제로 개편됨으로써, 환경갈등이나 사회 경제적 문제를 예방할 수 있는 기반을 보다 강화하였다. 환경부 주관의 사전환경성검토가 전략환경평가를 강화하는 동안 건설교통부가 중장기기본계획에 대한 전략환경평가를 시행하기 시작하였다. 우리나라의 전략환경평가는 건설교통부와 환경부가 전략환경평가를 별도로 운영하는 데 따른 비효율성, 국토계획과 환경계획의 연계성 부족, 선거공약으로 제안된 대규모 개발계획 등에 대한 객관적 환경평가의 어려움 등의 문제를 가지고 있다. 따라서 본 연구는 전략환경평가제도의 정립을 위해, 환경정책패러다임의 변천, 환경영향평가와 사전환경성검토의 발전, 전략환경평가의 현황과 선거공약으로 제안된 대규모 개발계획에 대한 전략환경평가의 한계 등을 고찰한 후, 전략환경평가제도의 발전방향과 개발계획과 환경계획의 연계통합방안을 모색하고자 한다.
PDF KSCI

대규모 복합건축물의 한국형 피난시뮬레이션 개발을 위한 연구

Kim, Jae-Hong;Yun, Seong-Min;Jeong, Gi-Taek;Choe, Jin-Won;Lee, Su-Ho
- Proceedings of the Korea Institute of Fire Science and Engineering Conference
- /
- 2013.04a
- /
- pp.62-63
- /
- 2013
최근 전 세계적으로 여러 가지 목적으로 초고층 및 대형건축물이 급속도로 건설되고 있다. 건축물이 대형화, 고층화 될수록 피난 동선 및 피난 소요시간은 길어지게 된다. 이에 많은 국내 외 연구에서 대규모 건축물에서의 피난안전성평가를 진행하고 있다. 일반적으로 건축물에서의 피난안정성을 평가하기 위해서는 실제 실험의 어려움 등으로 인해 외산 시뮬레이션을 사용한다. 이러한 외산 프로그램들은 국내의 법규 및 특성을 반영하지 못하는 한계가 있다. 따라서 본 연구에서는 대규모 복합건축물의 한국형 피난시뮬레이션 개발을 위한 연구 및 방향을 제시하고자 한다.
PDF

Search Result 1,282, Processing Time 0.029 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)