• 제목/요약/키워드: Dataset Generation

검색결과 196건 처리시간 0.024초

100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋 (100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models)

  • 비립;강예지;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-154
    • /
    • 2023
  • 본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

  • PDF

에너지 생산성 분석 기반 양면발전형 수직 태양전지의 활용 가능성 탐색 (A Study on the Applicability of Double-Sided Vertical Photovoltaic Panels Based on Energy Productivity Analysis)

  • 최승주;한승훈
    • 신재생에너지
    • /
    • 제19권4호
    • /
    • pp.84-97
    • /
    • 2023
  • This study aimed to investigate the feasibility and potential applications of utilizing bifacial photovoltaic (PV) panels from an architectural perspective. It also aimed to establish a foundational dataset for installation and operational guidelines for bifacial PV panels through a comparative analysis of energy production performance with single PV panels. The research encompassed several key steps, including a comprehensive literature review, calculation of solar surface radiation values, development of datasets for bifacial and single PV energy production, and a performance comparison between both approaches. The results of the study show that bifacial PV panels exhibit optimized energy production capabilities within the range of 40 to 80 degrees, contingent upon the specific installation location. Consequently, it is recommended that the installation of bifacial PV panels in Korea should primarily focus on southwest-to-west orientation. Furthermore, it was concluded that bifacial PV panels could contribute an equivalent or even superior level of energy production compared to single PV panels, even if their performance exhibited a marginally lower efficiency of 2% to 5% with an 18% power generation efficiency.

수학적 변환과 심층 생성 모델을 활용한 DMMP와 2-CEES의 모의 라만 분광 생성 (Generating Synthetic Raman Spectra of DMMP and 2-CEES by Mathematical Transforms and Deep Generative Models)

  • 박성원;정보성;김홍중
    • 한국군사과학기술학회지
    • /
    • 제26권5호
    • /
    • pp.422-430
    • /
    • 2023
  • To build an automated system detecting toxic chemicals from Raman spectra, we have to obtain sufficient data of toxic chemicals. However, it usually costs high to gather Raman spectra of toxic chemicals in diverse situations. Tackling this problem, we develop methods to generate synthetic Raman spectra of DMMP and 2-CEES without actual experiments. First, we propose certain mathematical transforms to augment few original Raman spectra. Then, we train deep generative models to generate more realistic and diverse data. Analyzing synthetic Raman spectra of toxic chemicals generated by our methods through visualization, we qualitatively verify that the data are sufficiently similar to original data and diverse. For conclusion, we obtain a synthetic dataset of DMMP and 2-CEES with the proposed algorithm.

계량정보분석시스템으로서의 KnowledgeMatrix 개발 (Development of the KnowledgeMatrix as an Informetric Analysis System)

  • 이방래;여운동;이준영;이창환;권오진;문영호
    • 한국콘텐츠학회논문지
    • /
    • 제8권1호
    • /
    • pp.68-74
    • /
    • 2008
  • 데이터베이스로부터 지식을 발견하고 이를 연구기획자, 정책의사결정자들이 활용하는 움직임이 전세계적으로 활발해지고 있다. 이러한 연구분야 중 대표적인 것이 계량정보학이고 이 분야를 지원하기 위해서 주로 선진국을 중심으로 분석시스템이 개발되고 있다. 그러나 외국의 분석시스템은 실제 수요자의 요구를 충분히 반영하지 못하고 있고, 고가이면서 한글이 지원되지 않아 국내 연구기획자가 사용하기에 어려운 점이 있다. 따라서 한국과학기술정보연구원에서는 이러한 단점을 극복하기 위해서 계량정보분석시스템 KnowledgeMatrix를 개발하였다. KnowledgeMatrix는 논문 및 특허의 서지정보를 분석하여 지식을 발견하기 위한 목적으로 설계된 독립형(stand-alone) 시스템이다 KnowledgeMatrix의 주요 구성을 살펴보면 행렬 생성, 클러스터링, 시각화, 데이터 전처리로 요약된다. 본 논문에서 소개하고 있는 KnowledgeMatrix는 외국의 대표적인 정보분석시스템과 비교했을 때 다양한 기능을 제공하고 있고 특히 영문데이터 처리 이외에 한글데이터 처리가 가능하다는 장점을 갖고 있다.

멀티모달 개념계층모델을 이용한 만화비디오 컨텐츠 학습을 통한 등장인물 기반 비디오 자막 생성 (Character-based Subtitle Generation by Learning of Multimodal Concept Hierarchy from Cartoon Videos)

  • 김경민;하정우;이범진;장병탁
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.451-458
    • /
    • 2015
  • 기존 멀티모달 학습 기법의 대부분은 데이터에 포함된 컨텐츠 모델링을 통한 지식획득보다는 이미지나 비디오 검색 및 태깅 등 구체적 문제 해결에 집중되어 있었다. 본 논문에서는 멀티모달 개념계층모델을 이용하여 만화 비디오로부터 컨텐츠를 학습하는 기법을 제안하고 학습된 모델로부터 등장인물의 특성을 고려한 자막을 생성하는 방법을 제시한다. 멀티모달 개념계층 모델은 개념변수층과 단어와 이미지 패치의 고차 패턴을 표현하는 멀티모달 하이퍼네트워크층으로 구성되며 이러한 모델구조를 통해 각각의 개념변수는 단어와 이미지패치 변수들의 확률분포로 표현된다. 제안하는 모델은 비디오의 자막과 화면 이미지로부터 등장 인물의 특성을 개념으로서 학습하며 이는 순차적 베이지안 학습으로 설명된다. 그리고 학습된 개념을 기반으로 텍스트 질의가 주어질 때 등장인물의 특성을 고려한 비디오 자막을 생성한다. 실험을 위해 총 268분 상영시간의 유아용 비디오 '뽀로로'로부터 등장인물들의 개념이 학습되고 학습된 모델로부터 각각의 등장인물의 특성을 고려한 자막 문장을 생성했으며 이를 기존의 멀티모달 학습모델과 비교했다. 실험결과는 멀티모달 개념계층모델은 다른 모델들에 비해 더 정확한 자막 문장이 생성됨을 보여준다. 또한 동일한 질의어에 대해서도 등장인물의 특성을 반영하는 다양한 문장이 생성됨을 확인하였다.

AI 모델의 Robustness 향상을 위한 효율적인 Adversarial Attack 생성 방안 연구 (A Study on Effective Adversarial Attack Creation for Robustness Improvement of AI Models)

  • 정시온;한태현;임승범;이태진
    • 인터넷정보학회논문지
    • /
    • 제24권4호
    • /
    • pp.25-36
    • /
    • 2023
  • 오늘날 AI(Artificial Intelligence) 기술은 보안 분야를 비롯하여 다양한 분야에 도입됨에 따라 기술의 발전이 가속화되고 있다. 하지만 AI 기술의 발전과 더불어 악성 행위 탐지를 교묘하게 우회하는 공격 기법들도 함께 발전되고 있다. 이러한 공격 기법 중 AI 모델의 분류 과정에서 입력값의 미세한 조정을 통해 오 분류와 신뢰도 하락을 유도하는 Adversarial attack이 등장하였다. 앞으로 등장할 공격들은 공격자가 새로이 공격을 생성하는 것이 아닌, Adversarial attack처럼 기존에 생성된 공격에 약간의 변형을 주어 AI 모델의 탐지체계를 회피하는 방식이다. 이러한 악성코드의 변종에도 대응이 가능한 견고한 모델을 만들어야 한다. 본 논문에서는 AI 모델의 Robustness 향상을 위한 효율적인 Adversarial attack 생성 기법으로 2가지 기법을 제안한다. 제안하는 기법은 XAI 기법을 활용한 XAI based attack 기법과 모델의 결정 경계 탐색을 통한 Reference based attack이다. 이후 성능 검증을 위해 악성코드 데이터 셋을 통해 분류 모델을 구축하여 기존의 Adversarial attack 중 하나인 PGD attack과의 성능 비교를 하였다. 생성 속도 측면에서 기존 20분이 소요되는 PGD attack에 비하여 XAI based attack과 Reference based attack이 각각 0.35초, 0.47초 소요되어 매우 빠른 속도를 보이며, 특히 Reference based attack의 경우 생성률이 97.7%로 기존 PGD attack의 생성률인 75.5%에 비해 높은 성공률을 보이는 것을 확인하였다. 따라서 제안한 기법을 통해 더욱 효율적인 Adversarial attack이 가능하며, 이후 견고한 AI 모델을 구축하기 위한 연구에 기여 할 수 있을 것으로 기대한다.

자동화된 훈련 자료를 활용한 Landsat-8 OLI 위성영상의 반복적 분광혼합모델 기반 무감독 분류 (Unsupervised Classification of Landsat-8 OLI Satellite Imagery Based on Iterative Spectral Mixture Model)

  • 최재완;노신택;최석근
    • 대한공간정보학회지
    • /
    • 제22권4호
    • /
    • pp.53-61
    • /
    • 2014
  • Landsat OLI 위성영상은 다양한 분광정보 밴드를 포함하고 있기 때문에, 토지피복지도 생성, 도심지역의 분석, 식생지수의 추출, 변화탐지 모니터링 등과 같은 다양한 원격탐사 분야에 활용할 수 있다. 또한, 토지피복지도는 GIS 및 국토 모니터링에 있어서 필수적인 정보이다. 본 연구에서는 Landsat OLI 위성과 기존의 토지피복지도를 활용하여 토지피복지도를 생성하고자 하였다. 이를 위해, 기존의 토지피복지도와 K-means 기법의 상관관계를 활용하여 훈련자료를 자동으로 생성하였으며, 생성된 훈련자료를 이용하여 각 클래스 별 분광 반사율 값을 추정하였다. 최종적으로, 반복적인 분광혼합분석을 통하여 각 클래스 별 점유 비율 영상과 토지피복지도를 생성하였다. 청주시 일대에 대한 토지피복지도와 Landsat OLI 위성영상을 활용한 실험을 수행하였으며, 감독분류 기법에 대한 결과 및 기존 토지피복지도와의 비교평가를 통하여 본 연구에서 제안된 기법이 수동으로 취득한 훈련자료가 없어도 효과적으로 토지피복지도를 생성할 수 있음을 정량적, 시각적으로 확인하였다.

다음 장소 예측을 위한 맵리듀스 기반의 이동 패턴 마이닝 시스템 설계 (Design of a MapReduce-Based Mobility Pattern Mining System for Next Place Prediction)

  • 김종환;이석준;김인철
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권8호
    • /
    • pp.321-328
    • /
    • 2014
  • 본 논문에서는 모바일 기기 사용자들의 다음 방문 장소를 효율적으로 예측할 수 있는 맵리듀스 기반의 이동 패턴 마이닝 시스템을 소개한다. 이 시스템은 대용량의 사용자 이동 궤적 데이터 집합으로부터 은닉 마코프 모델로 표현되는 각 사용자의 이동 패턴을 학습해내고, 이 모델을 현재 이동 궤적에 적용함으로써 다음 방문 장소를 예측한다. 본 시스템은 사용자별 이동 패턴 모델을 학습하는 후단부와 실시간으로 다음 방문 장소를 예측하는 전단부 등 크게 두 부분으로 구성된다. 이 중에서 후단부는 주요 장소 추출, 이동 궤적 변환, 이동 패턴 모델 학습 등 총 3개의 맵리듀스 작업 모듈들로 구성된다. 이에 반해, 본 시스템의 전단부는 이동 경로 후보군 생성, 다음 장소 예측 등 총 2개의 작업 모듈들로 구성된다. 그리고 본 시스템을 구성하는 각 작업 모듈의 맵과 리듀스 함수들은 하둡 인프라를 효과적으로 활용하여 병렬 처리를 극대화할 수 있도록 설계하였다. 대용량의 공개 벤치마크 데이터 집합인 GeoLife를 이용하여 본 논문에서 소개한 시스템의 성능을 분석하기 위한 실험들을 수행하였고, 실험 결과를 통해 본 시스템의 높은 성능을 확인할 수 있었다.

대용량 3차원 포인트 클라우드를 위한 파일참조 옥트리의 구현 (Implementation of File-referring Octree for Huge 3D Point Clouds)

  • 한수희
    • 한국측량학회지
    • /
    • 제32권2호
    • /
    • pp.109-115
    • /
    • 2014
  • 본 연구에서는 Han(2013)이 제안한 메모리 효율적인 옥트리를 기반으로 메인 메모리의 크기에 근접하거나 초과하는 3차원 포인트 클라우드로부터 옥트리를 생성하고 3차원 포인트를 탐색하기 위한 방법론을 제시하고자 한다. 이를 위하여 3차원 포인트 클라우드를 메인 메모리에 저장하여 참조하는 방법 대신 하드디스크의 파일을 직접적으로 참조하는 방법을 제안하였다. 아울러 메인 메모리에 구현된 옥트리를 파일로 저장하고 복원함으로써 옥트리 재현 시간을 줄이는 방법을 제안하였다. 메모리참조 방식과 제안된 파일참조 방식을 실제 터널에서 취득한 1800만 개의 3차원 포인트로 구성된 자료와 3억 개로 구성된 자료에 적용하였다. 결과로 옥트리 생성 및 3차원 포인트 탐색시 1800만 개로 구성된 자료에 대해서는 메모리참조 방식이 파일참조 방식보다 월등히 빠른 속도를 나타내었다. 3억 개로 구성된 자료에 대해서는 메모리참조 방식으로는 옥트리를 생성할 수 없는 반면 파일참조 방식으로는 옥트리 생성 및 3차원 포인트 탐색이 가능하였다. 최적의 탐색 속도를 위한 목표 단계의 옥트리는 생성할 수 없었지만 3억 개가 넘는 3차원 포인트를 탐색할 수 있다는데 의미를 둘 수 있다. 아울러 옥트리를 재현하기 위해 소요되는 시간은 옥트리를 생성하기 위한 시간의 3% 내외로서 제안된 방식이 매우 효율적임을 확인할 수 있었다.

ERS-Envisat SAR Cross-Interferomety를 이용한 고정밀 DEM 생성에 관한 연구 (A Study on High-Precision DEM Generation Using ERS-Envisat SAR Cross-Interferometry)

  • 이원진;정형섭
    • 한국측량학회지
    • /
    • 제28권4호
    • /
    • pp.431-439
    • /
    • 2010
  • 교차간섭기법은 ERS-2와 Envisat SAR 데이터를 이용하여 긴 기선거리를 지니면서도 양질의 간섭도를 제작할 수 있다. 또한 긴 기선거리에 의해서 고도에 대한 프린지 변화율이 약 5m 내외로 계산되며 이는 매우 정밀한 DEM생성을 가능하게 한다. 본 연구에서는 ERS-2와 Envisat 교차 간섭기법으로부터 정밀한 DEM을 추출하는 효율적인 방안을 제안하였으며 경사가 매우 완만한 알라스카지역에서 교차간섭기법으로 제작된 CInSAR(Cross-Interferometry SAR) DEM과 기존에 존재하는 NED(National Elevation Dataset) DEM을 비교하였다. 연구 결과 차분 간섭도 생성과정에서 NED DEM 오차라고 생각되는 부분이 발견되었으며 이 부분에 대한 CInSAR DEM과의 고도 차이에 대한 표준편차는 2.63m로 계산되었다. 하지만 전체지역에 대해서는 NED DEM과 CInSAR DEM의 고도값 차이에 대한 표준편차는 약 1m로 NED DEM과 매우 유사한 값이 계산되었다. 이는 연구대상 지역이 매우 편평한 지형으로 양질의 DEM이 구축되어 있으므로 매우 유사한 값이 계산된 것으로 판단된다. 하지만 두 DEM에 대한 공간주파수 분석을 하였을 경우 CInSAR DEM은 약 0.08 rad/m(약 40m) 보다 고주파영역에서도 높은 파워 스펙트럼 값을 지닌 반면 NED DEM은 그렇지 못하였다. 결과적으로 16m로 해상도로 구축된 CInSAR DEM의 경우 NED DEM보다 약 2.5배 공간해상도가 높아졌으며 경사가 심하지 않은 지역에서도 정밀한 DEM이 생성되었다.