• 제목/요약/키워드: Dataset Generation

검색결과 196건 처리시간 0.029초

KOMPSAT-5 레이더 위성 스테레오 영상을 이용한 1:25,000 수치지형도제작 가능성 연구 (Feasibility Study on Producing 1:25,000 Digital Map Using KOMPSAT-5 SAR Stereo Images)

  • 이용석;정형섭
    • 대한원격탐사학회지
    • /
    • 제34권6_3호
    • /
    • pp.1329-1350
    • /
    • 2018
  • 위성 영상레이더(SAR; Synthetic Aperture Radar)는 날씨와 지역시간에 관계없이 영상을 취득할 수 있으므로 지구를 관측하기 위하여 매우 다양하게 활용되고 있다. 하지만 위성 영상레이더의 전처리 절차가 복잡하여 수치지도의 제작에는 잘 활용되지 못하였다. 본 연구에서는 위성 영상레이더 스테레오 영상을 이용한 수치지형도 제작 가능성에 대한 연구를 수행했다. 이를 위하여 위성의 상 하향궤도에서 촬영된 스테레오 영상을 두 쌍 획득했다. 또한 제작 가능성을 제시하기 위하여 1) 레이더 기하로부터 RPC(Rational Polynomial Coefficient) 기하로 변환하였고, 2) 수치도화를 수행하였다. 3) 최종적으로 기존에 구축된 수치 지형도로부터 기준점과 검사점을 획득하여 수치지형도 제작 결과를 검증하였다. 두 개의 수치 지도 제작 결과에 대하여 정밀도 검증을 수행하였을 때 각각 XY 방향과 Z 방향으로 1 m 미만의 오차를 나타냈다. 본 결과를 바탕으로 우리는 KOMPSAT-5 위성 영상레이더 스테레오 영상을 활용하여 기준에 부합하는 1:25,000 수치 지형도를 제작할 수 있음을 확인하였다. 이와 같은 연구 결과는 기상 조건이 불안정한 지역과 북한, 극지방 등 접근이 어려운 지역의 수치지형도 제작과 주기적 수치지형도 업데이트에도 활용 가능할 것으로 예상된다.

기후 및 계절정보를 이용한 딥러닝 기반의 장기간 태양광 발전량 예측 기법 (Deep Learning Based Prediction Method of Long-term Photovoltaic Power Generation Using Meteorological and Seasonal Information)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제24권1호
    • /
    • pp.1-16
    • /
    • 2019
  • 최근 온실가스의 증가로 인한 기후변화 대응의 필요성과 전력수요의 증가로 인해 태양광발전량(PV) 예측의 중요성은 급격히 증가하고 있다. 특히, 태양광 발전량을 예측하는 것은 합리적인 전력 가격결정과 시스템 안정성 및 전력 생산 균형과 같은 문제를 효과적으로 해결하기 위해 전력생산 계획을 합리적으로 계획하는데 도움이 될 수 있다. 그러나 일사량, 운량, 온도 등과 같은 기후정보 및 계절 변화로 인한 태양광 발전량이 무작위적으로 변화하기 때문에 정확한 태양광 발전량을 예측하는 것은 도전적인 일이다. 따라서 본 논문에서는 딥러닝 모델을 통해 기후 및 계절정보를 이용하여 학습함으로써 장기간 태양광 발전량 예측 성능을 향상시킬 수 있는 기법을 제안한다. 본 연구에서는 대표적인 시계열 방법 중 하나인 계절형 ARIMA 모델과 하나의 은닉층으로 구성되어 있는 ANN 기반의 모델, 하나 이상의 은닉층으로 구성되어 있는 DNN 기반의 모델과의 비교를 통해 본 연구에서 제시한 모델의 성능을 평가한다. 실데이터를 통한 실험 결과, 딥러닝 기반의 태양광 발전량 예측 기법이 가장 우수한 성능을 보였으며, 이는 본 연구에서 목표로 한 태양광 발전량 예측 성능 향상에 긍정적인 영향을 나타내었음을 보여준다.

딥러닝 기반 스타일 변환 기법을 활용한 인공 달 지형 영상 데이터 생성 방안에 관한 연구 (A Study for Generation of Artificial Lunar Topography Image Dataset Using a Deep Learning Based Style Transfer Technique)

  • 나종호;이수득;신휴성
    • 터널과지하공간
    • /
    • 제32권2호
    • /
    • pp.131-143
    • /
    • 2022
  • 달 현지 탐사를 위해 무인 이동체가 활용되고 있으며, 달 지상 관심 지역의 지형 특성을 정확하게 파악하여 실시간으로 정보화 하는 작업이 요구된다. 하지만, 정확도 높은 지형/지물 객체 인식 및 영역 분할을 위해서는 다양한 배경조건의 영상 학습데이터가 필요하며 이러한 학습데이터를 구축하는 과정은 많은 인력과 시간이 요구된다. 특히 대상이 쉽게 접근하기 힘든 달이기에 실제 현지 영상의 확보 또한 한계가 있어, 사실에 기반하지만 유사도 높은 영상 데이터를 인위적으로 생성시킬 필요성이 대두된다. 본 연구에서는 가용한 중국의 달 탐사 Yutu 무인 이동체 및 미국의 Apollo 유인 착륙선에서 촬영한 영상을 통해 위치정보 기반 스타일 변환 기법(Style Transfer) 모델을 적용하여 실제 달 표면과 유사한 합성 영상을 인위적으로 생성하였다. 여기서, 유사 목적으로 활용될 수 있는 두 개의 공개 알고리즘(DPST, WCT2)를 구현하여 적용해 보았으며, 적용 결과를 시간적, 시각적 측면으로 비교하여 성능을 평가하였다. 평가 결과, 실험 이미지의 형태 정보를 보존하면서 시각적으로도 매우 사실적인 영상을 생성할 수 있음을 확인하였다. 향후 본 실험의 결과를 바탕으로 생성된 영상 데이터를 지형객체 자동 분류 및 인식을 위한 인공지능 학습용 영상 데이터로 추가 학습된다면 실제 달 표면 영상에서도 강인한 객체 인식 모델 구현이 가능할 것이라 판단된다.

다양한 데이터 전처리 기법 기반 침입탐지 시스템의 이상탐지 정확도 비교 연구 (Comparative Study of Anomaly Detection Accuracy of Intrusion Detection Systems Based on Various Data Preprocessing Techniques)

  • 박경선;김강석
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권11호
    • /
    • pp.449-456
    • /
    • 2021
  • 침입 탐지 시스템(IDS: Intrusion Detection System)은 보안을 침해하는 이상 행위를 탐지하는 기술로서 비정상적인 조작을 탐지하고 시스템 공격을 방지한다. 기존의 침입탐지 시스템은 트래픽 패턴을 통계 기반으로 분석하여 설계하였다. 그러나 급속도로 성장하는 기술에 의해 현대의 시스템은 다양한 트래픽을 생성하기 때문에 기존의 방법은 한계점이 명확해졌다. 이런 한계점을 극복하기 위해 다양한 기계학습 기법을 적용한 침입탐지 방법의 연구가 활발히 진행되고 있다. 본 논문에서는 다양한 네트워크 환경의 트래픽을 시뮬레이션 장비에서 생성한 NGIDS-DS(Next Generation IDS Dataset)를 이용하여 이상(Anomaly) 탐지 정확도를 높일 수 있는 데이터 전처리 기법에 관한 비교 연구를 진행하였다. 데이터 전처리로 패딩(Padding)과 슬라이딩 윈도우(Sliding Window)를 사용하였고, 정상 데이터 비율과 이상 데이터 비율의 불균형 문제를 해결하기 위해 AAE(Adversarial Auto-Encoder)를 적용한 오버샘플링 기법 등을 적용하였다. 또한, 전처리된 시퀀스 데이터의 특징벡터를 추출할 수 있는 Word2Vec 기법 중 Skip-gram을 이용하여 탐지 정확도의 성능 향상을 확인하였다. 비교실험을 위한 모델로는 PCA-SVM과 GRU를 사용하였고, 실험 결과는 슬라이딩 윈도우, Skip-gram, AAE, GRU를 적용하였을 때, 더 좋은 성능을 보였다.

Stable diffusion의 기저 모델에 따른 콘크리트 손상 영상의 생성 품질 비교 연구 (A Study on Generation Quality Comparison of Concrete Damage Image Using Stable Diffusion Base Models)

  • 심승보
    • 한국구조물진단유지관리공학회 논문집
    • /
    • 제28권4호
    • /
    • pp.55-61
    • /
    • 2024
  • 최근 들어 노후화된 콘크리트 구조물의 비중이 점차 늘어나는 추세다. 이는 대다수의 구조물이 기대수명에 근접하고 있기 때문이다. 이 같은 구조물은 정확한 점검과 지속적인 관리가 필수적으로 요구되며, 철저한 점검이 이루어지지 않을 경우 본래의 기능과 성능이 저하되어 안전사고로 이어질 수 있음은 자명한 사실이다. 따라서 딥러닝과 컴퓨터 비전을 이용한 객관적인 점검 기술에 대한 연구가 활발하기 이뤄지고 있다. 특히 고해상도는 미세한 균열뿐만 아니라 박락과 철근 노출까지 정확하게 관찰할 수 있으며, 딥러닝을 통해서 자동화 탐지가 가능하다는 장점이 있다. 딥러닝은 다양하고 다수의 훈련 데이터가 있어야지만 높은 탐지 성능을 보장할 수 있지만, 콘크리트의 표면 손상은 비정상 장면으로 일반적으로 촬영하여 확보할 수 있는 데이터가 아니므로 훈련 데이터의 수는 부족할 수밖에 없다. 이러한 한계를 극복하기 위해서 이 연구에서는 stable diffusion을 통해 균열, 박락, 철근 노출을 포함하고 있는 콘크리트 표면 손상 영상을 생성하는 방법을 제안했다. 이는 문자열과 영상이 쌍을 이룬 데이터로 새로운 손상 영상을 합성하는 방법이다. 이를 위해서 총 678장의 훈련 데이터 세트를 구축했고, low rank adaptation을 통해서 fine-tuning을 수행했다. 이때 stable diffusion의 세 가지 기저 모델에 따른 생성 영상의 품질을 비교했다. 결과적으로 가장 다양하고 고품질의 콘크리트 손상 영상을 합성하는 방법을 완성했다. 이 연구는 향후 데이터 부족 문제 해결에 기여하여 딥러닝 기반 손상 탐지 알고리즘의 정확도 향상에 긍정적인 영향을 미칠 것으로 기대한다.

한국어 음소 단위 LSTM 언어모델을 이용한 문장 생성 (Korean Sentence Generation Using Phoneme-Level LSTM Language Model)

  • 안성만;정여진;이재준;양지헌
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.71-88
    • /
    • 2017
  • 언어모델은 순차적으로 입력된 자료를 바탕으로 다음에 나올 단어나 문자를 예측하는 모델로 언어처리나 음성인식 분야에 활용된다. 최근 딥러닝 알고리즘이 발전되면서 입력 개체 간의 의존성을 효과적으로 반영할 수 있는 순환신경망 모델과 이를 발전시킨 Long short-term memory(LSTM) 모델이 언어모델에 사용되고 있다. 이러한 모형에 자료를 입력하기 위해서는 문장을 단어 혹은 형태소로 분해하는 과정을 거친 후 단어 레벨 혹은 형태소 레벨의 모형을 사용하는 것이 일반적이다. 하지만 이러한 모형은 텍스트가 포함하는 단어나 형태소의 수가 일반적으로 매우 많기 때문에 사전 크기가 커지게 되고 이에 따라 모형의 복잡도가 증가하는 문제가 있고 사전에 포함된 어휘 외에는 생성이 불가능하다는 등의 단점이 있다. 특히 한국어와 같이 형태소 활용이 다양한 언어의 경우 형태소 분석기를 통한 분해과정에서 오류가 더해질 수 있다. 이를 보완하기 위해 본 논문에서는 문장을 자음과 모음으로 이루어진 음소 단위로 분해한 뒤 입력 데이터로 사용하는 음소 레벨의 LSTM 언어모델을 제안한다. 본 논문에서는 LSTM layer를 3개 또는 4개 포함하는 모형을 사용한다. 모형의 최적화를 위해 Stochastic Gradient 알고리즘과 이를 개선시킨 다양한 알고리즘을 사용하고 그 성능을 비교한다. 구약성경 텍스트를 사용하여 실험을 진행하였고 모든 실험은 Theano를 기반으로 하는 Keras 패키지를 사용하여 수행되었다. 모형의 정량적 비교를 위해 validation loss와 test set에 대한 perplexity를 계산하였다. 그 결과 Stochastic Gradient 알고리즘이 상대적으로 큰 validation loss와 perplexity를 나타냈고 나머지 최적화 알고리즘들은 유사한 값들을 보이며 비슷한 수준의 모형 복잡도를 나타냈다. Layer 4개인 모형이 3개인 모형에 비해 학습시간이 평균적으로 69% 정도 길게 소요되었으나 정량지표는 크게 개선되지 않거나 특정 조건에서는 오히려 악화되는 것으로 나타났다. 하지만 layer 4개를 사용한 모형이 3개를 사용한 모형에 비해 완성도가 높은 문장을 생성했다. 본 논문에서 고려한 어떤 시뮬레이션 조건에서도 한글에서 사용되지 않는 문자조합이 생성되지 않았고 명사와 조사의 조합이나 동사의 활용, 주어 동사의 결합 면에서 상당히 완성도 높은 문장이 발생되었다. 본 연구결과는 현재 대두되고 있는 인공지능 시스템의 기초가 되는 언어처리나 음성인식 분야에서 한국어 처리를 위해 다양하게 활용될 수 있을 것으로 기대된다.

Transcription Analysis of Recombinant Trichoderma reesei HJ-48 to Compare the Molecular Basis for Fermentation of Glucose and Xylose

  • Huang, Jun;Lin, Mei;Liang, Shijie;Qin, Qiurong;Liao, Siming;Lu, Bo;Wang, Qingyan
    • Journal of Microbiology and Biotechnology
    • /
    • 제30권10호
    • /
    • pp.1467-1479
    • /
    • 2020
  • Profiling the transcriptome changes involved in xylose metabolism by the fungus Trichoderma reesei allows for the identification of potential targets for ethanol production processing. In the present study, the transcriptome of T. reesei HJ-48 grown on xylose versus glucose was analyzed using next-generation sequencing technology. During xylose fermentation, numerous genes related to central metabolic pathways, including xylose reductase (XR) and xylitol dehydrogenase (XDH), were expressed at higher levels in T. reesei HJ-48. Notably, growth on xylose did not fully repress the genes encoding enzymes of the tricarboxylic acid and respiratory pathways. In addition, increased expression of several sugar transporters was observed during xylose fermentation. This study provides a valuable dataset for further investigation of xylose fermentation and provides a deeper insight into the various genes involved in this process.

EGML 기반 이동객체 검출 프로세서의 저면적 하드웨어 구현 (A Small-area Hardware Implementation of EGML-based Moving Object Detection Processor)

  • 성미지;신경욱
    • 한국정보통신학회논문지
    • /
    • 제21권12호
    • /
    • pp.2213-2220
    • /
    • 2017
  • EGML (Effective Gaussian Mixture Learning) 기반의 배경차분 기법을 이용한 이동객체 검출 (Moving Object Detection; MOD) 프로세서의 효율적인 하드웨어 구현 방식을 제안한다. 하드웨어 복잡도를 감소시키기 위해 배경 생성에 사용되는 일부 연산을 근사화하여 구현하였으며, 배경차분과 가우시안 계산의 나눗셈 연산에 사용되는 하드웨어 자원이 공유되도록 설계하였다. 설계한 MOD 프로세서는 MATLAB/Simulink를 이용한 HDL-netlist 시뮬레이션과 FPGA-in-the-loop 방식을 통해 기능을 검증하였다. IEEE CDW-2014 데이터 세트의 6가지 영상을 입력으로 사용하여 MOD 성능을 평가한 결과, 평균 재현율(recall)은 0.7700, 평균 정밀도(precision)는 0.7170, F-measure가 0.7293으로 평가되었다. Xilinx ISE를 이용하여 FPGA 합성한 결과, Virtex5 XC5VSX95T 디바이스에서 총 882 슬라이스와 $146{\times}36kbit$의 블록 램으로 구현되었으며, 동일한 알고리듬을 적용한 기존의 구현 사례에 비해 약 60%의 하드웨어를 감소시켰다. MOD 프로세서는 최대 75 MHz의 클록 주파수로 동작하여 $800{\times}600$ 해상도의 영상에 대해 39 fps의 성능으로 실시간 처리가 가능한 것으로 평가되었다.

라벨 트리 데이터의 빈번하게 발생하는 정보 추출 (Frequently Occurred Information Extraction from a Collection of Labeled Trees)

  • 백주련;남정현;안성준;김응모
    • 인터넷정보학회논문지
    • /
    • 제10권5호
    • /
    • pp.65-78
    • /
    • 2009
  • 트리 데이터로부터 유용한 정보들을 추출하는 가장 일반적인 방식은 빈번하게 자주 발생하는 서브트리 패턴들을 얻는 것이다. XML 마이닝, 웹 사용 마이닝, 바이오인포매틱스, 네트워크 멀티캐스트 라우팅 등 빈번 트리 패턴 마이닝은 여러 다양한 영역에서 광범위하게 이용되고 있기 때문에, 해당 패턴들을 추출하기 위한 많은 알고리즘들이 제안되어 왔다. 하지만, 현재까지 제안된 대부분의 트리 마이닝 알고리즘들은 여러 가지 심각한 문제점들을 내포하고 있는데 이는 특히 대량의 트리 데이터 집합을 대상으로 했을 때는 더 심각해진다. 주요하게 발생하는 문제점들로는, (1) 계층적 트리 구조의 데이터 모델링, (2) 후보군 유지를 위한 고비용 계산, (3) 반복적인 입력 데이터 집합 스캔, (4) 높은 메모리 의존성이 대표적이다. 이런 문제점들을 발생하게 하는 주요 원인은, 대부분의 기존 알고리즘들이 apriori 방식에 근거하고 있다는 점과 후보군 생성과 빈발 횟수 집계에 anti-monotone 원리를 적용한다는 점에 기인한다. 언급한 문제들을 해결하기 위해, 본 저자들은 apriori 방식 대신 pattern-growth 방식을 기반으로 하며, 빈번 서브트리 추출 대신 최대 빈번 서브트리 추출을 목적으로 한다. 이를 통해 제안된 방법은, 빈번하지 않은 서브트리들을 제거하는 과정 자체를 배제할 뿐만 아니라, 후보군 트리들을 생성하는 과정 또한 전혀 수행하지 않음으로써 전체 마이닝 과정을 상당히 개선한다.

  • PDF

노각나무(Stewartia koreana Nakai)의 cDNA library 제작 및 EST 분석 (Construction of a Full-length cDNA Library from Korean Stewartia (Stewartia koreana Nakai) and Characterization of EST Dataset)

  • 임수빈;김준기;최영인;최선희;권혜진;송호경;임용표
    • 원예과학기술지
    • /
    • 제29권2호
    • /
    • pp.116-122
    • /
    • 2011
  • 본 연구에서는 지리산에서 자생하는 한국 특산종인 노각나무(Stewartia koreana Nakai)의 EST library를 제작하고 서열을 분석하였다. 노각나무의 유엽을 재료로 cDNA library 만들었고 1,392개의 cDNA에 대한 부분 서열 분석을 진행하였다. EST와 unigene 서열의 분석은 컴퓨터를 기반으로한 filtering과 수작업 그리고 NCBI의 BLAST 분석을 통해 수행하였다. 벡터 서열과 100bp 이하의 서열을 제거한 후 1,301개의 EST를 분석하였다. 전체 150개의 contig와 743개의 singleton을 분리하여 총 893개의 unigene을 분리해냈으며 서열 분석을 통해 95개의 microsatellite를 확인하였다. NCBI 데이터베이스의 BLASTX로 상동성을 검색한 결과 EST의 65%는 기능을 알고 있는 유전자와 11.6%의 EST는 아직까지 기능이 보고되지 않은 유전자와 높은 상동성을 보였다. 남아 있는 23.2%의 EST는 기존에 데이터베이스에 보고된 유전자와 상동성을 보이지 않는 유전자로 밝혀졌다. 다양한 데이터베이스를 기반으로 한 유사성 기반 기능 분석은 노각나무의 EST가 포도나무와 포플러와 높은 유사성을 보인 것을 확인하였다. 기능에 따른 분류에 있어 molecular function은 nucleotide binding, biological process는 transport, cellular component는 plastid가 가장 높은 비율로 나왔다. 본 연구를 통해 얻어진 EST 자료는 노각나무의 새로운 유전자원에 대한 연구의 기본 자료로 유용하게 활용될 것이다.