• Title/Summary/Keyword: 데이터 생성

Search Result 7,032, Processing Time 0.043 seconds

Bio-Data Classification Using Tensor-based Data Generation Model (텐서 기반 데이터 생성 모델을 이용한 생체데이터 분류)

  • Yoon, Dongwoo;Park, Hyeyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.7-8
    • /
    • 2007
  • 생체데이터란 인간개체로부터 얻을 수 있는 고유의 생체신호를 통틀어 일컫는 것이다. 본 연구에서는 생체데이터를 위한 팩터 분석 모델에 텐서 개념을 적용하여, 2차 텐서로 표현된 데이터를 위한 생성모델을 제안한다. 이 모델을 바탕으로 데이터로부터 분류에 핵심이 되는 정보를 안정적으로 추출하여 유사도 함수를 만들고 분류를 수행하는 방법을 제안한다. 실험을 통해 제안하는 방법이 기존의 벡터형태의 데이터에 대한 생성 모델을 사용한 경우보다 우수한 성능을 가짐을 확인할 수 있었다.

  • PDF

Generate Korean image captions using LSTM (LSTM을 이용한 한국어 이미지 캡션 생성)

  • Park, Seong-Jae;Cha, Jeong-Won
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.82-84
    • /
    • 2017
  • 본 논문에서는 한국어 이미지 캡션을 학습하기 위한 데이터를 작성하고 딥러닝을 통해 예측하는 모델을 제안한다. 한국어 데이터 생성을 위해 MS COCO 영어 캡션을 번역하여 한국어로 변환하고 수정하였다. 이미지 캡션 생성을 위한 모델은 CNN을 이용하여 이미지를 512차원의 자질로 인코딩한다. 인코딩된 자질을 LSTM의 입력으로 사용하여 캡션을 생성하였다. 생성된 한국어 MS COCO 데이터에 대해 어절 단위, 형태소 단위, 의미형태소 단위 실험을 진행하였고 그 중 가장 높은 성능을 보인 형태소 단위 모델을 영어 모델과 비교하여 영어 모델과 비슷한 성능을 얻음을 증명하였다.

  • PDF

An Evaluation of an Information Sharing Workflow Using Data Provenance Semantics (데이터 생성의미를 활용한 정보공유구조의 효과성 비교 연구)

  • Lee, Choon Yeul
    • Journal of Digital Convergence
    • /
    • v.11 no.6
    • /
    • pp.175-185
    • /
    • 2013
  • For effective information sharing, data provenance semantics need to be managed effectively. Based on a scheme to represent data provenance semantics, we propose a model to calculate information sharing costs. Information sharing costs are derived from probabilities of type I and type II errors that occur in organizational information sharing, costs related to these errors, and information sharing distances between organizational units which are determined by information sharing workflows. We apply the model to various types of information sharing workflows including departmental information systems, hierarchical information systems, a hub and a stand-alone system. The calculated information sharing costs show that the hub with data standardization is best in information sharing; however without standardization its information sharing cost deteriorates to that of a departmental information system. And, any information sharing workflow is better than a stand-alone system. It is proved that the model is useful in analyzing effectiveness of information sharing workflows and their characteristics.

Data Cube Generation Method Using Hash Table in Spatial Data Warehouse (공간 데이터 웨어하우스에서 해쉬 테이블을 이용한 데이터큐브의 생성 기법)

  • Li, Yan;Kim, Hyung-Sun;You, Byeong-Seob;Lee, Jae-Dong;Bae, Hae-Young
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.11
    • /
    • pp.1381-1394
    • /
    • 2006
  • Generation methods of data cube have been studied for many years in data warehouse which supports decision making using stored data. There are two previous studies, one is multi-way array algorithm and the other is H-cubing algorithm which is based on the hyper-tree. The multi-way array algorithm stores all aggregation data in arrays, so if the base data is increased, the size of memory is also grow. The H-cubing algorithm which is based on the hyper-tree stores all tuples in one tree so the construction cost is increased. In this paper, we present an efficient data cube generation method based on hash table using weight mapping table and record hash table. Because the proposed method uses a hash table, the generation cost of data cube is decreased and the memory usage is also decreased. In the performance study, we shows that the proposed method provides faster search operation time and make data cube generation operate more efficiently.

  • PDF

An Efficient Vector Quantization Codebook generation using a Triangle Inequality (삼각 부등식을 이용한 빠른 벡터 양자화 코드북 생성)

  • Lee, Hyun-Jin
    • Journal of Digital Contents Society
    • /
    • v.13 no.3
    • /
    • pp.309-315
    • /
    • 2012
  • Active data are the input data which are changed its membership as Vector Quantization codebook generation algorithm is processed. In the process of VQ codebook generation algorithm performed, the actual active data out of the entire input data will be less presented as the process is performed. Therefore, if we can accurately find the active data and only if we are going to do VQ codebook generation on the active data, then we can significantly reduce the overall generation time. In this paper, we presented the triangle inequality based algorithm to select the active data. Experimental results show that our algorithm is superior to other methods in terms of the VQ codebook generation time.

Generating Trajectories on Road Networks (도로 네트워크에서 이동 객체 궤적 생성 방안)

  • Baek, Ji-Haeng;Won, Jung-Im;Jang, Min-Hee;Lee, Sang-Chul;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.69-70
    • /
    • 2007
  • 최근, 궤적 정보를 이용한 많은 연구들이 진행되고 있다. 그러나 이동 객체의 실제 궤적 데이터를 획득하기는 어렵기 때문에 대부분의 연구들은 궤적 생성기에 의해 생성된 데이터를 이용하고 있다. 그러나 기존의 궤적 생성기들은 대부분 유클리디언 공간을 바탕으로 궤적을 생성하기 때문에 도로 네트워크 공간에서는 적용될 수 없다. 본 논문에서는 도로 네트워크 공간을 바탕으로 한 이동 객체의 궤적 생성 방안을 제안한다. 실제 이동 객체의 움직임과 비슷한 궤적을 생성하기 위하여 이동 객체는 출발지에서 목적지까지의 최단 경로에 근접하여 움직인다는 현실세계의 특징을 반영한다. 제안하는 기법을 이용하여 생성된 궤적 데이터는 현실 세계를 반영하면서 사용자가 원하는 궤적 데이터를 제공할 수 있기 때문에 다양한 연구에 사용될 수 있다.

  • PDF

A Web-based Virtual Space Modeling Using 2D CAD Data (2차원 캐드자료를 이용한 웹기반 가상공간 모델링)

  • Lee, Jang-Kyung;Lee, Sung-Kee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.443-446
    • /
    • 2002
  • 인터넷과 컴퓨터 기술이 발달함에 따라 가상공간에 대한 관심은 커져가고 있다. 그러나 가상공간을 생성하는 작업은 많은 시간과 노력이 필요하다. 그래서 가상공간 모델링에 관련된 연구들이 많이 이루어지고 있다. 본 논문에서는 2차원 CAD 데이터로부터 가상공간을 모델링하는 방법을 제시한다. CAD 파일에서 2차원 지형정보를 추출하여 웹에서 볼 수 있는 3차원 가상공간을 생성한다. 가상공간생성 과정은 전처리, 데이터 추출, 모델생성, 렌더링으로 이루어진다. 전처리는 CAD 파일에서 도로경계선을 분리하며 데이터 추출은 등고선, 도로경계선, 건물 정보를 CAD 파일로부터 추출하는 과정이다. 모델 생성은 추출한 지형정보들을 이용해서 3차원 공간모형 데이터를 생성하는 과정이다. 본 논문에서 제시한 방법은 실세계에 근접한 가상공간을 생성하며 가상공간을 생성하는데 드는 시간과 노력을 줄일 수 있다.

  • PDF

Methodology for Constructing Data for Automatic Generation of Emotional Copywrite (감성적 광고 카피 자동 생성을 위한 데이터 구축 방법론)

  • Jimin Seong;Haeun Shin;Jiyoon Kang
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.336-341
    • /
    • 2023
  • 초대규모 언어모델의 뛰어난 생성 기술이 실질적인 부분에서 많은 도움을 주고 있음에도 불구하고 사람들의 마음을 움직일 수 있는 매력적인 광고 카피를 생성하기에는 아쉬운 점이 많다. 이 연구는 효과적인 광고 카피 자동생성을 위한 데이터 구축 방법론 연구로, 데이터에 일관적으로 학습시킬 수 있는 감성적 카피의 문체적 특징을 프레임워크로 정의하고 이를 모델에 적용한 결과를 보여 데이터 설계 방법론의 유효성을 검증하고자 하였다. 실험 결과 문체 적합성 측면에서 성공적인 결과를 확인한 것에 비해, 한국어 보조사와 같이 미세한 어감 차이를 발생시키는 요소나 의미적 중의성 해석 등의 고차원적인 한국어 구사능력을 필요로 하는 부분에서 생성모델의 개선 여지를 발견할 수 있었다. 본 연구에서 보인 감성형 카피 생성을 위한 프레임워크는 마케팅 실무에서도 유용하게 사용될 수 있을 뿐만 아니라, 고객 세그멘테이션 분석이 이루어진다면 타깃 고객의 취향을 고려한 효과적이고 맞춤화된 광고 카피를 생성에 기여할 수 있을 것으로 기대된다.

  • PDF

Multidimensional data generation of water distribution systems using adversarially trained autoencoder (적대적 학습 기반 오토인코더(ATAE)를 이용한 다차원 상수도관망 데이터 생성)

  • Kim, Sehyeong;Jun, Sanghoon;Jung, Donghwi
    • Journal of Korea Water Resources Association
    • /
    • v.56 no.7
    • /
    • pp.439-449
    • /
    • 2023
  • Recent advancements in data measuring technology have facilitated the installation of various sensors, such as pressure meters and flow meters, to effectively assess the real-time conditions of water distribution systems (WDSs). However, as cities expand extensively, the factors that impact the reliability of measurements have become increasingly diverse. In particular, demand data, one of the most significant hydraulic variable in WDS, is challenging to be measured directly and is prone to missing values, making the development of accurate data generation models more important. Therefore, this paper proposes an adversarially trained autoencoder (ATAE) model based on generative deep learning techniques to accurately estimate demand data in WDSs. The proposed model utilizes two neural networks: a generative network and a discriminative network. The generative network generates demand data using the information provided from the measured pressure data, while the discriminative network evaluates the generated demand outputs and provides feedback to the generator to learn the distinctive features of the data. To validate its performance, the ATAE model is applied to a real distribution system in Austin, Texas, USA. The study analyzes the impact of data uncertainty by calculating the accuracy of ATAE's prediction results for varying levels of uncertainty in the demand and the pressure time series data. Additionally, the model's performance is evaluated by comparing the results for different data collection periods (low, average, and high demand hours) to assess its ability to generate demand data based on water consumption levels.

KMSS: Korean Media Script Dataset for Dialogue Summarization (대화 요약 생성을 위한 한국어 방송 대본 데이터셋 )

  • Bong-Su Kim;Hye-Jin Jun;Hyun-Kyu Jeon;Hye-in Jung;Jung-Hoon Jang
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.198-204
    • /
    • 2022
  • 대화 요약은 다중 발화자와 발화문으로 이루어진 멀티턴 형식의 문서에 대해 핵심내용을 추출하거나 생성하는 태스크이다. 대화 요약 모델은 추천, 대화 시스템 등에 콘텐츠, 서비스 기록에 대한 분석을 제공하는 데 유용하다. 하지만 모델 구축에 필요한 한국어 대화 요약 데이터셋에 대한 연구는 부족한 실정이다. 본 논문에서는 생성 기반 대화 요약을 위한 데이터셋을 제안한다. 이를 위해 국내 방송사의 대용량 콘텐츠로 부터 원천 데이터를 수집하고, 주석자가 수작업으로 레이블링 하였다. 구축된 데이터셋 규모는 6개 카테고리에 대해 약 100K이며, 요약문은 단문장, 세문장, 2할문장으로 구분되어 레이블링 되었다. 또한 본 논문에서는 데이터의 특성을 내재화하고 통제할 수 있도록 대화 요약 레이블링 가이드를 제안한다. 이를 기준으로 모델 적합성 검증에 사용될 디코딩 모델 구조를 선정한다. 실험을 통해 구축된 데이터의 몇가지 특성을 조명하고, 후속 연구를 위한 벤치마크 성능을 제시한다. 데이터와 모델은 aihub.or.kr에 배포 되었다.

  • PDF