• Title/Summary/Keyword: 데이터 생성

Search Result 7,112, Processing Time 0.033 seconds

Automatic Error Detection of Morpho-syntactic Errors of English Writing Using Association Rule Analysis Algorithm (연관 규칙 분석 알고리즘을 활용한 영작문 형태.통사 오류 자동 발견)

  • Kim, Dong-Sung
    • Annual Conference on Human and Language Technology
    • /
    • 2010.10a
    • /
    • pp.3-8
    • /
    • 2010
  • 본 연구에서는 일련의 연구에서 수집된 영작문 오류 유형의 정제된 자료를 토대로 연관 규칙을 생성하고, 학습을 통해서 효용성이 검증된 연관 규칙을 활용해서 영작문 데이터의 형태 통사 오류를 자동으로 탐지한다. 영작문 데이터에서 형태 통사 오류를 찾아내는 작업은 많은 시간과 자원이 소요되는 작업이므로 자동화가 필수적이다. 기존의 연구들이 통계적 모델을 활용한 어휘적 오류에 치중하거나 언어 이론적 틀에 근거한 통사 처리에 집중하는 반면에, 본 연구는 데이터 마이닝을 통해서 정제된 데이터에서 연관 규칙을 생성하고 이를 검증한 후 형태 통사 오류를 감지한다. 이전 연구들에서는 이론적 틀에 맞추어진 규칙 생성이나 언어 모델 생성을 위한 대량의 코퍼스 데이터와 같은 다량의 지식 베이스 생성이 필수적인데, 본 연구는 적은 양의 정제된 데이터를 활용한다. 영작문 오류 유형의 형태 통사 연관 규칙을 생성하기 위해서 Apriori 알고리즘을 활용하였다. 알고리즘을 통해서 생성된 연관 규칙 중 잘못된 규칙이 생성될 가능성이 있으므로, 상관성 검정, 코사인 유사도와 같은 규칙 효용성의 통계적 검증을 활용해서 타당한 규칙만을 학습하였다. 이를 통해서 축적된 연관 규칙들을 영작문 오류를 자동으로 탐지하는 실험에 활용하였다.

  • PDF

Bio-Data Classification Using Tensor-based Data Generation Model (텐서 기반 데이터 생성 모델을 이용한 생체데이터 분류)

  • Yoon, Dongwoo;Park, Hyeyoung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.11a
    • /
    • pp.7-8
    • /
    • 2007
  • 생체데이터란 인간개체로부터 얻을 수 있는 고유의 생체신호를 통틀어 일컫는 것이다. 본 연구에서는 생체데이터를 위한 팩터 분석 모델에 텐서 개념을 적용하여, 2차 텐서로 표현된 데이터를 위한 생성모델을 제안한다. 이 모델을 바탕으로 데이터로부터 분류에 핵심이 되는 정보를 안정적으로 추출하여 유사도 함수를 만들고 분류를 수행하는 방법을 제안한다. 실험을 통해 제안하는 방법이 기존의 벡터형태의 데이터에 대한 생성 모델을 사용한 경우보다 우수한 성능을 가짐을 확인할 수 있었다.

Generate Korean image captions using LSTM (LSTM을 이용한 한국어 이미지 캡션 생성)

  • Park, Seong-Jae;Cha, Jeong-Won
    • 한국어정보학회:학술대회논문집
    • /
    • 2017.10a
    • /
    • pp.82-84
    • /
    • 2017
  • 본 논문에서는 한국어 이미지 캡션을 학습하기 위한 데이터를 작성하고 딥러닝을 통해 예측하는 모델을 제안한다. 한국어 데이터 생성을 위해 MS COCO 영어 캡션을 번역하여 한국어로 변환하고 수정하였다. 이미지 캡션 생성을 위한 모델은 CNN을 이용하여 이미지를 512차원의 자질로 인코딩한다. 인코딩된 자질을 LSTM의 입력으로 사용하여 캡션을 생성하였다. 생성된 한국어 MS COCO 데이터에 대해 어절 단위, 형태소 단위, 의미형태소 단위 실험을 진행하였고 그 중 가장 높은 성능을 보인 형태소 단위 모델을 영어 모델과 비교하여 영어 모델과 비슷한 성능을 얻음을 증명하였다.

  • PDF

An Evaluation of an Information Sharing Workflow Using Data Provenance Semantics (데이터 생성의미를 활용한 정보공유구조의 효과성 비교 연구)

  • Lee, Choon Yeul
    • Journal of Digital Convergence
    • /
    • v.11 no.6
    • /
    • pp.175-185
    • /
    • 2013
  • For effective information sharing, data provenance semantics need to be managed effectively. Based on a scheme to represent data provenance semantics, we propose a model to calculate information sharing costs. Information sharing costs are derived from probabilities of type I and type II errors that occur in organizational information sharing, costs related to these errors, and information sharing distances between organizational units which are determined by information sharing workflows. We apply the model to various types of information sharing workflows including departmental information systems, hierarchical information systems, a hub and a stand-alone system. The calculated information sharing costs show that the hub with data standardization is best in information sharing; however without standardization its information sharing cost deteriorates to that of a departmental information system. And, any information sharing workflow is better than a stand-alone system. It is proved that the model is useful in analyzing effectiveness of information sharing workflows and their characteristics.

Data Cube Generation Method Using Hash Table in Spatial Data Warehouse (공간 데이터 웨어하우스에서 해쉬 테이블을 이용한 데이터큐브의 생성 기법)

  • Li, Yan;Kim, Hyung-Sun;You, Byeong-Seob;Lee, Jae-Dong;Bae, Hae-Young
    • Journal of Korea Multimedia Society
    • /
    • v.9 no.11
    • /
    • pp.1381-1394
    • /
    • 2006
  • Generation methods of data cube have been studied for many years in data warehouse which supports decision making using stored data. There are two previous studies, one is multi-way array algorithm and the other is H-cubing algorithm which is based on the hyper-tree. The multi-way array algorithm stores all aggregation data in arrays, so if the base data is increased, the size of memory is also grow. The H-cubing algorithm which is based on the hyper-tree stores all tuples in one tree so the construction cost is increased. In this paper, we present an efficient data cube generation method based on hash table using weight mapping table and record hash table. Because the proposed method uses a hash table, the generation cost of data cube is decreased and the memory usage is also decreased. In the performance study, we shows that the proposed method provides faster search operation time and make data cube generation operate more efficiently.

  • PDF

An Efficient Vector Quantization Codebook generation using a Triangle Inequality (삼각 부등식을 이용한 빠른 벡터 양자화 코드북 생성)

  • Lee, Hyun-Jin
    • Journal of Digital Contents Society
    • /
    • v.13 no.3
    • /
    • pp.309-315
    • /
    • 2012
  • Active data are the input data which are changed its membership as Vector Quantization codebook generation algorithm is processed. In the process of VQ codebook generation algorithm performed, the actual active data out of the entire input data will be less presented as the process is performed. Therefore, if we can accurately find the active data and only if we are going to do VQ codebook generation on the active data, then we can significantly reduce the overall generation time. In this paper, we presented the triangle inequality based algorithm to select the active data. Experimental results show that our algorithm is superior to other methods in terms of the VQ codebook generation time.

Generating Trajectories on Road Networks (도로 네트워크에서 이동 객체 궤적 생성 방안)

  • Baek, Ji-Haeng;Won, Jung-Im;Jang, Min-Hee;Lee, Sang-Chul;Kim, Sang-Wook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2007.05a
    • /
    • pp.69-70
    • /
    • 2007
  • 최근, 궤적 정보를 이용한 많은 연구들이 진행되고 있다. 그러나 이동 객체의 실제 궤적 데이터를 획득하기는 어렵기 때문에 대부분의 연구들은 궤적 생성기에 의해 생성된 데이터를 이용하고 있다. 그러나 기존의 궤적 생성기들은 대부분 유클리디언 공간을 바탕으로 궤적을 생성하기 때문에 도로 네트워크 공간에서는 적용될 수 없다. 본 논문에서는 도로 네트워크 공간을 바탕으로 한 이동 객체의 궤적 생성 방안을 제안한다. 실제 이동 객체의 움직임과 비슷한 궤적을 생성하기 위하여 이동 객체는 출발지에서 목적지까지의 최단 경로에 근접하여 움직인다는 현실세계의 특징을 반영한다. 제안하는 기법을 이용하여 생성된 궤적 데이터는 현실 세계를 반영하면서 사용자가 원하는 궤적 데이터를 제공할 수 있기 때문에 다양한 연구에 사용될 수 있다.

  • PDF

A Web-based Virtual Space Modeling Using 2D CAD Data (2차원 캐드자료를 이용한 웹기반 가상공간 모델링)

  • Lee, Jang-Kyung;Lee, Sung-Kee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2002.11a
    • /
    • pp.443-446
    • /
    • 2002
  • 인터넷과 컴퓨터 기술이 발달함에 따라 가상공간에 대한 관심은 커져가고 있다. 그러나 가상공간을 생성하는 작업은 많은 시간과 노력이 필요하다. 그래서 가상공간 모델링에 관련된 연구들이 많이 이루어지고 있다. 본 논문에서는 2차원 CAD 데이터로부터 가상공간을 모델링하는 방법을 제시한다. CAD 파일에서 2차원 지형정보를 추출하여 웹에서 볼 수 있는 3차원 가상공간을 생성한다. 가상공간생성 과정은 전처리, 데이터 추출, 모델생성, 렌더링으로 이루어진다. 전처리는 CAD 파일에서 도로경계선을 분리하며 데이터 추출은 등고선, 도로경계선, 건물 정보를 CAD 파일로부터 추출하는 과정이다. 모델 생성은 추출한 지형정보들을 이용해서 3차원 공간모형 데이터를 생성하는 과정이다. 본 논문에서 제시한 방법은 실세계에 근접한 가상공간을 생성하며 가상공간을 생성하는데 드는 시간과 노력을 줄일 수 있다.

  • PDF

Methodology for Constructing Data for Automatic Generation of Emotional Copywrite (감성적 광고 카피 자동 생성을 위한 데이터 구축 방법론)

  • Jimin Seong;Haeun Shin;Jiyoon Kang
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.336-341
    • /
    • 2023
  • 초대규모 언어모델의 뛰어난 생성 기술이 실질적인 부분에서 많은 도움을 주고 있음에도 불구하고 사람들의 마음을 움직일 수 있는 매력적인 광고 카피를 생성하기에는 아쉬운 점이 많다. 이 연구는 효과적인 광고 카피 자동생성을 위한 데이터 구축 방법론 연구로, 데이터에 일관적으로 학습시킬 수 있는 감성적 카피의 문체적 특징을 프레임워크로 정의하고 이를 모델에 적용한 결과를 보여 데이터 설계 방법론의 유효성을 검증하고자 하였다. 실험 결과 문체 적합성 측면에서 성공적인 결과를 확인한 것에 비해, 한국어 보조사와 같이 미세한 어감 차이를 발생시키는 요소나 의미적 중의성 해석 등의 고차원적인 한국어 구사능력을 필요로 하는 부분에서 생성모델의 개선 여지를 발견할 수 있었다. 본 연구에서 보인 감성형 카피 생성을 위한 프레임워크는 마케팅 실무에서도 유용하게 사용될 수 있을 뿐만 아니라, 고객 세그멘테이션 분석이 이루어진다면 타깃 고객의 취향을 고려한 효과적이고 맞춤화된 광고 카피를 생성에 기여할 수 있을 것으로 기대된다.

  • PDF

Multidimensional data generation of water distribution systems using adversarially trained autoencoder (적대적 학습 기반 오토인코더(ATAE)를 이용한 다차원 상수도관망 데이터 생성)

  • Kim, Sehyeong;Jun, Sanghoon;Jung, Donghwi
    • Journal of Korea Water Resources Association
    • /
    • v.56 no.7
    • /
    • pp.439-449
    • /
    • 2023
  • Recent advancements in data measuring technology have facilitated the installation of various sensors, such as pressure meters and flow meters, to effectively assess the real-time conditions of water distribution systems (WDSs). However, as cities expand extensively, the factors that impact the reliability of measurements have become increasingly diverse. In particular, demand data, one of the most significant hydraulic variable in WDS, is challenging to be measured directly and is prone to missing values, making the development of accurate data generation models more important. Therefore, this paper proposes an adversarially trained autoencoder (ATAE) model based on generative deep learning techniques to accurately estimate demand data in WDSs. The proposed model utilizes two neural networks: a generative network and a discriminative network. The generative network generates demand data using the information provided from the measured pressure data, while the discriminative network evaluates the generated demand outputs and provides feedback to the generator to learn the distinctive features of the data. To validate its performance, the ATAE model is applied to a real distribution system in Austin, Texas, USA. The study analyzes the impact of data uncertainty by calculating the accuracy of ATAE's prediction results for varying levels of uncertainty in the demand and the pressure time series data. Additionally, the model's performance is evaluated by comparing the results for different data collection periods (low, average, and high demand hours) to assess its ability to generate demand data based on water consumption levels.