• Title/Summary/Keyword: 준구조적 데이터

Search Result 197, Processing Time 0.027 seconds

준해양사고 데이터의 실효성에 관한 정량적 고찰

  • Gang, Seok-Yong;No, Beom-Seok
    • Proceedings of the Korean Institute of Navigation and Port Research Conference
    • /
    • 2018.05a
    • /
    • pp.50-52
    • /
    • 2018
  • 준해양사고는 해양사고를 제외하고 선박의 구조, 설비 또는 운용과 관련하여 시정 또는 개선되지 않을 경우, 선박과 사람의 안전 및 해양환경 등에 위해를 끼치거나 위해를 끼칠 수 있는 사고를 의미하며, 이를 통해 사고를 사전에 예방하는 제도를 준해양사고제도라 한다. 우리나라는 2010년부터 국제해사기구의 권고에 따라 본 제도를 도입하였고, 다각적인 방법을 통해 활성화를 위하여 노력하고 있다. 하지만 8년이 지난 지금도 본 제도는 좀처럼 활성화되지 못하고 있으며 해운선사의 자발적인 참여가 미흡한 실정이다. 이에 본 연구는 준해양사고와 해양사고 데이터를 다각도로 분석하여 연관성을 정량적으로 검증하고자 노력하였고, 동시에 준해양사고제도의 운영이 해양사고를 예방하는데 도움이 됨을 입증하고자 하였다. 이를 위해 준해양사고와 해양사고를 다각도로 비교 분석하여 연관성을 검토해보았고, 그 결과 지금까지의 준해양사고 건수 증가 이후에 해양사고가 증가한다는 일반적 견해에 반하여 준해양사고 건수 증가는 해양사고 증가에 후행하여 나타날 수 있는 가능성에 주목하였다.

  • PDF

DART: Data Augmentation using Retrieval Technique (DART: 검색 모델 기술을 사용한 데이터 증강 방법론 연구)

  • Seungjun Lee;Jaehyung Seo;Jungseob Lee;Myunghoon Kang;Hyeonseok Moon;Chanjun Park;Dahyun Jung;Jaewook Lee;Kinam Park;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.313-319
    • /
    • 2022
  • 최근 BERT와 같은 트랜스포머 (Transformer) 기반의 모델이 natural language understanding (NLU)와 같은 여러 자연어 처리 태스크에서 좋은 성능을 보인다. 이러한 모델은 여전히 대용량의 학습을 요구한다. 일반적으로, 데이터 증강 기법은 low-resource 환경을 개선하는 데 도움을 준다. 최근 생성 모델을 활용해 합성 데이터를 생성해 데이터를 증강하는 시도가 이루어졌다. 이러한 방법은 원본 문장과 의미론적 유사성을 훼손하지 않으면서 어휘와 구조적 다양성을 높이는 것을 목표로 한다. 본 논문은 task-oriented 한 어휘와 구조를 고려한 데이터 증강 방법을 제안한다. 이를 위해 검색 모델과 사전 학습된 생성 모델을 활용한다. 검색 모델을 사용해 학습 데이터셋의 입력 문장과 유사한 문장 쌍을 검색 (retrieval) 한다. 검색된 유사한 문장 쌍을 사용하여 생성 모델을 학습해 합성 데이터를 생성한다. 본 논문의 방법론은 low-resource 환경에서 베이스라인 성능을 최대 4% 이상 향상할 수 있었으며, 기존의 데이터 증강 방법론보다 높은 성능 향상을 보인다.

  • PDF

Masked language modeling-based Korean Data Augmentation Techniques Using Label Correction (정답 레이블을 고려한 마스킹 언어모델 기반 한국어 데이터 증강 방법론)

  • Myunghoon Kang;Jungseob Lee;Seungjun Lee;Hyeonseok Moon;Chanjun Park;Yuna Hur;Heuiseok Lim
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.485-490
    • /
    • 2022
  • 데이터 증강기법은 추가적인 데이터 구축 혹은 수집 행위 없이 원본 데이터셋의 양과 다양성을 증가시키는 방법이다. 데이터 증강기법은 규칙 기반부터 모델 기반 방법으로 발전하였으며, 최근에는 Masked Language Modeling (MLM)을 응용한 모델 기반 데이터 증강 연구가 활발히 진행되고 있다. 그러나 기존의 MLM 기반 데이터 증강 방법은 임의 대체 방식을 사용하여 문장 내 의미 변화 가능성이 큰 주요 토큰을 고려하지 않았으며 증강에 따른 레이블 교정방법이 제시되지 않았다는 한계점이 존재한다. 이러한 문제를 완화하기 위하여, 본 논문은 레이블을 고려할 수 있는 Re-labeling module이 추가된 MLM 기반 한국어 데이터 증강 방법론을 제안한다. 제안하는 방법론을 KLUE-STS 및 KLUE-NLI 평가셋을 활용하여 검증한 결과, 기존 MLM 방법론 대비 약 89% 적은 데이터 양으로도 baseline 성능을 1.22% 향상시킬 수 있었다. 또한 Gate Function 적용 여부 실험으로 제안 방법 Re-labeling module의 구조적 타당성을 검증하였다.

  • PDF

Design and Implementation of A Dynamic Structure Design System for Ultra Precision FAB. Structure based on Semi-Empirical Method (준 경험적 기법에 의한 차세대 초정밀 FAB. 구조물의 통합 동적 구조 설계 시스템 설계 및 구현)

  • Lee, Hyun-jun;Lee, Kyong-oh;Lee, Gyu-seop
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2012.11a
    • /
    • pp.1245-1248
    • /
    • 2012
  • 반도체와 LCD 산업분야, 나노급 공정 및 검사기술이 요구되는 산업분야의 수요증가에 따라 초정밀 가공/생산/검사 장비를 설치, 운용하는 FAB. 구조물의 설계요구가 증대되고 있으며, 건물의 환경진동 규제치도 강화되고 있는 실정이다. 이와 같은 대형 구조물에서의 서브 마이크로 수준의 미진동(微振動)을 제어하는 문제는 진동 응답을 결정하는 구조와 재료가 복잡하고 다양한 형태를 갖고 있는 반면, 다루어야 할 동적 응답은 극한적으로 작은 마이크로 이하의 값을 다루어야 하기 때문에 매우 어렵다. 따라서 기존에 이용되고 있는 해석과 실험의 결과만으로는 신모델 설계에 적용하기 어렵다. 따라서, 본 논문에서는 실험적 데이터와 경험적 데이터들을 기반으로 구축된 데이터베이스를 이용하여 새로운 초정밀 FAB. 동적 구조 설계 시스템을 구현한다.

Development of an OLE/COM-based OpenGIS Server Using the XML Data Provider (XML 데이터 제공자를 사용하는 OLE/COM 기반 OpenGIS 서버의 개발)

  • 홍동숙;윤재관;장염승;이강준;한기준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04b
    • /
    • pp.3-5
    • /
    • 2000
  • 최근 지리 정보 시스템(GIS)이 전 국가적으로 대중화되면서 서로 다른 분야에서 구축되어 서로 다른 환경에 분산되어 있는 이질적인 공간 데이터의 상호운용성에 대한 필요성이 증가하고 있다. 이러한 상호운용성을 위해 OGC에 의해 표준 사양인 OpenGIS이 개발되었고, 이 사양을 바탕으로 개방형 지리 정보 시스템을 개발하여 다양한 데이터 소스간의 상호운용성을 얻고자 하는 연구가 활발히 이루어지고 있다. 그러나, OpenGIS 사양을 따르는 상호운용성 지원 방법에서는 다양한 형태의 데이터 소스별로 데이터 제공자의 개발이 필요하다. 따라서 이러한 부담을 줄이고 효율적인 데이터 저장 및 관리를 위한 단일 처리 모델의 제시가 필요하다 이에 본 논문에서는 표준 데이터 언어인 XML과 기타 다른 관련기술을 OpenGIS 서버의 데이터 제공자 컴포넌트에 도입하여, OpenGIS 사양을 따르는 기존의 이질적인 데이터 소스와의 연등을 지원할 뿐 아니라 표준화된 저장 구조의 데이터 소스에 대한 하나의 효율적인 데이터 제공자를 갖는 OpenGIS 서버를 설계 및 구현한다. 본 시스템은 OpenGIS의 지리 데이터 구조와 처리에 대한 인터페이스의 표준화를 통해 상호운용성을 보장하고, OLE/COM 사양을 이용하여 각 컴포넌트들의 재사용성을 지원하며, 또한 문서 저장 및 전달을 위한 데이터 형식의 표준인 XML을 사용하여 문서구조의 검증 기능과 문서접근 방식의 단일화를 지원한다.

  • PDF

Design and Implementation of Parallel Visualization System using VTK and OSG (VTK와 OSG를 이용한 병렬 가시화 시스템의 설계와 구현)

  • Lee, Joong-Youn
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2011.06b
    • /
    • pp.286-289
    • /
    • 2011
  • VTK와 OSG는 컴퓨터 그래픽스 분야에서 널리 사용되는 오픈 소스 라이브러리이다. VTK는 데이터 가시화에 초점을 맞추어 개발된 라이브러리로 다양한 격자 구조의 수치 데이터를 위한 고수준의 가시화 알고리즘을 제공한다. OSG는 다수의 폴리곤으로 구성된 복잡한 전경을 빠르고 효율적으로 렌더링할 수 있도록 하는 라이브러리로 전경 그래프(scene graph)와 다양한 실시간 렌더링 기술을 제공한다. VTK와 OSG는 서로 다른 목적으로 개발된 라이브러리이기 때문에 어느 한 라이브러리만을 이용해서 대용량의 수치 데이터를 가시화하는 것은 많은 노력을 필요로 한다. 따라서 VTK의 고수준 가시화 알고리즘과 OSG의 실시간 렌더링 기술을 접목하여 대용량 데이터를 빠르게 가시화하고자 하는 시도가 여러 연구 그룹에서 꾸준히 있어왔다. 본 논문에서는 테라 스케일의 거대 용량 수치 데이터를 빠르게 가시화하기 위한 방법으로 병렬 VTK 엔진과 OSG 실시간 렌더링 엔진을 접목한 병렬 가시화 시스템을 제안하고자 한다. 또, 본 논문에서 제안하는 가시화 시스템을 이용해서 실제 테라 스케일 데이터에 적용한 사례를 소개한다.

The Integration of Multimedia Appliance Metadata (멀티미디어 장치의 통합 메타데이터 정의)

  • 구영현;송철환;유성준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2004.10b
    • /
    • pp.139-141
    • /
    • 2004
  • UAProfile과 MPEG-21 Terminal capability는 Device의 특성을 기술한다는 점에서는 비슷하다. 그러나 자세히 기술하고자 하는 특성이 다르므로 서로 다른 구조를 가지고 있다. 하지만 UAProfile과 MPEG-21 Terminal capability의 메타데이터를 통합함으로서 이 두 메타데이터 그룹들 간의 이질성을 극복할 수 있다. 또한 두개의 메타데이터들을 합쳤을 경우에는 서로 상호 보완적 역할을 하기 때문에 하나의 메타데이터 그룹을 사용한 결과보다 표현능력을 더 향상시킬 수 있다.

  • PDF

A Query Pruning Technique for Optimizing Regular Path Expressions in Semistructured Databases (준구조적 데이타베이스에서의 정규경로표현 최적화를 위한 질의전지 기법)

  • Park, Chang-Won;Jeong, Jin-Wan
    • Journal of KIISE:Databases
    • /
    • v.29 no.3
    • /
    • pp.217-229
    • /
    • 2002
  • Regular path expressions are primary elements for formulating queries over the semistructured data that does not assume the conventional schemas. In addition, the query pruning is an important optimization technique to avoid useless traversals in evaluating regular path expressions. However, the existing query pruning often fails to fully optimize multiple regular path expressions, and the previous methods that post-process the result of the existing query pruning must check exponential combinations of sub-results. In this paper, we present a new query pruning technique that consists of the preprocessing phase and the pruning phase. Our two-phase query pruning is affective in optimizing multiple regular path expressions, and is more scalable than the previous methods in that it never check the exponential combinations of sub-results.

Efficient k-nn search on directory-based index structure (평면 색인 구조에서 효율적인 k-근접 이웃 찾기)

  • 김태완;강혜영;이기준
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2003.04a
    • /
    • pp.779-781
    • /
    • 2003
  • 최근에 제안된 VA-File[6]은 k-NN 질의 처리에서 아주 효율적이라고 알려져 있다. 제시된 방법은 분할된 데이터의 저장 효율성을 보장하지 못하기 때문에 각 차원에 할당된 비트의 수가 증가하면(비트수=3~5) 할수륵 거의 모든 데이터에 대하여 MBH를 생성하는 단점이 있다. k-NN 질의는 거의 모든 데이터를 순차 검색을 통한 일차적 가지제거작업을 한 후. 질의를 수행하기 위한 디스크 접근을 한다. 따라서, 질의를 수행하기 위한 디스크 접근 횟수는 다른 방법들에 비하여 거의 최적에 가까운 접근 횟수를 가지나 주 기억 장치에서 최소-힘을 이용하여 수행하는 일차적 가지 제거 작업의 오버 로더는 간과되었다. 우리는 기존에 알려진 재귀적으로 공간을 두개의 부 공간으로 분할하는 방법을 사용하여 VA-File 과 같은 디렉토리 자료구조를 구축하여 k-NN 실험을 하였다. 이러한 분할된 MBH의 정방형성을 선호하는 방법은 저장 효율성을 보장한다. 실제 데이터에 대한 실험에서 우리가 실험한 간단한 방법은 디스크 접근 시간 및 CPU 시간을 합한 전체 수행시간에서 VA-File에 비하여 최대 93% 정도의 성능 향상이 있다.

  • PDF

Model Training and Data Augmentation Schemes For the High-level Machine Reading Comprehension (고차원 기계 독해를 위한 모델 훈련 및 데이터 증강 방안)

  • Lee, Jeongwoo;Moon, Hyeonseok;Park, Chanjun;Lim, Heuiseok
    • Annual Conference on Human and Language Technology
    • /
    • 2021.10a
    • /
    • pp.47-52
    • /
    • 2021
  • 최근 지문을 바탕으로 답을 추론하는 연구들이 많이 이루어지고 있으며, 대표적으로 기계 독해 연구가 존재하고 관련 데이터 셋 또한 여러 가지가 공개되어 있다. 그러나 한국의 대학수학능력시험 국어 영역과 같은 복잡한 구조의 문제에 대한 고차원적인 문제 해결 능력을 요구하는 데이터 셋은 거의 존재하지 않는다. 이로 인해 고차원적인 독해 문제를 해결하기 위한 연구가 활발히 이루어지고 있지 않으며, 인공지능 모델의 독해 능력에 대한 성능 향상이 제한적이다. 기존의 입력 구조가 단조로운 독해 문제에 대한 모델로는 복잡한 구조의 독해 문제에 적용하기가 쉽지 않으며, 이를 해결하기 위해서는 새로운 모델 훈련 방법이 필요하다. 이에 복잡한 구조의 고차원적인 독해 문제에도 대응이 가능하도록 하는 모델 훈련 방법을 제안하고자 한다. 더불어 3가지의 데이터 증강 기법을 제안함으로써 고차원 독해 문제 데이터 셋의 부족 문제 또한 해소하고자 한다.

  • PDF