• Title/Summary/Keyword: 데이터구조

Search Result 9,795, Processing Time 0.034 seconds

복수 대규모 언어 모델에 기반한 제어 가능형 데이터 증강 프레임워크 (Controllable data augmentation framework based on multiple large-scale language models)

  • 강현석;남궁혁;정지수;정상근
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2023
  • 데이터 증강은 인공지능 모델의 학습에서 필요한 데이터의 양이 적거나 편향되어 있는 경우, 이를 보완하여 모델의 성능을 높이는 데 도움이 된다. 이미지와는 달리 자연어의 데이터 증강은 문맥이나 문법적 구조와 같은 특징을 고려해야 하기 때문에, 데이터 증강에 많은 인적자원이 소비된다. 본 연구에서는 복수의 대규모 언어 모델을 사용하여 입력 문장과 제어 조건으로 프롬프트를 구성하는 데 최소한의 인적 자원을 활용한 의미적으로 유사한 문장을 생성하는 방법을 제안한다. 또한, 대규모 언어 모델을 단독으로 사용하는 것만이 아닌 병렬 및 순차적 구조로 구성하여 데이터 증강의 효과를 높이는 방법을 제안한다. 대규모 언어 모델로 생성된 데이터의 유효성을 검증하기 위해 동일한 개수의 원본 훈련 데이터와 증강된 데이터를 한국어 모델인 KcBERT로 다중 클래스 분류를 수행하였을 때의 성능을 비교하였다. 다중 대규모 언어 모델을 사용하여 데이터 증강을 수행하였을 때, 모델의 구조와 관계없이 증강된 데이터는 원본 데이터만을 사용하였을 때보다 높거나 그에 준하는 정확도를 보였다. 병렬 구조의 다중 대규모 언어 모델을 사용하여 400개의 원본 데이터를 증강하였을 때에는, 원본 데이터의 최고 성능인 0.997과 0.017의 성능 차이를 보이며 거의 유사한 학습 효과를 낼 수 있음을 보였다.

  • PDF

임베디드 프로세서를 위한 선인출 데이터캐시의 저전력화 방안 (Reducing Power Consumption of Data Caches for Embedded Processors)

  • 문현주;지승현
    • 전자공학회논문지CI
    • /
    • 제44권1호
    • /
    • pp.1-9
    • /
    • 2007
  • 임베디드 프로세서는 총 에너지소모량 가운데 대략 40% 이상을 캐시에서 소모하고 있으므로 에너지-효율적 고성능 데이터 캐시 구조를 필요로 한다. 본 논문에서는 임베디드 프로세서를 위한 저전력 선인출 데이터캐시 구조를 제안하였다. 제안한 데이터캐시 구조는 선인출장치(prefetching unit)를 포함한 기존 데이터캐시 구조에 태그히스토리 테이블(tag history table)을 구비함으로써 요구인출 및 선인출시 발생하는 태그메모리 병렬탐색 횟수를 감소시켰다. 이와 같은 전략적인 캐시 구조는 적은 하드웨어 비용으로 병렬탐색을 위한 전력소모를 현저히 줄일 수 있다. 실험을 통하여 제안한 데이터캐시 구조가 기존 선인출 데이터캐시 구조와 동일한 성능을 유지하면서 낮은 전력을 요구함을 확인하였다.

스트리밍 XML 데이터의 빈발 구조 마이닝 (Mining of Frequent Structures over Streaming XML Data)

  • 황정희
    • 정보처리학회논문지D
    • /
    • 제15D권1호
    • /
    • pp.23-30
    • /
    • 2008
  • 유비쿼터스 환경에서 상황정보 인식 분야를 연구하면서 가장 밑바탕에서 기초가 될 수 있는 것은 인터넷 기술과 XML(Extensible Markup Language)이다. 인터넷을 통한 통신에서 XML 데이터의 사용이 일반화되고 있으며 데이터의 형태는 연속적이다. 그리고 XML 스트림 데이터에 대한 질의를 처리하기 위한 방안들이 제시되고 있다. 이 논문에서는 스트림 데이터에 대한 질의처리를 효율적으로 수행하기 위한 기반연구로써 XML을 레이블의 순서화된 트리로 모델링하여 온라인 환경에서 빈발한 구조를 추출하는 마이닝 방법을 제안한다. 즉, 지속적으로 입력되는 XML 데이터의 구조를 트리로 모델링하고 각각의 트리를 하나의 트리 집합의 구조로 표현하여 현재 윈도우 시점에서 빈발한 구조를 정확하고 빠르게 추출하는 방법을 제시한다. 제시하는 방법은 XML의 질의 처리 및 색인 구성의 기초 자료로 활용될 수 있다.

XQuery 작성기 설계 및 구현

  • 김태권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (2)
    • /
    • pp.22-24
    • /
    • 2004
  • XML은 관계형 데이터는 물론 구조화 또는 반구조화 된 데이터를 효과적으로 조직화하여 표현할 수가 있다. XQuery는 구조화된 XML 데이터를 대상으로 필요한 정보를 검색하는 질의어이다. 평면적인 테이블 형태의 SQL과는 달리 XQuery는 데이터의 내부구조 정보 없이는 질의어를 작성하는데 어려움이 따른다. 이 논문은 내부적으로 구조화된 XML데이터에서 필요한 정보를 검색하는 검색언어 XQuery질의를 효과적으로 작성할 수 있도록 질의 대상이 되는 XML 데이터 구조를 트리 형태로 보여주고, 필요한 경로식을 효과적으로 지정함으로써 질의어를 보다 쉽게 작성하도록 도와주는 XQuery 작성기를 설계하고 구현한다.

  • PDF

고속 무선 데이터전송을 위한 바이너리 CDMA 데이터 버퍼 시스템 (System of Binary CDMA memory structure for high data rate communication)

  • 임용석;조진웅
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2011년도 추계학술논문집 2부
    • /
    • pp.668-670
    • /
    • 2011
  • 본 논문에서는 고속 무선 데이터 전송을 위하여 멀티버스 구조 및 유연적인 데이터 버퍼시스템을 갖는 향상된 바이너리 CDMA에 시스템 설계에 관한 것이다. 개선된 바이너리 CDMA 시스템 구조는 제한된 리소스에서 시스템 버스의 Latency를 최대한 줄이고 고속 무선 데이터 전송을 위하여 버퍼접근구조를 변경하여 데이터 throughput을 향상하였다.

  • PDF

유전자 알고리즘 기반의 불완전 데이터 학습을 위한 속성값계층구조의 생성 (Genetic Algorithm Based Attribute Value Taxonomy Generation for Learning Classifiers with Missing Data)

  • 주진우;양지훈
    • 정보처리학회논문지B
    • /
    • 제13B권2호
    • /
    • pp.133-138
    • /
    • 2006
  • 부부분불완전 데이터(Partially Missing Data) 또는 데이터의 속성 값이 표현되는 정도의 깊이가 서로 다른 데이터를 학습하는데 있어서 속성값계층구조(Attribute Value Taxonomy, AVT)를 기반으로 학습하면 기존의 학습 알고리즘을 통해 얻은 결과보다 정확하고 간결한 분류기를 얻을 수 있다는 사실이 밝혀졌다. 하지만 이러한 속성값계층구조는 처음부터 전문가 또는 데이터 도메인에 대한 지식을 가지고 있는 사람에 의해 만들어져 제공되어야 한다. 이러한 수작업을 통한 속성값계층구조를 생성하기 위해서는 많은 시간이 걸리며 생성과정에서 오류가 발생할 수 있다. 또한 데이터 도메인에 따라서 속성값계층구조를 제공할 전문가가 부재한 경우가 있다. 이러한 배경 아래 본 논문은 유전자 알고리즘을 통해 자동으로 근 최적의 속성값계층구조를 생성하는 알고리즘(GA-AVT-Learner)을 제안한다. 본 논문의 실험은 다양한 실제 데이터를 가지고 GA-AVT-Learner로 생성한 속성값계층구조를 다른 속성값계층구조와 비교하였다. 따라서 GA-AVT-Learner에 의해 생성된 속성값계층구조가 정확하고 간결한 분류기를 제공함을 보이고, 불완전데이터 처리에 있어서도 높은 효율을 보임을 실험적으로 증명하였다.

LOCK을 확장한 3차원 단백질 구조비교 및 분석시스템의 설계 및 구현 (Comparison and Analyzing System for Protein Tertiary Structure Database expands LOCK)

  • 정광수;한욱;박성희;류근호
    • 정보처리학회논문지D
    • /
    • 제12D권2호
    • /
    • pp.247-258
    • /
    • 2005
  • 단백질의 구조는 단백질의 기능과 밀접한 연관을 가지고 있으며 단백질 구조비교는 단백질의 모티프와 패밀리를 결정하고 나아가서 그들의 기능을 파악하는데 매우 중요한 역할을 한다. 이 논문에서는 단백질 구조데이터 및 관련된 문헌 데이터의 통합된 데이터베이스를 구축하고 웹 환경에서 질의된 단백질과 유사성 비교를 진행하여 그 결과 및 연관된 문헌데이터를 검색하여 체계적으로 정보를 제공하는 단백질 분석시스템을 제안한다. 제안 시스템을 구축하기 위하여 현재까지 가장 큰 단백질 구조데이터의 저장소인 Protein Data Bank의 플랫파일 데이터에 대해 분석을 진행하고 여기에서 단백질의 구조비교 알고리즘에 필수적인 구조데이터정보를 추출하여 새로운 구조비교에 사용되는 엔트리 플랫 파일을 만들어서 데이터베이스를 구축한다 이러한 엔트리에 연관된 분석정보 데이터는 데이터베이스 스키마를 작성하여 문헌정보 데이터베이스를 구축한다. 따라서 사용자가 인터넷을 통하여 진행한 질의는 구조비교엔진을 통하여 유사부분과 RMSD값이 계산되고 이와 연관된 문헌정보의 검색이 진행된 후 체계적으로 출력화면에 보여준다. 제안 시스템은 기존의 구조비교시스템보다 빠른 검색을 지원하고 더 훌륭한 분석환경을 제공한다.

온라인 게임 동기화를 위한 데이터 송수신 구조 (Data Send-Receive Structure for Online Game Synchronization)

  • 주우석
    • 한국게임학회 논문지
    • /
    • 제10권6호
    • /
    • pp.147-155
    • /
    • 2010
  • 본 논문에서는 게임 진행의 동기화를 위해 빠른 데이터 송수신이 가능한 통신 구조에 대해서 제안한다. 이를 위해서 우선, 온라인 게임에서 데이터 송수신 속도가 게임의 장르에 따라 미치는 영향에 대해서 분석하였다. 그리고 게임의 동기화가 게임 진행에 큰 영향을 주는 실시간 온라인 대전 게임과 같은 장르에 적합한 데이터 통신 구조에 대해서 제안하였다. 본 연구에서 제안한 통신 구조는 TCP/UDP 프로토콜을 함께 이용하였으며 공유기를 사용하는 네트워크 환경에서도 적용하여 데이터 송수신 속도가 향상 되었음을 확인하였다. 이러한 데이터 송수신 구조는 다양한 온라인 게임에 적용할 수 있을 것이다.

XML 기반의 사이버강좌 관리시스템을 위한 메타 모델링 (Meta-Modeling for XML Based Cyber Learning Management System)

  • 김혜영;김화선;김흥식;최흥국
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 2002년도 추계학술발표논문집
    • /
    • pp.673-676
    • /
    • 2002
  • XML은 모든 분야의 데이터를 저장하고 다른 형태의 데이터로 변화될 수 있는 강한 힘을 지니고 있다. 웹에서의 가상 교육에 대한 데이터도 XML로 저장한다면 한번 저장된 데이터는 어떤 사이트에서든 조금의 수정없이 바로 사용할 수 있다. 물론 이 데이터 구조가 미리 정의되어 모든 사이트에서 이 구조대로 XML 데이터를 만들어야 가능하다. 현재 사이버 교육 사이트들의 강좌 데이터는 데이터베이스에, 데이터베이스에서 데이터를 가져오는 것은 ASP, 가져온 데이터를 사용자에게 서비스하는 최종 산출물은 HTML로 구성되어 있어 이 데이터는 더 이상 가공을 할 수 없게 된다. 즉 각각의 사이버 교육 사이트들의 데이터는 서로 공유될 수 없다. 본 논문은 현재 사이버스쿨의 한계를 벗어날 수 있도록 새로운 표준으로 제안되어진 XML을 이용하여 사이버 강좌 관리시스템을 위한 통일된 XML 데이터 구조를 정의하고 웹에서 어떻게 사용해야 하는지 모델을 제시하였다.

  • PDF

효율적인 물류정보 서비스를 위한 XML 중심의 물류데이터 색인 및 검색

  • 백대원;조이현;백억종;권혁철
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2005년도 공동추계학술대회
    • /
    • pp.264-270
    • /
    • 2005
  • 다양한 XML 데이터를 통합 관리하고, 여러 애플리케이션에 정보를 제공하는 웹 서비스 기반의 정보시 스템에서는 체계적이고 효과적인 XML 데이터의 저장 및 검색을 요구한다. 특히, 물류 분야의 정보시스 템에서는 다양한 물류 객체의 정보를 저장하고 관리 하여야 하며, 여러 애플리케이션의 물류 정보 요청에 지능적인 XML 데이터 검색으로 대처할 수 있어야 한다. XML은 데이터를 구조적으로 표현하고, 체계적인 정보 전달을 위해 많은 분야에서 이용하고 있다. XML 데이터는 데이터 구조적 형식을 정의하는 태그와 해당 값으로 구성되어 있다. 각각의 데이터 구조를 가지는 다양한 물류 데이터의 통합 관리 및 검색서비스를 위해서는 XML 데이터의 섹인이 매우 중요하다. 본 논문에서는 웹 서비스 기반의 물류정보 시스템에서 효율적인 정보 검색서비스 제공을 위한 XML 데이터 색인 기법을 제안한다. 또한, 다양한 물류데이터의 효율적인 통합 관리 및 검색을 위한 온톨로지의 적용을 제안한다.

  • PDF