• Title/Summary/Keyword: 원 데이터

Search Result 6,138, Processing Time 0.035 seconds

Constructing Korean Dialogue Natural Inference Dataset through Pseudo Labeling (Pseudo Labeling을 통한 한국어 대화 추론 데이터셋 구축)

  • Young-Jun Lee;Chae-Gyun Lim;Yunsu Choi;Ji-Hui Lm;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2022.10a
    • /
    • pp.205-209
    • /
    • 2022
  • 페르소나 대화 시스템이 상대방의 개인화된 정보에 일관된 응답을 생성하는 것은 상당히 중요하며, 이를 해결하기 위해 최근에 많은 연구들이 활발히 이루어지고 있다. 그 중, PersonaChat 데이터셋에 대해 수반/중립/모순 관계를 라벨링한 DialoguNLI 데이터셋이 제안되었으며, 일관성 측정, 페르소나 속성 추론 태스크 등 여러 분야에 활용되고 있다. 그러나, 공개적으로 이용가능한 한국어로 된 대화 추론 데이터셋은 없다. 본 연구에서는 한국어로 번역된 페르소나 대화 데이터셋과 한국어 자연어 추론 데이터셋에 학습된 모델을 이용하여 한국어 대화 추론 데이터셋(KorDialogueNLI)를 구축한다. 또한, 사전학습된 언어모델을 학습하여 한국어 대화 추론 모델 베이스라인도 구축한다. 실험을 통해 정확도 및 F1 점수 평가 지표에서 KLUE-RoBERTa 모델을 미세조정(fine-tuning)시킨 모델이 가장 높은 성능을 달성하였다. 코드 및 데이터셋은 https://github.com/passing2961/KorDialogueNLI에 공개한다.

  • PDF

Design of a foot shape extraction system for foot parameter measurement (발 고유 변인 측정을 위한 발 형상 추출 시스템 설계)

  • Yun, Jeongrok;Kim, Hoemin;Kim, Unyong;Chun, Sungkuk
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2020.07a
    • /
    • pp.421-422
    • /
    • 2020
  • 발 고유 변인 측정 및 데이터의 수집은 소비자의 발 건강을 위한 신발 제작을 위하여 필요하다. 신발의 설계 지표 또한 개정의 필요성이 제시되고 있어 발 고유 변인 측정의 및 데이터 획득에 관한 연구의 필요성이 증대되고 있다. 본 논문에서는 발 형태의 데이터 값을 산출하여 사용자에게 적합한 맞춤형 인솔 및 신발을 제작하고, 신발의 설계 지표를 산출하기 위하여 발 고유 변인의 데이터 값을 자동으로 측정이 가능한 발 고유 변인 산출이 가능한 발 형상 추출 시스템에 대해 서술한다. 이를 위해 사용자의 발 고유 변인 측정을위한 스캐닝 스테이지를 설계 및 제작하고, 3대의 깊이 카메라를 설치하였다. 잡음 및 배경을 제거하기 위해 가우시안 배경 모델링으로 전경 영역을 분리하여 발 점군 데이터를 획득 한 후, Euclidean transformation을 통해 각 점군 데이터를 정합한다. 실험 결과에서는 획득된 발 형상 점군 데이터와 접지면 형상 및 발 변인 추출 결과를 보여준다.

  • PDF

Prompt-based Data Augmentation for Generating Personalized Conversation Using Past Counseling Dialogues (과거 상담대화를 활용한 개인화 대화생성을 위한 프롬프트 기반 데이터 증강)

  • Chae-Gyun Lim;Hye-Woo Lee;Kyeong-Jin Oh;Joo-Won Sung;Ho-Jin Choi
    • Annual Conference on Human and Language Technology
    • /
    • 2023.10a
    • /
    • pp.209-213
    • /
    • 2023
  • 최근 자연어 이해 분야에서 대규모 언어모델 기반으로 프롬프트를 활용하여 모델과 상호작용하는 방법이 널리 연구되고 있으며, 특히 상담 분야에서 언어모델을 활용한다면 내담자와의 자연스러운 대화를 주도할 수 있는 대화생성 모델로 확장이 가능하다. 내담자의 상황에 따라 개인화된 상담대화를 진행하는 모델을 학습시키려면 동일한 내담자에 대한 과거 및 차기 상담대화가 필요하지만, 기존의 데이터셋은 대체로 단일 대화세션으로 구축되어 있다. 본 논문에서는 언어모델을 활용하여 단일 대화세션으로 구축된 기존 상담대화 데이터셋을 확장하여 연속된 대화세션 구성의 학습데이터를 확보할 수 있는 프롬프트 기반 데이터 증강 기법을 제안한다. 제안 기법은 기존 대화내용을 반영한 요약질문 생성단계와 대화맥락을 유지한 차기 상담대화 생성 단계로 구성되며, 프롬프트 엔지니어링을 통해 상담 분야의 데이터셋을 확장하고 사용자 평가를 통해 제안 기법의 데이터 증강이 품질에 미치는 영향을 확인한다.

  • PDF

데이터마이닝 시장이 떠오른다

  • Korea Database Promotion Center
    • Digital Contents
    • /
    • no.8 s.63
    • /
    • pp.40-46
    • /
    • 1998
  • 최근 데이터 웨어하우스 구축붐이 일면서 데이터 마이닝 시장이 서서히 부상하고 있다. 데이터 웨어하우스 시장을 기반으로 특히 고객 성향 분석을 필요로 하는 유통, 카드, 보험, 통신 업체 등을 중심으로 데이터 마이닝 시장이 확산되고 있다. 이제 도입단계에 들어선 데이터 마이닝의 개념과 국내 시장 동향을 살펴본다.

  • PDF

Quantitative Safety Risk Assessment using Aviation Safety Data (항공안전데이터를 사용한 위해요인 위험도 정량적 평가기법)

  • Hyunjin Paek;Jun Hwan Kim;Jae Jin Lim;Sungjin Jeon;Young Jae Choi
    • Journal of the Korean Society for Aviation and Aeronautics
    • /
    • v.30 no.4
    • /
    • pp.145-158
    • /
    • 2022
  • To manage State Safety Program (SSP) in a more integrative and proactive manner, an aviation safety authority of the state shall detect and assess the risk of emerging or hidden safety hazards before they provoke accidents or incidents(ICAO, 2018). In case of South Korea, safety risk assessment is conducted by calculating the likelihood and severity of the hazard following ICAO's safety management manual. It is reasonable to extract the safety risk likelihood by calculating the number of occurrence caused by the hazard. However, it is ambiguous to assess the safety risk severity defined as the extent of harm that might be expected to occur as a consequence of the identified hazard. In this paper, a safety risk assessment method which quantitatively calculates the risk of hazard using aviation safety data(i.e. aviation safety mandatory report, etc.) is proposed. By utilizing the proposed method, the existing process that safety risk is being subjectively assessed by safety inspectors can be supplemented. So that essential aviation safety policy decision making can be accomplished by the accurate result of safety risk assessment.

Analysis and Measurement of Data Broadcast Schemes on Error Prone Wireless Link for Resilient Mobile Computing (무선통신 장애를 고려한 indexing broadcast 기법의 성능분석)

  • 정의종;김재훈
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2000.04a
    • /
    • pp.262-264
    • /
    • 2000
  • 현재의 이동 컴퓨팅 환경은 더욱 보편화되고 있다. 그러나 베터리의 제약과 이동통신망의 높은 장애율로 사용에 불편을 느낀다. 여러 mobile client는 공통 관심이 있는 데이터를 서버로부터 받는 방법으로 broadcasting을 많이 쓰는데, 이때 indexing 기법을 이용해 클라이언트는 원하는 데이터를 filtering 해서 수신함으로서 에너지의 효율적 사용을 기할 수 있다. index를 중복시킴으로서 원하는 데이터의 access 시간을 줄이고 무선 통신망의 장애에 따른 성능 저하를 줄일 수 있다. 본 논문에서는 장애율에 따른 최적의 중복회수를 구하고 데이터 수신시 access 시간과 tuning 시간을 구한다.

  • PDF

Design of Multimedia data Retrieval System based on MPEG-7 (MPEG-7 기반의 멀티미디어 데이터 검색 시스템 설계)

  • Kim, Kyungl-Soo
    • Convergence Security Journal
    • /
    • v.8 no.4
    • /
    • pp.91-96
    • /
    • 2008
  • An increasing in quantity of multimedia data brought a new problem that expected data should be retrieved fast and exactly. The adequate representation is a key element for the efficient retrieval. For this reason, MPEG-7 standard was established for description of multimedia data in 2001. In this paper, we designed a Audio/Image Retrieval System based on MPEG-7 that can retrieve multimedia data like audio, image efficiently. And we integrated high-level and low-level schemas to retrieve datas for users.

  • PDF

Wafer Map Defect Pattern Classification with Progressive Pseudo-Labeling Balancing (점진적 데이터 평준화를 이용한 반도체 웨이퍼 영상 내 결함 패턴 분류)

  • Do, Jeonghyeok;Kim, Munchurl
    • Proceedings of the Korean Society of Broadcast Engineers Conference
    • /
    • 2020.11a
    • /
    • pp.248-251
    • /
    • 2020
  • 전 반도체 제조 및 검사 공정 과정을 자동화하는 스마트 팩토리의 실현에 있어 제품 검수를 위한 검사 장비는 필수적이다. 하지만 딥 러닝 모델 학습을 위한 데이터 처리 과정에서 엔지니어가 전체 웨이퍼 영상에 대하여 결함 항목 라벨을 매칭하는 것은 현실적으로 불가능하기 때문에 소량의 라벨 (labeled) 데이터와 나머지 라벨이 없는 (unlabeled) 데이터를 적절히 활용해야 한다. 또한, 웨이퍼 영상에서 결함이 발생하는 빈도가 결함 종류별로 크게 차이가 나기 때문에 빈도가 적은 (minor) 결함은 잡음처럼 취급되어 올바른 분류가 되지 않는다. 본 논문에서는 소량의 라벨 데이터와 대량의 라벨이 없는 데이터를 동시에 활용하면서 결함 사이의 발생 빈도 불균등 문제를 해결하는 점진적 데이터 평준화 (progressive pseudo-labeling balancer)를 제안한다. 점진적 데이터 평준화를 이용해 분류 네트워크를 학습시키는 경우, 기존의 테스트 정확도인 71.19%에서 6.07%-p 상승한 77.26%로 약 40%의 라벨 데이터가 추가된 것과 같은 성능을 보였다.

  • PDF

A Study on the Improvement of Entity-Based 3D Artwork Data Modeling for Digital Twin Exhibition Content Development (디지털트윈 전시형 콘텐츠 개발을 위한 엔티티 기반 3차원 예술작품 데이터모델링 개선방안 연구)

  • So Jin Kim;Chan Hui Kim;An Na Kim;Hyun Jung Park
    • Smart Media Journal
    • /
    • v.13 no.1
    • /
    • pp.86-100
    • /
    • 2024
  • Recently, a number of virtual reality exhibition-type content services have been produced using archive resources of visual art records as a means of promoting cultural policy-based public companies. However, it is by no means easy to accumulate 3D works of art as data. Looking at the current state of metadata in public institutions, there was no digitalization of resources when developing digital twins because it was built based on old international standards. It was found that data modeling evolution is inevitable to connect multidimensional data at a capacity and speed that exceeds the functions of existing systems. Therefore, the elements and concepts of data modeling design were first considered among previous studies. When developing virtual reality content, when it is designed for the migration of 3D modeling data, the previously created metadata was analyzed to improve the upper elements that must be added to 3D modeling. Furthermore, this study demonstrated the possibility by directly implementing the process of using newly created metadata in virtual reality content in accordance with the data modeling process. If this study is gradually developed in the future, metadata-based data modeling can become more meaningful in the use of public data than it is today.

Development of the RTU Board for Renewable-Energy Management System (신재생에너지 관리 시스템을 위한 RTU(Remote Terminal Unit) 보드 개발)

  • Im, Jong-Wook;Choy, Ick;Choi, Ju-Yeop;An, Jin-Ung;Lee, Dong-Ha
    • Proceedings of the KIPE Conference
    • /
    • 2009.11a
    • /
    • pp.191-193
    • /
    • 2009
  • 최근 국내 신재생에너지설비의 설치가 급증하고 있다. 전국적으로 신재생에너지원의 설비가 산재되어 있음에도 불구하고 관리 및 운영 시스템은 미비한 수준이다. 따라서 사후관리 체계 구축과 설비 이용률 향상을 목적으로 가동현황을 파악하여, 신재생에너지원의 효율적인 관리와 통합 운영을 위한 시스템이 필요하다. 이를 위해 본 논문에서는 통신 및 모니터링 기술기준에 제정된 공용규격에 따라 다수의 계측기와 데이터를 수집, 변환, 저장하고, 중앙서버로 데이터를 전송할 수 있는 시스템을 구현하여 더욱 효율적인 신재생에너지원의 운영을 돕는다. 본 시스템은 신재생에너지원의 계측기와 RS-232 혹은 RS-485를 이용한 하위통신을 하여 관리에 사용될 여러 정보를 수집하여 저장한다. 상위통신으로 PIRP(Platform Independent Reporting Protocol)에 맞는 데이터로 변환하여 중앙서버에 데이터를 보내게 된다. 또 한, 유저가 원한다면 중앙서버에서 과거의 데이터를 획득할 수 있도록 시스템을 구현하였다.

  • PDF