• 제목/요약/키워드: Korean human dataset

검색결과 161건 처리시간 0.024초

Discovering Temporal Work Transference Networks from Workflow Execution Logs

  • Pham, Dinh-Lam;Ahn, Hyun;Kim, Kwanghoon Pio
    • 인터넷정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.101-108
    • /
    • 2019
  • Workflow management systems (WfMSs) automate and manage workflows, which are implementations of organizational processes operated in process-centric organizations. In this paper, wepropose an algorithm to discover temporal work transference networks from workflow execution logs. The temporal work transference network is a special type of enterprise social networks that consists of workflow performers, and relationships among them that are formed by work transferences between performers who are responsible in performing precedent and succeeding activities in a workflow process. In terms of analysis, the temporal work transference network is an analytical property that has significant value to be analyzed to discover organizational knowledge for human resource management and related decision-making steps for process-centric organizations. Also, the beginning point of implementinga human-centered workflow intelligence framework dealing with work transference networks is to develop an algorithm for discovering temporal work transference cases on workflow execution logs. To this end, we first formalize a concept of temporal work transference network, and next, we present a discovery algorithm which is for the construction of temporal work transference network from workflow execution logs. Then, as a verification of the proposed algorithm, we apply the algorithm to an XES-formatted log dataset that was released by the process mining research group and finally summarize the discovery result.

Pasture Vegetation Changes in Mongolia

  • Erdenetuya, M.
    • 한국제4기학회지
    • /
    • 제18권2호통권23호
    • /
    • pp.105-106
    • /
    • 2004
  • The NDVI(normalized difference vegetation index) dataset is unique or main tool to assess the global, multi seasonal, multi annual, and multi spectral changes over the World. These features are useful for environmental studies in particular, for the vegetation coverage monitoring of the country as Mongolia, where are large pastureland and pastoral animal husbandry, which dependent on natural conditions. Pasture vegetation cover is changing accordingly with both of global climate change and anthropogenic effect or human impacts. Using past 20 years (1982-2001) NDVI derived from NOAA satellite, its dynamical trend has been decreased in all natural zones differently. Also applied the method named "Two Years Differences" which could calculate the number of years with increased or decreased NDVI values at the same place. From May to September have occurred the 9 years maximum decreases of NDVI over Mongolia, but it obtained differently in spatial and temporal scale. In 24.4 ? 32.7% of all territory occurred one year decrease of NDVI and in 18% occurred more than 3 years frequent decrease of NDVI. According to the linear trend of NDVI and in 18% occurred more than 3 years frequent decrease of NDVI dynamics over 69% of whole territory of Mongolia NDVI values had been decreased due to both natural and human induced impacts to the pasture condition. In this paper also included some results of the integrated analyses of NOAA/NDVI and ground truth data over Monglia separately by natural zones.

  • PDF

페르소나 기반 한국어 대화 모델링을 위한 데이터셋 (A Dataset for Persona-based Korean Dialogue Modeling )

  • 이요한;김현;신종훈;조민수;권오욱;김영길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.512-516
    • /
    • 2022
  • 페르소나 기반의 대화 시스템은 일관적인 대화를 수행할 수 있어 많은 관심을 받고 있다. 영어권에서 구축된 페르소나 대화 데이터셋은 서로의 페르소나를 알아가기 보다는 자신의 페르소나에 대해서만 말하는 경향을 보이며 이는 상대방의 말을 이해하여 관련 대화를 진행하는 대화의 특성을 반영하지 못한다. 본 연구에서는 회사 방문객이 안내 시스템과 대화하는 상황을 가정하여 안내 시스템이 주도적으로 방문객의 페르소나를 묻고 관련 대화를 수행하는 데이터셋을 구축함과 동시에 목적지향 대화 시스템의 대화 관리 프레임워크를 기반으로 시스템 주도적인 대화를 모델링하는 페르소나 대화 관리 모델을 제안한다. 실험을 통해 제안한 대화 관리 모델의 대화 이해 및 정책 성능을 검증하고 방문객의 페르소나를 예측할 때 대화 정책의 성능이 향상됨을 보임으로써 구축한 데이터셋이 이해와 정책이 포함된 대화의 특성을 반영하는 것을 확인한다.

  • PDF

Pseudo Labeling을 통한 한국어 대화 추론 데이터셋 구축 (Constructing Korean Dialogue Natural Inference Dataset through Pseudo Labeling)

  • 이영준;;최윤수;임지희;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.205-209
    • /
    • 2022
  • 페르소나 대화 시스템이 상대방의 개인화된 정보에 일관된 응답을 생성하는 것은 상당히 중요하며, 이를 해결하기 위해 최근에 많은 연구들이 활발히 이루어지고 있다. 그 중, PersonaChat 데이터셋에 대해 수반/중립/모순 관계를 라벨링한 DialoguNLI 데이터셋이 제안되었으며, 일관성 측정, 페르소나 속성 추론 태스크 등 여러 분야에 활용되고 있다. 그러나, 공개적으로 이용가능한 한국어로 된 대화 추론 데이터셋은 없다. 본 연구에서는 한국어로 번역된 페르소나 대화 데이터셋과 한국어 자연어 추론 데이터셋에 학습된 모델을 이용하여 한국어 대화 추론 데이터셋(KorDialogueNLI)를 구축한다. 또한, 사전학습된 언어모델을 학습하여 한국어 대화 추론 모델 베이스라인도 구축한다. 실험을 통해 정확도 및 F1 점수 평가 지표에서 KLUE-RoBERTa 모델을 미세조정(fine-tuning)시킨 모델이 가장 높은 성능을 달성하였다. 코드 및 데이터셋은 https://github.com/passing2961/KorDialogueNLI에 공개한다.

  • PDF

MICA: 한국 익명 심리건강 플랫폼 기반 심리상담 데이터셋 (MICA: Mind Care Dataset on Korean Anonymous Mental Health Platform )

  • 양승무;김성현;정찬희;구지혜;홍승혁
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.210-215
    • /
    • 2022
  • 최근 전 세계적으로 불안감, 우울증 등을 비롯한 정신 건강 관리에 어려움을 겪고 있다. 특히 COVID-19 팬데믹 사태로 인해 경제적, 사회적으로 고립되는 시간이 길어지면서 정신 건강이 악화되고 있다. 한국의 경우도 심리상담을 받는 비율이 증가하는 등 정신 건강 관리의 수요가 높아지고 있다. 정신 건강 관리를 위한 여러 진입 장벽들을 극복하기 위해 개발된 비대면 심리상담들이 인기를 얻고 있다. 특히, 인공지능 기술과 정신 건강 관리를 결합하려는 시도가 많아지고 있으며, 미국, 중국 등 해외에서는 이미 워봇(Woebot), 유퍼(Youper) 같은 심리상담 챗봇이 상용화되어 서비스 중이다. 그러나 한국에서의 심리상담 챗봇은 아직까지 해외만큼 상용화 단계에 이르지 못했다. 또한, 이러한 챗봇을 구축하기 위한 데이터셋 연구가 부족한 실정이다. 본 논문에서는 익명 심리 플랫폼을 통하여, 심리전문가가 비식별화한 고민과 해당 고민에 대한 전문가 답변을 활용하여 구축한 MICA를 소개한다. 또한, 본 데이터셋을 활용해 딥러닝 기반의 언어 모델을 학습하고 정량적, 정성적 성능 평가를 통해 챗봇의 가능성을 확인하였다.

  • PDF

KorQuAD 2.0: 웹문서 기계독해를 위한 한국어 질의응답 데이터셋 (KorQuAD 2.0: Korean QA Dataset for Web Document Machine Comprehension)

  • 김영민;임승영;이현정;박소윤;김명지
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.97-102
    • /
    • 2019
  • KorQuAD 2.0은 총 100,000+ 쌍으로 구성된 한국어 질의응답 데이터셋이다. 기존 질의응답 표준 데이터인 KorQuAD 1.0과의 차이점은 크게 세가지가 있는데 첫 번째는 주어지는 지문이 한두 문단이 아닌 위키백과 한 페이지 전체라는 점이다. 두 번째로 지문에 표와 리스트도 포함되어 있기 때문에 HTML tag로 구조화된 문서에 대한 이해가 필요하다. 마지막으로 답변이 단어 혹은 구의 단위뿐 아니라 문단, 표, 리스트 전체를 포괄하는 긴 영역이 될 수 있다. Baseline 모델로 구글이 오픈소스로 공개한 BERT Multilingual을 활용하여 실험한 결과 F1 스코어 46.0%의 성능을 확인하였다. 이는 사람의 F1 점수 85.7%에 비해 매우 낮은 점수로, 본 데이터가 도전적인 과제임을 알 수 있다. 본 데이터의 공개를 통해 평문에 국한되어 있던 질의응답의 대상을 다양한 길이와 형식을 가진 real world task로 확장하고자 한다.

  • PDF

Exploring the Impact of Pesticide Usage on Crop Condition: A Causal Analysis of Agricultural Factors

  • Mee Qi Siow;Yang Sok Kim;Mi Jin Noh;Mu Moung Cho Han
    • 스마트미디어저널
    • /
    • 제12권10호
    • /
    • pp.29-37
    • /
    • 2023
  • Human lifestyle is affected by the agricultural development in the last 12,000 years ago. The development of agriculture is one of the reasons that global population surged. To ensure sufficient food production for supporting human life, pesticides as a more effective and economical tools, are extensively used to enhance the yield quality and boost crop production. This study investigated the factors that affect crop production and whether the factors of pesticide usage are the most important factors in crop production using the dataset from Kaggle that provides information based on crops harvested by various farmers. Logistic regression is used to investigate the relationship between various factors and crop production. However, the logistic regression is unable to deal with predictors that are related to each other and identifying the greatest impact factor. Therefore, causal discovery is applied to address the above limitations. The result of causal discovery showed that crop condition is greatly impacted by the estimated insects count, where estimated insects count is affected by the factors of pesticide usage. This study enhances our understanding of the influence of pesticide usage on crop production and contributes to the progress of agricultural practices.

100 K-Poison: 한국어 생성 모델을 위한 독성 텍스트 저항력 검증 데이터셋 (100 K-Poison: Poisonous Texts Resistance Test Dataset For Korean Generative Models)

  • 비립;강예지;박서윤;장연지;김한샘
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.149-154
    • /
    • 2023
  • 본고는 한국어 생성 모델의 독성 텍스트 저항 능력을 검증하기 위해 'CVALUE' 데이터셋에서 추출한 고난도 독성 질문-대답 100쌍을 바탕으로 한국어 생성 모델을 위한 '100 K-Poison' 데이터셋을 시범적으로 구축했다. 이 데이터셋을 토대로 4가지 대표적인 한국어 생성 모델 'ZeroShot TextClassifcation'과 'Text Generation7 실험을 진행함으로써 현재 한국어 생성 모델의 독성 텍스트 식별 및 응답 능력을 종합적으로 고찰했고, 모델 간의 독성 텍스트 저항력 격차 현상을 분석했으며, 앞으로 한국어 생성 모델의 독성 텍스트 식별 및 웅대 성능을 한층 더 강화하기 위한 '이독공독(以毒攻毒)' 학습 전략을 새로 제안하였다.

  • PDF

OK-KGD:오픈 도메인 한국어 지식 기반 대화 데이터셋 구축 (OK-KGD:Open-domain Korean Knowledge Grounded Dialogue Dataset)

  • 문선아;김산;장진예;정민영;신사임
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.342-345
    • /
    • 2023
  • 최근 자연어처리 연구 중 오픈 도메인 지식 기반 대화는 많은 관심을 받고 있다. 연구를 위해서는 오픈 도메인 환경을 갖추고 적절한 지식을 사용한 대화 데이터셋이 필요하다. 지금까지 오픈 도메인 환경을 갖춘 한국어 지식 기반 대화 데이터셋은 존재하지 않아 한국어가 아닌 데이터셋을 한국어로 기계번역하여 연구에 사용하였다. 이를 사용할 경우 두 가지 단점이 존재한다. 먼저 사용된 지식이 한국 문화에 익숙하지 않아 한국인이 쉽게 알 수 없는 대화 내용이 담겨있다. 그리고 번역체가 남아있어 대화가 자연스럽지 않다. 그래서 본 논문에서는 자연스러운 대화체와 대화 내용을 담기 위해 새로운 오픈 도메인 한국어 지식 기반 대화 데이터셋을 구축하였다. 오픈 도메인 환경 구축을 위해 위키백과와 나무위키의 지식을 사용하였고 사용자와 시스템의 발화로 이루어진 1,773개의 대화 세트를 구축하였다. 시스템 발화는 크게 지식을 사용한 발화, 사용자 질문에 대한 답을 주지 못한 발화, 그리고 지식이 포함되지 않은 발화 3가지로 구성된다. 이렇게 구축한 데이터셋을 통해 KE-T5와 Long-KE-T5를 사용하여 간단한 실험을 진행하였다.

  • PDF

기계학습을 활용한 고령운전자 교통사고 분석 및 교통사고 데이터 정책 제언 (Elderly Driver-involved Crash Analysis and Crash Data Policy)

  • 김승훈
    • 한국ITS학회 논문지
    • /
    • 제21권5호
    • /
    • pp.90-102
    • /
    • 2022
  • 우리나라가 고령화시대에 진입하면서 고령운전자를 위한 교통 안전성 정책에 대한 관심이 높아지고 있다. 이를 위해서는 고령자 관련 교통사고의 영향요인을 분석하는 연구가 활성화될 필요가 있지만, 국내의 사고 데이터는 효과적인 사고분석 연구를 수행하기에는 한계가 있다. 이에 본 연구는 미국의 사고 데이터를 살펴보고 기계학습 알고리즘을 활용하여 고령운전자 사고심각도 예측 모형을 개발하고, 주요 사고 영향요인을 도출하여, 향후 국내 사고 데이터의 보완 방향을 제시하고자 한다. 분석 결과에 따르면, 주행속도, 제한속도, 사고 시 근접 주행 여부 등이 고령운전자 사고 심각도에 영향을 주는 요인으로 나타났는데, 한국의 사고 데이터에서 제공하지 않는 것으로 나타났다. 그러므로 이와 같은 정보들이 한국의 사고 데이터에서 제공된다면 고령운전자 교통안전성 제고에 기여할 수 있을 것이다.