• 제목/요약/키워드: Korean human dataset

검색결과 161건 처리시간 0.034초

언어 정보가 반영된 문장 점수를 활용하는 삭제 기반 문장 압축 (Deletion-Based Sentence Compression Using Sentence Scoring Reflecting Linguistic Information)

  • 이준범;김소언;박성배
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.125-132
    • /
    • 2022
  • 문장 압축은 원본 문장의 중요한 의미는 유지하면서 길이가 축소된 압축 문장을 생성하는 자연어처리 태스크이다. 문법적으로 적절한 문장 압축을 위해, 초기 연구들은 사람이 정의한 언어 규칙을 활용하였다. 또한 시퀀스-투-시퀀스 모델이 기계 번역과 같은 다양한 자연어처리 태스크에서 좋은 성능을 보이면서, 이를 문장 압축에 활용하고자 하는 연구들도 존재했다. 하지만 언어 규칙을 활용하는 연구의 경우 모든 언어 규칙을 정의하는 데에 큰 비용이 들고, 시퀀스-투-시퀀스 모델 기반 연구의 경우 학습을 위해 대량의 데이터셋이 필요하다는 문제점이 존재한다. 이를 해결할 수 있는 방법으로 사전 학습된 언어 모델인 BERT를 활용하는 문장 압축 모델인 Deleter가 제안되었다. Deleter는 BERT를 통해 계산된 perplexity를 활용하여 문장을 압축하기 때문에 문장 압축 규칙과 모델 학습을 위한 데이터셋이 필요하지 않다는 장점이 있다. 하지만 Deleter는 perplexity만을 고려하여 문장을 압축하기 때문에, 문장에 속한 단어들의 언어 정보를 반영하여 문장을 압축하지 못한다. 또한, perplexity 측정을 위한 BERT의 사전 학습에 사용된 데이터가 압축 문장과 거리가 있어, 이를 통해 측정된 perplexity가 잘못된 문장 압축을 유도할 수 있다는 문제점이 있다. 이를 해결하기 위해 본 논문은 언어 정보의 중요도를 수치화하여 perplexity 기반의 문장 점수 계산에 반영하는 방법을 제안한다. 또한 고유명사가 자주 포함되어 있으며, 불필요한 수식어가 생략되는 경우가 많은 뉴스 기사 말뭉치로 BERT를 fine-tuning하여 문장 압축에 적절한 perplexity를 측정할 수 있도록 하였다. 영어 및 한국어 데이터에 대한 성능 평가를 위해 본 논문에서 제안하는 LI-Deleter와 비교 모델의 문장 압축 성능을 비교 실험을 진행하였고, 높은 문장 압축 성능을 보임을 확인하였다.

Development of a Machine-Learning based Human Activity Recognition System including Eastern-Asian Specific Activities

  • Jeong, Seungmin;Choi, Cheolwoo;Oh, Dongik
    • 인터넷정보학회논문지
    • /
    • 제21권4호
    • /
    • pp.127-135
    • /
    • 2020
  • The purpose of this study is to develop a human activity recognition (HAR) system, which distinguishes 13 activities, including five activities commonly dealt with in conventional HAR researches and eight activities from the Eastern-Asian culture. The eight special activities include floor-sitting/standing, chair-sitting/standing, floor-lying/up, and bed-lying/up. We used a 3-axis accelerometer sensor on the wrist for data collection and designed a machine learning model for the activity classification. Data clustering through preprocessing and feature extraction/reduction is performed. We then tested six machine learning algorithms for recognition accuracy comparison. As a result, we have achieved an average accuracy of 99.7% for the 13 activities. This result is far better than the average accuracy of current HAR researches based on a smartwatch (89.4%). The superiority of the HAR system developed in this study is proven because we have achieved 98.7% accuracy with publically available 'pamap2' dataset of 12 activities, whose conventionally met the best accuracy is 96.6%.

Seasonal Weather Factors and Sensibility Change Relationship via Textmining

  • Yeo, Hyun-Jin
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권8호
    • /
    • pp.219-224
    • /
    • 2022
  • 한국 기상청은 '생활산업 기상정보서비스'나 '위기탈출 안전날씨'와 같은 일상에 관련된 정보를 제공하고 있다. 한편, 해외에서는 독일의 '신체기상정보', 영국의 '건강 기상정보'와 같이 인간의 신체와 감성에 영향을 미치는 기상정보 역시 제공하고 있다. 비록 인간의 감성 변화가 심리학 연구 영역에서 다양하고 방대하게 이루어져 왔지만, 빅 데이터 분석 기반에 근거한 기상정보에 따른 인간의 감성 예측모형은 요원한 상태이다. 이 연구에서는 기상요소에 따른 인간의 감성변화를 예측할 수 있는 모형을 기상청의 기상 데이터셋과 SNS상 크롤링된 일자별 텍스트를 통해 개발하고 검증하고자 한다. 연구 결과 기상 요소들로 인간의 감성변화를 예측할 수 있는 모형을 만들고 검증할 수 있었으며 이는 기존 연구와 그 결을 같이한다고 볼 수 있다.

관절의 시·공간적 관계를 고려한 딥러닝 기반의 행동인식 기법 (Deep learning-based Human Action Recognition Technique Considering the Spatio-Temporal Relationship of Joints)

  • 최인규;송혁
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2022년도 춘계학술대회
    • /
    • pp.413-415
    • /
    • 2022
  • 인간의 관절은 인간의 신체를 구성하는 요소로 인간의 행동을 분석하는데 유용한 정보로 활용될 수 있기 때문에 관절 정보를 이용한 행동인식에 대한 많은 연구가 진행되었다. 하지만 각각의 독립적인 관절 정보만을 이용해서 시시각각 변화하는 인간의 행동을 인식하는 것은 매우 복잡한 문제이다. 따라서 학습에 사용할 부가적인 정보 추출 방법과 과거의 상태를 기반으로 현재 상태를 판단하는 고려하는 알고리즘이 필요하다. 본 논문에서는 연결된 관절들의 위치 관계와 각 관절의 위치가 시간의 흐름에 따라 변화하는 것을 고려한 행동 인식 기법을 제안한다. 사전 학습된 관절 추출 모델을 이용하여 각 관절의 위치 정보를 획득하고 연결된 관절 사이의 차 벡터를 이용하여 뼈대 정보를 추출한다. 그리고 두 가지 형태의 입력에 맞춰 간소화된 신경망을 구성하고 LSTM을 더하여 시·공간적 특징을 추출하도록 한다. 9개의 행동으로 구성된 데이터 셋을 이용하여 실험한 결과 각 관절 및 뼈대의 시·공간적 관계 특징을 고려하여 행동 인식 정확도를 측정하였을 때 단일 관절 정보만을 이용한 결과에 비해 뛰어난 성능을 보임을 확인하였다.

  • PDF

데이터세트 기록관리를 위한 생산시스템 기록관리 모듈의 DB 설계 모형연구 (A Study on Database Design Model for Production System Record Management Module in DataSet Record Management)

  • 김동수;임진희;강성희
    • 기록학연구
    • /
    • 제78호
    • /
    • pp.153-195
    • /
    • 2023
  • RDBMS는 전 세계적으로 많이 사용하는 데이터베이스 시스템으로, 행정정보 데이터세트(이하 데이터세트)는 RDBMS를 이용하여 행정정보시스템에서 생산되는 방대한 규모의 데이터를 의미한다. 행정적인 문서 위주로 생산되는 업무시스템과는 달리 행정정보시스템은 기관의 고유한 업무 중심으로 기록들이 생산되고 있다. 이러한 기록들은 기존의 결재문서류와 메타데이터 등이 달라 표준기록관리시스템으로 이관이 쉽지 않다. 2022년 「공공기록물법 시행령」 개정으로 기록물의 관리권한만 이전하는 유형에 데이터세트가 포함되었고, 개정의 핵심 내용은 행정정보시스템에서 기록의 생애주기를 관리해야 하는 것으로 볼 수 있다. 그러나 현재까지는 행정정보시스템에서 데이터세트를 어떻게 관리해야 하는지 모색된 바는 없었다. 이에 본 연구에서는 기록의 생애주기를 관리하기 위해 행정정보시스템에 탑재해야 하는 기록관리 모듈의 DB를 설계하고자 한다. ISO 16175-1:2020의 예시를 수정·보완하여 "인사관리시스템"을 설계하고, 인사관리 데이터세트를 식별 및 평가함으로써 행정정보시스템에서의 기록관리를 위한 구체적인 실행 예시를 보여주고자 한다. 본 연구에서 설계한 프로토타입 시스템이 실제 기관에서 사용하고 있는 시스템에 비해 데이터의 양이 적고, 기록관리 모듈의 DB가 헹정정보시스템에 적용 가능한지 현업에 계신 기록연구사분들과 IT 개발자들에게 검증을 받지 못한 한계점은 있다. 그러나, 예시를 통해서 데이터세트가 무엇인지 실체를 파악할 수 있었고, 행정정보시스템에서 데이터세트를 어떻게 관리해야 하는지 알 수 있었다. 그리고 행정정보시스템에서 기록관리 모듈의 필요성을 확인할 수 있었다. 향후 완전한 기록관리 모듈이 완성되고 국가기록원에서 기록관리 모듈에 대한 표준이 만들어진다면, 관련 기관에서 데이터세트를 관리하는데 필요한 모듈이 될 수 있을 것이라 기대한다.

Impact of the human body in wireless propagation of medical implants for tumor detection

  • Morocho-Cayamcela, Manuel Eugenio;Kim, Myung-Sik;Lim, Wansu
    • 인터넷정보학회논문지
    • /
    • 제21권2호
    • /
    • pp.19-26
    • /
    • 2020
  • This paper analyses the feasibility of using implantable antennas to detect and monitor tumors. We analyze this setting according to the wireless propagation loss and signal fading produced by human bodies and their environment in an indoor scenario. The study is based on the ITU-R propagation recommendations and prediction models for the planning of indoor radio communication systems and radio local area networks in the frequency range of 300 MHz to 100 GHz. We conduct primary estimations on 915 MHz and 2.4 GHz operating frequencies. The path loss presented in most short-range wireless implant devices does not take into account the human body as a channel itself, which causes additional losses to wireless designs. In this paper, we examine the propagation through the human body, including losses taken from bones, muscles, fat, and clothes, which results in a more accurate characterization and estimation of the channel. The results obtained from our simulation indicates a variation of the return loss of the spiral antenna when a tumor is located near the implant. This knowledge can be applied in medical detection, and monitoring of early tumors, by analyzing the electromagnetic field behavior of the implant. The tumor was modeled under CST Microwave Studio, using Wisconsin Diagnosis Breast Cancer Dataset. Features like the radius, texture, perimeter, area, and smoothness of the tumor are included along with their label data to determine whether the external shape has malignant or benign physiognomies. An explanation of the feasibility of the system deployment and technical recommendations to avoid interference is also described.

KoCED: 윤리 및 사회적 문제를 초래하는 기계번역 오류 탐지를 위한 학습 데이터셋 (KoCED: English-Korean Critical Error Detection Dataset)

  • 어수경;최수원;구선민;정다현;박찬준;서재형;문현석;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.225-231
    • /
    • 2022
  • 최근 기계번역 분야는 괄목할만한 발전을 보였으나, 번역 결과의 오류가 불완전한 의미의 왜곡으로 이어지면서 사용자로 하여금 불편한 반응을 야기하거나 사회적 파장을 초래하는 경우가 존재한다. 특히나 오역에 의해 변질된 의미로 인한 경제적 손실 및 위법 가능성, 안전에 대한 잘못된 정보 제공의 위험, 종교나 인종 또는 성차별적 발언에 의한 파장은 실생활과 문제가 직결된다. 이러한 문제를 완화하기 위해, 기계번역 품질 예측 분야에서는 치명적 오류 감지(Critical Error Detection, CED)에 대한 연구가 이루어지고 있다. 그러나 한국어에 관련해서는 연구가 존재하지 않으며, 관련 데이터셋 또한 공개된 바가 없다. AI 기술 수준이 높아지면서 다양한 사회, 윤리적 요소들을 고려하는 것은 필수이며, 한국어에서도 왜곡된 번역의 무분별한 증식을 낮출 수 있도록 CED 기술이 반드시 도입되어야 한다. 이에 본 논문에서는 영어-한국어 기계번역 분야에서의 치명적 오류를 감지하는 KoCED(English-Korean Critical Error Detection) 데이터셋을 구축 및 공개하고자 한다. 또한 구축한 KoCED 데이터셋에 대한 면밀한 통계 분석 및 다국어 언어모델을 활용한 데이터셋의 타당성 실험을 수행함으로써 제안하는 데이터셋의 효용성을 면밀하게 검증한다.

  • PDF

GPU 클러스터를 이용한 VKH 데이터의 빠른 볼륨 렌더링 (Fast Volume Rendering of VKH dataset using GPU Cluster)

  • 이중연
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.763-765
    • /
    • 2005
  • 볼륨 렌더링은 3차원이나 그 이상의 차원의 볼륨 데이터에서 의미있는 정보를 추출해 내어 직관적으로 표출하는 가시화 기법을 말하며 의료영상 기상학, 유체역학 등 다양한 분야에서 널리 사용되고 있다. 한편, 최근 PC 하드웨어의 급격한 발전으로 과거에는 슈퍼컴퓨터에서나 가능했던 대용량 볼륨 데이터의 가시화가 일반 PC 환경에서도 가능하게 되었다. PC 그래픽스 하드웨어의 꼭지점 및 픽셀 세이더의 수치 계산에 최적화된 벡터 연산으로 빠른 볼륨 가시화를 가능하게 한 것이다. 그러나 그래픽스 하드웨어의 메모리 용량의 한계로 대용량의 볼륨 데이터를 빠르게 가시화하는 것은 지금까지 어려운 문제로 남아있다. 본 논문에서는 한국과학기술정보연구원에서 제작한 대용량의 인체영상 데이터인 Visible Korean Human 데이터를 여러 개의 그래픽스 하드웨어 메모리에 분산시키고 이를 꼭지점 및 픽셀 쉐이더를 이용하여 빠르게 가시화하여 고해상도의 이미지를 얻고자 하였다.

  • PDF

식당 예약 대화 시스템 개발을 위한 한국어 데이터셋 구축 (Development of Korean Dialogue Dataset for Restaurant Reservation System)

  • 김경민;이동엽;허윤아;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2017년도 제29회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.267-269
    • /
    • 2017
  • 대화 시스템(dialogue system)은 사용자의 언어를 이해하고 그 의도를 분석하여 사용자가 원하는 목적을 달성할 수 있게 도와주는 시스템이다. 인간과 비슷한 수준의 대화를 위해서는 대량의 데이터가 필요하며 데이터의 양질에 따라 그 결과가 달라진다. 최근 페이스북에서 End-to-end learning 방식을 기반으로 한 영어로 구성된 식당 예약 학습 대화 데이터셋(The 6 dialog bAbI tasks)을 구축하여 해당 모델에 적용한 연구가 있다. 대화 시스템에서 활용 가능한 연구가 활발히 진행되고 있지만 영어 기반의 데이터와는 다르게 식당 예약 시스템에서 다른 연구자들의 연구 목적으로 공유한 한국어 데이터셋은 아직까지도 미흡하다. 본 논문에서는 페이스북에서 구축한 영어로 구성된 식당 예약 학습 대화 데이터셋을 이용하여 한국어 기반의 식당 예약 대화 시스템에서 활용 가능한 한국어 데이터셋을 구축하고, 일상생활에서 발생 가능한 발화(utterance)에 따른 형태 변화를 통해 한국어 식당 예약 시스템 데이터셋 구축 방법을 제안한다.

  • PDF

User Identification Using Real Environmental Human Computer Interaction Behavior

  • Wu, Tong;Zheng, Kangfeng;Wu, Chunhua;Wang, Xiujuan
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제13권6호
    • /
    • pp.3055-3073
    • /
    • 2019
  • In this paper, a new user identification method is presented using real environmental human-computer-interaction (HCI) behavior data to improve method usability. User behavior data in this paper are collected continuously without setting experimental scenes such as text length, action number, etc. To illustrate the characteristics of real environmental HCI data, probability density distribution and performance of keyboard and mouse data are analyzed through the random sampling method and Support Vector Machine(SVM) algorithm. Based on the analysis of HCI behavior data in a real environment, the Multiple Kernel Learning (MKL) method is first used for user HCI behavior identification due to the heterogeneity of keyboard and mouse data. All possible kernel methods are compared to determine the MKL algorithm's parameters to ensure the robustness of the algorithm. Data analysis results show that keyboard data have a narrower range of probability density distribution than mouse data. Keyboard data have better performance with a 1-min time window, while that of mouse data is achieved with a 10-min time window. Finally, experiments using the MKL algorithm with three global polynomial kernels and ten local Gaussian kernels achieve a user identification accuracy of 83.03% in a real environmental HCI dataset, which demonstrates that the proposed method achieves an encouraging performance.