• 제목/요약/키워드: Data Pre-processing

검색결과 806건 처리시간 0.031초

스택-포인터 네트워크와 부분 트리 정보를 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using Stack-Pointer Networks and Subtree Information)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권6호
    • /
    • pp.235-242
    • /
    • 2021
  • 본 연구에서는 포인터 네트워크 모델을 의존 구문 분석에 맞게 확장한 스택-포인터 네트워크 모델을 이용하여 한국어 의존 구문 분석기를 구현한다. 스택-포인터 네트워크 모델 기반 의존 구문 분석기는 인코더-디코더로 구성되어 있으며 다른 의존 구문 분석기와 달리 내부 스택을 갖고 있어 루트부터 시작하는 하향식 구문 분석이 가능하다. 디코더의 각 단계에서는 의존소를 찾기 위해 부모 노드뿐만 아니라 이미 파생된 트리 구조에서 조부모와 형제 노드를 참조할 수 있다. 기존 연구에서는 단순하게 해당 노드들의 합을 계산하여 입력으로 사용하였고, 형제 노드의 경우에는 가장 최근에 방문했던 것만을 사용할 수 있었다. 본 연구에서는 그래프 어텐션 네트워크를 도입하여 이미 파생된 부분 트리를 표현하고 이를 스택-포인터 네트워크의 입력으로 사용하도록 구문 분석기를 수정한다. 세종 코퍼스와 모두의 코퍼스를 대상을 실험한 결과 레이어 2의 그래프 어텐션 네트워크를 이용하여 부분 트리를 표현했을 때 특히 문장 단위의 구문 분석 정확도에서 많은 성능 향상을 확인할 수 있었다.

A.I.에이전트와의 보이스 인터랙션 : 국내외 IT회사 사례연구 (Voice Interactions with A. I. Agent : Analysis of Domestic and Overseas IT Companies)

  • 이서영
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제15권4호
    • /
    • pp.15-29
    • /
    • 2021
  • 인공지능 에이전트는 4차 산업혁명의 핵심 기술이고, 현재 많은 기업들이 AI 음성 인식 비서를 탑재 출시함으로써 산업 내 치열한 경쟁을 벌이고 있다. 애플, 마이크로소프트, 구글, 아마존, 삼성 등 고객 충성도를 확보하고 있으며 자사 하드웨어 제품을 내놓고 있는 기업의 경우, AI 비서 서비스를 자사 제품에 적용함으로써 고객 충성도를 높이고, 시장 점유율 역시 극대화뿐 아니라 향후 음성 인터페이스 플랫폼 시장 장악력을 확대하고 있다. 본 연구는 인공지능분야의 해외 및 국내 주요 기업들의 현황을 분석하고 보이스 UI 개발과 혁신 수용 관점에서 사용자 만족을 위한 기술 발전 방향에 초점을 맞추어 미래 전략 방향을 제언했다. B2B 기술적인 측면에서는 음성 인식률을 높이고 하드웨어향상, 자연언어 처리기술 및 빅데이터 및 인공지능 접목한 혁신 기술의 데이터가 쌓인 클라우드 컴퓨팅 활용뿐 아니라 및 Open A.I.언어 인공지능인 GPT-3의 활용 및 사용성, 유용성, 감성 측면에서 사용자 만족을 높일 필요가 있다. 본 연구는 산업계와 학계에 실무적, 이론적 함의를 준다.

생물화학적 산소요구량 농도예측을 위하여 데이터 전처리 접근법을 결합한 새로운 이단계 하이브리드 패러다임 (Novel two-stage hybrid paradigm combining data pre-processing approaches to predict biochemical oxygen demand concentration)

  • 김성원;서영민;자크로프 마샵;말릭 아누락
    • 한국수자원학회논문집
    • /
    • 제54권spc1호
    • /
    • pp.1037-1051
    • /
    • 2021
  • 주요한 수질지표 중의 하나인 생물화학적 산소요구량(BOD) 농도는 호소와 하천에서 생태학적 측면에서 관측항목으로 취급하고 있다. 본 연구에서는 대한민국의 도산 및 황지지점에서 BOD 농도예측을 위하여 새로운 이단계 하이브리드 패러다임(웨이블릿 기반 게이트 순환 유닛, 웨이블릿 기반 일반화된 회귀신경망, 그리고 웨이블릿 기반 랜덤 포레스트) 을 활용하였다. 이러한 모형들은 각 대응하는 독립모형들(게이트 순환 유닛, 일반화된 회귀신경망, 그리고 랜덤 포레스트) 과 함께 평가되었다. 다양한 수질 및 수량지표들이 여러 개의 입력조합(분류1-5) 을 기본으로 하여 독립 및 이단계 하이브리드 모형을 개발하기 위하여 구현되었다. 언급한 모형들은 root mean squared error (RMSE), Nash-Sutcliffe efficiency (NSE), 그리고 correlation coefficient (CC) 를 포함한 세 개의 통계지표로서 평가되었으며, 통계결과치를 분석하면 이단계 하이브리드 모형들이 항상 대응하는 독립모형들의 예측 정도를 개선하지 않은 것으로 나타났다. 대한민국의 도산관측소에서는 DWT-RF5 (RMSE = 0.108 mg/L) 모형이 다른 최적모형과 비교하여 BOD 농도의 더 정확한 예측을 나타내었으며, 황지관측소에서는 DWT-GRNN4 (RMSE = 0.132 mg/L) 모형이 BOD 농도를 예측하는 최고의 모형이다.

저가형 모션 캡처 장비를 이용한 실시간 상호작용 애니메이션 시스템 (Real-time Interactive Animation System for Low-Priced Motion Capture Sensors)

  • 김정호;강다은;이윤상;권태수
    • 한국컴퓨터그래픽스학회논문지
    • /
    • 제28권2호
    • /
    • pp.29-41
    • /
    • 2022
  • 본 논문에서는 대표적인 보급형 장비인 키넥트를 활용하여 실시간으로 사용자 캐릭터의 자세를 제어하고, 상대 캐릭터와 함께 자연스러운 상호작용 동작을 수행하는 실시간 상호작용 애니메이션 시스템을 소개한다. 해당 상호작용 애니메이션 시스템은 실시간으로 두 캐릭터의 상호작용 동작을 연출하는 시스템으로, 사용자는 키넥트를 이용한 자세 입력을 통해 사용자 캐릭터의 동작을 제어하고 상대 캐릭터는 사용자 캐릭터의 동작에 따라 반응하는데 이 반응 동작은 시스템에 의해 자동으로 결정된다. 전처리 과정은 예제 동작 데이터 정보를 사전에 관측 및 분석하여 맵핑 모델을 생성하고, 실시간 처리 과정에서는 사용자의 실시간 입력에 맞는 두 캐릭터의 자세(동작)을 실시간으로 생성 및 보정 후 최종 결과 애니메이션을 화면에 출력한다. 실험 결과를 통해 해당 시스템은 사용자의 입력 동작에 맞추어 상대 캐릭터는 적절한 대응 동작을 수행하고, 화면상의 두 캐릭터가 서로 상호작용 동작을 연출하는 것을 확인할 수 있다. 본 논문에서 제안하는 기술 및 아이디어는 응용하여 실제 사용자 상호작용 소프트웨어 개발에 적용할 수 있고, 이를 통해 사용자에게 더 나은 몰입감을 제공할 수 있을 것이다.

ChatGPT을 활용한 디지털회로 설계 능력에 대한 비교 분석 (Comparative analysis of the digital circuit designing ability of ChatGPT)

  • 남기훈
    • 문화기술의 융합
    • /
    • 제9권6호
    • /
    • pp.967-971
    • /
    • 2023
  • 최근에는 다양한 플랫폼 서비스가 인공지능을 활용하여 제공되고 있으며, 그 중 하나로 ChatGPT는 대량의 데이터를 자연어 처리하여 자가 학습 후 답변을 생성하는 역할을 수행하고 있다. ChatGPT는 IT 분야에서 소프트웨어 프로그래밍 분야를 포함하여 다양한 작업을 수행할 수 있는데, 특히 프로그램을 대표하는 C언어를 통해 간단한 프로그램을 생성하고 에러를 수정하는데 도움을 줄 수 있다. 이러한 능력을 토대로 C언어를 기반으로 만들어진 하드웨어 언어인 베릴로그 HDL도 ChatGPT에서 원활한 생성이 예상되지만, 베릴로그 HDL의 합성은 명령문들을 논리회로 구조 형태로 생성하는 것이기에 결과물들의 정상적인 실행 여부를 확인해야 한다. 본 논문에서는 용이한 실험을 위해 규모가 적은 논리회로들을 선택하여 ChatGPT에서 생성된 디지털회로와 인간이 만든 회로들의 결과를 확인하려 한다. 실험 환경은 Xilinx ISE 14.7로 모듈들을 모델링하였으며 xc3s1000 FPGA칩을 사용하여 구현하였다. 구현된 결과물을 FPGA의 사용 면적과 처리 시간을 각각 비교 분석함으로써 ChatGPT의 생성물과 베릴로그 HDL의 생성물의 성능을 비교하였다.

발달지연 아동의 학교준비도 향상을 위한 작업치료 프로그램 효과에 대한 사례 연구: 적응기술, 일상생활기술 영역을 중심으로 (A Case Study on the Effects of Occupational Therapy Program on Improving School Readiness in Children With Developmental Delays: Focusing on Adaptation and Daily Living Skills)

  • 김은지;곽보경;박혜연
    • 재활치료과학
    • /
    • 제13권1호
    • /
    • pp.75-86
    • /
    • 2024
  • 목적 : 본 연구는 발달지연 아동을 대상으로 작업치료 프로그램이 학교준비도의 적응기술 영역과 일상생활 기술 영역에 미치는 영향을 알아보고자 하였다. 연구방법 : 본 연구는 발달 지연의 만 5세 8개월 남아 1명을 대상으로 하였다. 프로그램은 1주일에 2번, 4주 동안 총 8회기 진행되었다. Canadian Occupational Performance Measure (COPM)를 실시하였으며 목표 활동은 수업 준비하기와 화장실 이용하기였다. 사전-사후 검사와 후속 평가를 통하여 대상자의 변화를 비교하였다. 자료 분석은 대상자의 수행을 비디오로 녹화하여 실시하였다. 결과 : COPM의 결과는 수업 준비하기와 화장실 이용하기에서 수행도와 만족도 모두 향상을 보였다. 처리기술은 수업 준비하기에서 7개, 화장실 이용하기에서 8개의 향상을 나타냈다. 작업 수행 관찰결과 수업 준비하기와 화장실 이용하기에서 사후 검사와 후속 평가에서 향상된 결과를 나타냈다. 결론 : 작업치료는 발달지연 아동의 학교준비도 적응기술과 일상생활기술을 향상시키며 학교준비에 긍정적인 영향을 미친다.

잠재 토픽 기반의 제품 평판 마이닝 (Latent topics-based product reputation mining)

  • 박상민;온병원
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.39-70
    • /
    • 2017
  • 최근 여론조사 분야에서 데이터에 기반을 둔 분석 기법이 널리 활용되고 있다. 기업에서는 최근 출시된 제품에 대한 선호도를 조사하기 위해 기존의 설문조사나 전문가의 의견을 단순 취합하는 것이 아니라, 온라인상에 존재하는 다양한 종류의 데이터를 수집하고 분석하여 제품에 대한 대중의 기호를 정확히 파악할 수 있는 방안을 필요로 한다. 기존의 주요 방안에서는 먼저 해당 분야에 대한 감성사전을 구축한다. 전문가들은 수집된 텍스트 문서들로부터 빈도가 높은 단어들을 정리하여 긍정, 부정, 중립을 판단한다. 특정 제품의 선호를 판별하기 위해, 제품에 대한 사용 후기 글을 수집하여 문장을 추출하고, 감성사전을 이용하여 문장들의 긍정, 부정, 중립을 판단하여 최종적으로 긍정과 부정인 문장의 개수를 통해 제품에 대한 선호도를 측정한다. 그리고 제품에 대한 긍 부정 내용을 자동으로 요약하여 제공한다. 이것은 문장들의 감성점수를 산출하여, 긍정과 부정점수가 높은 문장들을 추출한다. 본 연구에서는 일반 대중이 생산한 문서 속에 숨겨져 있는 토픽을 추출하여 주어진 제품의 선호도를 조사하고, 토픽의 긍 부정 내용을 요약하여 보여주는 제품 평판 마이닝 알고리즘을 제안한다. 기존 방식과 다르게, 토픽을 활용하여 쉽고 빠르게 감성사전을 구축할 수 있으며 추출된 토픽을 정제하여 제품의 선호도와 요약 결과의 정확도를 높인다. 실험을 통해, K5, SM5, 아반떼 등의 국내에서 생산된 자동차의 수많은 후기 글들을 수집하였고, 실험 자동차의 긍 부정 비율, 긍 부정 내용 요약, 통계 검정을 실시하여 제안방안의 효용성을 입증하였다.

전문어의 범용 공간 매핑을 위한 비선형 벡터 정렬 방법론 (Nonlinear Vector Alignment Methodology for Mapping Domain-Specific Terminology into General Space)

  • 김준우;윤병호;김남규
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.127-146
    • /
    • 2022
  • 최근 워드 임베딩이 딥러닝 기반 자연어 처리를 다루는 다양한 업무에서 우수한 성능을 나타내면서, 단어, 문장, 그리고 문서 임베딩의 고도화 및 활용에 대한 연구가 활발하게 이루어지고 있다. 예를 들어 교차 언어 전이는 서로 다른 언어 간의 의미적 교환을 가능하게 하는 분야로, 임베딩 모델의 발전과 동시에 성장하고 있다. 또한 핵심 기술인 벡터 정렬(Vector Alignment)은 임베딩 기반 다양한 분석에 적용될 수 있다는 기대에 힘입어 학계의 관심이 더욱 높아지고 있다. 특히 벡터 정렬은 최근 수요가 높아지고 있는 분야간 매핑, 즉 대용량의 범용 문서로 학습된 사전학습 언어모델의 공간에 R&D, 의료, 법률 등 전문 분야의 어휘를 매핑하거나 이들 전문 분야간의 어휘를 매핑하기 위한 실마리를 제공할 수 있을 것으로 기대된다. 하지만 학계에서 주로 연구되어 온 선형 기반 벡터 정렬은 기본적으로 통계적 선형성을 가정하기 때문에, 본질적으로 상이한 형태의 벡터 공간을 기하학적으로 유사한 것으로 간주하는 가정으로 인해 정렬 과정에서 필연적인 왜곡을 야기한다는 한계를 갖는다. 본 연구에서는 이러한 한계를 극복하기 위해 데이터의 비선형성을 효과적으로 학습하는 딥러닝 기반 벡터 정렬 방법론을 제안한다. 제안 방법론은 서로 다른 공간에서 벡터로 표현된 전문어 임베딩을 범용어 임베딩 공간에 정렬하는 스킵연결 오토인코더와 회귀 모델의 순차별 학습으로 구성되며, 학습된 두 모델의 추론을 통해 전문 어휘를 범용어 공간에 정렬할 수 있다. 제안 방법론의 성능을 검증하기 위해 2011년부터 2020년까지 수행된 국가 R&D 과제 중 '보건의료' 분야의 문서 총 77,578건에 대한 실험을 수행한 결과, 제안 방법론이 기존의 선형 벡터 정렬에 비해 코사인 유사도 측면에서 우수한 성능을 나타냄을 확인하였다.

적응형 필터와 가변 임계값을 적용하여 잡음에 강인한 심전도 R-피크 검출 (Noise-robust electrocardiogram R-peak detection with adaptive filter and variable threshold)

  • 세이푸르;최철형;김시경;박인덕;김영필
    • 한국산학기술학회논문지
    • /
    • 제18권12호
    • /
    • pp.126-134
    • /
    • 2017
  • 심전도(ECG) 신호에서 R-피크를 추출하는 기법에 대하여 많은 연구가 진행 되어 왔으며, 다양한 방법으로 구현되어 왔다. 그러나 이러한 검출 방법 대부분은 실시간 휴대용 심전도 장치에서 구현하기가 복잡하고 어려운 단점이 있다. R-피크 검출을 위해서는 심전도 데이터에 대하여 베이스라인 드리프트 및 상용전원 잡음 제거 등의 적절한 전처리 및 후가공이 필요하며, 특히 적응형 필터를 활용한 기법에서는 적절한 임계값을 선택하는 것이 중요하다. 적응형 필터의 임계값을 추출하는 방식에서는 고정형(Fixed) 및 적응형(adaptive)으로 구분할 수 있다. 고정 임계 값 추출 방식은 고정된 임계값 보다 낮은 값의 입력이 들어오는 경우에 R-피크 값을 감지하지 못하는 경우가 있으며, 적응 임계값 추출 방식은 때때로 잡음에 의한 잘못된 임계값을 도출하여, 다른 파형(P혹은 T파)의 피크를 감지하는 경우도 나타난다. 본 논문에서는 계산상의 복잡성이 적고, 코드 구현이 단순하면서도 잡음에 강인한 R-피크 검출 알고리즘을 제안한다. 제안된 방식은 앞서 설명한 임계값 추출 문제를 해결하기 위해서, 적응형 필터를 사용해, 심전도 신호에서 베이스 라인 드리프트 제거를 하여 적절한 임계값을 계산하도록 한다. 그리고 필터 처리된 심전도 신호의 최소 값과 최대 값을 사용하여 적절한 임계값이 자동으로 추출 되도록 한다. 그런 다음 심전도 신호로부터 R-피크를 검출하기 위해 임계값 아래에서 'neighborhood searching' 기법이 적용된다. 제안된 방법은 R-피크 검출의 정확도를 향상시키고, 계산 량을 줄여 검출 속도가 보다 빨라지도록 하였다. 다음으로 R-피크 값이 검출 되면, R-R interval 등의 값을 이용해 심박 수를 계산할 수 있도록 한다. 실험결과 심박 수 검출 정확도와 감도가 약 100%로 매우 높았음을 확인할 수 있었다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.