• 제목/요약/키워드: feature based classification

검색결과 1,317건 처리시간 0.022초

혼합형 데이터 보간을 위한 디노이징 셀프 어텐션 네트워크 (Denoising Self-Attention Network for Mixed-type Data Imputation)

  • 이도훈;김한준;전종훈
    • 한국콘텐츠학회논문지
    • /
    • 제21권11호
    • /
    • pp.135-144
    • /
    • 2021
  • 최근 데이터 기반 의사결정 기술이 데이터 산업을 이끄는 핵심기술로 자리 잡고 있는바, 이를 위한 머신러닝 기술은 고품질의 학습데이터를 요구한다. 하지만 실세계 데이터는 다양한 이유에 의해 결측값이 포함되어 이로부터 생성된 학습된 모델의 성능을 떨어뜨린다. 이에 실세계에 존재하는 데이터로부터 고성능 학습 모델을 구축하기 위해서 학습데이터에 내재한 결측값을 자동 보간하는 기법이 활발히 연구되고 있다. 기존 머신러닝 기반 결측 데이터 보간 기법은 수치형 변수에만 적용되거나, 변수별로 개별적인 예측 모형을 만들기 때문에 매우 번거로운 작업을 수반하게 된다. 이에 본 논문은 수치형, 범주형 변수가 혼합된 데이터에 적용 가능한 데이터 보간 모델인 Denoising Self-Attention Network(DSAN)를 제안한다. DSAN은 셀프 어텐션과 디노이징 기법을 결합하여 견고한 특징 표현 벡터를 학습하고, 멀티태스크 러닝을 통해 다수개의 결측치 변수에 대한 보간 모델을 병렬적으로 생성할 수 있다. 제안 모델의 유효성을 검증하기 위해 다수개의 혼합형 학습 데이터에 대하여 임의로 결측 처리한 후 데이터 보간 실험을 수행한다. 원래 값과 보간 값 간의 오차와 보간된 데이터를 학습한 이진 분류 모델의 성능을 비교하여 제안 기법의 유효성을 입증한다.

영화 리뷰 감성분석을 위한 텍스트 마이닝 기반 감성 분류기 구축 (A Study on Analyzing Sentiments on Movie Reviews by Multi-Level Sentiment Classifier)

  • 김유영;송민
    • 지능정보연구
    • /
    • 제22권3호
    • /
    • pp.71-89
    • /
    • 2016
  • 누구나 본인이 사용한 제품이나, 이용한 서비스에 대한 후기를 자유롭게 인터넷에 작성할 수 있고, 이러한 데이터의 양은 점점 더 많아지고 있다. 감성분석은 사용자가 생성한 온라인 텍스트 속에 내포된 감성 및 감정을 식별하기 위해 사용된다. 본 연구는 다양한 데이터 도메인 중 영화 리뷰를 분석 대상으로 한다. 영화 리뷰를 이용한 기존 연구에서는 종종 리뷰 평점을 관객의 감성으로 동일시하여 감성분석에 이용한다. 그러나 리뷰 내용과 평점의 실제적 극성 정도가 항상 일치하는 것은 아니기 때문에 연구의 정확성에 한계가 발생할 수 있다. 이에 본 연구에서는 기계학습 기반의 감성 분류기를 구축하고, 이를 통해 리뷰의 감성점수를 산출하여 리뷰에서 나타나는 감성의 수치화를 목표로 한다. 나아가 산출된 감성점수를 이용하여 리뷰와 영화 흥행 간의 연관성을 살펴보았다. 감성분석 모델은 지지벡터 분류기와 신경망을 이용해 구축되었고, 총 1만 건의 영화 리뷰를 학습용 데이터로 하였다. 감성분석은 총 175편의 영화에 대한 1,258,538개의 리뷰에 적용하였다. 리뷰의 평점과 흥행, 그리고 감성점수와 흥행과의 연관성은 상관분석을 통해 살펴보았고, t-검정으로 두 지표의 평균차를 비교하여 감성점수의 활용성을 검증하였다. 연구 결과, 본 연구에서 제시하는 모델 구축 방법은 나이브 베이즈 분류기로 구축한 모델보다 높은 정확성을 보였다. 상관분석 결과로는, 영화의 주간 평균 평점과 관객 수 간의 유의미한 양의 상관관계가 나타났고, 감성점수와 관객 수 간의 상관분석에서도 유사한 결과가 도출되었다. 이에 두 지표간의 평균을 이용한 t-검정을 수행하고, 이를 바탕으로 산출한 감성점수를 리뷰 평점의 역할을 할 수 있는 지표로써 활용 가능함을 검증하였다. 나아가 검증된 결론을 근거로, 트위터에서 영화를 언급한 트윗을 수집하여 감성분석을 적용한 결과를 살펴봄으로써 감성분석 모델의 활용 방안을 모색하였다. 전체적 실험 및 검증의 과정을 통해 본 연구는 감성분석 연구에 있어 개선된 감성 분류 방법을 제시할 수 있음을 보였고, 이러한 점에서 연구의 의의가 있다.

스마트폰 다종 데이터를 활용한 딥러닝 기반의 사용자 동행 상태 인식 (A Deep Learning Based Approach to Recognizing Accompanying Status of Smartphone Users Using Multimodal Data)

  • 김길호;최상우;채문정;박희웅;이재홍;박종헌
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.163-177
    • /
    • 2019
  • 스마트폰이 널리 보급되고 현대인들의 생활 속에 깊이 자리 잡으면서, 스마트폰에서 수집된 다종 데이터를 바탕으로 사용자 개인의 행동을 인식하고자 하는 연구가 활발히 진행되고 있다. 그러나 타인과의 상호작용 행동 인식에 대한 연구는 아직까지 상대적으로 미진하였다. 기존 상호작용 행동 인식 연구에서는 오디오, 블루투스, 와이파이 등의 데이터를 사용하였으나, 이들은 사용자 사생활 침해 가능성이 높으며 단시간 내에 충분한 양의 데이터를 수집하기 어렵다는 한계가 있다. 반면 가속도, 자기장, 자이로스코프 등의 물리 센서의 경우 사생활 침해 가능성이 낮으며 단시간 내에 충분한 양의 데이터를 수집할 수 있다. 본 연구에서는 이러한 점에 주목하여, 스마트폰 상의 다종 물리 센서 데이터만을 활용, 딥러닝 모델에 기반을 둔 사용자의 동행 상태 인식 방법론을 제안한다. 사용자의 동행 여부 및 대화 여부를 분류하는 동행 상태 분류 모델은 컨볼루션 신경망과 장단기 기억 순환 신경망이 혼합된 구조를 지닌다. 먼저 스마트폰의 다종 물리 센서에서 수집한 데이터에 존재하는 타임 스태프의 차이를 상쇄하고, 정규화를 수행하여 시간에 따른 시퀀스 데이터 형태로 변환함으로써 동행 상태분류 모델의 입력 데이터를 생성한다. 이는 컨볼루션 신경망에 입력되며, 데이터의 시간적 국부 의존성이 반영된 요인 지도를 출력한다. 장단기 기억 순환 신경망은 요인 지도를 입력받아 시간에 따른 순차적 연관 관계를 학습하며, 동행 상태 분류를 위한 요인을 추출하고 소프트맥스 분류기에서 이에 기반한 최종적인 분류를 수행한다. 자체 제작한 스마트폰 애플리케이션을 배포하여 실험 데이터를 수집하였으며, 이를 활용하여 제안한 방법론을 평가하였다. 최적의 파라미터를 설정하여 동행 상태 분류 모델을 학습하고 평가한 결과, 동행 여부와 대화 여부를 각각 98.74%, 98.83%의 높은 정확도로 분류하였다.

주성분분석을 이용한 토끼 망막 신경절세포의 활동전위 파형 분류 (PCA­based Waveform Classification of Rabbit Retinal Ganglion Cell Activity)

  • 진계환;조현숙;이태수;구용숙
    • 한국의학물리학회지:의학물리
    • /
    • 제14권4호
    • /
    • pp.211-217
    • /
    • 2003
  • 주성분분석은 잘 알려진 데이터 분석 방법으로써 높은 차원의 데이터를 낮은 차원의 데이터로 표현하는데 효과적이어서 얼굴인식, 데이터 압축 등에 이용되고 있다. 주성분분석을 하게 되면 원 데이터의 공분산 행렬로부터 정규직교한 고유벡터와 해당하는 고유치를 얻게 되고 그 중 큰 값을 가지는 고유벡터 들을 선택하여 선형 변환함으로써 데이터의 차원을 줄일 수 있게 된다. 망막에 빛 자극이 인가되면 시세포 층에서 전기신호로 변환된 후 복잡한 신경회로를 거쳐 최종적으로 신경절세포 층에서 활동전위의 형태로 출력되게 된다. 본 연구에서는 다채널전극을 사용하여 여러 개 망막 신경절세포로부터 유래되는 활동전위를 기록한 후 개개의 신호를 구분하는 과정을 거치고, 이어서 그 신호를 만들어 내는 각 뉴론들끼리의 시간적, 공간적 흥분발사 패턴을 이해함으로써 궁극적으로 시각정보 인코딩 기전을 밝히려는 연구 목표하에 그 첫 단계로서 망막 신경절세포의 활동전위를 기록한 후 분류하는 과정을 성공적으로 수행하였기에 그 내용을 서술하고자 한다. 망막에서 기록되는 신경절세포 활동전위는 불규칙하고 확률적이기 때문에 주성분분석을 통하여 그 유형을 분류할 수 있었다. 토끼 눈으로부터 망막을 박리하여 망막조각을 얻은 후 신경절세포 층이 전극표면을 향하도록 전극에 부착하였다. 8${\times}$8의 microelectrode array (MEA)를 전극으로 사용하였고, 증폭기는 MEA 60 system을 사용하여 신경절세포 활동전위를 기록하였다. 활동전위 기록 후 파형 분류를 하였다. 잡음이 섞여있는 기록으로부터 신호를 검출하기 위하여, 잡음역치($\pm$3$\sigma$)를 설정하였다. 역치를 넘는 파형 만을 획득한 후 주성분분석을 통해 각 파형의 첫 번째 주성분, 두 번째 주성분을 계산하여 2차원 평면에 투사함으로써 몇 개의 의미있는 클러스터를 얻었다. 이 클러스터는 곧 각 신경절세포에서 유래되는 파형을 반영하므로 주성분분석을 통하여 망막 신경절세포의 활동전위를 각 세포별로 분류할 수 있음을 확인하였다.

  • PDF

백제 지하저장시설(地下貯藏施設)의 구조와 기능에 대한 검토 (A Study on the Structure and Function of the Underground Storage Facility in Baekje)

  • 신종국
    • 헤리티지:역사와 과학
    • /
    • 제38권
    • /
    • pp.129-156
    • /
    • 2005
  • 최근 백제유적에 대한 발굴조사에서는 토광형태 또는 목재나 석재를 이용하여 축조한 지하식의 저장시설이 발견되는 사례가 늘어나고 있다. 본고는 이러한 백제시대 지하저장시설을 형태 및 축조방법별로 복주머니형(플라스크형), 목곽형, 석곽형 시설로 구분하고 각각의 구조와 기능에 대해 검토하는 것을 목적으로 하였다. 복주머니형 저장공은 백제 한성시기~사비시기의 금강 및 한강유역의 많은 유적에서 현재까지 600기 이상 조사된 백제의 가장 대표적인 지하저장시설로 3~7세기대 한강유역과 금강유역의 백제의 독특한 저장문화를 구성하는 유구로서 그 구조나 중국의 예를 통해 볼 때 곡물의 장기저장을 위한 시설이었을 가능성이 있으며, 그 외에도 토기의 저장 등 다양한 물품이 저장되었다고 보인다. 목곽형과 석곽형의 저장시설은 사비시기의 유적에서 주로 확인되고 있어 6세기 이후 복주머니형 저장공의 축조가 줄어들면서 그 기능을 일부 대체했을 것으로 보이며, 특히 그 축조방법이나 구조상 공력이 많이 소모되는 것으로 도성이나 성곽유적에서 공적인 용도로 사용되었던 것으로 추정된다. 목곽형 저장시설은 평면 장방형인 것과 방형인 것, 축조방식에 따라 가구식(架構式)과 주혈식(柱穴式)으로 구분할 수 있으며, 이는 축조하고자 하는 지점의 지형이나 지질에 의해 결정되었을 가능성이 있다. 이러한 목곽형 저장시설은 관북리유적과 월평동유적의 예를 통해 볼 때 과일과 같은 식품류의 저장과 군사주둔지에서의 중요물품 저장 등 필요에 따라 다양한 품목의 물건이 저장된 것으로 보인다. 지하 저장시설의 기능적 특성상 식품류의 장기저장과 일본의 예를 통해 볼 때 화재시 중요물품의 안전한 보관과 관련하여 목곽이나 석곽의 저장시설이 채용되었을 가능성이 있다.

노후산업단지 재생사업 추진 유형에 관한 연구 (A Study on a Type of Regeneration Project on Old Industrial Complex)

  • 김주훈;변병설
    • 한국경제지리학회지
    • /
    • 제21권2호
    • /
    • pp.192-211
    • /
    • 2018
  • 국토교통부는 재생사업선정을 통해 전국에, 착공 후 20년 경과된 산업단지 공모사업을 실시하여 1차 시범 산업단지재생사업지구(2009년9월) 4개 지구, 2차 산업단지재생사업지구 4개 지구(2014년12월), 3차 산업단지재생사업지구 10개 지구(2016년4월), 4차 산업단지재생사업지구 5개 지구(2017년3월)를 선정하였다. 현재 우리나라의 노후산업단지 경쟁력 강화방안 공모사업으로 선정된 곳은 착공 후 20년이 경과된 산업단지 기준으로 23개 지구가 선정되었다. 하지만 재생사업지구의 지속적인 선정에도 불구하고 재생사업은 큰 성과를 발휘하지 못하고 있는 실정이다. 이에 재생사업의 원활한 사업추진을 위해 2015년 5월 개정된 산업입지 및 개발에 관한 법률 제39조12.13에서 정한 활성화 구역 지정 특례제도를 도입하였다. 활성화 구역은 재생사업 추진을 활성화하고 가시화를 통한 재생사업 전파 확산을 도모할 수 있는 방식이다. 또한, 지역 산업단지별 특수성을 고려하여 사업추진을 해야 하므로 무리한 활성화 구역 설정은 재생사업의 지체와 많은 문제점이 대두될 수 있으므로 노후산업단지의 개별특성에 맞는 계획 수립 및 객관적 추진 방법에 대한 기준과 분류가 제시되어야 한다. 이에 2014년 기준으로 착공 후 20년 된 83개 산업단지를 중심으로 자료포락분석(DEA: Data Envelopment Analysis)과 노후산업단지 DB를 구축 활용하여 재생사업 추진유형으로 구분하였다. 이에 본 연구는 83개 재생사업지구 사업추진단계에서의 개별산업단지의 사업추진 유형 등의 객관적 기준을 제시함으로써 향후 우리나라 노후산업단지 사업추진 단계에 있어 실질적으로 적용할 수 있는 객관적 기준을 마련하였다.

온라인 쇼핑몰에서 상품 설명 이미지 내의 키워드 인식을 위한 딥러닝 훈련 데이터 자동 생성 방안 (The way to make training data for deep learning model to recognize keywords in product catalog image at E-commerce)

  • 김기태;오원석;임근원;차은우;신민영;김종우
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.1-23
    • /
    • 2018
  • E-commerce 환경의 발전으로 소비자들은 다양한 상품들을 한 자리에서 폭 넓게 비교할 수 있게 되었다. 하지만 온라인 쇼핑몰에 올라와있는 상당량의 주요 상품 정보들이 이미지 형태이기 때문에 컴퓨터가 인지할 수 있는 텍스트 기반 검색 시스템에 반영될 수 없다는 한계가 존재한다. 이러한 한계점은 일반적으로 기존 기계학습 기술 및 OCR(Optical Character Recognition) 기술을 활용해, 이미지 형태로 된 키워드를 인식함으로써 개선할 수 있다. 그러나 기존 OCR 기술은 이미지 안에 글자가 아닌 그림이 많고 글자 크기가 작으면 낮은 인식률을 보인다는 문제가 있다. 이에 본 연구에서는 기존 기술들의 한계점을 해결하기 위하여, 딥러닝 기반 사물인식 모형 중 하나인 SSD(Single Shot MultiBox Detector)를 개조하여 이미지 형태의 상품 카탈로그 내의 텍스트 인식모형을 설계하였다. 하지만 이를 학습시키기 위한 데이터를 구축하는 데 상당한 시간과 비용이 필요했는데, 이는 지도학습의 방법론을 따르는 SSD 모형은 훈련 데이터마다 직접 정답 라벨링을 해줘야 하기 때문이다. 본 연구는 이러한 문제점을 해결하기 위해 '훈련 데이터 자동 생성 프로그램'을 함께 개발하였다. 훈련 데이터 자동 생성 프로그램을 통해 수작업으로 데이터를 만드는 것에 비하여 시간과 비용을 대폭 절감할 수 있었으며, 생성된 훈련용 데이터를 통해 모형의 인식 성능을 높일 수 있었다. 더 나아가 실험연구를 통해 자동으로 생성된 훈련 데이터의 특징별로 인식기 모형의 성능에 얼마나 큰 영향을 끼치는지 알아보고, 성능 향상에 효과적인 데이터의 특징을 분석하였다. 본 연구를 통해서 개발된 상품 카탈로그 내 텍스트 인식모형과 훈련 데이터 자동 생성 프로그램은 온라인 쇼핑몰 판매자들의 상품 정보 등록 수고를 줄여줄 수 있으며, 구매자들의 상품 검색 시 결과의 정확성을 향상시키는 데 기여할 수 있을 것으로 기대한다.