• 제목/요약/키워드: 학습수행

검색결과 4,752건 처리시간 0.037초

다중 레이블 분류의 정확도 향상을 위한 스킵 연결 오토인코더 기반 레이블 임베딩 방법론 (Label Embedding for Improving Classification Accuracy UsingAutoEncoderwithSkip-Connections)

  • 김무성;김남규
    • 지능정보연구
    • /
    • 제27권3호
    • /
    • pp.175-197
    • /
    • 2021
  • 최근 딥 러닝 기술의 발전으로 뉴스, 블로그 등 다양한 문서에 포함된 텍스트 분석에 딥 러닝 기술을 활용하는 연구가 활발하게 수행되고 있다. 다양한 텍스트 분석 응용 가운데, 텍스트 분류는 학계와 업계에서 가장 많이 활용되는 대표적인 기술이다. 텍스트 분류의 활용 예로는 정답 레이블이 하나만 존재하는 이진 클래스 분류와 다중 클래스 분류, 그리고 정답 레이블이 여러 개 존재하는 다중 레이블 분류 등이 있다. 특히, 다중 레이블 분류는 여러 개의 정답 레이블이 존재한다는 특성 때문에 일반적인 분류와는 상이한 학습 방법이 요구된다. 또한, 다중 레이블 분류 문제는 레이블과 클래스의 개수가 증가할수록 예측의 난이도가 상승한다는 측면에서 데이터 과학 분야의 난제로 여겨지고 있다. 따라서 이를 해결하기 위해 다수의 레이블을 압축한 후 압축된 레이블을 예측하고, 예측된 압축 레이블을 원래 레이블로 복원하는 레이블 임베딩이 많이 활용되고 있다. 대표적으로 딥 러닝 모델인 오토인코더 기반 레이블 임베딩이 이러한 목적으로 사용되고 있지만, 이러한 기법은 클래스의 수가 무수히 많은 고차원 레이블 공간을 저차원 잠재 레이블 공간으로 압축할 때 많은 정보 손실을 야기한다는 한계가 있다. 이에 본 연구에서는 오토인코더의 인코더와 디코더 각각에 스킵 연결을 추가하여, 고차원 레이블 공간의 압축 과정에서 정보 손실을 최소화할 수 있는 레이블 임베딩 방법을 제안한다. 또한 학술연구정보서비스인 'RISS'에서 수집한 학술논문 4,675건에 대해 각 논문의 초록으로부터 해당 논문의 다중 키워드를 예측하는 실험을 수행한 결과, 제안 방법론이 기존의 일반 오토인코더 기반 레이블 임베딩 기법에 비해 정확도, 정밀도, 재현율, 그리고 F1 점수 등 모든 측면에서 우수한 성능을 나타냄을 확인하였다.

기계학습을 통한 주간 반투명 구름탐지 연구: GK-2A/AMI를 이용하여 (A Study on Daytime Transparent Cloud Detection through Machine Learning: Using GK-2A/AMI)

  • 변유경;진동현;성노훈;우종호;전우진;한경수
    • 대한원격탐사학회지
    • /
    • 제38권6_1호
    • /
    • pp.1181-1189
    • /
    • 2022
  • 구름은 대기 중에 떠 있는 작은 물방울이나 얼음 알갱이들 또는 혼합물 등으로 구성되며 지구 표면의 약 2/3를 덮고 있다. 위성영상내에서의 구름은 일부 다른 지상 물체 또는 지표면과 유사한 반사도 특성으로 인해 구름과 구름이 아닌 영역을 분리하는 구름탐지는 매우 어려운 작업이다. 특히 뚜렷한 특징을 가지는 두꺼운 구름과 달리 얇은 반투명 구름은 위성영상내에서 구름과 배경의 대비가 약하고 지표면과 혼합되어져 나타나기 때문에 대부분 구름탐지에서 쉽게 놓쳐지고 많은 어려움을 주는 대상으로 작용한다. 이러한 구름탐지의 반투명 구름의 한계점을 극복하기 위해, 본 연구에서는 머신러닝 기법(Random Forest [RF], Convolutional Neural Networks [CNN])을 활용하여 반투명 구름을 중점으로 한 구름탐지 연구를 수행하였다. Reference자료로는 MOderate Resolution Imaging Spectroradiometer (MODIS)에서 제공하는 MOD35자료에서 Cloud Mask와 Cirrus Mask를 활용하였으며 반투명 구름 픽셀을 고려한 모델 훈련을 위해 훈련 데이터의 픽셀 비율을 구름, 반투명 구름, 청천이 약 1:1:1이 되도록 구성하였다. 연구의 정성적 비교 결과, RF와 CNN 모두 반투명 구름을 포함한 다양한 형태의 구름 등을 잘 탐지하였고, RF 모델 결과와 CNN 모델 결과를 혼합한 RF+CNN경우에는 개별 모델의 한계점을 개선시키며 구름탐지가 잘 수행되어진 것을 확인하였다. 연구의 정량적 결과 RF의 전체 정확도(OA) 값은 92%, CNN은 94.11%를 보였고, RF+CNN은 94.29%의 정확도를 보였다.

일화기억을 구성하는 맥락 요소에 대한 탐구: 시공간적 맥락과 구분되는 사회적, 행동적, 의도적 맥락의 내측두엽-대뇌피질 네트워크 특징을 중심으로 (Exploring the contextual factors of episodic memory: dissociating distinct social, behavioral, and intentional episodic encoding from spatio-temporal contexts based on medial temporal lobe-cortical networks)

  • 박종현;나윤진;유수민;이승구;한상훈
    • 인지과학
    • /
    • 제33권2호
    • /
    • pp.109-133
    • /
    • 2022
  • 일화기억은 핵심 이벤트와 그에 연합된 맥락으로 구성된다. 해마와 해마 주변 영역이 일화기억의 부호화에서 맥락을 표상하는 역할에 관해 연구되어왔지만, 시공간적 맥락 외에 다양한 맥락-특이적 정보들에 대한 표상에 관한 연구는 많지 않다. 본 연구에서는 고해상도 자기기능공명기법을 이용하여 여러 맥락정보(예, 육하원칙 - 누가, 왜, 무엇을 언제, 어디서, 어떻게)의 부호화에 관여하는 내측두엽 및 대뇌피질 신경연결성의 특징을 탐색하였다. 참가자들은 두 명의 얼굴과 하나의 사물로 구성된 실험 이벤트를 보면서 여섯가지 맥락 부호화 과제를 수행하였다. 휴지기 기능적 자기공명영상 정보를 활용해 내측두엽의 세부 영역을 기능적으로 구분하였고 맥락 기억 과제별 기능적 신경연결성 네트워크를 탐색하였다. 일반선형화 모델 분석을 통해 시공간적 맥락정보를 처리할 때보다 사회적, 행동적, 의도 맥락을 연합할 때 내측두엽의 세부영역, 전전두엽, 하부두정엽 영역이 유의미하게 증가한 활성화를 보이며 관여함을 확인하였다. 나아가 이 영역들과 내측두엽 영역이 맥락조건간 차이에 관여하는 기능적 연결성 특징을 탐색하기 위하여 맥락부호화 과제를 수행하는 동안의 해마세부영역들과 전전두엽, 하부두정엽 등 간의 과제기반 기능적 연결성 정보들을 다변량 패턴분석의 주요입력변수로 선정하였고, 기계학습을 통해 맥락 조건 간 연결성 패턴분류를 시도하였다. 네트워크 패턴분류에서도 시공간 맥락 조건과 각 사회적, 행동적, 의도 맥락처리 조건 간에는 기능적 연결성의 차이가 두드러졌다. 본 연구결과를 통해 일화기억에서 특정 맥락을 처리하는 신경학적 기제의 특성과 맥락 조건 간 차이를 제시하였다.

기침 소리의 다양한 변환을 통한 코로나19 진단 모델 (A COVID-19 Diagnosis Model based on Various Transformations of Cough Sounds)

  • 김민경;김건우;최근호
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.57-78
    • /
    • 2023
  • 2019년 11월 중국 우한시에서 발병한 코로나19는 2020년 중국을 넘어 세계로 퍼져나가 2020년 3월에는 전 세계적으로 확산되었다. 코로나19와 같이 전염성이 강한 바이러스는 예방과 확진시 적극적인 치료도 중요하지만 우선 전파 속도가 빠른 바이러스인 점을 감안할 때, 확진 사실을 재빠르게 파악하여 전파를 차단하는 것이 더욱 중요하다. 그러나 감염여부를 확인하기 위한 PCR검사는 비용과 시간이 많이 소요되고, 자가키트검사 또한 접근성은 쉽지만 매번 수시로 받기에는 키트의 가격이 부담이 될 수밖에 없는 실정이다. 이러한 상황에서 기침 소리를 기반으로 코로나19 양성 여부를 판단할 수 있게 된다면 누구나 쉽게 언제, 어디서든 확진 여부를 체크할 수 있어 신속성과 경제성 측면에서 큰 장점을 가질 수 있을 것이다. 따라서 본 연구는 기침 소리를 기반으로 코로나19 확진 여부를 식별할 수 있는 분류 모델을 개발하는 것을 목적으로 하였다. 이를 위해, 본 연구에서는 먼저 MFCC, Mel-Spectrogram, Spectral contrast, Spectrogram 등을 통해 기침 소리를 벡터화 하였다. 이 때, 기침 소리의 품질을 위해 SNR을 통해 잡음이 많은 데이터는 삭제하였고, chunk를 통해 음성 파일에서 기침 소리만 추출하였다. 이후, 추출된 기침 소리의 feature를 이용하여 코로나 양성과 음성을 분류하기 위한 모델을 구축하였으며, XGBoost, LightGBM, FCNN 알고리즘을 통해 모델 학습을 수행하고 각 알고리즘별 성능을 비교하였다. 또한, 기침 소리를 다차원 벡터로 변환한 경우와, 이미지로 변환한 경우에 대해 모델 성능에 대한 비교 실험을 수행하였다. 실험 결과, 건강상태에 대한 기본정보와 기침 소리를 MFCC, Mel-Spectogram, Spectral contrast, 그리고 Spectrogram을 통해 다차원 벡터로 변환한 feature를 모두 활용한 LightGBM 모델이 0.74의 가장 높은 정확도를 보였다.

미국 프로농구(NBA)의 플레이오프 진출에 영향을 미치는 주요 변수 예측: 3점과 턴오버 속성을 중심으로 (Prediction of Key Variables Affecting NBA Playoffs Advancement: Focusing on 3 Points and Turnover Features)

  • 안세환;김영민
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.263-286
    • /
    • 2022
  • 본 연구는 웹 크롤링을 이용하여 1990년부터 2022년까지 총 32개년에 해당하는 NBA 통계 정보를 획득하고, 탐색적 데이터 분석을 통해 관심 변수를 관찰하고 관련된 파생변수를 생성한다. 입력 데이터에 대한 정제 과정을 거쳐 무의미한 변수들을 제거하고, 남은 변수에 대한 상관관계 분석, t 검정 및 분산분석을 수행하였다. 관심 변수에 대해 플레이오프 진출/미진출 그룹 간 평균의 차이를 검정하였고, 이를 보완하기 위해 순위를 기준으로 하는 3개 집단(상위/중위/하위) 간 평균 차이를 재확인하였다. 입력 데이터 중 올해 시즌 데이터만을 테스트 세트로 활용하였고, 모델 훈련을 위해서는 훈련 세트와 검증 세트를 분할하여 5-fold 교차검증을 수행하였다. 교차검증 결과와 시험 세트를 이용한 최종 분석 결과를 비교하여 성능 지표에서 차이가 없음을 확인함으로써 과적합 문제를 해결하였다. 원시 데이터의 품질 수준이 높고, 통계적 가정을 만족하기 때문에 적은 수준의 데이터 세트임에도 불구하고 대부분 모델에서 좋은 결과를 나타냈다. 본 연구는 단순히 머신러닝을 이용하여 NBA의 경기 결과를 예측하거나 플레이오프 진출 여부만을 분류하는 것에서 그치지 않고, 입력 특성의 중요도를 파악하여 높은 중요도를 갖는 주요 변수에 본 연구의 관심 대상 변수가 포함되는지를 확인하였다. Shap value의 시각화를 통해 특성 중요도의 결과만으로 해석할 수 없었던 한계를 극복하고, 변수의 진입/제거 과정에서 중요도 산출에 일관성이 부족하다는 점을 보완할 수 있었다. 본 연구에서 관심 대상으로 분류했던 3점 및 실책과 관련된 다수의 변수가 미국 프로농구에서의 플레이오프 진출에 영향을 미치는 주요 변수에 포함되는 것으로 나타났다. 본 연구는 기존의 스포츠 데이터 분석 분야에서 다루었던 경기 결과, 플레이오프 및 우승 예측 등의 주제를 포함하고 분석을 위해 여러 머신러닝 모델을 비교 분석했다는 점에서 유사성이 있지만, 사전에 관심 속성을 설정하고, 이를 통계적으로 검증함으로써 머신러닝 분석 결과와 비교하였다는 측면에서 차이가 있다. 또한 XAI 모델 중 하나인 SHAP를 이용하여 설명 가능한 시각화 결과를 제시함으로써 기존 연구와 차별화하였다.

치과 보조 인력과 치과위생사-미국의 제도 비교 (Dental Assistant and Dental Hygienist-comparison with U.S.)

  • 최영윤
    • 대한치위생과학회지
    • /
    • 제6권2호
    • /
    • pp.65-77
    • /
    • 2023
  • 연구배경: 치과계 특히 치과 의원들은 최근 수년간 보조 인력의 부족을 호소하고 있는 반면 치위생계에서는 미국 치과위생사와 같이 고유의 업무를 어느 정도 독자적으로 수행할 수 있는 구강 위생 전문가의 역할을 추구하고 있어 이러한 업무 범위의 조정과 치과 보조 인력의 양성에 대한 전반적인 논의가 절실하다. 연구방법: 이러한 논의에서 자주 언급되는 미국의 치과위생사와 치과 보조원제도에 대하여 미국 치과의사 협회(ADA), 미국 치과위생사 협회(ADHA), 미국 치과위생사 국가시험위원회(NBDHE), 미국 치과 보조원 협회 (ADAA), 미국 치과 보조원 국가시험위원회(DANB)에서 제공하는 면허취득을 위한 교육요건, 업무영역 등을 조사 분석하였다. 연구결과: 미국은 각 주별 제도가 서로 다르지만 일반적으로 치과위생사는 치위생 교육을 이수할 수 있는 기초 학습 능력 시험을 통과한 후에 2~3년의 전문학사 과정을 수료하고, NBDHE(National Board Dental Hygiene Examination)를 통해 면허를 취득한다. 이후, 주로 환자 검사, 구강 위생 관리 및 예방 처치와 관련된 업무를 수행한다. 치과 보조원(Dental Assitant)은 9~11개월 정도의 교육과정을 마친 후 기본적인 면허(General Chairside Assisting, GC) 취득을 위한 면허시험에 응시할 수 있고, 추가적인 업무를 위해서는 해당 업무에 대한 주별 자격시험 통과, 교육 이수 또는 학위취득, 일정 시간 및 기간 이상의 임상 경험 등이 요구된다. 결론: 우리나라의 의료 기사법과 시행령에서 지정하는 치과위생사의 업무 범위는 미국의 치과위생사와 치과 보조원의 업무를 모두 포함하고 있는데, 현재의 치과 보조 인력 부족을 해소하기 위해 미국과 같은 치과 보조원 제도를 도입한다면 이러한 업무 범위에 대한 조정과 구강 위생 관리 및 예방 업무에서의 치과위생사의 역할 확대 등의 제도적인 보완이 필요하고 이에 대한 구체적인 논의가 필요하다.

웹기반 지능형 기술가치평가 시스템에 관한 연구 (A Study on Web-based Technology Valuation System)

  • 성태응;전승표;김상국;박현우
    • 지능정보연구
    • /
    • 제23권1호
    • /
    • pp.23-46
    • /
    • 2017
  • 2000년대 이전부터 북미 유럽의 선진국을 중심으로 특정 기업이나 사업(프로젝트)에 관한 가치를 평가하는 사례는 있어 왔으나, 개별 기술(특허)의 경제적 가치를 산정하는 체계나 방법론은 국내를 중심으로 최근 들어 활성화되어 왔다. 이러한 기술가치평가 분야는 기술이전(거래), 현물출자, 사업타당성 분석, 투자유치, 세무/소송 등의 다양한 용도로 활용되고 있다. 물론 기술보증기금의 KTRS, 발명진흥회의 SMART 3.1과 같이, 평가대상기술에 대한 기술력(등급) 평가 혹은 특허등급평가를 정성적으로 수행하는 온라인 시스템은 존재해 왔으나, 대상기술의 정량적인 가치금액까지 산출해 주는 웹기반 지능형 기술가치평가 시스템은 한국과학기술정보연구원(KISTI)에 의해 유일하게 개발 및 공식 오픈되어 확산 활용되고 있다. 본 고에서는 KISTI에서 개발 운영중인 웹기반 'STAR-Value' 시스템을 중심으로, 탑재된 방법론 및 평가모델의 유형, 이를 지원하는 참조정보 및 데이터베이스(D/B)가 어떻게 연계 활용되는지를 소개한다. 특히 미래에 발생할 경제적 수익을 추정하여 현재가치화하는 소득접근법 기반의 대표 모델인 현금흐름할인(DCF) 모델과 특정 로열티율을 기반으로 로열티수입료의 현재가치를 기술료 대가로 산정하는 로열티절감모델을 포함한 6개 모델, 그리고 관련 지원정보(기술수명, 기업(업종)재무정보, 할인율, 산업기술요소 등)의 데이터 기반 연계 방식에 대해 살펴본다. STAR-Value 시스템은 평가대상기술에 대한 국제특허분류(IPC) 혹은 한국표준산업분류(KSIC) 등의 분류 정보로부터 기술순환주기(TCT) 지수, 유사업종(혹은 유사기업)의 매출액 성장률 및 수익성 데이터, 업종별 가중평균자본비용(WACC) 및 산업기술요소 지수 등 메타데이터값을 자동적으로 불러오고 여기에 조정요인을 반영하여 기술가치의 산출결과가 높은 신뢰성 및 객관성을 가지도록 한다. 나아가 대상기술의 잠재적 시장규모와 해당 사업화주체의 시장점유율에 대한 정보까지 보유 재무데이터 기반으로 참조값을 제시하거나 기존에 완료된 평가사례 축적 기반으로 업종별 유사 기술의 가치범위값을 제시해 준다면, 본 시스템이 보다 지능형으로 지원 모듈을 연계 활용하고 실시간으로 손쉽게 고(高)정확도의 기술가치범위를 제시해 줄 수 있을 것으로 기대된다. 본 고에서는 웹기반 STAR-Value 시스템이 참조데이터 기반으로 지능형 연계를 수행하도록 해주는 모형선택 가이드라인 지원기능, 기술가치범위 추론 지원기능, 유사기업 선정 기반의 시장점유율 산정 지원기능의 내부 로직 구성을 설명한다. 상기 지원기능을 통해 비전문가(또는 초보자) 수준에서 최적의 평가모형 선택, 기술가치 범위 추론, 유사기업 선택 및 시장점유율 산정에 대한 정보지원이 데이터 사이언스 및 기계학습 기반으로 수행될 수 있다. 본 연구는 기술가치평가 분야의 이론적 타당성을 평가실무에서 활용할 수 있는 평가모델 및 지원정보를 실제 탑재한 웹기반 시스템의 소개에 의미가 있으며, 추가적으로 보다 객관적이고 손쉬운 지능형 지원시스템의 활용성을 높임으로써, 앞으로 기술사업화의 제 분야에서 다양하게 활용할 수 있을 것으로 기대된다.

적응형 군집화 기반 확장 용이한 협업 필터링 기법 (Scalable Collaborative Filtering Technique based on Adaptive Clustering)

  • 이오준;홍민성;이원진;이재동
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.73-92
    • /
    • 2014
  • 기존 협업 필터링 기법은 사용자들의 아이템에 대한 선호도를 기반으로 유사 아이템 집합 또는 유사 사용자 집합을 구성하고, 이를 이용해 예측된 사용자의 특정 아이템에 대한 선호도를 기반으로 추천을 수행한다. 이로 인해, 사용자 선호도 정보가 부족하게 되면, 유사 아이템 사용자 집합의 신뢰도가 낮아지고, 추천 서비스의 신뢰도 또한 따라서 낮아진다. 또한, 서비스의 규모가 커질수록, 유사 아이템, 사용자 집합의 생성에 걸리는 시간은 기하급수적으로 증가하고 추천서비스의 응답시간 또한 그에 따라 증가하게 된다. 위와 같은 문제점을 해결하기 위해 본 논문에서는 적응형 군집화 기법을 제안하고 이를 적용한 협업 필터링 기법을 제안하고 있다. 이 기법은 크게 네 가지 방법으로 이루어진다. 첫째, 사용자와 아이템의 특성 벡터를 기반으로 사용자와 아이템 각각을 군집화 하여, 기존 협업 필터링 기법에서 유사 아이템, 사용자 집합을 생성하는데 소요되는 시간을 절약하며, 사용자 선호도 정보만을 이용한 부분 집합 생성보다 추천의 신뢰도를 높이고, 초기 평가 문제와 초기 이용자 문제를 일부 해소한다. 둘째, 미리 구성된 사용자와 아이템의 군집을 기반으로 군집간의 선호도를 이용해 추천을 수행한다. 사용자가 속한 군집의 선호도가 높은 순서대로 아이템 군집을 조회하여 사용자에게 제공할 아이템 목록을 구성하여, 추천 시스템의 부하 대부분을 모델 생성 단계에서 부담하고 실제 수행 시 부하를 최소화한다. 셋째, 누락된 사용자 선호도 정보를 사용자와 아이템 군집을 이용하여 예측함으로써 협업 필터링 추천 기법의 사용자 선호도 정보 희박성으로 인한 문제를 해소한다. 넷째, 사용자와 아이템의 특성 벡터를 사용자의 피드백에 따라 학습시켜 아이템과 사용자의 정성적 특성 정량화의 어려움을 해결한다. 본 연구의 검증은 기존에 제안되었던 하이브리드 필터링 기법들과의 성능 비교를 통해 이루어졌으며, 평가 방법으로는 평균 절대 오차와 응답 시간을 이용하였다.

러프집합분석을 이용한 매매시점 결정 (Rough Set Analysis for Stock Market Timing)

  • 허진영;김경재;한인구
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.77-97
    • /
    • 2010
  • 매매시점결정은 금융시장에서 초과수익을 얻기 위해 사용되는 투자전략이다. 일반적으로, 매매시점 결정은 거래를 통한 초과수익을 얻기 위해 언제 매매할 것인지를 결정하는 것을 의미한다. 몇몇 연구자들은 러프집합분석이 매매시점결정에 적합한 도구라고 주장하였는데, 그 이유는 이 분석방법이 통제함수를 이용하여 시장의 패턴이 불확실할 때에는 거래를 위한 신호를 생성하지 않는다는 점 때문이었다. 러프집합은 분석을 위해 범주형 데이터만을 이용하므로, 분석에 사용되는 데이터는 연속형의 수치값을 이산화하여야 한다. 이산화란 연속형 수치값의 범주화 구간을 결정하기 위한 적절한 "경계값"을 찾는 것이다. 각각의 구간 내에서의 모든 값은 같은 값으로 변환된다. 일반적으로, 러프집합 분석에서의 데이터 이산화 방법은 등분위 이산화, 전문가 지식에 의한 이산화, 최소 엔트로피 기준 이산화, Na$\ddot{i}$ve and Boolean reasoning 이산화 등의 네 가지로 구분된다. 등분위 이산화는 구간의 수를 고정하고 각 변수의 히스토그램을 확인한 후, 각각의 구간에 같은 숫자의 표본이 배정되도록 경계값을 결정한다. 전문가 지식에 의한 이산화는 전문가와의 인터뷰 또는 선행연구 조사를 통해 얻어진 해당 분야 전문가의 지식에 따라 경계값을 정한다. 최소 엔트로피 기준 이산화는 각 범주의 엔트로피 측정값이 최적화 되도록 각 변수의 값을 재귀분할 하는 방식으로 알고리즘을 진행한다. Na$\ddot{i}$ve and Boolean reasoning 이산화는 Na$\ddot{i}$ve scaling 후에 그로 인해 분할된 범주값을 Boolean reasoning 방법으로 종속변수 값에 대해 최적화된 이산화 경계값을 구하는 방법이다. 비록 러프집합분석이 매매시점결정에 유망할 것으로 판단되지만, 러프집합분석을 이용한 거래를 통한 성과에 미치는 여러 이산화 방법의 효과에 대한 연구는 거의 이루어지지 않았다. 본 연구에서는 러프집합분석을 이용한 주식시장 매매시점결정 모형을 구성함에 있어서 다양한 이산화 방법론을 비교할 것이다. 연구에 사용된 데이터는 1996년 5월부터 1998년 10월까지의 KOSPI 200데이터이다. KOSPI 200은 한국 주식시장에서 최초의 파생상품인 KOSPI 200 선물의 기저 지수이다. KOSPI 200은 제조업, 건설업, 통신업, 전기와 가스업, 유통과 서비스업, 금융업 등에서 유동성과 해당 산업 내의 위상 등을 기준으로 선택된 200개 주식으로 구성된 시장가치 가중지수이다. 표본의 총 개수는 660거래일이다. 또한, 본 연구에서는 유명한 기술적 지표를 독립변수로 사용한다. 실험 결과, 학습용 표본에서는 Na$\ddot{i}$ve and Boolean reasoning 이산화 방법이 가장 수익성이 높았으나, 검증용 표본에서는 전문가 지식에 의한 이산화가 가장 수익성이 높은 방법이었다. 또한, 전문가 지식에 의한 이산화가 학습용과 검증용 데이터 모두에서 안정적인 성과를 나타내었다. 본 연구에서는 러프집합분석과 의사결정 나무분석의 비교도 수행하였으며, 의사결정나무분석은 C4.5를 이용하였다. 실험결과, 전문가 지식에 의한 이산화를 이용한 러프집합분석이 C4.5보다 수익성이 높은 매매규칙을 생성하는 것으로 나타났다.

Ensemble of Nested Dichotomies 기법을 이용한 스마트폰 가속도 센서 데이터 기반의 동작 인지 (Ensemble of Nested Dichotomies for Activity Recognition Using Accelerometer Data on Smartphone)

  • 하으뜸;김정민;류광렬
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.123-132
    • /
    • 2013
  • 최근 스마트 폰에 다양한 센서를 내장할 수 있게 되었고 스마트폰에 내장된 센서를 이용항 동작 인지에 관한 연구가 활발히 진행되고 있다. 스마트폰을 이용한 동작 인지는 노인 복지 지원이나 운동량 측정. 생활 패턴 분석, 운동 패턴 분석 등 다양한 분야에 활용될 수 있다. 하지만 스마트 폰에 내장된 센서를 이용하여 동작 인지를 하는 방법은 사용되는 센서의 수에 따라 단일 센서를 이용한 동작인지와 다중 센서를 이용한 동작인지로 나눌 수 있다. 단일 센서를 이용하는 경우 대부분 가속도 센서를 이용하기 때문에 배터리 부담은 줄지만 다양한 동작을 인지할 때에 특징(feature) 추출의 어려움과 동작 인지 정확도가 낮다는 문제점이 있다. 그리고 다중 센서를 이용하는 경우 대부분 가속도 센서와 중력센서를 사용하고 필요에 따라 다른 센서를 추가하여 동작인지를 수행하며 다양한 동작을 보다 높은 정확도로 인지할 수 있지만 다수의 센서를 사용하기 때문에 배터리 부담이 증가한다는 문제점이 있다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 스마트 폰에 내장된 가속도 센서를 이용하여 다양한 동작을 높은 정확도로 인지하는 방법을 제안한다. 서로 다른 10가지의 동작을 높을 정확도로 인지하기 위해 원시 데이터로부터 17가지 특징을 추출하고 각 동작을 분류하기 위해 Ensemble of Nested Dichotomies 분류기를 사용하였다. Ensemble of Nested Dichotomies 분류기는 다중 클래스 문제를 다수의 이진 분류 문제로 변형하여 다중 클래스 문제를 해결하는 방법으로 서로 다른 Nested Dichotomy 분류기의 분류 결과를 통해 다중 클래스 문제를 해결하는 기법이다. Nested Dichotomy 분류기 학습에는 Random Forest 분류기를 사용하였다. 성능 평가를 위해 Decision Tree, k-Nearest Neighbors, Support Vector Machine과 비교 실험을 한 결과 Ensemble of Nested Dichotomies 분류기를 사용하여 동작 인지를 수행하는 것이 가장 높은 정확도를 보였다.