• 제목/요약/키워드: Machine learning algorithm

검색결과 1,480건 처리시간 0.033초

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

모노 카메라 영상기반 시간 간격 윈도우를 이용한 광역 및 지역 특징 벡터 적용 AdaBoost기반 제스처 인식 (AdaBoost-based Gesture Recognition Using Time Interval Window Applied Global and Local Feature Vectors with Mono Camera)

  • 황승준;고하윤;백중환
    • 한국정보통신학회논문지
    • /
    • 제22권3호
    • /
    • pp.471-479
    • /
    • 2018
  • 최근 안드로이드, iOS 등의 셋톱박스 기반의 스마트 TV에 대한 보급에 따라 제스처로 TV를 컨트롤 할 수 있는 새로운 접근을 제안한다. 본 논문에서는 모노 카메라 센서를 이용한 AdaBoost 기반 제스처 인식에 관한 알고리즘을 제안한다. 우선, 신체 좌표 추출을 위해 가우시안 배경 제거 및 Camshift 기반 자세 추적 및 추정 알고리즘을 사용한다. AdaBoost 학습 모델을 신체 정규화된 광역 및 지역 특징 벡터의 집합을 특징 패턴으로 하여, 속도가 다른 동작들을 인식할 수 있도록 하였다. 또한 속도가 다른 다양한 제스처를 인식하기 위해 다중 AdaBoost 알고리즘을 적용하였다. CART 알고리즘을 이용하여 성공적인 중요 특징 벡터를 확인하고 중요도가 낮은 특징벡터를 제거하는 방식을 적용하면서 분류 성공률이 높은 최적의 특징 벡터를 탐색하였다. 그 결과 24개의 주성분 특징 벡터를 찾았으며, 기존 알고리즘에 비해 낮은 오분류율(3.73%)과 높은 인식률(95.17%)을 지닌 특징 벡터 및 분류기를 설계하였다.

Artificial Neural Network with Firefly Algorithm-Based Collaborative Spectrum Sensing in Cognitive Radio Networks

  • Velmurugan., S;P. Ezhumalai;E.A. Mary Anita
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제17권7호
    • /
    • pp.1951-1975
    • /
    • 2023
  • Recent advances in Cognitive Radio Networks (CRN) have elevated them to the status of a critical instrument for overcoming spectrum limits and achieving severe future wireless communication requirements. Collaborative spectrum sensing is presented for efficient channel selection because spectrum sensing is an essential part of CRNs. This study presents an innovative cooperative spectrum sensing (CSS) model that is built on the Firefly Algorithm (FA), as well as machine learning artificial neural networks (ANN). This system makes use of user grouping strategies to improve detection performance dramatically while lowering collaboration costs. Cooperative sensing wasn't used until after cognitive radio users had been correctly identified using energy data samples and an ANN model. Cooperative sensing strategies produce a user base that is either secure, requires less effort, or is faultless. The suggested method's purpose is to choose the best transmission channel. Clustering is utilized by the suggested ANN-FA model to reduce spectrum sensing inaccuracy. The transmission channel that has the highest weight is chosen by employing the method that has been provided for computing channel weight. The proposed ANN-FA model computes channel weight based on three sets of input parameters: PU utilization, CR count, and channel capacity. Using an improved evolutionary algorithm, the key principles of the ANN-FA scheme are optimized to boost the overall efficiency of the CRN channel selection technique. This study proposes the Artificial Neural Network with Firefly Algorithm (ANN-FA) for cognitive radio networks to overcome the obstacles. This proposed work focuses primarily on sensing the optimal secondary user channel and reducing the spectrum handoff delay in wireless networks. Several benchmark functions are utilized We analyze the efficacy of this innovative strategy by evaluating its performance. The performance of ANN-FA is 22.72 percent more robust and effective than that of the other metaheuristic algorithm, according to experimental findings. The proposed ANN-FA model is simulated using the NS2 simulator, The results are evaluated in terms of average interference ratio, spectrum opportunity utilization, three metrics are measured: packet delivery ratio (PDR), end-to-end delay, and end-to-average throughput for a variety of different CRs found in the network.

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로 (The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction)

  • 천세학
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.239-251
    • /
    • 2019
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

글꼴 유사도 판단을 위한 Faster R-CNN 기반 한글 글꼴 획 요소 자동 추출 (Automatic Extraction of Hangul Stroke Element Using Faster R-CNN for Font Similarity)

  • 전자연;박동연;임서영;지영서;임순범
    • 한국멀티미디어학회논문지
    • /
    • 제23권8호
    • /
    • pp.953-964
    • /
    • 2020
  • Ever since media contents took over the world, the importance of typography has increased, and the influence of fonts has be n recognized. Nevertheless, the current Hangul font system is very poor and is provided passively, so it is practically impossible to understand and utilize all the shape characteristics of more than six thousand Hangul fonts. In this paper, the characteristics of Hangul font shapes were selected based on the Hangul structure of similar fonts. The stroke element detection training was performed by fine tuning Faster R-CNN Inception v2, one of the deep learning object detection models. We also propose a system that automatically extracts the stroke element characteristics from characters by introducing an automatic extraction algorithm. In comparison to the previous research which showed poor accuracy while using SVM(Support Vector Machine) and Sliding Window Algorithm, the proposed system in this paper has shown the result of 10 % accuracy to properly detect and extract stroke elements from various fonts. In conclusion, if the stroke element characteristics based on the Hangul structural information extracted through the system are used for similar classification, problems such as copyright will be solved in an era when typography's competitiveness becomes stronger, and an automated process will be provided to users for more convenience.

정수장 운영효율 향상을 위한 ELM 기반 단기 물 수요 예측 (ELM based short-term Water Demand Prediction for Effective Operation of Water Treatment Plant)

  • 최기선;이동훈;김성환;이경우;전명근
    • 조명전기설비학회논문지
    • /
    • 제23권9호
    • /
    • pp.108-116
    • /
    • 2009
  • 본 논문에서는 단기 물 수요 예측에 대한 모델구현을 위해 MLP의 과도학습 문제를 해결할 수 있고 빠른 학습이 가능한 ELM 기반 단기 물 수요 예측 알고리즘을 제안한다. 제시된 알고리즘의 검증을 위해 2007년도와 2008년도 충남지역 광역상수도인 A정수장에서 취득된 데이터를 분석하여 알고리즘 구현의 정확도 분석에 사용하였다. 실험 결과 MLP모델은 MAPE가 5.82[%]인 반면, 제안된 방법인 ELM기반 모델은 5.61[%]로 성능이 향상된 것으로 나타났다. 또한, MLP모델은 학습에 소요된 시간이 7.57초인 반면, ELM 기반 모델은 0.09초로 빠른 학습이 가능함을 알 수 있었다. 따라서 제안된 ELM 기반 알고리즘은 정수장의 효율적 운영을 위한 단기 물 수요 예측에 활용할 수 있음을 보였다.

동시발생 행렬과 하둡 분산처리를 이용한 추천시스템에 관한 연구 (A Study On Recommend System Using Co-occurrence Matrix and Hadoop Distribution Processing)

  • 김창복;정재필
    • 한국항행학회논문지
    • /
    • 제18권5호
    • /
    • pp.468-475
    • /
    • 2014
  • 추천시스템은 선호 데이터가 대형화, 컴퓨터 처리능력과 추천 알고리즘 등에 의해 실시간 추천이 어려워지고 있다. 이에 따라 추천시스템은 대형 선호데이터를 분산처리 하는 방법에 대한 연구가 활발히 진행되고 있다. 본 논문은 하둡 분산처리 플랫폼과 머하웃 기계학습 라이브러리를 이용하여, 선호데이터를 분산 처리하는 방법을 연구하였다. 추천 알고리즘은 아이템 협업필터링과 유사한 동시발생 행렬을 이용하였다. 동시발생 행렬은 하둡 클러스터의 여러 노드에서 분산처리를 할 수 있으며, 기본적으로 많은 계산량이 필요하지만, 분산처리과정에서 계산량을 줄일 수 있다. 또한, 본 논문은 동시발생 행렬처리의 분산 처리과정을 4 단계에서 3 단계로 단순화하였다. 결과로서, 맵리듀스 잡을 감소할 수 있으며, 동일한 추천 파일을 생성할 수 있었다. 또한, 하둡 의사 분산모드를 이용하여 데이터를 처리하였을 때 빠른 처리속도를 보였으며, 맵 출력 데이터가 감소되었다.

무구속적 방법으로 측정된 심전도의 신뢰도 판별 (Quality Level Classification of ECG Measured using Non-Constraint Approach)

  • 김윤재;허정;박광석;김성완
    • 대한의용생체공학회:의공학회지
    • /
    • 제37권5호
    • /
    • pp.161-167
    • /
    • 2016
  • Recent technological advances in sensor fabrication and bio-signal processing enabled non-constraint and non-intrusive measurement of human bio-signals. Especially, non-constraint measurement of ECG makes it available to estimate various human health parameters such as heart rate. Additionally, non-constraint ECG measurement of wheelchair user provides real-time health parameter information for emergency response. For accurate emergency response with low false alarm rate, it is necessary to discriminate quality levels of ECG measured using non-constraint approach. Health parameters acquired from low quality ECG results in inaccurate information. Thus, in this study, a machine learning based approach for three-class classification of ECG quality level is suggested. Three sensors are embedded in the back seat, chest belt, and handle of automatic wheelchair. For the two sensors embedded in back seat and chest belt, capacitively coupled electrodes were used. The accuracy of quality level classification was estimated using Monte Carlo cross validation. The proposed approach demonstrated accuracy of 94.01%, 95.57%, and 96.94% for each channel of three sensors. Furthermore, the implemented algorithm enables classification of user posture by detection of contacted electrodes. The accuracy for posture estimation was 94.57%. The proposed algorithm will contribute to non-constraint and robust estimation of health parameter of wheelchair users.

의사결정트리 알고리즘을 이용한 학생진로 예측 프로그램의 설계 (Design of the student Career prediction program using the decision tree algorithm)

  • 김근호;정종인;김창석;강신천;김의정
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.332-335
    • /
    • 2018
  • 최근 IT분야에서는 빅 데이터를 활용한 인공지능이 크게 대두되고 있다. 이와 같이 빅 데이터를 효과적으로 처리하기 위한 서비스 또는 기술에 대하여 다양한 연구가 진행되고 있다. 교육분야에 있어서도 학생들에 대한 빅 데이터가 존재하나 이러한 데이터를 단순히 수집, 조회, 저장하는 단순처리과정을 거칠 뿐이다. 향후 인공지능이나 기계학습, 통계분석 등을 폭 넓게 이용하여 교육분야의 빅 데이터에서 의미 있는 규칙이나 패턴 및 관계를 찾아내어, 실제 학생들에게 도움이 되는 데이터를 생산 지능적인 활용이 요구되고 있다. 이에 따라서 본 연구에서는 학생들의 수업 관찰을 통한 데이터를 의사결정트리 알고리즘을 이용하여 학생들의 진로를 예측하는 프로그램을 설계하고자 한다. 진로예측 프로그램을 통하여 학생들의 상담에 활용 진로를 제시하고 또한 희망 진로에 따른 수업 태도 및 방향을 제시하는데 도움이 될 것으로 사료된다.

  • PDF

연관법령 검색을 위한 워드 임베딩 기반 Law2Vec 모형 연구 (A Study on the Law2Vec Model for Searching Related Law)

  • 김나리;김형중
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권7호
    • /
    • pp.1419-1425
    • /
    • 2017
  • 법률 지식 검색의 궁극적 목적은 법령과 판례를 근거로 최적의 법례정보 획득이라고 할 수 있다. 최근, 대규모 자료에서 효율적으로 검색하여야 하는목적을 달성하기 위하여텍스트 마이닝 연구가 활발히 이루어지고 있다. 대표적인 방법으로 Neural Net 기반 학습방법인 워드 임베딩 알고리즘을 들 수 있다. 본 논문에서는 한국 법령정보를 워드임베딩에 적용하여 연관정보 검색방법을 연구하였다. 우선 판례의 참조법령을 순서대로 추출하여 모형의 입력정보로 활용하였다. 추출한 참조법령들은 중심법령을 기준으로 주변 법령을 학습하고 임베딩하는 Law2Vec 모형을 작성하였다. 이 모형으로 법령에 대하여 학습을 수행하고 법령 간의 관계를 추론하였다. 본 연구의 모형을 평가하기 위하여 연관법령으로 도출된 결과가 키워드와 밀접한 관련이 있는지 정밀도와 재현율을 계산하여 검증하였다. 실험결과, 본 연구의 제안방식이기존의 키워드 검색방법보다 연관된 법령을추론하는데유용함을 알 수 있었다.