• 제목/요약/키워드: machine learning techniques

검색결과 1,088건 처리시간 0.028초

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

빅데이터 분석을 통한 APT공격 전조 현상 분석 (The Analysis of the APT Prelude by Big Data Analytics)

  • 최찬영;박대우
    • 한국정보통신학회논문지
    • /
    • 제20권6호
    • /
    • pp.1129-1135
    • /
    • 2016
  • 2011년 NH농협 전산망마비 사건, 2013년 3.20 사이버테러 및 2015년 12월의 한국수력원자력 원전 중요자료 유출사건이 있었다. 이러한 사이버테러는 해외(북한)에서 조직적이고 장기간의 걸친 고도화된 APT공격(Advanced Persistent Threat Attack)을 감행하여 발생한 사이버테러 사건이다. 하지만, 이러한 APT공격을 방어하기 위한 탁월한 방안은 아직 마련되지 못했다. APT공격은 현재의 관제 방식으로는 방어하기가 힘들다. 본 논문에서는 빅데이터 분석을 통해 APT공격을 예측할 수 있는 방안을 연구한다. 본 연구는 대한민국 3계층 보안관제 체계 중, 정보공유분석센터(ISAC)를 기준으로 하여 빅데이터 분석, APT공격 및 취약점 분석에 대해서 연구와 조사를 한다. 그리고 외부의 블랙리스트 IP 및 DNS Log를 이용한 APT공격 예측 방안의 설계 방법, 그리고 전조현상 분석 방법 및 APT공격에 대한 대응방안에 대해 연구한다.

신뢰 값 기반의 대용량 OWL Horst 온톨로지 추론 (Confidence Value based Large Scale OWL Horst Ontology Reasoning)

  • 이완곤;박현규;바트셀렘;박영택
    • 정보과학회 논문지
    • /
    • 제43권5호
    • /
    • pp.553-561
    • /
    • 2016
  • 웹으로부터 얻어진 데이터를 통해 자동적으로 온톨로지를 확장하는 많은 기계학습 방법들이 존재한다. 또한 대용량 온톨로지 추론에 대한 관심이 증가하고 있다. 하지만 웹으로부터 얻어진 다양한 데이터의 신뢰성 문제를 고려하지 않으면, 불확실성을 내포하는 추론결과를 초래하는 문제점이 있다. 현재 대용량 온톨로지의 신뢰도를 반영하는 추론에 대한 연구가 부족하기 때문에 신뢰 값 기반의 대용량 온톨로지 추론 방법론이 요구되고 있다. 본 논문에서는 인메모리 기반의 분산 클러스터 프레임워크인 스파크 환경에서 신뢰 값 기반의 대용량 OWL Horst 추론 방법에 대해서 설명한다. 기존의 연구들의 문제점인 중복 추론된 데이터의 신뢰 값을 통합하는 방법을 제안한다. 또한 추론의 성능을 저하시키는 문제를 해결할 수 있는 분산 병렬 추론 알고리즘을 설명한다. 본 논문에서 제안하는 신뢰 값 기반의 추론 방법의 성능을 평가하기 위해 LUBM3000을 대상으로 실험을 진행했고, 기존의 추론엔진인 WebPIE에 비해 약 2배 이상의 성능을 얻었다.

스마트폰 가속도 센서를 이용한 사용자 인증 방법 연구 (A Study on User Authentication with Smartphone Accelerometer Sensor)

  • 서준석;문종섭
    • 정보보호학회논문지
    • /
    • 제25권6호
    • /
    • pp.1477-1484
    • /
    • 2015
  • 스마트폰 기반 금융 산업의 발달로 스마트폰을 이용한 인증 기법에 관심이 높아지고 있다. 다양한 생체 기반 사용자 인증 방식이 존재하지만 아직까지 스마트폰 기반 사용자의 걸음 패턴(gait) 인증 방식은 뚜렷한 발전을 보이고 있지 않다. 본 논문에서는 스마트폰에 기본적으로 탑재된 가속도 센서를 이용해 사용자를 인증하는 방법을 제안한다. 구체적으로, 스마트폰에서 수집한 데이터를 3D 변환하여 자세를 교정하고, 변환된 데이터에서 특징을 추출한 뒤 주성분 분석, 가우시안 혼합 모델링 과정을 거쳐 데이터를 학습 시킨다. 다음으로, 신뢰구간 검증 방식을 사용해 사용자 데이터를 검증했다. 그 결과, 통제 요인과 한계점이 많았던 선행 가속도 연구들과 달리 최소한의 통제 요인과 높은 정확도(약 96%)로 사용자 인증이 가능함을 입증했다.

지식획득, 추론, 지식정제의 통합적 설계를 위한 규칙모델의 구축 (Rule Models for the Integrated Design of Knowledge Acquisition, Reasoning, and Knowledge Refinement)

  • 이계성
    • 한국정보처리학회논문지
    • /
    • 제3권7호
    • /
    • pp.1781-1791
    • /
    • 1996
  • 전문가시스템의 지식획득, 적합한 추론기구의 설계 및 구현, 지식의 정제 등 다단계 과정으로 이뤄져 있다. 각각을 하나의 연구이슈로 다양한 연구가 진행되어 왔으나 전체를 하나로 연계해 통합적 개발에 관해서는 상대적으로 연구가 활발히 진행되지 못한 실정이다. 지식획득은 전문가에 의해 수행되는 추론과정에서 특징 응용분야의 필요한 지식이 전달되어야 하므로 시식획득과 추론을 서로 밀접한 연관성을 갖는다. 지식의 정제는 추론과정에서 일어나는 문에의 제기와 이의 해결을 통해 지식베이스의 불완전하거나 논리적 모순을 찾아 해결함으로 지식베이스를 보다 완벽하고 정확한 것으로 만드는 것이다. ㅂㄴ 연구에서는 서로 연관된 다단계 과정이 통합적으로 개발될 수 있는 환경의 설저엥 대한 하나의 방안을 제시하려한다. 특히 도메인 모델이 잘 정립되기 어려운 분야에 학습기법을 활용햇 초기 지식 베이스를 구성할 수 있는 점진적 지식획득방법과 이를 통해 만들어진 지식베이스 규칙들을 학습기법의 일종인 개념적 클러스터링 기법을 이용하여 규칙모델을 구축하고 이를 이용해 효율적인 추론이 가능하게 하며, 지식획득 과정에서는 규칙의 오류를 제시할 수 있고 이에 대한 규칙의 수정이나 새로운 규칙이 기존의 지식구조에 합당한지를 결정하는 통합적 설계방안에 대해 연구한다. 지식의 정제는 설명기구와 규칙모델을 활용하여 문제의 원인을 찾고 해결점을 제시해 그에 대한 유효성을 검증합으로 이뤄지게 한다.뤄지게 한다.

  • PDF

k-NN 분류 알고리즘과 객체 기반 시소러스를 이용한 자동 문서 분류 (Automatic Document Classification Based on k-NN Classifier and Object-Based Thesaurus)

  • 방선이;양재동;양형정
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권9호
    • /
    • pp.1204-1217
    • /
    • 2004
  • 기존의 통계적인 기법과 기계학습 기법 등을 이용한 자동 문서 분류는 주로 문서 벡터만으로 분류기를 학습하여 분류를 행하기 때문에 특정 범주로 문서를 분류하는데 명확치 않은 경우가 빈번히 발생하여 일정 수준 이상의 정확도를 얻는 데에는 한계를 보이고 있다. 이러한 문제를 해결하기 위해 본 논문에서는 기존 문서 분류 알고리즘에 범주 간의 관련성을 반영하여 분류를 시행하는 방법을 제안한다. 이 방법은 간단한 알고리즘에 비해 좋은 성능을 보이고 있는 k-NN 분류 알고리즘을 이용하여 일차적인 문서 분류를 수행한 후 특정 범주로 분류하기가 명확치 않을 경우, 객체 기반 시소러스에서 제공되는 범주들 간의 일반화 관계, 집성화 관계, 연관화 관계 그리고 인스턴스 관계를 이용하여 문서가 할당될 범주를 결정함으로써 자동 문서 분류의 정확도를 향상시킬 수 있다. 본 논문에서 제안된 방법으로 실험한 결과 k-NN 분류 알고리즘의 분류 결과에 비해 재현율은 유지되면서 최고 13.86% 까지 정확률이 향상되었다.

SVM을 이용한 침입방지시스템 오경보 최소화 기법 (False Alarm Minimization Technology using SVM in Intrusion Prevention System)

  • 김길한;이형우
    • 인터넷정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.119-132
    • /
    • 2006
  • 지금까지 잘 알려진 네트워크 기반 보안 기법들은 공격에 수동적이고 우회한 공격이 가능하다는 취약점을 가지고 있어 인라인(in_line) 모드의 공격에 능동적 대응이 가능한 오용탐지 기반의 침입방지시스템의 출현이 불가피하다. 하지만 오용탐지 기반의 침입방지시스템은 탐지 규칙에 비례하여 과도한 오경보(False Alarm)를 발생시켜 정상적인 네트워크 흐름을 방해하는 잘못된 대응으로 이어질 수 있어 기존 침입탐지시스템보다 더 위험한 문제점을 갖고 있으며, 새로운 변형 공격에 대한 탐지가 미흡하다는 단점이 있다. 본 논문에서는 이러한 문제를 보완하기 위해 오용탐지 기반의 침입방지시스템과 Anomaly System 중의 하나인 서포트 벡터 머신(Support Vector Machines; 이하 SVM)을 이용한 침입방지시스템 기술을 제안한다. 침입 방지시스템의 탐지 패턴을 SVM을 이용하여 진성경보만을 처리하는 기법으로 실험결과 기존 침입방지시스템과 비교하여, 약 20% 개선된 성능결과를 보였으며, 제안한 침입방지시스템 기법을 통하여 오탐지를 최소화하고 새로운 변종 공격에 대해서도 효과적으로 탐지 가능함을 보였다.

  • PDF

빅데이터 분석을 활용한 인공지능 인식에 관한 연구 (A Study on Recognition of Artificial Intelligence Utilizing Big Data Analysis)

  • 남수태;김도관;진찬용
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.129-130
    • /
    • 2018
  • 빅데이터 분석은 데이터베이스에 잘 정리된 정형 데이터뿐만 아니라 인터넷, 소셜 네트워크 서비스, 모바일 환경에서 생성되는 웹 문서, 이메일, 소셜 데이터 등 비정형 데이터를 효과적으로 분석하는 기술을 말한다. 대부분의 빅데이터 분석 기술 방법들은 기존 통계학과 전산학에서 사용되던 데이터 마이닝, 기계 학습, 자연 언어 처리, 패턴 인식 등이 이에 해당된다. 글로벌 리서치 기관들은 빅데이터 분석을 2011년 이래로 가장 주목받는 신기술로 지목해오고 있다. 따라서 대부분의 산업에서 기업들은 빅데이터의 적용을 통해 새로운 가치 창출을 위해 노력을 하고 있다. 본 연구에서는 다음 커뮤니케이션의 빅데이터 분석 도구인 소셜 매트릭스를 활용하여 분석하였다. 2018년 5월 19일 시점 1개월 기간을 설정하여 "인공지능" 키워드에 대한 대중들의 인식을 분석하였다. 빅데이터 분석의 결과는 다음과 같다. 첫째, 인공지능에 대한 1위 연관 검색어는 중국(4,122)인 것으로 나타났다. 결과를 바탕으로 연구의 한계와 시사점을 제시하고자 한다.

  • PDF

AREA 활용 전력수요 단기 예측 (Short-term Forecasting of Power Demand based on AREA)

  • 권세혁;오현승
    • 산업경영시스템학회지
    • /
    • 제39권1호
    • /
    • pp.25-30
    • /
    • 2016
  • It is critical to forecast the maximum daily and monthly demand for power with as little error as possible for our industry and national economy. In general, long-term forecasting of power demand has been studied from both the consumer's perspective and an econometrics model in the form of a generalized linear model with predictors. Time series techniques are used for short-term forecasting with no predictors as predictors must be predicted prior to forecasting response variables and containing estimation errors during this process is inevitable. In previous researches, seasonal exponential smoothing method, SARMA (Seasonal Auto Regressive Moving Average) with consideration to weekly pattern Neuron-Fuzzy model, SVR (Support Vector Regression) model with predictors explored through machine learning, and K-means clustering technique in the various approaches have been applied to short-term power supply forecasting. In this paper, SARMA and intervention model are fitted to forecast the maximum power load daily, weekly, and monthly by using the empirical data from 2011 through 2013. $ARMA(2,\;1,\;2)(1,\;1,\;1)_7$ and $ARMA(0,\;1,\;1)(1,\;1,\;0)_{12}$ are fitted respectively to the daily and monthly power demand, but the weekly power demand is not fitted by AREA because of unit root series. In our fitted intervention model, the factors of long holidays, summer and winter are significant in the form of indicator function. The SARMA with MAPE (Mean Absolute Percentage Error) of 2.45% and intervention model with MAPE of 2.44% are more efficient than the present seasonal exponential smoothing with MAPE of about 4%. Although the dynamic repression model with the predictors of humidity, temperature, and seasonal dummies was applied to foretaste the daily power demand, it lead to a high MAPE of 3.5% even though it has estimation error of predictors.

인터넷 감정기호를 이용한 긍정/부정 말뭉치 구축 및 감정분류 자동화 (Automatic Construction of a Negative/positive Corpus and Emotional Classification using the Internet Emotional Sign)

  • 장경애;박상현;김우제
    • 정보과학회 논문지
    • /
    • 제42권4호
    • /
    • pp.512-521
    • /
    • 2015
  • 네티즌은 인터넷을 통해서 상품을 구매하고 상품에 대한 감정을 긍정 혹은 부정으로 상품평에 표현한다. 상품평에 대한 분석은 잠재적 소비자뿐만 아니라 기업의 의사결정에 중요한 자료가 된다. 따라서 인터넷의 대량 리뷰에서 의미 있는 정보를 분석하여 의견을 도출하는 오피니언 마이닝 기술의 중요성이 증대되고 있다. 기존의 연구는 대부분이 영어를 기반으로 진행되었고 아직 한글에 대한 상품평 분석은 활발히 이루어 지지 않고 있다. 또한 한글은 영어와 달라 꾸미는 말과 어미가 복잡한 특성을 갖고 있다. 그리고 기존의 연구는 통계적 기법, 사전 기법, 기계학습 기법 등을 사용하여 연구되었으나 인터넷 언어의 특성을 감안하지는 못하였다. 본 연구에서는 감정이 포함된 인터넷 언어의 특성을 분석하여 감정분석의 정확률을 높이는 감정분류 방법을 제안한다. 이를 통해 데이터에 독립적인 인터넷 감정기호를 이용해서 자동으로 긍정 및 부정 상품평을 분류할 수 있었고 높은 정확률, 재현율, Coverage 결과를 통해서 제안 알고리즘의 유효성을 확인할 수 있었다.