• 제목/요약/키워드: Machine Learning and Artificial Intelligence

검색결과 776건 처리시간 0.044초

데이터 크기에 따른 k-NN의 예측력 연구: 삼성전자주가를 사례로 (The Effect of Data Size on the k-NN Predictability: Application to Samsung Electronics Stock Market Prediction)

  • 천세학
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.239-251
    • /
    • 2019
  • 본 논문은 학습데이터의 크기에 따른 사례기반추론기법이 주가예측력에 어떻게 영향을 미치는지 살펴본다. 삼성전자 주가를 대상을 학습데이터를 2000년부터 2017년까지 이용한 경우와 2015년부터 2017년까지 이용한 경우를 비교하였다. 테스트데이터는 두 경우 모두 2018년 1월 1일부터 2018년 8월 31일까지 이용하였다. 시계 열데이터의 경우 과거데이터가 얼마나 유용한지 살펴보는 측면과 유사사례개수의 중요성을 살펴보는 측면에서 연구를 진행하였다. 실험결과 학습데이터가 많은 경우가 그렇지 않은 경우보다 예측력이 높았다. MAPE을 기준으로 비교할 때, 학습데이터가 적은 경우, 유사사례 개수와 상관없이 k-NN이 랜덤워크모델에 비해 좋은 결과를 보여주지 못했다. 그러나 학습데이터가 많은 경우, 일반적으로 k-NN의 예측력이 랜덤워크모델에 비해 좋은 결과를 보여주었다. k-NN을 비롯한 다른 데이터마이닝 방법론들이 주가 예측력 제고를 위해 학습데이터의 크기를 증가시키는 것 이외에, 거시경제변수를 고려한 기간유사사례를 찾아 적용하는 것을 제안한다.

Word2Vec을 활용한 제품군별 시장규모 추정 방법에 관한 연구 (A Study on Market Size Estimation Method by Product Group Using Word2Vec Algorithm)

  • 정예림;김지희;유형선
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.1-21
    • /
    • 2020
  • 인공지능 기술의 급속한 발전과 함께 빅데이터의 상당 부분을 차지하는 비정형 텍스트 데이터로부터 의미있는 정보를 추출하기 위한 다양한 연구들이 활발히 진행되고 있다. 비즈니스 인텔리전스 분야에서도 새로운 시장기회를 발굴하거나 기술사업화 주체의 합리적 의사결정을 돕기 위한 많은 연구들이 이뤄져 왔다. 본 연구에서는 기업의 성공적인 사업 추진을 위해 핵심적인 정보 중의 하나인 시장규모 정보를 도출함에 있어 기존에 제공되던 범위보다 세부적인 수준의 제품군별 시장규모 추정이 가능하고 자동화된 방법론을 제안하고자 한다. 이를 위해 신경망 기반의 시멘틱 단어 임베딩 모델인 Word2Vec 알고리즘을 적용하여 개별 기업의 생산제품에 대한 텍스트 데이터를 벡터 공간으로 임베딩하고, 제품명 간 코사인 거리(유사도)를 계산함으로써 특정한 제품명과 유사한 제품들을 추출한 뒤, 이들의 매출액 정보를 연산하여 자동으로 해당 제품군의 시장규모를 산출하는 알고리즘을 구현하였다. 실험 데이터로서 통계청의 경제총조사 마이크로데이터(약 34만 5천 건)를 이용하여 제품명 텍스트 데이터를 벡터화 하고, 한국표준산업분류 해설서의 산업분류 색인어를 기준으로 활용하여 코사인 거리 기반으로 유사한 제품명을 추출하였다. 이후 개별 기업의 제품 데이터에 연결된 매출액 정보를 기초로 추출된 제품들의 매출액을 합산함으로써 11,654개의 상세한 제품군별 시장규모를 추정하였다. 성능 검증을 위해 실제 집계된 통계청의 품목별 시장규모 수치와 비교한 결과 피어슨 상관계수가 0.513 수준으로 나타났다. 본 연구에서 제시한 모형은 의미 기반 임베딩 모델의 정확성 향상 및 제품군 추출 방식의 개선이 필요하나, 표본조사 또는 다수의 가정을 기반으로 하는 전통적인 시장규모 추정 방법의 한계를 뛰어넘어 텍스트 마이닝 및 기계학습 기법을 최초로 적용하여 시장규모 추정 방식을 지능화하였다는 점, 시장규모 산출범위를 사용 목적에 따라 쉽고 빠르게 조절할 수 있다는 점, 이를 통해 다양한 분야에서 수요가 높은 세부적인 제품군별 시장정보 도출이 가능하여 실무적인 활용성이 높다는 점에서 의의가 있다.

캠페인 효과 제고를 위한 자기 최적화 변수 선택 알고리즘 (Self-optimizing feature selection algorithm for enhancing campaign effectiveness)

  • 서정수;안현철
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.173-198
    • /
    • 2020
  • 최근 온라인의 비약적인 활성화로 캠페인 채널들이 다양하게 확대되면서 과거와는 비교할 수 없을 수준의 다양한 유형들의 캠페인들이 기업에서 수행되고 있다. 하지만, 고객의 입장에서는 중복 노출로 인한 캠페인에 대한 피로감이 커지면서 스팸으로 인식하는 경향이 있고, 기업입장에서도 캠페인에 투자하는 비용은 점점 더 늘어났지만 실제 캠페인 성공률은 오히려 더 낮아지고 있는 등 캠페인 자체의 효용성이 낮아지고 있다는 문제점이 있어 실무적으로 캠페인의 효과를 높이고자 하는 다양한 연구들이 지속되고 있다. 특히 최근에는 기계학습을 이용하여 캠페인의 반응과 관련된 다양한 예측을 해보려는 시도들이 진행되고 있는데, 이 때 캠페인 데이터의 다양한 특징들로 인해 적절한 특징을 선별하는 것은 매우 중요하다. 전통적인 특징 선택 기법으로 탐욕 알고리즘(Greedy Algorithm) 중 SFS(Sequential Forward Selection), SBS(Sequential Backward Selection), SFFS(Sequential Floating Forward Selection) 등이 많이 사용되었지만 최적 특징만을 학습하는 모델을 생성하기 때문에 과적합의 위험이 크고, 특징이 많은 경우 분류 예측 성능 하락 및 학습시간이 많이 소요된다는 한계점이 있다. 이에 본 연구에서는 기존의 캠페인에서의 효과성 제고를 위해 개선된 방식의 특징 선택 알고리즘을 제안한다. 본 연구의 목적은 캠페인 시스템에서 처리해야 하는 데이터의 통계학적 특성을 이용하여 기계 학습 모델 성능 향상의 기반이 되는 특징 부분 집합을 탐색하는 과정에서 기존의 SFFS의 순차방식을 개선하는 것이다. 구체적으로 특징들의 데이터 변형을 통해 성능에 영향을 많이 끼치는 특징들을 먼저 도출하고 부정적인 영향을 미치는 특징들은 제거를 한 후 순차방식을 적용하여 탐색 성능에 대한 효율을 높이고 일반화된 예측이 가능하도록 개선된 알고리즘을 적용하였다. 실제 캠페인 데이터를 이용해 성능을 검증한 결과, 전통적인 탐욕알고리즘은 물론 유전자알고리즘(GA, Genetic Algorithm), RFE(Recursive Feature Elimination) 같은 기존 모형들 보다 제안된 모형이 보다 우수한 탐색 성능과 예측 성능을 보임을 확인할 수 있었다. 또한 제안 특징 선택 알고리즘은 도출된 특징들의 중요도를 제공하여 예측 결과의 분석 및 해석에도 도움을 줄 수 있다. 이를 통해 캠페인 유형별로 중요 특징에 대한 분석과 이해가 가능할 것으로 기대된다.

동영상 시맨틱 이해를 위한 시각 동사 도출 및 액션넷 데이터베이스 구축 (Visual Verb and ActionNet Database for Semantic Visual Understanding)

  • 배창석;김보경
    • 한국차세대컴퓨팅학회논문지
    • /
    • 제14권5호
    • /
    • pp.19-30
    • /
    • 2018
  • 영상 데이터에 대한 시맨틱 정보를 정확하게 이해하는 것은 인공지능 및 기계학습 분야에서 가장 어려운 도전과제의 하나로 알려져 있다. 본 논문에서는 동영상 시맨틱 이해를 위한 시각 동사 도출과 이를 바탕으로 하는 동영상 데이터베이스인 액션넷 데이터베이스 구축에 관해 제안하고 있다. 오늘날 인공지능 기술의 눈부신 발달에는 인공지능 알고리즘의 발전이 크게 기여하였지만 알고리즘의 학습과 성능 평가를 위한 방대한 데이터베이스의 제공도 기여한 바가 매우 크다고 할 수 있다. 인공지능이 도전하기 어려운 분야였던 시각 정보 처리에 있어서도 정지 영상 내의 객체인식에 있어서는 인간의 수준을 능가하기 시작하면서 점차 동영상에서의 내용에 대한 시맨틱 이해 기술 개발로 발전하고 있다. 본 논문에서는 이러한 동영상 이해를 위한 학습 및 테스트 데이터베이스로서 액션넷 구축에 요구되는 시각 동사의 후보를 도출한다. 이를 위해 언어학 기반의 동사 분류체계를 살펴보고, 영상에서의 시각 정보를 명세한 데이터 및 언어학에서의 시각 동사 빈도 등으로부터 시각 동사의 후보를 도출한다. 시각 동사 분류체계와 시각 동사후보를 바탕으로 액션넷 데이터베이스 스키마를 정의하고 구축한다. 본 논문에서 제안하는 시각 동사 및 스키마와 이를 바탕으로 하는 액션넷 데이터베이스를 개방형 환경에서 확장하고 활용성을 제고함으로써 동영상 이해 기술 발전에 기여할 수 있을 것으로 기대한다.

기상 자료 초해상화를 위한 인공지능 기술과 기상 전문 지식의 융합 (Convergence of Artificial Intelligence Techniques and Domain Specific Knowledge for Generating Super-Resolution Meteorological Data)

  • 하지훈;박건우;임효혁;조동희;김용혁
    • 한국융합학회논문지
    • /
    • 제12권10호
    • /
    • pp.63-70
    • /
    • 2021
  • 고해상도 심층신경망을 이용하여 기상데이터를 초해상화하면 보다 더 정밀한 연구와 실생활에 유용한 서비스를 제공할 수 있다. 본 논문에서는 고해상도 심층신경망 학습에 사용하기 위한 개선된 훈련자료 생산기술을 최초로 제안한다. 기상전문 지식으로 고해상도 기상 자료를 생성하기 위해, 전문 기관의 관측자료와 ERA5 재분석장 자료를 바탕으로 람베르트 정각원추도법과 객관분석을 적용했다. 그 결과, 기상 전문 지식 기반의 기온 및 습도 분석자료는 기존 배경장 대비 RMSE 값이 각각 최대 42%, 46% 개선되었다. 다음으로, 기상 전문 기술을 이용한 수동적인 데이터 생성 기법을 자동화하기 위해 인공지능 기술 중 하나인 SRGAN을 이용했고, 10 km 해상도를 가지는 전지구모델자료로부터 1 km 해상도를 가지는 고해상도 자료를 생성하는 실험을 진행했다. 최종적으로, SRGAN으로 생성한 결과는 전지구모델입력자료에 비해 높은 해상도를 가지며 수동으로 생성한 고해상도 분석자료와 유사한 분석 패턴을 보이면서도 부드러운 경계를 보였다.

부도예측모형에서 도메인 지식을 통합한 반사실적 예시 기반 설명력 증진 방법 (Domain Knowledge Incorporated Counterfactual Example-Based Explanation for Bankruptcy Prediction Model)

  • 조수현;신경식
    • 지능정보연구
    • /
    • 제28권2호
    • /
    • pp.307-332
    • /
    • 2022
  • 부도예측모형은 여러 금융기관의 신용평가모형의 지식기반(knowledge base)로 이용되고 있으며 최근 머신러닝 기법의 발전으로 이를 도입하여 고도화하려는 다양한 시도가 진행 중이다. 그러나 실제 이러한 모형이 도입되기 위해서는 모형을 이용하는 사용자와 설명제공 대상인 고객의 이해와 수용이 전제되어야 한다. 그러나 사용자에게 제공되는 설명이 현실적 타당성(feasibility)이 결여되어 있다면 모형의 신뢰성과 수용도에 부정적인 영향을 미친다. 이에 따라 본 연구는 도메인 지식을 설명 생성 알고리즘에 통합하여 현실적으로 타당한 설명을 사용자에게 제공하고자 한다. 본 연구에서는 머신러닝 기반의 부도예측 모형에 설명력을 더하는 방법으로 반사실적 예시(counterfactual example) 기반의 로컬영역에서의 설명을 제공하는 모델을 제안한다. 제안 모델은 모형에 이용된 재무변수의 특성을 설명력 생성 알고리즘에 통합하여 설명의 현실적 가능성을 확보하고 이를 통해 사용자의 이해와 수용을 도모하고자 한다. 또한 본 연구에서는 반사실적 예시기반 설명을 위해 유전알고리즘(GA)를 이용하며 다목적함수를 목적함수로 설정하여 반사실적 예시의 주요 기준이 되는 항목을 반영하고 있다. 본 연구는 대표적인 머신러닝 기법인 인공신경망을 이용해 부도예측모형을 학습시킨 뒤, 사후적 방법(post-hoc)으로 설명을 위한 알고리즘을 도입하여 기존의 모형 설명 알고리즘인 LIME과 현실적 가능성이 결여된 반사실적 예시 기반 알고리즘과 비교하였다. 더 나아가 제안방법의 금융/회계 분야의 종사자를 대상으로 서베이를 진행하여 제안 방법의 설명의 질을 정성적으로 평가하였다.

비즈니스 인텔리전스 시스템의 활용 방안에 관한 연구: 설명 기능을 중심으로 (A study on the use of a Business Intelligence system : the role of explanations)

  • 권영옥
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.155-169
    • /
    • 2014
  • 다양한 빅데이터 기술이 발전함에 따라, 기업의 전략결정에 있어서 과거에는 의사결정자의 직관이나 경험에 의존하는 경향이 있었다면, 현재는 데이터를 활용한 과학적이고 분석적인 접근이 이루어지고 있다. 이에 많은 기업들이 경영정보시스템 중의 하나인 비즈니스 인텔리전스 (Business Intelligence) 시스템의 예측분석 기능을 활용하고 있다. 하지만, 이러한 시스템이 미래의 경영환경 변화를 예측하고 기업의 의사결정을 돕는 조언자 (Advisor)로서 역할을 한다고 가정할 때, 시스템에서 제공하는 분석결과가 의사결정자에게 도움을 주는 조언 (Advice) 의 역할을 하지 못하는 경우가 많은 실정이다. 따라서, 본 연구에서는 미래예측의 문제에 있어 의사결정자가 시스템의 조언을 따르는데 영향을 미치는 요소들과 영향력에 대해 분석하고, 그 결과를 바탕으로 데이터 기반의 의사결정을 보다 적극적으로 지원하는 시스템 환경을 제시하고자 한다. 좀 더 구체적으로는 예측 과정에 대한 자세한 설명이나 근거 제시가 시스템의 예측결과에 대한 의사결정자의 수용정도에 미치는 영향을 연구하였다. 이를 위하여 193명의 실험자를 대상으로 영화의 개봉 주 매출액을 예측하는 업무를 수행하고, 예측에 대한 설명의 길이와 조언자의 유형(사람과 시스템의 조언 비교)뿐 아니라 의사결정자의 개인 특성이 의사결정자의 조언 수용정도에 미치는 영향을 분석하였다. 시스템에서 제공하는 조언 내용인 예측결과와 설명에 대해 의사결정가가 느끼는 유용성, 신뢰성, 만족도가 조언의 수용에 미치는 영향도 분석하였다. 본 연구는 시스템의 분석결과를 조언으로 보고 조언자와 조언에 관한 의사결정학 분야의 선행연구를 접목시켜 경영정보시스템 연구 분야를 확장하였다는 점에서 연구의 의의가 있고, 실무적으로도 데이터 기반의 의사결정을 보다 적극적으로 지원할 수 있는 시스템 환경을 만들기 위해서 고려해야 할 점들을 제시함으로써 시스템 활용을 위한 정책결정에도 도움을 줄 수 있을 것으로 본다.

보존지역의 합리적 관리를 위한 철새 서식 확률지도 구축 - 부산 Eco Delta City (EDC)를 중심으로 - (Probability Map of Migratory Bird Habitat for Rational Management of Conservation Areas - Focusing on Busan Eco Delta City (EDC) -)

  • 김근한;공석준;김희년;구경아
    • 한국환경복원기술학회지
    • /
    • 제26권6호
    • /
    • pp.67-84
    • /
    • 2023
  • In some areas of the Republic of Korea, the designation and management of conservation areas do not adequately reflect regional characteristics and often impose behavioral regulations without considering the local context. One prominent example is the Busan EDC area. As a result, conflicts may arise, including large-scale civil complaints, regarding the conservation and utilization of these areas. Therefore, for the efficient designation and management of protected areas, it is necessary to consider various ecosystem factors, changes in land use, and regional characteristics. In this study, we specifically focused on the Busan EDC area and applied machine learning techniques to analyze the habitat of regional species. Additionally, we employed Explainable Artificial Intelligence techniques to interpret the results of our analysis. To analyze the regional characteristics of the waterfront area in the Busan EDC district and the habitat of migratory birds, we used bird observations as dependent variables, distinguishing between presence and absence. The independent variables were constructed using land cover, elevation, slope, bridges, and river depth data. We utilized the XGBoost (eXtreme Gradient Boosting) model, known for its excellent performance in various fields, to predict the habitat probabilities of 11 bird species. Furthermore, we employed the SHapley Additive exPlanations technique, one of the representative methodologies of XAI, to analyze the relative importance and impact of the variables used in the model. The analysis results showed that in the EDC business district, as one moves closer to the river from the waterfront, the likelihood of bird habitat increases based on the overlapping habitat probabilities of the analyzed bird species. By synthesizing the major variables influencing the habitat of each species, key variables such as rivers, rice fields, fields, pastures, inland wetlands, tidal flats, orchards, cultivated lands, cliffs & rocks, elevation, lakes, and deciduous forests were identified as areas that can serve as habitats, shelters, resting places, and feeding grounds for birds. On the other hand, artificial structures such as bridges, railways, and other public facilities were found to have a negative impact on bird habitat. The development of a management plan for conservation areas based on the objective analysis presented in this study is expected to be extensively utilized in the future. It will provide diverse evidential materials for establishing effective conservation area management strategies.

웹서비스 저장소의 검색기법에 관한 실증적 연구 (Empirical Research on Search model of Web Service Repository)

  • 황유섭
    • 지능정보연구
    • /
    • 제16권4호
    • /
    • pp.173-193
    • /
    • 2010
  • 월드와이드웹 (WWW)은 유용한 정보를 포함하는 자료들의 집합에서 유용한 작업을 수행할 수 있는 서비스들의 집합으로 변화하고 있다. 새롭게 등장하고 있는 웹서비스 기술은 향후 웹의 기술적 변화를 추구하며 최근 웹의 변화에 중요한 역할을 수행할 것으로 기대된다. 웹서비스는 어플리케이션 간의 통신을 위한 호환성 표준을 제시하며 기업 내/외를 아우를 수 있는 어플리케이션 상호작용 및 통합을 촉진한다. 웹서비스가 서비스 지향 컴퓨팅환경으로서 운영하기 위해서는 웹서비스 저장소가 완성도 높게 구축되어 있어야 할 뿐 아니라, 사용자들의 필요에 맞는 웹서비스 컴포넌트를 찾을 수 있는 효율적인 도구들을 제공하여야 한다. 서비스 지향 컴퓨팅을 위한 웹서비스의 중요성이 증대됨에 따라 웹서비스의 발견을 효율적으로 지원할 수 있는 기법의 수요 또한 증대된다. 다수의 웹서비스 저장소들은 웹서비스 분류체계 및 검색기법들을 제안하여 왔지만, 대부분의 분류체계와 기존의 검색기법들은 실질적으로 활용하기에는 제대로 발달하지 못하였거나 지속적이고 체계적으로 관리하기에 너무 어려운 단점을 갖고 있다. 이 논문에서는 인공신경망 기반 군집화 기법과 XML 기반의 웹서비스 기술표준인 WSDL의 의미적 가치를 활용하여 웹서비스 분류체계 생성 프레임워크를 통한 복합 검색기법을 제안한다. 이 논문에서 인공신경망을 활용하여 제안하는 웹서비스 분류체계 생성 프레임워크는 실증적인 프로토타입 시스템으로 개발하였으며, 실제 운영되고 있는 웹서비스 저장소로부터 획득한 실제 웹서비스들을 사용하여 제안하는 웹서비스 복합 검색기법을 실증적으로 평가하였다. 또한 제안하는 방식의 효용성을 보여주는 의미 있는 실험결과를 보고한다.

클라우드 기반 한국형 스마트 온실 연구 플랫폼 설계 방안 (Research-platform Design for the Korean Smart Greenhouse Based on Cloud Computing)

  • 백정현;허정욱;김현환;홍영신;이재수
    • 생물환경조절학회지
    • /
    • 제27권1호
    • /
    • pp.27-33
    • /
    • 2018
  • 본 연구는 농업 및 정보 통신 기술의 융합을 기반으로 국내외 스마트 농장 서비스 모델을 검토하고 한국의 스마트 온실을 개선하기 위해 필요한 다양한 요인을 조사하기 위해 수행되었다. 국내 스마트 온실의 작물 생육모델 및 환경모델에 관한 연구는 제한적이었고, 연구를 위한 인프라를 구축하는 데는 많은 시간이 필요하다. 이러한 문제의 대안으로 클라우드 기반 연구 플랫폼이 필요하다. 제안된 클라우드 기반 연구 플랫폼은 통합 데이터, 생육환경모델, 구동기 제어 모델, 스마트 온실 관리, 지식 기반 전문가 시스템 및 농가 대시보드 모듈을 통해 통합적 데이터 저장 및 분석을 위한 연구 인프라를 제공한다. 또한 클라우드 기반 연구 플랫폼은 작물 생육환경, 생산성 및 액추에이터 제어와 같은 다양한 요인들 간의 관계를 정량화하는 기능을 제공하며, 연구자는 빅데이터, 기계 학습 및 인공지능을 활용하여 작물 생육 및 생장환경 모델을 분석할 수 있다.