• 제목/요약/키워드: 로지스틱회귀

검색결과 1,744건 처리시간 0.032초

주성분 분석과 로지스틱 회귀분석을 이용한 다국 통화포트폴리오 전략 (Multi-currencies portfolio strategy using principal component analysis and logistic regression)

  • 심경식;안재준;오경주
    • Journal of the Korean Data and Information Science Society
    • /
    • 제23권1호
    • /
    • pp.151-159
    • /
    • 2012
  • 본 논문에서는 외환시장에서 주성분 분석과 로지스틱 회귀분석을 이용한 다국 통화 포트폴리오 전략을 개발하는 것을 제안한다. 과거 환율시장의 분석에 대한 많은 연구가 진행되어 왔으나 상대적으로 외환시장에서의 거래 전략을 개발하는 연구는 거의 없었다. 본 연구는 크게 두 가지 목적을 가지고 있다. 첫 번째 목적은 주성분 분석을 적용시켜 포트폴리오를 구성하는 다양한 나라의 환율에 가중치 할당 방법을 제안하는 것이다. 두 번째 목적은 로지스틱 회귀분석을 이용하여 구성된 포트폴리오의 적절한 매수시점과 매도시점을 정하는 것이다. 이 논문의 실험결과는 제안한 투자전략의 유용성을 증명할 수 있을 것이며, 또한 이를 통해 시장참여자들에게 투자 결정에 있어 도움을 줄 수 있을 것이다.

RHIPE 플랫폼에서 빅데이터 로지스틱 회귀를 위한 학습 알고리즘 (Learning algorithms for big data logistic regression on RHIPE platform)

  • 정병호;임동훈
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권4호
    • /
    • pp.911-923
    • /
    • 2016
  • 빅데이터 시대에 머신러닝의 중요성은 더욱 부각되고 있고 로지스틱 회귀는 머신러닝에서 분류를 위한 방법으로 의료, 경제학, 마케팅 및 사회과학 전반에 걸쳐 널리 사용되고 있다. 지금까지 R과 Hadoop의 통합환경인 RHIPE 플랫폼은 설치 및 MapReduce 구현의 어려움으로 인해 거의 연구가 이루지 지지 않았다. 본 논문에서는 대용량 데이터에 대해 로지스틱 회귀 추정을 위한 두가지 알고리즘 즉, Gradient Descent 알고리즘과 Newton-Raphson 알고리즘에 대해 MapReduce로 구현하고, 실제 데이터와 모의실험 데이터를 가지고 이들 알고리즘 간의 성능을 비교하고자 한다. 알고리즘 성능 실험에서 Gradient Descent 알고리즘은 학습률에 크게 의존하고 또한 데이터에 따라 수렴하지 않는 문제를 갖고 있다. Newton-Raphson 알고리즘은 학습률이 불필요 할 뿐만 아니라 모든 실험 데이터에 대해 좋은 성능을 보였다.

로지스틱 회귀모형과 의사결정나무 모형을 이용한 Cochlodinium polykrikoides 적조 탐지 기법 연구 (Study on Detection Technique for Cochlodinium polykrikoides Red tide using Logistic Regression Model and Decision Tree Model)

  • 박수호;김흥민;김범규;황도현;엥흐자리갈 운자야;윤홍주
    • 한국전자통신학회논문지
    • /
    • 제13권4호
    • /
    • pp.777-786
    • /
    • 2018
  • 본 연구에서는 기계학습 기법의 한 갈래인 로지스틱 회귀모형과 의사결정나무 모형을 이용하여 인공위성 영상에서 Cochlodinium polykrikoides 적조 픽셀을 탐지하는 방법을 제안한다. 학습자료로 적조, 청수, 탁수해역에서 추출된 수출광량 분광 프로파일(918개)을 활용하였다. 전체 데이터셋의 70%를 추출하여 모형 학습에 활용하였으며, 나머지 30%를 이용하여 모형의 분류 정확도를 평가하였다. 정확도 평가 결과 로지스틱 회귀모형은 약 97%의 분류 정확도를 보였으며, 의사결정나무 모형은 약 86%의 분류 정확도를 보였다.

소셜 텍스트의 주요 정보 추출을 위한 로지스틱 회귀 앙상블 기법 (Logistic Regression Ensemble Method for Extracting Significant Information from Social Texts)

  • 김소현;김한준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제6권5호
    • /
    • pp.279-284
    • /
    • 2017
  • 빅데이터 시대를 맞이하여 텍스트마이닝과 오피니언마이닝의 활용도가 커지고 있는 시점에서 소셜 네트워크 서비스로부터 유용한 정보를 추출하는 작업은 매우 중요한 연구 주제 중 하나이다. 이에 본 논문은 블로그 HTML 문서에서 주요 본문을 찾는 로지스틱 회귀 앙상블 기법을 제안한다. 먼저, 블로그 HTML 태그에서 구조적 특징, 텍스트 특징을 추출한다. 그 다음, 블로그 HTML 문서에서 추출한 태그 특징에 로지스틱 회귀 및 앙상블 기법을 적용하여 본문을 포함하는 태그를 분류하는 모델을 구성한다. 본 연구의 중요한 발견 중 하나는 태그의 깊이 특징을 이용하여 주요 본문을 찾을 수 있다는 점이다. 다양한 주제의 국내 블로그 데이터를 이용한 실험에서 태그 분류 정확도가 99%, 본문을 찾아낸 문서의 비율이 80.5%로 평가되었다.

로지스틱 회귀모형을 이용한 호우피해 예측함수 개발 (Development of heavy rain damage prediction function using logistic regression model)

  • 최창현;김종성;김동현;이종소;김형수
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2017년도 학술발표회
    • /
    • pp.41-41
    • /
    • 2017
  • 자연재난으로 인한 피해의 대형화, 다양화, 집중화 현상이 일어나고 있으며, 이로 인한 사회 경제적 피해가 과거에 비해 계속적으로 증가하고 있다. 만약 기존에 발생하였던 재난 피해 자료와 기상현상간의 통계적 분석을 통해 재난의 발생 가능성과 피해 범위를 예측할 수 있다면, 효율적으로 재난관리를 할 수 있을 것이다. 따라서 본 연구에서는 대표적인 자연재난 피해인 호우피해를 대상으로 낙동강 권역 69개 시군구별 재해통계 자료를 기반으로 수문기상자료와의 통계적 분석을 통해 호우피해 예측함수를 개발하였다. 국민안전처에서 발간하는 재해연보 자료를 통해 호우피해 발생기간별 호우피해액 자료를 분석하였고, 이를 호우피해 예측함수의 종속변수로 사용하였다. 종관기상관측소의 시강우 자료를 분석하여 선행강우, 지속시간별 최대강우, 총강우량을 구축하였고, 시군구별 면적 등의 지역 특성을 수집하여 설명변수로 사용하였다. 기존의 피해예측함수 관련 연구에서 제기되었던 피해액이 큰 부분에서 예측력이 떨어지는 문제를 해결하기 위해, 피해액이 큰 집단과 피해액이 작은 집단을 구분하여 함수식을 개발할 수 있는 로지스틱 회귀모형을 사용하여 호우피해 예측함수를 개발하였다. 개발된 호우피해 예측함수의 NRMSE는 6.34~18.79%로 나타났으며, 대부분 호우피해를 적절하게 예측하는 것으로 나타났다. 본 연구에서는 호우피해액이 큰 집단과 피해액이 작은 집단으로 구분할 수 있는 로지스틱 회귀모형을 이용하여 낙동강 권역의 시군구별 호우피해 예측함수를 개발하였다. 본 연구에서 제시한 시군구별 호우피해 예측함수를 이용하여 사전에 호우피해를 예측할 수 있다면 호우피해액이 크게 줄어들 것으로 사료된다.

  • PDF

보조 혼합 샘플링을 이용한 베이지안 로지스틱 회귀모형 : 당뇨병 자료에 적용 및 분류에서의 성능 비교 (Bayesian logit models with auxiliary mixture sampling for analyzing diabetes diagnosis data)

  • 이은희;황범석
    • 응용통계연구
    • /
    • 제35권1호
    • /
    • pp.131-146
    • /
    • 2022
  • 로지스틱 회귀 모형은 다양한 분야에서 범주형 종속 변수를 예측하거나 분류하기 위한 모형으로 많이 사용되고 있다. 로지스틱 회귀 모형에 대한 전통적인 베이지안 추론 기법으로 메트로폴리스-헤이스팅스 알고리즘이 많이 사용되었지만, 수렴의 속도가 느리고 제안 분포에 대한 적절성을 보장하기 어렵다. 따라서, 본 논문에서는 모형에 대한 베이지안 추론 방법으로 Frühwirth-Schnatter와 Frühwirth (2007)에서 제안된 보조 혼합 샘플링(auxiliary mixture sampling) 기법을 사용하였다. 이 방법은 모형의 선형성과 정규성을 만족시키기 위해 두 단계에 거쳐 잠재변수를 도입하며, 결과적으로 깁스 샘플링을 통한 추론을 가능하게 한다. 제안한 모형의 효과를 검증하기 위해 2020년 지역사회 건강조사 당뇨병 자료에 적용하여 메트로폴리스-헤이스팅스를 사용한 모형과 추론 결과를 비교 분석하였다. 또한, 다양한 분류 모형들과 본 논문에서 제안한 모형의 분류 성능을 비교한 결과 제안된 모형이 분류 분석에서도 좋은 성능을 보이는 것을 확인할 수 있었다.

밀키트 제품 리뷰 데이터를 이용한 텍스트 분석 사례 연구 (A Case Study on Text Analysis Using Meal Kit Product Review Data)

  • 최혜선;연규필
    • 한국콘텐츠학회논문지
    • /
    • 제22권5호
    • /
    • pp.1-15
    • /
    • 2022
  • 본 연구에서는 밀키트 제품 평가에 영향을 미치는 요인을 파악하기 위하여 밀키트 제품 리뷰 데이터에 대한 텍스트 분석을 수행하였다. 분석에 사용된 자료는 네이버 쇼핑 사이트에서 판매되고 있는 밀키트 제품에 대한 리뷰 334,498건을 스크래핑하여 수집하였다. 텍스트 자료에 대한 전처리 과정을 거쳐 제품 리뷰에 빈번히 등장하는 단어를 추출한 후 워드클라우드 및 감성분석을 수행하였다. 감성분석시 제품 리뷰에 대한 긍정 또는 부정의 레이블은 평점을 기준으로 설정하여 반응변수로 활용하였고, 입력변수로는 단어들의 정규화 단어빈도-역문서빈도 (TF-IDF) 값을 구하여 사용하였다. 리뷰의 극성을 판별하는 모형으로는 로지스틱 회귀모형, 서포트 벡터 머신, 랜덤 포레스트 알고리즘을 적용하였으며, 분류 정확도 및 해석가능성을 고려하여 로지스틱 회귀모형을 최종 모형으로 선택한 후 제품 범주별 감성분석 모형으로 사용하였다. 각 제품 범주별로 도출된 로지스틱 회귀모형으로부터 밀키트 제품 구매 후 긍·부정의 감성을 발생시킨 주요 요인들을 밝혀내었다. 결과적으로 텍스트 분석을 통해 밀키트 제품 개발 시 특정 카테고리, 메뉴, 재료에 대한 긍정 요소를 극대화하고 부정적 위험 요소를 제거할 수 있는 기반을 제공할 수 있음을 확인하였다.

2단계 사례-대조자료를 위한 로지스틱 회귀모형의 추론 (Estimation of Logistic Regression for Two-Stage Case-Control Data)

  • 신미영;신은순
    • 응용통계연구
    • /
    • 제13권2호
    • /
    • pp.237-245
    • /
    • 2000
  • 이 논문에서는 2단계 계획 하에서의 사례-대조 자료를 로지스틱 회귀 모형에 적합시키고 WESML방법으로 모수를 추정하며 추정량의 점근분포를 찾는다. 또한 WESML,방법과 CML 방법으로 얻은 모수의 추정량과 표준오차를 실제 자료를 이용하여 비교한다.

  • PDF

합류하는 두 항공기간 도착순서 결정에 대한 로지스틱회귀 예측 모형 (Prediction Model with a Logistic Regression of Sequencing Two Arrival Flows)

  • 정소연;이금진
    • 한국항공운항학회지
    • /
    • 제23권4호
    • /
    • pp.42-48
    • /
    • 2015
  • This paper has its purpose on constructing a prediction model of the arrival sequencing strategy which reflects the actual sequencing patterns of air traffic controllers. As the first step, we analyzed a pair-wise sequencing of two aircraft entering TMA from different entering points. Based on the historical trajectory data, several traffic factors such as time, speed and traffic density were examined for the model. With statistically significant factors, we constructed a prediction model of arrival sequencing through a binary logistic regression analysis. With the estimated coefficients, the performance of the model was conducted through a cross validation.