• 제목/요약/키워드: 범주형

검색결과 548건 처리시간 0.022초

전자상거래에 적용 가능한 고객분류기 (A Customer Classifier for EC Mall)

  • 김선철;이준욱;이용준;류근호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (1)
    • /
    • pp.138-140
    • /
    • 1999
  • 분류기법은 과거데이터를 분석하여 새로운 데이터에 대한 예측에 사용되며, 결정트리 알고리즘을 많이 사용한다. 따라서, 이 기법은 전자상거래에서 DB 마케팅을 위해 데이터베이스에 저장되어 있는 고객데이터를 분석하여 암시적인 고객들의 행위규칙을 찾고, 예측하기 위하여 사용할 수 있다. 기존의 분류알고리즘들은 전자상거래에서 일반적인 연속형 고객데이터를 처리하는데는 많은 문제점을 가지고 있다. 이러한 문제를 해결하기 위하여 연속형 데이터를 범주형 데이터로 변환하는 알고리즘을 구현하였다. 이 논문은 전자상거래에 적용하기 위한 고객분류기로서 ID3 알고리즘에 1차원 클러스터링알고리즘을 결합하여 사용한다.

  • PDF

지분구조의 다가자료에 관한 모형

  • 최재성
    • Communications for Statistical Applications and Methods
    • /
    • 제4권2호
    • /
    • pp.377-384
    • /
    • 1997
  • 본 논문은 지분구조를 갖는 범주형 자료가 명목상의 다가자료일 때, 지분구조의 각 단계에서 정의될 수 있는 지분변수들의 유형과 지분변수들의 관심확률들에 영향을 미치는 변수들을 고려한 자료분석 모형들을 제시하고 있다.

  • PDF

범주형 자료에서 경험적 베이지안 오분류 분석 (Empirical Bayesian Misclassification Analysis on Categorical Data)

  • 임한승;홍종선;서문섭
    • 응용통계연구
    • /
    • 제14권1호
    • /
    • pp.39-57
    • /
    • 2001
  • 범주형 자료에서 오분류는 자료를 수집하는 과정에서 발생될 수 있다. 오분류되어 있는 자료를 정확한 자료로 간주하여 분석한다면 추정결과에 편의가 발생하고 검정력이 약화되는 결과를 초래하게 되며, 정확하게 분류된 자료를 오분류하고 판단한다면 오분류의 수정을 위해 불필요한 비용과 시간을 낭비해야 할 것이다. 따라서 정확하게 분류된 표본인지 오분류된 표본인지를 판정하는 것은 자료를 분석하기 전에 이루어져야할 매우 중요한 과정이다. 본 논문은 I$\times$J 분할표로 주어지는 범주형 자료에서 두 변수 중 하나의 변수에서만 오분류가 발생되는 경우에 오분류 여부를 검정하기 위해서 오분류 가능성이 없는 변수에 대한 주변합은 고정시키고, 오분류 여부를 가능성이 있는 변수의 주변합을 Sebastiani와 Ramoni(1997)가 제안한 Bound와 외부정보로 표현되는 Collapse의 개념, 그리고 베이지안 방법을 확장하여 자료에 적합한 모형과 사전정보를 고려한 사전모수를 다양하게 설정하면서 재분류하는 연구를 하였다. 오분류에 대한 정보를 얻기 위해서 Tenenbein(1970)에 의해 연구된 이중추출법을 이용하여 오분류 검정을 위한 새로운 통계량을 제안하였으며, 제안된 오분류 검정통계량에 관한 분포를 다양한 모의실험을 통하여 연구하였다.

  • PDF

$2{\times}2$ 분할표에서 동적 그래픽스로 구현된 겹쳐진 모자익 그림을 이용한 범주형 자료의 연관성 측정 (Measurement of Association of Categorical Data Using The Overlapped Mosaic Plot : Dynamic Graphics Approach for $2{\times}2$ Contingency Table)

  • 윤여창;오민권
    • Journal of the Korean Data and Information Science Society
    • /
    • 제10권2호
    • /
    • pp.457-464
    • /
    • 1999
  • Hartigan과 Kleiner(1981)는 분할표 자료에서 주변합의 비율에 대한 각 칸의 관측도수의 비율을 사각형의 면적으로 표현한 모자익 그림을 제안하였는데, 본 연구에서는 $2{\times}2$ 분할표에서 관측도수와 기대도수에 대한 두 개의 모자익 그림을 겹쳐서 나타낸 겹쳐진 모자익 그림을 이용한 범주형 자료의 연관성을 측정하고자 한다. 동적 그래픽스기법으로 개선시킨 겹쳐진 모자익 그림을 이용하면 범주형 변수의 연관성을 시각적으로 쉽게 파악할 수 있는데, 이러한 그림은 자료분석이나 통계 패키지에서 제공되고 있지 않다. 겹쳐진 모자익 그림은 변수들의 종속성 여부, 관측도수와 기대도수의 차이등을 제시된 통계량과 함께 시각적으로 파악할 수 있기 때문에 모형 설정시 매우 유용한 정보를 얻을 수 있다.

  • PDF

효율적인 수자원관리를 위한 범주형 확률장기예보의 예측력 평가 및 정량화 (Assessment of predictability of categorical probabilistic long-term forecasts and its quantification for efficient water resources management)

  • 손찬영;정예림;한수희;조영현
    • 한국수자원학회논문집
    • /
    • 제50권8호
    • /
    • pp.563-577
    • /
    • 2017
  • 기후변화로 인해 강수의 불확실성이 증가하는 현 시점에서 효율적인 물 관리를 위한 계절예측 및 기상 예보의 활용은 필수적이다. 본 연구에서는 기상청에서 2014년 6월부터 시행하고 있는 범주형 확률장기예보를 Hit Rate, Reliability Diagram, Relative Operating Curve (ROC)의 평가지표를 활용하여 예측력을 검증하였고, 추가적으로 확률예보를 활용하여 정량적인 예측 강수량을 생산하는 기법을 제안하였다. 확률장기예보의 예측력 검증결과 최대 48%의 예측력을 갖는 것을 확인할 수 있었다. 확률예보를 활용하여 예측 강수량을 추정한 결과, 정량적으로 관측 자료와 유사하게 모의되는 것을 확인할 수 있었으며 예측 적합도 평가결과 100%의 정확도를 가진 예보의 경우 최대 0.98, 실제 예보의 경우 최대 0.71의 상관계수를 보였다. 본 연구에서 제안하는 확률예보를 활용한 예측 강수량 추출기법은 강수의 불확실성을 고려한 물 관리를 가능하게 해줄 것으로 판단되며 효율적인 수자원 장기 이수계획 및 저수지 운영의 의사결정지원 등에 활용 가능할 것으로 기대된다.

중학교 1학년 학생들의 자유 탐구보고서에 나타난 변인의 유형 (The Nature of Variables Represented in the Titles of 7th Graders' Inquiry Report)

  • 김재우;오원근;박승재
    • 한국과학교육학회지
    • /
    • 제18권3호
    • /
    • pp.297-301
    • /
    • 1998
  • 학생들이 무엇을 탐구로 생각하는지 알아보기 위하여 학생들이 여름 방학 과제로 제출한 자유 탐구보고서의 제목을 분석하였고 제목 속에 종속 변인과 독립 변인이 포함되어 있느냐 하는 것과 변인들의 성질(범주형, 연속형)을 준거로 탐구 보고서 제목을 9가지 유형을 나눌 수 있었다. 연구 대상은 서울 소재 중학교 1학년 4개 학급 141명으로 남녀 혼성이다. 이러한 유형들의 빈도를 조사한 결과 대부분의 학생들이 보고서 제목에 변인을 명확하게 기술하지 않으며, 변인을 기술한 학생들도 주로 범주형의 변인만을 기술함을 알 수 있었다.

  • PDF

2007년 한국프로야구에서 도루성공모형 (Steal Success Model for 2007 Korean Professional Baseball Games)

  • 홍종선;최정민
    • 응용통계연구
    • /
    • 제21권3호
    • /
    • pp.455-468
    • /
    • 2008
  • 야구경기의 승패에 영향을 미치는 중요한 요인으로 간주되는 도루의 성공모형을 개발하기 위하여 2007년 한국프로야구 기록자료를 바탕으로 로지스틱 회귀모형들을 제안한다. 또한 한국프로야구의 도루성공과 실패에 대해 판별분석을 실시하고 분류 기준값을 결정하였으며, 판별분석 분류표를 이용해 로지스틱 회귀분석과 판별분석의 효율성을 비교한다. 전체적인 모형의 정확도는 로지스틱 회귀모형이 판별분석보다 더 좋은 것으로 나타났고, 연속형 자료를 범주형으로 변환한 자료에 대한 로지스틱 회귀모형도 유사한 효율성을 갖고있다.

TeGCN:씬파일러 신용평가를 위한 트랜스포머 임베딩 기반 그래프 신경망 구조 개발 (TeGCN:Transformer-embedded Graph Neural Network for Thin-filer default prediction)

  • 김성수;배준호;이주현;정희주;김희웅
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.419-437
    • /
    • 2023
  • 국내 씬파일러(Thin Filer)의 수가 1200만명을 넘어서며, 금융 업계에서 씬파일러의 신용을 정확히 평가하여 우량고객을 선별해 대출을 공급하는 시도가 많아지고 있다. 특히, 차주의 신용정보에 존재하는 비선형성을 반영하여 채무불이행을 예측하기 위해서 다양한 머신러닝 알고리즘을 활용한 연구가 진행되고 있다. 그 중 그래프 신경망 구조(Graph Neural Network)는 일반적인 신용정보 외에 대출자 간의 네트워크 정보를 반영할 수 있다는 점에서 데이터가 부족한 씬파일러의 채무 불이행 예측에서 주목할 만하다. 그러나, 그래프 신경망을 활용한 기존의 연구들은 신용정보에 존재하는 다양한 범주형 변수를 적절히 처리하지 못했다는 한계가 있었다. 이에 본 연구는 범주형 변수의 맥락적 정보를 추출할 수 있는 트랜스포머 메커니즘(Transformer mechanism)과 대출자 간 네트워크 정보를 반영할 수 있는 그래프 합성곱 신경망(Graph Convolutional Network)를 결합하여 효과적으로 씬파일러의 채무 불이행 예측이 가능한 TeGCN (Transformer embedded Graph Convolutional Network)를 제안한다. TeGCN는 일반 대출자 데이터셋과 씬파일러 데이터셋에 대하여 모두 베이스 라인 모델 대비 높은 성능을 보였으며, 특히 씬파일러 채무 불이행 예측에 우수한 성능을 달성했다. 본 연구는 범주형 변수가 많은 신용정보와 데이터가 부족한 씬파일러의 특성에 적합한 모델 구조를 결합하여 높은 채무 불이행 예측 성능을 달성했다는 시사점이 있다. 이는 씬파일러의 금융소외문제를 해결하고 금융업계에서 씬파일러를 대상으로 추가적인 수익을 창출하는데 기여할 수 있을 것이다.

피해산정형 전과정평가 기법을 적용한 콘크리트 압축강도별 환경영향 비교 분석 연구 (A Comparative Study on the Environmental Impacts by Concrete Strength Using End-point LCA methodology)

  • 김성희;태성호;채창우
    • 콘크리트학회논문집
    • /
    • 제26권4호
    • /
    • pp.465-474
    • /
    • 2014
  • 콘크리트 구조물이 전생애주기 동안 발생시키는 오염물질의 종류와 발생강도를 정량적으로 분석하고 이로 인한 인간과 생태계, 지구환경 및 자원 고갈 측면에 미치는 피해를 고려하기 위하여 피해산정형 전과정평가 기법을 적용한 콘크리트 구조물의 환경영향평가를 실시하였다. 평가대상은 25층 공동주택의 벽체 구조물이며, 동일한 기능을 수행하기 위한 콘크리트 구조물의 압축강도를 일반강도에서 고강도까지 24 MPa, 40 MPa, 60 MPa로 각각 변화시켜 평가하였다. 평가기간은 50년으로 제한하였고, 생애주기는 원료 채취부터 투입원료의 생산, 구조물의 시공, 사용 및 폐기 단계를 포함시켰다. 피해산정형 전과정평가는 전과정 영향평가(LCIA) 단계 중 정규화와 가중화 단계에서 실시되는데, 특성화 단계에서 산출된 환경영향범주 결과를 인체건강, 생태계의 질, 기후변화 및 자원고갈 관점에서 단일지수화 시킬 수 있는 모델을 제시한다. 평가 결과, 콘크리트 구조물의 환경영향은 여러 영향범주 중 지구온난화, 호흡계 무기물질, 및 비재생 에너지원의 사용으로 인한 영향이 전체 환경부하의 99% 이상을 차지하는 것으로 나타났으며, 압축강도의 변화에 따라 모든 환경영향범주의 값이 일괄적으로 증가 또는 감소하는 것이 아니기 때문에 전체적인 환경영향을 살펴보기 위해서는 종말점 수준의 피해산정형 평가모델을 적용하여 모든 환경영향범주를 종합적으로 고려할 필요가 있다.

스플라인을 이용한 스코어 카드

  • 최민성;구자용;최대우
    • 한국통계학회:학술대회논문집
    • /
    • 한국통계학회 2003년도 추계 학술발표회 논문집
    • /
    • pp.285-288
    • /
    • 2003
  • 신용위험 관리에서 필수적인 방법론이 스코어 카드이며 이를 작성하는 데에 있어서 널리 쓰이는 방법 중의 하나가 로지스틱 회귀분석이다. 본 논문에서는 로지스틱 회귀 방법에 기초한 스플라인 방법론을 소개하고자 한다. 최종 스코어 카드는 연속형 변수를 범주형 변수화 하므로 조각 선형 스플라인을 채택하였다. 모의 실험을 통하여 제안된 방법의 성 능을 규명 하였다.

  • PDF