• 제목/요약/키워드: 분류함수

검색결과 894건 처리시간 0.043초

퍼지논리함수를 이용한 방문객 분류 (Classification of Visitors Using Fuzzy Logic Function)

  • 최경옥;손창식;정환묵
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2000년도 추계학술대회 학술발표 논문집
    • /
    • pp.15-18
    • /
    • 2000
  • 인터넷을 포함한 여러 가지 기술이 발전됨에 따라 인터넷 광고 시장도 두드러지게 성장하고 있다. 무한한 가상 공간과 디지털이 갖는 신속성, 편리함 등 다양한 서비스를 제공할 수 있는 인터넷 기반의 모든 서비스는 데이터베이스로 축적된다. 여기에 애매함과 불확실성을 가지는 실세계를 표현하기 위해 퍼지논리함수를 이용하여 효율적으로 방문객을 분류하는 방법을 제시한다.

  • PDF

RBFN을 이용한 음소인식에 관한 연구 (A Study on the Phoneme Recognition using RBFN)

  • 안종영
    • 한국음향학회:학술대회논문집
    • /
    • 한국음향학회 1995년도 제12회 음성통신 및 신호처리 워크샵 논문집 (SCAS 12권 1호)
    • /
    • pp.88-91
    • /
    • 1995
  • 개층형 신경망은 교사신호들의 학습으로 원하는 입출력간의 매핑을 할 수 있으므로 패턴분류를 위해 사용되어왔다. 본 논문은 계층형 신경망의 일종인 RBFN 중 GPFN 과 PNN으로 한국어 음소인식을 수행하였다. RBFN 의 구조는 계층형 신경망과 유사하나 차이점으로는 은닉층에서 시그모이드 함수, 참조벡터 및 학습알고리듬의 선택이 다르다. 특히 PNN 의 시그모이드 함수는 지수를 포함한 함수들로 대체되며 학습없이 패턴을 분류하므로 계산시간이 빠르게 수행된다. 본 실험에서는 한국어 단음절에서 모음과 자음을 추출하여 음소인식을 수행하였다. 실험 결과 학습과 평가데이타에 의한 인식률은 계층형 신경망과 비교하여 향상 되었으며, Hybrid 구성에 의한 실험에서도 항상된 인식률을 얻을 수 있었다.

  • PDF

불균형의 대용량 범주형 자료에 대한 분할-과대추출 정복 서포트 벡터 머신 (A divide-oversampling and conquer algorithm based support vector machine for massive and highly imbalanced data)

  • 방성완;김재오
    • 응용통계연구
    • /
    • 제35권2호
    • /
    • pp.177-188
    • /
    • 2022
  • 일반적으로 support vector machine (SVM)은 높은 수준의 분류 정확도를 제공함으로써 다양한 분야의 분류분석에서 널리 사용되고 있다. 그러나 SVM은 최적화 계산식이 이차계획법(quadratic programming)으로 공식화되어 많은 계산 비용이 필요하므로 대용량 자료의 분류분석에는 그 사용이 제한된다. 또한 불균형 자료(imbalanced data)의 분류분석에서는 다수집단에 편향된 분류함수를 추정함으로써 대부분의 자료를 다수집단으로 분류하여 소수집단의 분류 정확도를 현저히 감소시키게 된다. 이러한 문제점들을 해결하기 위하여 본 논문에서는 다수집단을 분할(divide)하고, 소수집단을 과대추출(oversampling)하여 여러 분류함수들을 추정하고 이들을 통합(conquer)하는 DOC-SVM 분류기법을 제안한다. 제안한 DOC-SVM은 분할정복 알고리즘을 다수집단에 적용하여 SVM의 계산 효율을 향상시키고, 과대추출 알고리즘을 소수집단에 적용하여 SVM 분류함수의 편향을 줄이게 된다. 본 논문에서는 모의실험과 실제자료 분석을 통해 제안한 DOC-SVM의 효율적인 성능과 활용 가능성을 확인하였다.

주성분 분석법과 선형판별 분석법을 이용한 최적화된 방사형 기저 함수 신경회로망 분류기의 설계 (Design of Optimized Radial Basis Function Neural Networks Classifier with the Aid of Principal Component Analysis and Linear Discriminant Analysis)

  • 김욱동;오성권
    • 한국지능시스템학회논문지
    • /
    • 제22권6호
    • /
    • pp.735-740
    • /
    • 2012
  • 본 연구에서는 주성분 분석법 및 선형 판별 분석법을 이용한 다항식 방사형 기저 함수 신경회로망 분류기의 설계 방법론을 소개한다. 주성분 분석법과 선형판별 분석법을 사용하여 주어진 데이터의 정보 손실을 최소화한 특징데이터를 생성하고 이를 다항식 방사형 기저함수 신경회로망의 입력데이터로 사용한다. 방사형 기저 함수 신경회로망의 은닉층은 FCM 클러스터링 알고리즘으로 구성되며 연결가중치는 1차 선형식을 사용하였다. 최적의 분류기 설계를 위해서 최근에 제안된 Artificial Bee Colony(ABC) 최적화 알고리즘을 사용하여 구조 및 파라미터를 동조하였다. ABC 알고리즘을 통해 주성분 분석법과 선형판별 분석법의 고유벡터의 수 및 FCM 클러스터링 알고리즘의 퍼지화 계수등의 파라미터를 동조한다. 제안된 분류기는 대표적인 Machine Learning(ML) 데이터를 사용하여 성능을 평가하며 기존 분류기와 성능을 비교한다.

2차 텐서 기반 유사도 함수를 이용한 영상 데이터 분류 (Image Data Classification using a Similarity Function based on Second Order Tensor)

  • 윤동우;이관용;박혜영
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권8호
    • /
    • pp.664-672
    • /
    • 2009
  • 최근 영상 데이터의 효율적인 표현 및 처리를 위해 텐서를 사용하는 연구가 관심을 모으고 있다. 본 연구에서는 2차 텐서로 표현된 데이터를 효과적으로 분류하기 위한 시스템을 개발하는 것을 목적으로 한다. 이를 위해 먼저 일반적인 벡터 데이터에 대해 개발되어진 클래스 요인과 환경 요인으로 이루어진 데이터 생성 모델을 확장하여 2차 텐서로 표현된 영상에 적합한 데이터 생성 모델을 정의하고, 이에 적합한 유사도 함수를 제안하였다. 제안하는 유사도 함수는 행렬정규분포를 이용하여 환경 요인의 확률분포를 추정함으로써 얻을 수 있다. 여러 벤치마크 데이터들을 이용하여 실험한 결과 2차 텐서를 사용함으로써 벡터 형태의 표현방식을 사용하는 것에 비해 분류율이 향상되었음을 확인하였다. 또한 제안하는 유사도 함수가 다른 기존의 유사도 함수에 비해 영상 데이터에 적합함을 확인할 수 있었다.

VUS와 HUM 최적화를 이용한 선형함수의 모수추정 (Parameter estimation of linear function using VUS and HUM maximization)

  • 홍종선;원치환;정동길
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권6호
    • /
    • pp.1305-1315
    • /
    • 2015
  • ROC 곡선을 구성하는 한 개의 스코어 변수로 이루어진 분류모형을 확장하여 선형 스코어의 함수인 리스크 스코어를 고려하고, 선형 스코어의 계수를 추정하기 위한 방법으로 AUC를 최대화하는 방법을 사용한다. 이런 AUC 접근방법으로 구한 스코어의 계수 추정량은 로지스틱모형을 이용한 선형 스코어의 모수의 최대가능도 추정량보다 자료가 로지스틱 가정이 맞지 않는 일반적인 상황에서도 좋은 추정 결과를 보인다. 본 연구에서는 다항범주로 분류되어 현실적인 판별 및 예측 상황을 고려하여 AUC 접근방법을 확장한 VUS와 HUM 접근방법을 제안한다. 연결함수로는 로짓, complementary log-log와 로짓을 변형한 함수의 세 종류와 그리고 다양한 분류점의 분포인 경우에 대하여도 모의실험을 실시하였다. 본 논문에서는 다항범주 판별결과에 대하여 VUS와 HUM 접근방법도 AUC 접근방법과 유사하게 다양한 연결함수에 대하여 로지스틱모형 추정방법보다 동등하거나 더 나은 모수추정 결과를 보이는 것을 확인하였다.

대안적인 분류기준: 오분류율곱 (Alternative Optimal Threshold Criteria: MFR)

  • 홍종선;김효민;김동규
    • 응용통계연구
    • /
    • 제27권5호
    • /
    • pp.773-786
    • /
    • 2014
  • 본 연구는 ROC 곡선에서 형성되는 면적 형태로 나타나는 분류정확도기준인 오분류율곱(multiplication of false rates; MFR)를 제안한다. MFR 기준과 다른 기준로부터 구한 최적분류점의 분류성과에 대하여 비교 분석한다. 다양한 분포함수에 대하여 최적분류점을 구하고 이에 대응하는 FNR과 FPR을 비교하면서 MFR의 특징과 장점을 유도한다. 일반적인 비용함수를 바탕으로 분류점에 대한 비용비율을 다양한 분류기준을 이용하여 구한다. 비용곡선에 대한 비용비율의 관계를 정리하여 MFR 기준의 장점을 탐색한다. MFR 기준의 정의를 다차원 ROC 분석으로 확장하고 다차원의 다른 분류기준과의 관계를 설명하면서 토론한다.

보건 데이터 활용에 관한 연구(II) (A study of the Health Data Application)

  • 임기영;조은희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2001년도 추계학술발표논문집 (하)
    • /
    • pp.1213-1216
    • /
    • 2001
  • 정규분포 등의 가정이 곤란한 복잡한 밀도 분포에 대해 데이터의 선험적인 지식 없이 해석하기 위해 다수의 항목이 되고 복잡한 밀도 분포를 가진 데이터를 보다 소수의 단순한 밀도 분포가 되는 그룹으로 분류하는 방법을 나타내었고 데이터를 그룹으로 분류하는데 표본에 의한 분류와 항목에 의한 분류를 할 수 있다. 선험지식을 사용하지 않고 데이터를 분류하면 Parzen의 창함수에 의한 추정과 대수우도에 의한 평가함수를 사용하는 것으로 복잡한 형상을 가진 밀도분포도 선험지식 없이 해석이 가능하다. 표본의 밀도 분포와 항목의 밀도분포를 나타내기 위하여 다수의 밀도 분포의 합과 곱의 형으로 전개하는 방법을 보였고 제안하는 방법을 의도적으로 생성한 데이터에 적용하여 원래의 밀도분포에 따라 분류결과를 얻을 수 있었다.

  • PDF

사용자 정의 함수를 이용한 BERT 와 LSTM 기반 랜섬웨어 패밀리 분류 방법 연구 (A Study on BERT and LSTM-based Ransomware family classification methods using User-defined functions)

  • 김진하;최두섭;임을규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.377-380
    • /
    • 2024
  • 최근 악성코드 제작 기술의 고도화에 따라 악성코드의 변종이 전세계적으로 급격히 증가하고 있다. 이러한 대량의 악성코드를 신속하고 정확하게 탐지하기 위한 새로운 악성코드 탐지 기술에 관한 연구가 절실히 필요하다. 본 연구는 기존의 정적 분석과 동적 분석 방법의 한계를 극복하기 위한 방법을 제안한다. 신속한 데이터 수집을 위하여 정적 분석을 이용하여 사용자 정의 함수의 어셈블리어 데이터를 수집하고 BERT 로 임베딩하고 LSTM 으로 악성코드를 분류하는 모델을 제안한다. 분류 데이터는 행위가 정확한 랜섬웨어를 사용하였고 총 세 종류의 랜섬웨어를 분류하였고 다중 분류의 결과로 85.5%의 분류 정확도를 달성하였다.

프라이버시를 보존하는 군집화 (Privacy Preserving Clustering)

  • 유현진;김민호;라마크리쉬나
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.473-476
    • /
    • 2004
  • 본 논문에서는 프라이버시를 침해 하지 않는 데이터 마이닝에 대해 다룬다. 방대한 데이터에서 유용한 정보를 추출하는 데이터 마이닝분야에서 데이터로부터 프라이버시 보존의 중요성이 부각되고 있다. 그래서 프라이버시의 침해를 막기 위한 방법으로 실제 데이터를 사용하지 않고 잡음이 들어간 데이터를 사용한다. 그리고 프라이버시를 침해하지 않기 위해 잡음이 들어간 데이터로부터 데이터의 확률 밀도 함수(PDF)만을 복원한다. 이렇게 복원된 확률 밀도 함수만을 이용하여 데이터 마이닝기술, 예를 들면 분류화에 곧바로 적용함으로써 프라이버시를 보존하는 것이다. 하지만 분류화에 사용되는 데이터의 1차원적인 확률 밀도 함수만 가지고는 군집화에 사용하기가 부적절하다. 따라서 본 논문에서는 군집화를 하기 위해 잡음이 들어간 데이터로부터 결합 확률 밀도 함수(Joint PDF)를 복원하고, 복원된 결합 확률 밀도 함수만 가지고 군집화를 할 수 있는 방법을 다룬다.

  • PDF