• 제목/요약/키워드: 테이블 분류

검색결과 132건 처리시간 0.026초

블룸 필터를 사용한 길이에 대한 2차원 이진검색 패킷 분류 알고리즘 (Two-Dimensional Binary Search on Length Using Bloom Filter for Packet Classification)

  • 최영주;임혜숙
    • 한국통신학회논문지
    • /
    • 제37권4B호
    • /
    • pp.245-257
    • /
    • 2012
  • 패킷 분류는 인터넷 라우터가 수행하는 가장 중요한 기능 중 하나로써 들어오는 모든 패킷을 선 속도로 처리하기를 요구한다. 영역분할을 사용한 사분트라이 구조에 길이 별 이진 검색을 적용한 알고리즘은 2차원 필드를 동시에 검색하면서 검색영역을 반으로 줄여나갈 수 있으므로 매우 효율적인 구조이다. 하지만 트라이의 레벨에 노드가 없는 경우에도 해시 테이블에 접근하는 문제점이 존재한다. 따라서 본 논문에서는 해시 메모리로의 불필요한 접근을 줄이기 위해서 영역분할을 사용한 사분 트라이의 길이별 이진 검색에 블룸 필터를 적용하는 패킷분류 구조를 제안한다. 현재 사용되는 ACL, FW, IPC 룰 타입의 1000, 5000, 10000개의 룰 셋으로 실험한 결과, 블룸 필터를 적용함으로써 검색 성능이 21~33%까지 향상되는 결과를 얻었다.

소셜 복마킹 시스템의 스패머 탐지를 위한 기계학습 기술의 성능 비교 (Comparative Study of Machine learning Techniques for Spammer Detection in Social Bookmarking Systems)

  • 김찬주;황규백
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제15권5호
    • /
    • pp.345-349
    • /
    • 2009
  • 소결 북마킹(social bookmarking) 시스템은 사용자가 북마크를 저장하고 공유할 수 있는 플랫폼을 제공하는 웹 기반(web-based) 시스템으로 폭소노미(folksonomy)를 이용한 대표적인 웹2.0 서비스이다. 소셜 북마킹 시스템에서의 스패머(spammer)란 자신들의 이익을 위해서 시스템을 고의적으로 악용하는 사람을 말한다. 스패머는 많은 양의 잘못된 정보를 시스템에 포스팅(posting)하기 때문에 전체 소셜 북마킹 시스템의 리소스(resource)를 쓸모없게 만들어 버린다. 따라서, 스패머를 빠른 시간 안에 탐지하고 그들의 접근을 차단하는 것은 시스템의 붕괴를 방지하기 위해 중요하다. 본 논문에서는 사용자가 사용한 태그에 대한 데이터를 추출하여, 사용자가 스패머 인지 아닌지를 예측하는 모델을 기계학습의 다양한 방법을 적용하여 생성한 후 그 성능을 비교해 보았다. 구체적으로, 결정테이블 (decision table, DT), 결정트리(decision tree, ID3), 나이브 베이즈 분류기($na{\ddot{i}}ve$ Bayes classifier), TAN(tree-augmented $na{\ddot{i}}ve$ Bayes) 분류기, 인공신경망(artificial neural network)의 방법을 비교하였다. 그 결과 AUC(area under the ROC curve)와 모델 생성시간을 고려하였을 때 나이브 베이즈 분류기가 가장 만족할 만한 성능을 보였다. 나이브 베이즈 분류기의 분류 결과가 가장 좋았던 이유는 성능을 비교하는 데 사용된 AUC가 결정트리 계열의 방법(ID3 등)보다 나이브 베이즈 분류기에서 일반적으로 높게 나오는 경향이 있다는 것과, 스패머 탐지 문제가 선형으로 분리 가능한 경우(lineally separable)와 유사할 가능성이 높기 때문으로 여겨진다.

Improved Method for Learning Context-Free Grammar using Tabular representation

  • Jung, Soon-Ho
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권2호
    • /
    • pp.43-51
    • /
    • 2022
  • 이 논문은 문법적 추론에서 유전자 알고리즘의 진화대상으로 테이블 표현(Tabular representation: TBL)을 이용한 문맥자유 문법(Context-free grammar: CFG)을 학습하는 기존의 방법을 개선하여 더 효율적인 결과를 얻은 그 방법과 실험 결과를 제시한다. 이 논문에서 소개하는 개선된 점은 두가지로, 첫째는 적합도 함수를 긍정과 부정의 예들에 대한 학습 평가를 동시에 반영하도록 수식을 개선하고 둘째는 긍정적 학습 예들로부터 생성된 TBL들에 대응되는 파티션(partition)들을 학습 문자열의 크기별로 분류하여 부류별 진화 과정을 진행하며 그 성공률에 따라 구성 비율을 조정하여 다음세대에 생존에 연계하는 학습 방법을 적용한다. 이 개선점들은 학습 예들의 크기에 따른 TBL의 크기가 여러 개체들 사이의 교배와 일반화 단계에서 복잡성과 어려움을 해결하여 기존 방법보다도 좋은 효율을 제공한다. 이 연구는 기존 방법에서 제안된 언어들로 실험하고 그 결과는 기존 방법보다 같은 성공률을 갖는 상태에서 학습 완성의 평균 세대수가 적게 걸리는 다소 빠른 세대속도의 결과를 보여준다. 앞으로 이 방법은 확장된(extended) CYK에 시도할 수 있으며 더 나아가 좀 더 복잡한 파싱 테이블(parsing table)에도 적용할 가능성을 제시한다.

시공간 엔트로피 임계법과 카메라 패닝 보상을 이용한 객체 기반 동영상 분할 (Object-Based Video Segmentation Using Spatio-temporal Entropic Thresholding and Camera Panning Compensation)

  • 백경환;곽노윤
    • 한국산학기술학회논문지
    • /
    • 제4권3호
    • /
    • pp.126-133
    • /
    • 2003
  • 본 논문은 비디오 시퀸스에 카메라 패닝 보상과 2차원 시공간 엔트로피 임계법을 적용하여 추출한 객체포함영역을 대상으로 영상 분할을 수행하는 이동객체 분할 기법에 관한 것이다. 우선, 웨이블렛 변환에 의해 구성한 피라미드 계층 구조상에서 카메라 패닝 벡터를 추정하여 전역 움직임을 보상한다. 이후, 전역 움직임이 보상된 기준영상을 대상으로 각 프레임간에서 2차원 시공간 엔트로피 임계법을 적용하여 이동 객체가 포함될 가능성이 있는 영역을 블록 단위로 추출한다 다음으로, 2차원 시공간 엔트로피 임계법에 의해 분류된 영역을 토대로 각 블록을 움직임 블록, 준 움직임 블록, 비 움직임 블록 중 어느 하나로 분류한 검색 테이블을 작성한다. 이어서, 검색 테이블을 참조하여 초기 탐색 계층 및 탐색 영역을 적응적으로 선정함으로써 피라미드 계층 구조상에서 효율적인 고속 움직임 추정을 수행하여 이동 객체에 해당하는 객체포함영역만을 추출한다. 최종적으로, 이렇게 추출된 객체포함영역에서 임계 기울기 영상을 정의한 후, 이를 기준 삼아 객체포함영역에 화소단위의 형태학 기반 영상 분할 알고리즘을 적용함으로써 비디오 시퀸스에 포함된 이동 객체를 분할한다. 컴퓨터 시뮬레이션 결과를 통해 고찰할 때, 제안된 방법은 이동 객체에 대한 상대적으로 우수한 분할 특성을 제공할 수 있고, 특히 저대조 경계면의 분할 특성을 제고시키고 있음을 확인할 수 있다.

  • PDF

컬러 영상에서 효율적 문자 추출을 위한 개선된 2치화 및 잡음 저거 (Improved Binarization and Removal of Noises for Effective Extraction of Characters in Color Images)

  • 이은주;정장호
    • 정보기술응용연구
    • /
    • 제3권2호
    • /
    • pp.133-147
    • /
    • 2001
  • 본 논문에서는, 문자와 그림을 포함한 컬러 영상에서 낮은 명도의 색상으로 인쇄된 문자를 효율적으로 추출하기 위하여, 컬러 영상에 대한 2치화와 잡음을 제거하는 새로운 방법을 제안하였다. 컬러 영상에 포함된 문자를 추출하기 위한 컬러 영상의 2치화는, 입력영상의 배경후보영역과 문자후보영역의 화소수 비에 따라 이 두 영역간의 컬러 관계성을 구하고, 이 관계성과 예비임계값에 의해 계산된 임계값에 의하여 이루어진다. 예비임계값은 입력 영상에 대한 RGB 히스토그램의 분석에 의하여 구하며, 입력영상의 배경후보영역과 문자후보영역의 기준이 된다. 제안한 임계값은 잡음의 양에 따라 동적으로 계산되므로, 문자정보는 최대한 유지하고, 잡음은 효과적으로 제거할 수 있다. 또, 본 연구에서는 2치화 영상에 포함된 잡음의 효과적 제거를 위하여, 다양한 컬러 영상의 2치화 영상에 포함된 잡음패턴을 분석하여 잡음패턴 테이블을 만들었다. 2치화 영상에 포함된 잡음은 잡음패턴 테이블과 템플릿 매칭을 하여 잡음의 분포도가 계산되고, 이 분포도에 의하여 잡음의 난이도를 3단계로 분류하였다. 잡음의 제거는 분류된 난이도에 따라 별개의 처리 과정을 두어 수행하므로, 잡음제거의 효율을 높였고, 처리시간을 줄였다.

  • PDF

설명 가능한 정기예금 가입 여부 예측을 위한 앙상블 학습 기반 분류 모델들의 비교 분석 (A Comparative Analysis of Ensemble Learning-Based Classification Models for Explainable Term Deposit Subscription Forecasting)

  • 신지안;문지훈;노승민
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.97-117
    • /
    • 2021
  • 정기예금 가입 여부 예측은 은행의 대표적인 금융 마케팅 중 하나로, 은행은 다양한 고객 정보를 활용하여 예측 모델을 구성할 수 있다. 정기예금 가입 여부의 분류 정확도를 향상하기 위해, 많은 연구에서 기계학습 기법들을 이용하여 분류 모델들을 개발하였다. 하지만, 이러한 모델들이 만족스러운 성능을 보일지라도 모델의 의사결정 과정에 대한 근거가 적절하게 설명되지 않는다면 산업에서 활용하기가 쉽지 않다. 이러한 문제점을 해결하기 위해, 본 논문은 설명 가능한 정기예금 가입 여부 예측 기법을 제안한다. 먼저, 테이블 형식에서 우수한 성능을 도출하는 의사결정 나무 기반 앙상블 학습 기법인 랜덤 포레스트, GBM, XGBoost, LightGBM을 이용하여 분류 모델들을 개발하고, 10겹 교차검증을 통해 모델들의 분류 성능을 심층 분석한다. 다음으로, 가장 우수한 성능을 도출하는 모델에 설명 가능한 인공지능 기법인 SHAP을 적용하여 고객 정보의 영향도와 의사결정 과정 등을 해석할 수 있는 근거를 제공한다. 제안한 기법의 실용성과 타당성을 입증하기 위해, Kaggle에서 제공한 은행 마케팅 데이터 셋을 대상으로 모의실험을 진행하였으며, 데이터 셋 구성에 따라 GBM과 LightGBM 모델에 SHAP을 각기 적용하여 설명 가능한 정기예금 가입 여부를 위한 분석 및 시각화를 수행하였다.

KANO모델을 활용한 커피전문점의 품질분류와 고객만족개선지수 (Coffee Shops' Quality Classification and Customer Satisfaction Improvement Index by KANO Model)

  • 신봉섭;김기석
    • 한국콘텐츠학회논문지
    • /
    • 제12권7호
    • /
    • pp.346-357
    • /
    • 2012
  • 본 연구는 Kano모델을 활용하여 커피전문점의 다양한 품질요인들의 속성을 소비자의 관점에서 분류하였다. 또한, 각 품질요인들이 고객만족 또는 고객불만족에 미치는 상대적 영향력을 분석하기 위해 만족계수와 불만족계수를 산출하였다. 아울러, Kano모델의 한계점을 보완하고 품질요소들에 대한 커피전문점의 품질개선 여지를 파악하기 위해 잠재적 고객만족개선지수(PCSI Index)를 제시하였다. 분석결과, 매력적 품질요소에는 저렴한 가격, 실내인테리어의 고급스러움, 테이블과 의자의 편안함, 무선인터넷 사용의 편리성이 포함되는 것으로 나타났다. 한편, 일원적 품질요소로는 매장의 청결 및 위생, 가격 대비 품질인 것으로 나타났다. 잠재적 고객만족개선지수(PCSI Index)를 산출하기 위해 카페베네와 스타벅스의 만족도를 분석한 결과, 저렴한 가격, 가격 대비 품질 등에서 고객만족 개선 여지가 높은 것으로 나타났다. 본 연구결과는 커피전문점 경영에 있어서 고객만족과 향후 경쟁력 확보를 위해 우선적으로 관심을 두고 개선해야 할 품질요소가 무엇인지에 대한 시사점을 제공해 준다는 점에서 의의를 찾을 수 있다.

상황학습 이론을 적용한 데이터베이스 교수 학습 효과 (Database teaching and learning effects applying the situated learning theory)

  • 신수범
    • 컴퓨터교육학회논문지
    • /
    • 제9권2호
    • /
    • pp.47-55
    • /
    • 2006
  • 효과적인 데이터베이스 수업방법을 모색하기 위하여 상황학습 이론을 교수 학습에 적용하여 효과를 분석하여 보았다. 이를 위해 관련 선행연구를 분석하고 데이터베이스 핵심 내용을 블룸의 교육목표 분류 기준에 의해 분석하였다. 그리고 데이터베이스 교육 내용을 기본 지식 단계와 기능 및 확장지식 단계로 분류하는 전략을 제시하였다. 이와 같은 연구를 바탕으로 실험, 통제 집단을 선정하였으며 데이터베이스 교수학습 효과의 기준을 지식 및 기술과 태도영역으로 설정하였다. 그리고 실제 교육과정을 구성하여 교수학습을 전개하여 다음과 같은 결과를 도출하였다. 적용결과는 상황학습을 적용하여 데이터베이스 교육을 받은 학습 집단이 DB개념, DB 조작, DB테이블 작성에 대해 높은 성취도를 나타내었으며 기능 중심의 데이터베이스 교육을 받은 학습 집단보다 긍정적 태도를 나타냈다. 또한, 향후에는 데이터베이스 및 컴퓨터과학 영역에 대하여 상황학습 이외의 다양한 교수학습 방법을 적용, 분석해야 할 것이다.

  • PDF

뉴턴 최적화를 통해 개선된 아다부스트 훈련과 MCT 특징을 이용한 번호판 검출 (License Plate Detection with Improved Adaboost Learning based on Newton's Optimization and MCT)

  • 이영현;김대훈;고한석
    • 한국컴퓨터정보학회논문지
    • /
    • 제17권12호
    • /
    • pp.71-82
    • /
    • 2012
  • 본 논문에서는 MCT(Modified Census Transform) 특징과 개선된 아다부스트 분류기를 이용한 번호판 검출 알고리즘을 제안한다. MCT 특징은 영상의 국소 지역 패턴을 정수화하여 표현하는 특징으로서 조명 변화에 강인하고 메모리 효율이 높은 장점이 있다. 그러나 패턴을 표현하는 정수형의 MCT 특징값들이 이산적인 특징을 가지기 때문에 아다부스트 훈련 방법을 적용하기 위해서는 룩업테이블 (Lookup Table)을 이용하여 분류기를 설계해야 한다. 그동안의 아다부스트 훈련 방법에 대한 최적화 연구는 지수 기준(exponential criterion)을 최소화 하는 방법에 대한 방향으로 연구가 진행되고 있다. 본 논문에서는 MCT 특징을 이용하고 지수 기준의 뉴턴 최적화를 통해 아다부스트 훈련 방법을 개선하여 번호판 검출성능을향상 시키는 방법을 제안한다. 번호판샘플 영상과 필드 테스트 영상에 대한 실험을 통해 제안한 방법의 성능을 고찰하고, 기존의 일반 아다부스트 훈련을 이용한 검출 방법과의 비교 실험을 통해 그 효용성을 입증한다.

컴포넌트 검색을 지원하는 퍼지 기반 시소러스 구축 (Fuzzy based Thesaurus Construction Supporting Component Retrieval)

  • 김귀정;한정수;송영재
    • 정보처리학회논문지D
    • /
    • 제10D권5호
    • /
    • pp.753-762
    • /
    • 2003
  • 컴포넌트 검색을 위한 많은 방법론이 제시되고 있고 그 중 유사 컴포넌트 검색을 위한 시소러스 개념이 도입되고 있다. 본 논문은 컴포넌트의 효율적인 검색을 위하여 컴포넌트를 구성하는 클래스들을 상속관계에 따라 개념적으로 분류하였고, 시소러스 방법에 퍼지 논리를 적용하여 객체지향 시소러스를 구축하였다. 제안한 방법은 개념들 사이의 범주를 자동으로 표현할 수 있으며, 각 클래스와 범주에 대한 매칭도와 비매칭도를 비교함으로서 클래스 사이의 퍼지 정도를 계산하여 시소러스를 구축하였다. 컴포넌트 검색은 컴포넌트를 구성하는 클래스들을 이용하여 유의어 테이블을 기반으로 후보 컴포넌트들을 검색한 후 퍼지 유사도 측정 방법을 이용하여 우선순위로 검색한다. 또한 시뮬레이션을 통하여 최적의 질의 확장 임계치를 설정함으로서 검색 성능을 크게 향상시켰다.