• 제목/요약/키워드: Feature Set Selection

검색결과 186건 처리시간 0.022초

기계학습을 이용한 식품위생점검 체계의 효율성 개선 연구 (Improving Efficiency of Food Hygiene Surveillance System by Using Machine Learning-Based Approaches)

  • 조상구;조승용
    • 한국빅데이터학회지
    • /
    • 제5권2호
    • /
    • pp.53-67
    • /
    • 2020
  • 본 연구는 가공식품의 제조·가공 업소를 대상으로 기계학습 분야의 지도학습(Supervised Learning) 예측 모형을 적용하여 부적합이 예상되는 업체를 사전에 적발하는 단속 선별시스템을 마련하여 단속 활동의 효율성을 높이고자 하였다. 본 연구에서는 머신러닝의 예측 모델링을 위한 목적 정의, 데이터의 기초 분석과 시각화, 특성 변수 도출 및 예측 모형의 선정 및 예측 등으로 기계학습 수행의 표준적인 절차에 따라 연구를 수행하였다. 종속변수는 2014년도부터 2018년까지 과거 5년 동안 지도점검 적발 건수로 설정하였고, 목적함수는 실제 부적합업체를 사전에 판정하여 단속활동이 이루어지는 것을 최대화하는 것으로 하였다. 제조가공업소의 매출액, 영업일수, 종업원 수 등 기본속성뿐만 아니라 과거 지도점검 단속 이력 정보를 반영하여 자료를 재구성하였다. 특성 변수 추출 방법을 적용하여 부적합 판정에 영향을 미치는 업체 위험, 품목 위험, 환경 위험 및 과거 위반 이력 등을 특성 변수로 도출하여 머신러닝 알고리즘을 데이터에 적용하였다. 랜덤포레스트 모형이 식품의약품안전처 지도점검 업무 목적에 가장 적합한 것으로 나타났다. 본 연구결과를 바탕으로 식품안전 관리 국가 사무가 데이터기반의 과학적인 행정 체계로 발전할 수 있는 기반이 되기를 기대한다.

사용자 구분에 의한 지역적 연관규칙의 유도 (Deriving Local Association Rules by User Segmentation)

  • 박세일;이수원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권1_2호
    • /
    • pp.53-64
    • /
    • 2002
  • 연관규칙 탐사기법은 트랜잭션들을 대상으로 항목간 또는 속성간의 연관관계를 발견하는 방법으로, 데이터 집합의 구조를 쉽게 통찰할 수 있다는 장점으로 인하여 활발히 연구되어 왔다. 그러나 현재까지의 연구들은 전체 사용자 중 공통적인 특성을 지닌 사용자 그룹이 존재할 경우, 이러한 그룹별 연관규칙을 찾아낼 수 없다는 한계점을 지닌다. 본 논문에서는 이러한 점을 해결하기 위하여, 속성선택 및 사용자 구분 기법을 이용하여 사용자를 부분집합으로 구분하고 그 부분집합별로 연관규칙을 발견한다. 또한 위와 같이 얻어진 지역적 연관규칙이 전체 사용자를 대상으로 한 전역적 연관규칙보다 해당 부분집합에 더욱 적합하다는 사실을 여러 연관규칙 평가치를 이용하여 평가한다.

항공 라이다 데이터로부터 데이터마이닝 도구 WEKA를 이용한 지형 분류기 제작 지원 시스템 (A Topographical Classifier Development Support System Cooperating with Data Mining Tool WEKA from Airborne LiDAR Data)

  • 이성규;이호준;성철웅;박창후;조우석;김유성
    • 한국측량학회지
    • /
    • 제28권1호
    • /
    • pp.133-142
    • /
    • 2010
  • 국토의 구성 및 변화를 파악하기 위해서 항공 라이다 데이터의 효율적 처리를 통해 정확하게 지표의 유행(land-cover type)을 분류할 수 있는 지능형 지형 분류기(intelligent topographical classifier)의 필요성이 증대되고 있다. 본 연구에서는 정확하고 효율적인 지형 분류기 개발을 용이하게 하기 위해 데이터마이닝 도구인 WEKA를 연동시켜 항공 라이다 데이터를 가공처리하고 다양한 데이터마이닝 기법을 활용한 비교 실험을 통해 정확성이 높은 지형 분류기 제작을 지원하는 소프트웨어 시스템을 개발하였다. 본 연구에서 개발한 지형 분류기 제작 지원 시스템은 항공 영상 이미지 위에 라이다 데이터를 중첩시키는 기능, 효율적인 처리를 위한 타일링 기능, 부분 영역의 3차원 시각화 기능, 타일의 특정 추출 기능, WEKA 입력 자동 생생 기능, 분류 모델의 분류 규칙 집합을 C++ 프로그램으로 자동 코딩하여 분류기로 변환하는 기능, 타일별 지형 분류 결과 표시 기능 등이 구현되어 있다. 또한, 연동된 WEKA틀 이용해서는 분별력이 높은 특정 정보 선정 기능, 다양한 분류 기법을 적용한 지형 분류 모델 생성 기능, 지형 분류 규칙 집합 생생 기능 등을 활용하여 지형 분류기 제작을 지원할 수 있다. 따라서 항공 라이다 데이터를 이용하여 지형의 유형을 분류하는 지능형 지형 분류기를 개발하고자 하는 사용자는 본 연구에서 개발한 지형 분류기 제작 지원 시스템을 활용하여 해당 지형의 특성에 맞고 분류기 개발 목적에 부합하는 지형 분류기를 용이하게 효과적으로 개발할 수 있다.

균형 표본 유전 알고리즘과 극한 기계학습에 기반한 바이오표지자 검출기와 파킨슨 병 진단 접근법 (Bio-marker Detector and Parkinson's disease diagnosis Approach based on Samples Balanced Genetic Algorithm and Extreme Learning Machine)

  • ;;최용수
    • 디지털콘텐츠학회 논문지
    • /
    • 제17권6호
    • /
    • pp.509-521
    • /
    • 2016
  • 본 논문에서는 파킨슨 병 진단 및 바이오 표지자 검출을 위한 극한 기계학습을 결합하는 새로운 균형 표본 유전 알고리즘(SBGA-ELM)을 제안하였다. 접근법은 정확한 파킨슨 병 진단 및 바이오 표지자 검출을 위해 공개 파킨슨 병 데이터베이스로부터 22,283개의 유전자의 발현 데이터를 사용하며 다음의 두 가지 주요 단계를 포함하였다 : 1. 특징(유전자) 선택과 2. 분류단계이다. 특징 선택 단계에서는 제안된 균형 표본 유전 알고리즘에 기반하고 파킨스병 데이터베이스(ParkDB)의 유전자 발현 데이터를 위해 고안되었다. 제안된 제안 된 SBGA는 추가적 분석을 위해 ParkDB에서 활용 가능한 22,283개의 유전자 중에서 강인한 서브셋을 찾는다. 특징분류 단계에서는 정확한 파킨슨 병 진단을 위해 선택된 유전자 세트가 극한 기계학습의 훈련에 사용된다. 발견 된 강인한 유전자 서브세트는 안정된 일반화 성능으로 파킨슨 병 진단을 할 수 있는 ELM 분류기를 생성하게 된다. 제안된 연구에서 강인한 유전자 서브셋은 파킨슨병을 관장할 것으로 예측되는 24개의 바이오 표지자를 발견하는 데도 사용된다. 논문을 통해 발견된 강인 유전자 하위 집합은 SVM이나 PBL-McRBFN과 같은 기존의 파킨슨 병 진단 방법들을 통해 검증되었다. 실시된 두 가지 방법(SVM과 PBL-McRBFN)에 대해 모두 최대 일반화 성능을 나타내었다.

용어 가중치부여 기법을 이용한 로치오 분류기의 성능 향상에 관한 연구 (A Study on the Performance Improvement of Rocchio Classifier with Term Weighting Methods)

  • 김판준
    • 정보관리학회지
    • /
    • 제25권1호
    • /
    • pp.211-233
    • /
    • 2008
  • 로치오 알고리즘에 기반한 자동분류의 성능 향상을 위하여 두 개의 실험집단(LISA, Reuters-21578)을 대상으로 여러 가중치부여 기법들을 검토하였다. 먼저, 가중치 산출에 사용되는 요소를 크게 문헌요소(document factor), 문헌집합 요소(document set factor), 범주 요소(category factor)의 세 가지로 구분하여 각 요소별 단일 가중치부석 기법의 분류 성능을 살펴보았고, 다음으로 이들 가중치 요소들 간의 조합 가중치부여 기법에 따른 성능을 알아보았다. 그 결과, 각 요소별로는 범주 요소가 가장 좋은 성능을 보였고, 그 다음이 문헌집합 요소, 그리고 문헌 요소가 가장 낮은 성능을 나타냈다. 가중치 요소 간의 조합에서는 일반적으로 사용되는 문헌 요소와 문헌집합 요소의 조합 가중치(tfidf or ltfidf)와 함께 문헌 요소를 포함하는 조합(tf*cat or ltf*cat) 보다는, 오히려 문헌 요소를 배제하고 문헌 집합 요소를 범주 요소와 결합한 조합 가중치 기법(idf*cat)이 가장 좋은 성능을 보였다. 그러나 실험집단 측면에서 단일 가중치와 조합 가중치를 서로 비교한 결과에 따르면, LISA에서 범주 요소만을 사용한 단일 가중치(cat only)가 가장 좋은 성능을 보인 반면, Reuters-21578에서는 문헌집합 요소와 범주 요소간의 조합 가중치(idf*cat)의 성능이 가장 우수한 것으로 나타났다. 따라서 가중치부여 기법에 대한 실제 적용에서는, 분류 대상이 되는 문헌집단 내 범주들의 특성을 신중하게 고려할 필요가 있다.

부도예측을 위한 KNN 앙상블 모형의 동시 최적화 (Investigating Dynamic Mutation Process of Issues Using Unstructured Text Analysis)

  • 민성환
    • 지능정보연구
    • /
    • 제22권1호
    • /
    • pp.139-157
    • /
    • 2016
  • 앙상블 분류기란 개별 분류기보다 더 좋은 성과를 내기 위해 다수의 분류기를 결합하는 것을 의미한다. 이와 같은 앙상블 분류기는 단일 분류기의 일반화 성능을 향상시키는데 매우 유용한 것으로 알려져 있다. 랜덤 서브스페이스 앙상블 기법은 각각의 기저 분류기들을 위해 원 입력 변수 집합으로부터 랜덤하게 입력 변수 집합을 선택하며 이를 통해 기저 분류기들을 다양화 시키는 기법이다. k-최근접 이웃(KNN: k nearest neighbor)을 기저 분류기로 하는 랜덤 서브스페이스 앙상블 모형의 성과는 단일 모형의 성과를 개선시키는 데 효과적인 것으로 알려져 있으며, 이와 같은 랜덤 서브스페이스 앙상블의 성과는 각 기저 분류기를 위해 랜덤하게 선택된 입력 변수 집합과 KNN의 파라미터 k의 값이 중요한 영향을 미친다. 하지만, 단일 모형을 위한 k의 최적 선택이나 단일 모형을 위한 입력 변수 집합의 최적 선택에 관한 연구는 있었지만 KNN을 기저 분류기로 하는 앙상블 모형에서 이들의 최적화와 관련된 연구는 없는 것이 현실이다. 이에 본 연구에서는 KNN을 기저 분류기로 하는 앙상블 모형의 성과 개선을 위해 각 기저 분류기들의 k 파라미터 값과 입력 변수 집합을 동시에 최적화하는 새로운 형태의 앙상블 모형을 제안하였다. 본 논문에서 제안한 방법은 앙상블을 구성하게 될 각각의 KNN 기저 분류기들에 대해 최적의 앙상블 성과가 나올 수 있도록 각각의 기저 분류기가 사용할 파라미터 k의 값과 입력 변수를 유전자 알고리즘을 이용해 탐색하였다. 제안한 모형의 검증을 위해 국내 기업의 부도 예측 관련 데이터를 가지고 다양한 실험을 하였으며, 실험 결과 제안한 모형이 기존의 앙상블 모형보다 기저 분류기의 다양화와 예측 성과 개선에 효과적임을 알 수 있었다.

Zoning Permanent Basic Farmland Based on Artificial Immune System coupling with spatial constraints

  • Hua, Wang;Mengyu, Wang;Yuxin, Zhu;Jiqiang, Niu;Xueye, Chen;Yang, Zhang
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제15권5호
    • /
    • pp.1666-1689
    • /
    • 2021
  • The red line of Permanent Basic Farmland is the most important part in the "three-line" demarcation of China's national territorial development plan. The scientific and reasonable delineation of the red line is a major strategic measure being taken by China to improve its ability to safeguard the practical interests of farmers and guarantee national food security. The delineation of Permanent Basic Farmland zoning (DPBFZ) is essentially a multi-objective optimization problem. However, the traditional method of demarcation does not take into account the synergistic development goals of conservation of cultivated land utilization, ecological conservation, or urban expansion. Therefore, this research introduces the idea of artificial immune optimization and proposes a multi-objective model of DPBFZ red line delineation based on a clone selection algorithm. This research proposes an objective functional system consisting of these three sub-objectives: optimal quality of cropland, spatially concentrated distribution, and stability of cropland. It also takes into consideration constraints such as the red line of ecological protection, topography, and space for major development projects. The mathematical formal expressions for the objectives and constraints are given in the paper, and a multi-objective optimal decision model with multiple constraints for the DPBFZ problem is constructed based on the clone selection algorithm. An antibody coding scheme was designed according to the spatial pattern of DPBFZ zoning. In addition, the antibody-antigen affinity function, the clone mechanism, and mutation strategy were constructed and improved to solve the DPBFZ problem with a spatial optimization feature. Finally, Tongxu County in Henan province was selected as the study area, and a controlled experiment was set up according to different target preferences. The results show that the model proposed in this paper is operational in the work of delineating DPBFZ. It not only avoids the adverse effects of subjective factors in the delineation process but also provides multiple scenarios DPBFZ layouts for decision makers by adjusting the weighting of the objective function.

시스템 호출 기반의 사운덱스 알고리즘을 이용한 신경망과 N-gram 기법에 대한 이상 탐지 성능 분석 (Anomaly Detection Performance Analysis of Neural Networks using Soundex Algorithm and N-gram Techniques based on System Calls)

  • 박봉구
    • 인터넷정보학회논문지
    • /
    • 제6권5호
    • /
    • pp.45-56
    • /
    • 2005
  • 컴퓨터 네트워크의 확대 및 인터넷 이용의 급격한 증가에 따라 네트워크 서비스 품질의 보장과 네트워크의 관리가 어려울 뿐만 아니라 네트워크 보안의 취약성으로 인하여 해킹 및 정보유출 등의 위협에 노출되어 있다. 특히 시스템 침입의 보안 위협에 대한 능동적인 대처 및 침입 이후에 동일하거나 유사한 유형의 사건 발생에 대해 실시간에 대응하는 것이 중요하므로 침임 탐지 시스템에 대한 많은 연구가 진행되고 있다. 본 논문에서는 시스템 호출을 이용하여 이상 침입 탐지 시스템의 성능을 향상시키기 위해, 특징 선택과 가변 길이 데이터를 고정 길이 학습 패턴으로 변환 생성하는 문제를 해결하기 위한 사운덱스 알고리즘을 적용한 신경망 학습을 통하여 이상 침입 탐지의 연구를 하고자 한다. 즉, 가변 길이의 순차적인 시스템 호출 데이터를 사운덱스 알고리즘에 의한 고정 길이의 행위 패턴을 생성하여 역전파 알고리즘에 의해 신경망 학습을 수행하였다. 역전파 신경망 기법을 UNM의 Sendmail Data Set을 이용하여 시스템 호출의 이상 탐지에 적용하여 성능을 검증하였다.

  • PDF

CUDA 및 분할-정복 기반의 효율적인 다차원 척도법 (An Efficient Multidimensional Scaling Method based on CUDA and Divide-and-Conquer)

  • 박성인;황규백
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권4호
    • /
    • pp.427-431
    • /
    • 2010
  • 다차원 척도법(multidimensional scaling)은 고차원의 데이터를 낮은 차원의 공간에 매핑(mapping)하여 데이터 간의 유사성을 표현하는 방법이다. 이는 주로 자질 선정 및 데이터를 시각화하는 데 이용된다. 그러한 다차원 척도법 중, 전통 다차원 척도법(classical multidimensional scaling)은 긴 수행 시간과 큰 공간을 필요로 하기 때문에 객체의 수가 많은 경우에 대해 적용하기 어렵다. 이는 유클리드 거리(Euclidean distance)에 기반한 $n{\times}n$ 상이도 행렬(dissimilarity matrix)에 대해 고유쌍 문제(eigenpair problem)를 풀어야 하기 때문이다(단, n은 객체의 개수). 따라서, n이 커질수록 수행 시간이 길어지며, 메모리 사용량 증가로 인해 적용할 수 있는 데이터 크기에 한계가 있다. 본 논문에서는 이러한 문제를 완화하기 위해 GPGPU 기술 중 하나인 CUDA와 분할-정복(divide-and-conquer)기법을 활용한 효율적인 다차원 척도법을 제안하며, 다양한 실험을 통해 제안하는 기법이 객체의 개수가 많은 경우에 매우 효율적일 수 있음을 보인다.

커널머신을 이용한 대학의 컴퓨터교육 만족도 분석 (An analysis of satisfaction index on computer education of university using kernel machine)

  • 피수영;박혜정;류경현
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.921-929
    • /
    • 2011
  • 정보화시대에 대학에서의 교양 컴퓨터교육과정은 컴퓨터에 대한 소양을 쌓고 정보화 사회에 능동적으로 대처할 수 있는 능력을 배양하여 생산성 향상은 물론 국가 간의 경쟁력에서 뒤지지 않게 하는데 목표를 두고 있다. 본 논문에서는 대학생을 대상으로 컴퓨터교육 만족도에 영향을 미치는 결정적인 변인의 발견 및 만족도를 분석한다. 전처리과정으로 자바 기반의 학습 도구인 속성 부분집합의 선택기반을 사용하여 최적의 변인을 선택한 후 통계적 학습이론에 기반을 둔 다중 최소제곱 서포트벡터 기계를 사용하고자 한다. 대학의 교양 컴퓨터교육 만족도 분석을 위하여 새로운 알고리즘을 제시하기 보다는 기존의 다중 서포트벡터기계와 다중 최소제곱 서포트벡터기계를 비교 분석한다. 본 논문의 연구결과는 컴퓨터교육 만족도 자료의 분석에서 다중 최소제곱 서포트벡터기계가 다중 서포트벡터기계와 같이 우수한 성과를 나타내는 것을 확인하였다.