• 제목/요약/키워드: Multi-level classification

검색결과 160건 처리시간 0.029초

휴리스틱 매핑에의한 절삭조건의 결정

  • 김성근;박면웅;손영태;박병태;맹희영
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 1993년도 춘계학술대회 논문집
    • /
    • pp.262-266
    • /
    • 1993
  • The development of COPS(Computer aided Operation Planning System) needs data mapping paradigm which provides intelligent determonation of cutting conditions from the requirements of process planning side. We proposed the idea of multi-level mapping by the combination of heuristics of domain experts and mathematical abstraction of cutting condition and requirements. Mathematical mathods for the generalization of heuristics were constructed by multi-layer perceptron. DBMS for determination of cutting conditions was constructed by classification and combination of best fitted models. Triangular fuzzy number was used to process the uncertainties in heuristics of experts.

국가별 행정체계 특성을 반영한 인공지능 활용 해외 주소데이터 품질검증 기법 (Overseas Address Data Quality Verification Technique using Artificial Intelligence Reflecting the Characteristics of Administrative System)

  • 김진실;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제7권2호
    • /
    • pp.1-9
    • /
    • 2022
  • 글로벌 시대에 들어서면서 수입식품 안전관리에 대한 중요성이 증가하고 있다. 해외 식품업체 주소정보는 수입식품 안전관리를 위한 핵심 정보로써 식품위해 발생시 신속한 대처와 사후관리를 위해 반드시 검증되어야 한다. 그러나 각국의 주소체계가 다른 관계로 하나의 검증시스템이 모든 국가의 주소를 검증할 수는 없다. 또한, 주소검증은 사용하는 분야에 따라 검정목적이 상이할 수 있다. 본 논문에서는 주어진 해외 식품업체 주소로부터 해당 국가의 행정구역 레벨로 분류하는 문제를 다룬다. 수입식품 안전관리를 정확하고 효율적으로 하기 위하여 수입식품제조업체 주소를 해당 국가의 행정구역 수준으로 정확하게 매칭하는 것이 필요하다. 수입식품이 생산·제조되는 위치와 식품제조에 영향을 줄 수 있는 환경정보, 재난재해 정보를 결합함으로써 선제적 수입식품 안전관리가 가능하다. 그러나, 일부 국가에서는 주소를 표기할 때 행정구역 레벨명을 생략하여 작성하고 있으며, 동일한 지명이 여러 행정구역 레벨에서 중복되는 경우가 있어 주소로부터 행정구역 레벨을 정확히 분류하는 일은 쉽지 않다. 본 연구에서는 이러한 경우에 적합한 딥러닝 기반 행정구역 레벨 분류 모델을 제안하고, 실제 해외 식품회사 주소 데이터에 대하여 검증한다. 구체적으로 다중 레이블 분류 모델에서 멱집합(Label Powerset)을 이용해 훈련하는 방식을 사용한다. 제안된 기법의 검증을 위해 식약처에 등록된 에콰도르 및 베트남에 있는 해외 제조업소 주소에 대하여 정확도를 검증하였으며, 기존의 분류 모델보다 정확도가 각각 28.1% 및 13% 정도 향상되었다.

다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 미치는 영향 연구 (The Effect of Meta-Features of Multiclass Datasets on the Performance of Classification Algorithms)

  • 김정훈;김민용;권오병
    • 지능정보연구
    • /
    • 제26권1호
    • /
    • pp.23-45
    • /
    • 2020
  • 기업의 경쟁력 확보를 위해 판별 알고리즘을 활용한 의사결정 역량제고가 필요하다. 하지만 대부분 특정 문제영역에는 적합한 판별 알고리즘이 어떤 것인지에 대한 지식은 많지 않아 대부분 시행착오 형식으로 최적 알고리즘을 탐색한다. 즉, 데이터셋의 특성에 따라 어떠한 분류알고리즘을 채택하는 것이 적합한지를 판단하는 것은 전문성과 노력이 소요되는 과업이었다. 이는 메타특징(Meta-Feature)으로 불리는 데이터셋의 특성과 판별 알고리즘 성능과의 연관성에 대한 연구가 아직 충분히 이루어지지 않았기 때문이며, 더구나 다중 클래스(Multi-Class)의 특성을 반영하는 메타특징에 대한 연구 또한 거의 이루어진 바 없다. 이에 본 연구의 목적은 다중 클래스 데이터셋의 메타특징이 판별 알고리즘의 성능에 유의한 영향을 미치는지에 대한 실증 분석을 하는 것이다. 이를 위해 본 연구에서는 다중 클래스 데이터셋의 메타특징을 데이터셋의 구조와 데이터셋의 복잡도라는 두 요인으로 분류하고, 그 안에서 총 7가지 대표 메타특징을 선택하였다. 또한, 본 연구에서는 기존 연구에서 사용하던 IR(Imbalanced Ratio) 대신 시장집중도 측정 지표인 허핀달-허쉬만 지수(Herfindahl-Hirschman Index, HHI)를 메타특징에 포함하였으며, 역ReLU 실루엣 점수(Reverse ReLU Silhouette Score)도 새롭게 제안하였다. UCI Machine Learning Repository에서 제공하는 복수의 벤치마크 데이터셋으로 다양한 변환 데이터셋을 생성한 후에 대표적인 여러 판별 알고리즘에 적용하여 성능 비교 및 가설 검증을 수행하였다. 그 결과 대부분의 메타특징과 판별 성능 사이의 유의한 관련성이 확인되었으며, 일부 예외적인 부분에 대한 고찰을 하였다. 본 연구의 실험 결과는 향후 메타특징에 따른 분류알고리즘 추천 시스템에 활용할 것이다.

Privacy Disclosure and Preservation in Learning with Multi-Relational Databases

  • Guo, Hongyu;Viktor, Herna L.;Paquet, Eric
    • Journal of Computing Science and Engineering
    • /
    • 제5권3호
    • /
    • pp.183-196
    • /
    • 2011
  • There has recently been a surge of interest in relational database mining that aims to discover useful patterns across multiple interlinked database relations. It is crucial for a learning algorithm to explore the multiple inter-connected relations so that important attributes are not excluded when mining such relational repositories. However, from a data privacy perspective, it becomes difficult to identify all possible relationships between attributes from the different relations, considering a complex database schema. That is, seemingly harmless attributes may be linked to confidential information, leading to data leaks when building a model. Thus, we are at risk of disclosing unwanted knowledge when publishing the results of a data mining exercise. For instance, consider a financial database classification task to determine whether a loan is considered high risk. Suppose that we are aware that the database contains another confidential attribute, such as income level, that should not be divulged. One may thus choose to eliminate, or distort, the income level from the database to prevent potential privacy leakage. However, even after distortion, a learning model against the modified database may accurately determine the income level values. It follows that the database is still unsafe and may be compromised. This paper demonstrates this potential for privacy leakage in multi-relational classification and illustrates how such potential leaks may be detected. We propose a method to generate a ranked list of subschemas that maintains the predictive performance on the class attribute, while limiting the disclosure risk, and predictive accuracy, of confidential attributes. We illustrate and demonstrate the effectiveness of our method against a financial database and an insurance database.

DNN 학습을 이용한 퍼스널 비디오 시퀀스의 멀티 모달 기반 이벤트 분류 방법 (A Personal Video Event Classification Method based on Multi-Modalities by DNN-Learning)

  • 이유진;낭종호
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1281-1297
    • /
    • 2016
  • 최근 스마트 기기의 보급으로 자유롭게 비디오 컨텐츠를 생성하고 이를 빠르고 편리하게 공유할 수 있는 네트워크 환경이 갖추어지면서, 퍼스널 비디오가 급증하고 있다. 그러나, 퍼스널 비디오는 비디오라는 특성 상 멀티 모달리티로 구성되어 있으면서 데이터가 시간의 흐름에 따라 변화하기 때문에 이벤트 분류를 할 때 이에 대한 고려가 필요하다. 본 논문에서는 비디오 내의 멀티 모달리티들로부터 고수준의 특징을 추출하여 시간 순으로 재배열한 것을 바탕으로 모달리티 사이의 연관관계를 Deep Neural Network(DNN)으로 학습하여 퍼스널 비디오 이벤트를 분류하는 방법을 제안한다. 제안하는 방법은 비디오에 내포된 이미지와 오디오를 시간적으로 동기화하여 추출한 후 GoogLeNet과 Multi-Layer Perceptron(MLP)을 이용하여 각각 고수준 정보를 추출한다. 그리고 이들을 비디오에 표현된 시간순으로 재 배열하여 비디오 한 편당 하나의 특징으로 재 생성하고 이를 바탕으로 학습한 DNN을 이용하여 퍼스널 비디오 이벤트를 분류한다.

명암도 동시발생 행렬과 웨이블릿 특징 조합에 기반한 지문 분류 방법 (A Fingerprint Classification Method Based on the Combination of Gray Level Co-Occurrence Matrix and Wavelet Features)

  • 강승호
    • 한국멀티미디어학회논문지
    • /
    • 제16권7호
    • /
    • pp.870-878
    • /
    • 2013
  • 본 논문에서는 생체인증 시스템의 하나인 지문인식 시스템의 정확도와 효율성을 높이기 위한 새로운 지문 분류 방법을 제안한다. 기존 연구에 따르면 지문은 융선과 골의 방향과 형상에 따라 몇 가지 유형으로 분류할 수 있다. 지문 데이터베이스를 사전에 유형에 따라 분류해 놓고 인식 대상인 지문의 유형을 정확하게 분류할 수 있다면 지문 인식 시간을 크게 줄일 수 있다. 왜냐하면 선택된 부류 안의 지문들만을 상대로 인증 대상인 지문과 비교하면 되기 때문이다. 본 논문은 우선 지문 영상으로부터 실제 지문 정보가 위치하는 관심영역 추출 방법을 제시한다. 다음엔 추출된 관심영역을 대상으로 질감 인식기반의 명암도 동시발생 행렬과 웨이브릿 변환을 통한 특징 추출 방법을 제시하고 기존의 명암도 동시발생 행렬만을 이용한 특징 추출 방법과 다층 퍼셉트론 및 서포트 벡터 머신을 사용해 성능을 비교한다.

교량의 유지관리를 위한 멀티레이어 데이터베이스 개념 (A Concept of Multi-Layered Database for the Maintenance and Management of Bridges)

  • 김봉근;이진훈;이상호
    • 한국전산구조공학회논문집
    • /
    • 제20권3호
    • /
    • pp.393-404
    • /
    • 2007
  • 본 연구에서는 교량정보의 통합 운용을 지원하기 위해 멀티레이어 데이터베이스의 프레임워크를 제시하였다. 멀티레이어 데이터베이스란 표준화된 정보 레이어로 이루어진 논리적으로 통합된 데이터베이스를 말한다. 표준화된 정보 레이어는 한 부류로 구분할 수 있는 데이터 집합을 나타내며, 정보모델에 의해 정의된다. 본 연구에서 제시한 교량의 멀티레이어 데이터베이스 개념은 구조요소의 분류를 나타내는 정보체계를 기반으로 하며, 구조요소의 분류체계에 따른 코드를 사용함으로써 여러 정보계층에 분포된 데이터를 통합하도록 하였다. 또한 멀티레이어 데이터베이스 프레임워크의 한 축으로서 데이터 레벨을 설정하였다. 데이터 레벨은 정보계층에 포함된 데이터들의 재활용성에 따른 중요도를 의미하며, 이에 따라 정보모델의 세분화되는 정도를 정의하여 방대한 양의 교량정보 데이터베이스 구축을 위한 효과적인 전략수립이 가능하도록 하였다. 제시된 개념의 검증을 위해 객체지향개념의 3-D 형상정보 계층과 구조계산서 정보계층으로 이루어진 시범 데이터베이스를 구축하였다. 또한 두 계층으로 분산되어 있는 데이터의 일치여부를 자동으로 검토하는 실험을 통하여 본 연구에서 제시된 멀티레이어 데이터베이스 개념이 교량정보를 관리하는데 있어 정보의 무결성과 일관성을 보장할 수 있음을 보였다.

환경요인의 다계층성을 고려한 생태지역 분류 (Ecoregion Classification using Multi-Hierarchy of Environmental Factors)

  • 정관용;양희문;김석권;박수진
    • 대한지리학회지
    • /
    • 제47권5호
    • /
    • pp.654-676
    • /
    • 2012
  • 본 연구는 산지 생태계의 능력과 잠재성의 공간적 분포를 파악하기 위해 다계층성을 고려한 생태지역 분류를 제시해 보고자 한다. 이를 위해 연구지역 일대를 대상으로 각 환경요인의 공간적 분포를 살펴보고, 지리통계(geostatistics)기법을 이용하여 각 환경변수의 계층성을 파악하였다. 마지막으로 적절한 생태지역 분류를 제시하기 위해서 임상도와 입지도를 이용하여 분류 및 평가를 실시하였다. 연구지역은 $1,168km^2$ 면적의 강원도 가리왕산 일대이다. 이 지역은 퇴적암 비율이 높게 나타나며, 그중에서 석회암과 관련된 지층이 가장 넓은 면적(36.6%)을 차지한다. 북쪽과 중앙을 중심으로 고도가 높은 산지가 대부분을 차지하며, 오대천과 평창강을 따라 평탄한 지역이 나타난다. 환경요인의 계층성을 살펴보면 지질과 고도가 상위계층을 차지하고, 지형분류(사면곡면률, 사면유역지수)가 하위 계층으로 나타났다. 생태지역분류 평가에서 '지질+고도+지형분류'가 고르게 높은 ${\chi}^2$의 통계값을 보이고 있어 이에 근거하여 생태지역 분류를 실시하였다. 제시된 생태지역분류는 넓은 퇴적암면적, 높은 산지비율, 큰 고도차이 등과 같은 연구지역의 독특한 환경특징이 반영된 결과로 파악하였다. 본 연구는 다양한 생태관련 주제를 통합하여 전체적인 산지 생태계 관리 및 이용 방안의 하나로 제시될 수 있을 것이다.

  • PDF

MARGIN-BASED GENERALIZATION FOR CLASSIFICATIONS WITH INPUT NOISE

  • Choe, Hi Jun;Koh, Hayeong;Lee, Jimin
    • 대한수학회지
    • /
    • 제59권2호
    • /
    • pp.217-233
    • /
    • 2022
  • Although machine learning shows state-of-the-art performance in a variety of fields, it is short a theoretical understanding of how machine learning works. Recently, theoretical approaches are actively being studied, and there are results for one of them, margin and its distribution. In this paper, especially we focused on the role of margin in the perturbations of inputs and parameters. We show a generalization bound for two cases, a linear model for binary classification and neural networks for multi-classification, when the inputs have normal distributed random noises. The additional generalization term caused by random noises is related to margin and exponentially inversely proportional to the noise level for binary classification. And in neural networks, the additional generalization term depends on (input dimension) × (norms of input and weights). For these results, we used the PAC-Bayesian framework. This paper is considering random noises and margin together, and it will be helpful to a better understanding of model sensitivity and the construction of robust generalization.

AUTOMATIC BUILDING EXTRACTION BASED ON MULTI-SOURCE DATA FUSION

  • Lu, Yi Hui;Trinder, John
    • 대한원격탐사학회:학술대회논문집
    • /
    • 대한원격탐사학회 2003년도 Proceedings of ACRS 2003 ISRS
    • /
    • pp.248-250
    • /
    • 2003
  • An automatic approach and strategy for extracting building information from aerial images using combined image analysis and interpretation techniques is described in this paper. A dense DSM is obtained by stereo image matching. Multi-band classification, DSM, texture segmentation and Normalised Difference Vegetation Index (NDVI) are used to reveal building interest areas. Then, based on the derived approximate building areas, a shape modelling algorithm based on the level set formulation of curve and surface motion has been used to precisely delineate the building boundaries. Data fusion, based on the Dempster-Shafer technique, is used to interpret simultaneously knowledge from several data sources of the same region, to find the intersection of propositions on extracted information derived from several datasets, together with their associated probabilities. A number of test areas, which include buildings with different sizes, shape and roof colour have been investigated. The tests are encouraging and demonstrate that the system is effective for building extraction, and the determination of more accurate elevations of the terrain surface.

  • PDF