• 제목/요약/키워드: 패턴 매칭 알고리즘

검색결과 156건 처리시간 0.022초

삭제된 노드의 재사용을 이용한 Fast XML 인코딩 기법 (Fast XML Encoding Scheme Using Reuse of Deleted Nodes)

  • 고혜경
    • 문화기술의 융합
    • /
    • 제9권3호
    • /
    • pp.835-843
    • /
    • 2023
  • XML 데이터의 구조를 고려할 때 경로 및 트리 패턴 매칭 알고리즘은 XML 질의 처리에 중요한 역할을 하고 있다. 노드 간의 결정 또는 관계를 용이하게 하기 위해 XML 트리의 노드는 일반적으로 두 노드 간의 조상-후손 관계를 신속하게 설정할 수 있는 방식으로 레이블링된다. 그러나 이러한 기법은 순서에 따른 업데이트로 삽입이 발생할 경우 기존 노드에 레이블을 다시 지정하거나 특정 값을 다시 계산해야 하는 단점이 발생한다. 따라서 현재 레이블링 기법들에서는 레이블을 업데이트 하는 비용이 매우 높다. 본 논문에서는 재레이블링 또는 재계산 없이 순서에 민감한 XML 문서의 업데이트를 지원하는 Fast XML 인코딩 기법이라는 새로운 레이블링을 제안한다. 또한 XML 트리의 동일한 위치에서 삭제된 레이블을 재사용하여 레이블의 길이를 제어한다. 제안한 재사용 알고리즘은 삭제된 모든 레이블을 동일한 위치에 삽입할 때 레이블의 길이를 줄일 수 있다. 실험 결과에서 제안된 기법은 순서에 민감한 질의 및 업데이트를 효율적으로 처리할 수 있다.

시그니쳐 계층 구조에 기반한 HTTP 트래픽 분석 시스템의 처리 속도 향상 (Processing Speed Improvement of HTTP Traffic Classification Based on Hierarchical Structure of Signature)

  • 최지혁;박준상;김명섭
    • 한국통신학회논문지
    • /
    • 제39B권4호
    • /
    • pp.191-199
    • /
    • 2014
  • 최근 웹 기반의 다양한 응용과 서비스의 제공으로 인해 HTTP 트래픽의 양이 급격하게 증가하고 있다. 따라서 안정적인 네트워크 관리를 위해서 HTTP 트래픽에 대한 분석이 필수적으로 요구된다. HTTP 트래픽을 다양한 관점에서 분석하기 위해서는 다양한 시그니쳐 기반 분석 방법 중에 페이로드 시그니쳐 기반 분석 방법이 효과적이다. 하지만 트래픽 분류 있어서 페이로드 시그니쳐 기반 방법은 고속 링크의 대용량 트래픽을 실시간으로 처리하는 과정에서 헤더 정보 및 통계 정보 이용 방법론에 비해 상대적으로 높은 부하를 발생시키며 처리 속도가 느린 단점을 갖는다. 따라서 본 논문에서는 HTTP 시그니쳐의 계층 구조에 기반하여 HTTP 트래픽을 다양하게 분류할 수 있는 방법론을 제시한다. 또한 계층 구조의 특징을 반영하여 패턴 매칭의 처리 속도 향상을 위한 방법을 제안한다. 제안하는 방법을 학내망의 실제 트래픽에 적용하여 평가한 결과, Aho-Corasick 알고리즘 보다 더 빠른 처리속도를 보일 수 있었다.

정확도를 향상시킨 BGA 솔더볼 외관검사 기법 개발 (Development of an Accuracy-improved Vision Inspection System for BGA Solder Ball)

  • 허경무
    • 전자공학회논문지SC
    • /
    • 제47권6호
    • /
    • pp.80-85
    • /
    • 2010
  • 현재 BGA 409 chip의 외관검사는 대부분 현미경을 이용한 육안검사로 이루어지고 있다. 그러나 인간의 시력에 의존하여 검사하는 현재의 외관검사 방법은 검사자의 육체적, 정신적 부분에 의하여 검사 결과가 변화하기 때문에 안정적인 결과를 기대하기 어렵다. 따라서 육안검사 시 발생하는 문제점을 개선하기 위해 BGA 솔더볼 외관검사의 비전 시스템이 개발 되었고, 이는 기존의 검사 방법에 비해 BGA 409 chip의 솔더볼의 외관검사의 신뢰성과 효율성을 증가시켰다. 하지만 BGA 솔더볼의 크기가 미세하고 그 특징의 구분이 힘들어 검사의 정확도가 떨어지고 오리엔테이션 오류가 발생하였다. 이에 본 논문에서는 BGA 솔더볼 외관검사의 정확도를 향상시키기 위해 에지 검출 알고리즘의 보완과 특징들만을 비교하는 패턴매칭 기법을 제안하였으며, 또한 특징 공간 설정의 기준이 되는 기준 영역의 개선을 통해 오리엔테이션 오류의 개선을 제안하였다. 즉, 본 논문에서는 기존의 비전 시스템의 정확도와 오리엔테이션 오류를 개선하는 방법을 제안함으로써 BGA 솔더볼 외관검사의 정확도를 향상시켜 결과적으로 BGA 솔더볼 외관검사의 에러율을 줄이고 검사 속도의 향상 등 기존의 외관검사 방법에 비해 향상된 검사 결과를 획득하였다.

최적화된 확률 모델을 이용한 다양한 품질의 지문분류 (Various Quality Fingerprint Classification Using the Optimal Stochastic Models)

  • 정혜욱;이지형
    • 한국시뮬레이션학회논문지
    • /
    • 제19권1호
    • /
    • pp.143-151
    • /
    • 2010
  • 지문분류는 1:N 지문인식 시스템의 효율성을 높이는 단계로 지문의 매칭 시간 단축과 인식의 정확성을 높여주는 역할을 한다. 지문 각 클래스의 융선 패턴은 한 개 이상의 클래스와 중복되는 성질을 가지기 때문에 지문분류 작업은 어렵다. 또한 잡음을 많이 포함하거나 예외적인 입력 상태인 경우에도 분류 작업은 어려워진다. 본 논문에서는 다양한 품질의 지문을 효과적으로 분류하기 위해 지문의 방향특징을 이용해 확률 모델을 설계하고, 이를 최적화 하여 지문분류를 수행하는 방법을 제안하였다. 지문 융선을 픽셀단위로 탐색하여 방향 값을 산출하고, 산출된 방향 값을 일정 픽셀 단위로 병합하여 지문의 방향특징을 추출한다. 추출된 방향 특징을 이용해 확률론적 정보추출 및 인식 방식인 마코프 모델을 이용하여 지문의 클래스별 마코프 모델을 생성한다. 생성된 클래스별 마코프 모델의 상태전이 행렬을 분석하여 클래스별 분류 모델의 가중치 항목을 결정하고 유전자 알고리즘을 이용하여 지문분류 성능을 향상시킬 수 있는 최적의 수치를 찾아낸다. 유전알고리즘에 의해 최적화된 분류모델에 다양한 품질의 지문 데이터베이스를 적용하여 실험해 본 결과 최적화 되기 전의 분류 모델에 비해 우수한 분류성능을 보였다. 또한 실험에 사용한 다양한 품질의 데이터베이스를 분석해본 결과 제안한 방법은 특이점 유, 무 및 상태에 독립적으로 예외적인 입력상황의 지문에 대해 효율적으로 지분분류를 수행했다.

클래스 불균형 문제를 해결하기 위한 개선된 집중 샘플링 (Improved Focused Sampling for Class Imbalance Problem)

  • 김만선;양형정;김수형;챠위핑
    • 정보처리학회논문지B
    • /
    • 제14B권4호
    • /
    • pp.287-294
    • /
    • 2007
  • 실세계의 문제에서 많은 기계학습의 알고리즘들은 데이터의 클래스 불균형 문제에 어려움을 겪는다. 이러한 클래스 불균형 문제를 해결하기 위하여 데이터의 비율을 변경하거나 좀 더 나은 샘플링 전략으로 극복하려는 연구들이 제안되었다. 그러나 데이터의 비율을 변경하는 연구에서는 전체 데이터 분포의 특성을 고려하지 못하고, 샘플링 전략을 제안하는 연구에서는 여러 가지 제한 조건을 고려해야만 한다. 본 논문에서는 위의 두가지 방법의 장점을 모두 포함하는 개선된 집중 샘플링 방법을 제안한다. 제안된 방법에서는 클래스 불균형 문제를 해결하기 위해 학습에 유용한 데이터들을 샘플링하는데 스코어링에 기반한 데이터 분할 방법을 이용한다. 즉, 입력 데이터들에 대해 SOM(Self Organizing Map)의 학습 결과로 얻은 BMU(Best Matching Unit)와의 거리를 계산하고, 이 거리론 스코어라 한다. 측정된 스코어는 오름차순으로 정렬되며, 이 과정에서 입력 데이터의 분포가 재 표현되고, 재 표현된 분포는 전체 데이터의 특성을 대표하게 된다. 그 결과로 얻은 데이터들 중에서 유용하지 못한 데이터들에 대해 제거하는 과정을 수행하여 새로운 학습 데이터 셋을 얻는다. 새로운 학습 데이터 생성 과정에서는 재 표현된 분포의 결과를 두 구간(upper, lower)으로 분할하는데, 두 추간 사이의 데이터들은 유용하지 못한 패턴들로 간주되어 학습에 이용되지 않는다. 본 논문에서 제안한 방법은 클래스 불균형의 비율 감수 훈련 데이터의 크기 감소, 과적합의 방지 등 몇 가지 장점을 보인다. 제안한 방법으로 샘플링된 데이터에 kNN 을 적용하여, 분류 실험한 결과 심한 불균형이 있는 ecoli 데이터의 분류 성능이 최대 2.27배 향상되었다.

구인구직사이트의 구인정보 기반 지능형 직무분류체계의 구축 (Development of Intelligent Job Classification System based on Job Posting on Job Sites)

  • 이정승
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.123-139
    • /
    • 2019
  • 주요 구인구직사이트의 직무분류체계가 사이트마다 상이하고 SW분야에서 제안한 'SQF(Sectoral Qualifications Framework)'의 직무분류체계와도 달라 SW산업에서 SW기업, SW구직자, 구인구직사이트가 모두 납득할 수 있는 새로운 직무분류체계가 필요하다. 본 연구의 목적은 주요 구인구직사이트의 구인정보와 'NCS(National Competaency Standars)'에 기반을 둔 SQF를 분석하여 시장 수요를 반영한 표준 직무분류체계를 구축하는 것이다. 이를 위해 주요 구인구직사이트의 직종 간 연관분석과 SQF와 직종 간 연관분석을 실시하여 직종 간 연관규칙을 도출하고자 한다. 이 연관규칙을 이용하여 주요 구인구직사이트의 직무분류체계를 맵핑하고 SQF와 직무 분류체계를 맵핑함으로써 데이터 기반의 지능형 직무분류체계를 제안하였다. 연구 결과 국내 주요 구인구직사이트인 '워크넷,' '잡코리아,' '사람인'에서 3만여 건의 구인정보를 open API를 이용하여 XML 형태로 수집하여 데이터베이스에 저장했다. 이 중 복수의 구인구직사이트에 동시 게시된 구인정보 900여 건을 필터링한 후 빈발 패턴 마이닝(frequent pattern mining)인 Apriori 알고리즘을 적용하여 800여 개의 연관규칙을 도출하였다. 800여 개의 연관규칙을 바탕으로 워크넷, 잡코리아, 사람인의 직무분류체계와 SQF의 직무분류체계를 맵핑하여 1~4차로 분류하되 분류의 단계가 유연한 표준 직무분류체계를 새롭게 구축했다. 본 연구는 일부 전문가의 직관이 아닌 직종 간 연관분석을 통해 데이터를 기반으로 직종 간 맵핑을 시도함으로써 시장 수요를 반영하는 새로운 직무분류체계를 제안했다는데 의의가 있다. 다만 본 연구는 데이터 수집 시점이 일시적이기 때문에 시간의 흐름에 따라 변화하는 시장의 수요를 충분히 반영하지 못하는 한계가 있다. 계절적 요인과 주요 공채 시기 등 시간에 따라 시장의 요구하는 변해갈 것이기에 더욱 정확한 매칭을 얻기 위해서는 지속적인 데이터 모니터링과 반복적인 실험이 필요하다. 본 연구 결과는 향후 SW산업 분야에서 SQF의 개선방향을 제시하는데 활용될 수 있고, SW산업 분야에서 성공을 경험삼아 타 산업으로 확장 이전될 수 있을 것으로 기대한다.