• 제목/요약/키워드: 중복 유전자 알고리즘

검색결과 13건 처리시간 0.019초

DNA 서열분석을 위한 거리합기반 문자열의 근사주기 (Approximate Periods of Strings based on Distance Sum for DNA Sequence Analysis)

  • 정주희;김영호;나중채;심정섭
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제2권2호
    • /
    • pp.119-122
    • /
    • 2013
  • 주기와 같은 반복문자열에 대한 연구는 데이터압축, 컴퓨터활용 음악분석, 바이오인포매틱스 등 다양한 분야에서 진행되고 있다. 바이오인포매틱스 분야에서 주기는 유전자 서열이 반복적으로 나타나는 종렬중복과 밀접한 관련이 있으며 이는 근사문자열매칭을 이용한 근사주기 연구와 관련이 있다. 본 논문에서는 기존의 근사주기에 대한 정의를 보완하는 거리합기반 근사주기를 정의하고 이에 대한 연구 결과를 제시한다. 길이가 각각 m과 n인 문자열 p와 x가 주어졌을 때, p의 x에 대한 거리합기반 최소 근사주기거리를 가중편집거리에 대해 $O(mn^2)$ 시간, 편집거리에 대해 O)(mn) 시간, 해밍거리에 대해 O(n) 시간에 계산하는 알고리즘을 제시한다.

최적화된 확률 모델을 이용한 다양한 품질의 지문분류 (Various Quality Fingerprint Classification Using the Optimal Stochastic Models)

  • 정혜욱;이지형
    • 한국시뮬레이션학회논문지
    • /
    • 제19권1호
    • /
    • pp.143-151
    • /
    • 2010
  • 지문분류는 1:N 지문인식 시스템의 효율성을 높이는 단계로 지문의 매칭 시간 단축과 인식의 정확성을 높여주는 역할을 한다. 지문 각 클래스의 융선 패턴은 한 개 이상의 클래스와 중복되는 성질을 가지기 때문에 지문분류 작업은 어렵다. 또한 잡음을 많이 포함하거나 예외적인 입력 상태인 경우에도 분류 작업은 어려워진다. 본 논문에서는 다양한 품질의 지문을 효과적으로 분류하기 위해 지문의 방향특징을 이용해 확률 모델을 설계하고, 이를 최적화 하여 지문분류를 수행하는 방법을 제안하였다. 지문 융선을 픽셀단위로 탐색하여 방향 값을 산출하고, 산출된 방향 값을 일정 픽셀 단위로 병합하여 지문의 방향특징을 추출한다. 추출된 방향 특징을 이용해 확률론적 정보추출 및 인식 방식인 마코프 모델을 이용하여 지문의 클래스별 마코프 모델을 생성한다. 생성된 클래스별 마코프 모델의 상태전이 행렬을 분석하여 클래스별 분류 모델의 가중치 항목을 결정하고 유전자 알고리즘을 이용하여 지문분류 성능을 향상시킬 수 있는 최적의 수치를 찾아낸다. 유전알고리즘에 의해 최적화된 분류모델에 다양한 품질의 지문 데이터베이스를 적용하여 실험해 본 결과 최적화 되기 전의 분류 모델에 비해 우수한 분류성능을 보였다. 또한 실험에 사용한 다양한 품질의 데이터베이스를 분석해본 결과 제안한 방법은 특이점 유, 무 및 상태에 독립적으로 예외적인 입력상황의 지문에 대해 효율적으로 지분분류를 수행했다.

캠페인 효과 제고를 위한 자기 최적화 변수 선택 알고리즘 (Self-optimizing feature selection algorithm for enhancing campaign effectiveness)

  • 서정수;안현철
    • 지능정보연구
    • /
    • 제26권4호
    • /
    • pp.173-198
    • /
    • 2020
  • 최근 온라인의 비약적인 활성화로 캠페인 채널들이 다양하게 확대되면서 과거와는 비교할 수 없을 수준의 다양한 유형들의 캠페인들이 기업에서 수행되고 있다. 하지만, 고객의 입장에서는 중복 노출로 인한 캠페인에 대한 피로감이 커지면서 스팸으로 인식하는 경향이 있고, 기업입장에서도 캠페인에 투자하는 비용은 점점 더 늘어났지만 실제 캠페인 성공률은 오히려 더 낮아지고 있는 등 캠페인 자체의 효용성이 낮아지고 있다는 문제점이 있어 실무적으로 캠페인의 효과를 높이고자 하는 다양한 연구들이 지속되고 있다. 특히 최근에는 기계학습을 이용하여 캠페인의 반응과 관련된 다양한 예측을 해보려는 시도들이 진행되고 있는데, 이 때 캠페인 데이터의 다양한 특징들로 인해 적절한 특징을 선별하는 것은 매우 중요하다. 전통적인 특징 선택 기법으로 탐욕 알고리즘(Greedy Algorithm) 중 SFS(Sequential Forward Selection), SBS(Sequential Backward Selection), SFFS(Sequential Floating Forward Selection) 등이 많이 사용되었지만 최적 특징만을 학습하는 모델을 생성하기 때문에 과적합의 위험이 크고, 특징이 많은 경우 분류 예측 성능 하락 및 학습시간이 많이 소요된다는 한계점이 있다. 이에 본 연구에서는 기존의 캠페인에서의 효과성 제고를 위해 개선된 방식의 특징 선택 알고리즘을 제안한다. 본 연구의 목적은 캠페인 시스템에서 처리해야 하는 데이터의 통계학적 특성을 이용하여 기계 학습 모델 성능 향상의 기반이 되는 특징 부분 집합을 탐색하는 과정에서 기존의 SFFS의 순차방식을 개선하는 것이다. 구체적으로 특징들의 데이터 변형을 통해 성능에 영향을 많이 끼치는 특징들을 먼저 도출하고 부정적인 영향을 미치는 특징들은 제거를 한 후 순차방식을 적용하여 탐색 성능에 대한 효율을 높이고 일반화된 예측이 가능하도록 개선된 알고리즘을 적용하였다. 실제 캠페인 데이터를 이용해 성능을 검증한 결과, 전통적인 탐욕알고리즘은 물론 유전자알고리즘(GA, Genetic Algorithm), RFE(Recursive Feature Elimination) 같은 기존 모형들 보다 제안된 모형이 보다 우수한 탐색 성능과 예측 성능을 보임을 확인할 수 있었다. 또한 제안 특징 선택 알고리즘은 도출된 특징들의 중요도를 제공하여 예측 결과의 분석 및 해석에도 도움을 줄 수 있다. 이를 통해 캠페인 유형별로 중요 특징에 대한 분석과 이해가 가능할 것으로 기대된다.