• 제목/요약/키워드: String algorithms

검색결과 105건 처리시간 0.108초

슬라이딩 윈도우 기반 다변량 스트림 데이타 분류 기법 (A Sliding Window-based Multivariate Stream Data Classification)

  • 서성보;강재우;남광우;류근호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권2호
    • /
    • pp.163-174
    • /
    • 2006
  • 분산 센서 네트워크에서 대용량 스트림 데이타를 제한된 네트워크, 전력, 프로세서를 이용하여 모든 센서 데이타를 전송하고 분석하는 것은 어렵고 바람직하지 않다. 그러므로 연속적으로 입력되는 데이타를 사전에 분류하여 특성에 따라 선택적으로 데이타를 처리하는 데이타 분류 기법이 요구된다. 이 논문에서는 다차원 센서에서 주기적으로 수집되는 스트림 데이타를 슬라이딩 윈도우 단위로 데이타를 분류하는 기법을 제안한다. 제안된 기법은 전처리 단계와 분류단계로 구성된다. 전처리 단계는 다변량 스트림 데이타를 포함한 각 슬라이딩 윈도우 입력에 대해 데이타의 변화 특성에 따라 문자 기호를 이용하여 다양한 이산적 문자열 데이타 집합으로 변환한다. 분류단계는 각 윈도우마다 생성된 이산적 문자열 데이타를 분류하기 위해 표준 문서 분류 알고리즘을 이용하였다. 실험을 위해 우리는 Supervised 학습(베이지안 분류기, SVM)과 Unsupervised 학습(Jaccard, TFIDF, Jaro, Jaro Winkler) 알고리즘을 비교하고 평가하였다. 실험결과 SVM과 TFIDF 기법이 우수한 결과를 보였으며, 특히 속성간의 상관 정도와 인접한 각 문자 기호를 연결한 n-gram방식을 함께 고려하였을 때 높은 정확도를 보였다.

노드의 연결성을 이용한 패스 표현의 효과적인 처리 (Efficient Evaluation of Path Expressions Using Connectivity of Nodes)

  • 이태경
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.337-344
    • /
    • 2002
  • 최근에 그래프 타입의 자료에 대한 연구가 이루어지고 있다. 그 이유는 그래프가 지리정보시스템, 네트워크, WWW, 멀티미디어 프리젠테이션 등과 같은 영역의 문제들을 자연스럽게 표현할 수 있으며 자료 변화의 순서가 중요한 영역의 문제들도 자연스럽게 표현할 수 있기 때문이다. 이 논문에서는 방향 비순환 그래프로 표현되는 멀티미디어 프리젠테이션 그래프의 경로를 효과적으로 검색 처리하는 코드 시스템인 노드 코드 시스템을 제안한다. 노드 코스 시스템은 그래프의 각 노드마다 유일한 2진 문자열을 부여한다. 두 노드의 노드 코드를 비교하여 그래프 운행 없이 두 노드가 연결되어 있는지를 확인할 수 있다. 전통적인 그래프 운행을 이용한 방법보다 노드 코드 시스템의 이 특성을 이용하면 두 노드 사이의 경로의 건설을 효과적으로 할 수 있다. 노드 코드 시스템을 이용하여 경로를 건설할 수 있는 알고리즘을 제시한다.

다해상도 영상과 개선된 RBF 네트워크를 이용한 계층적 영문 명함 인식 (Hierarchical Recognition of English Calling Card by Using Multiresolution Images and Enhanced RBF Network)

  • 김광백;김영주
    • 정보처리학회논문지B
    • /
    • 제10B권4호
    • /
    • pp.443-450
    • /
    • 2003
  • 본 논문은 영문 명함의 다해상도 영상을 이용한 계층적 영살 처리를 통해 문자를 추출하고 개선된 신경망 기법을 이용하여 문자를 인식하는 새로운 계층적 명함 인식 알고리즘을 제안하였다 계층적 인식 알고리즘은 명함 인식 과정을 구성하는 각 처리 단계별로 처리 시간을 단축함과 동시에 성능 향상을 위해 입력된 명함 영상을 해상도가 서로 다른 영상들로 분리하여 적용한다. 우선 1/3배 축소 영상에 가로 스미어링 기법을 적용하여 명함 영상 내에서 문자들을 포함하는 문자열 영역을 추출하고, 문자열 영역으로부터 개별 문자를 추출하기 위하여 1/2배 축소 영상에 새로 스미어링 및 윤곽선 추적 마스킹을 적용한다. 마지막으로 추출된 문자를 인식하기 위해서 문자의 형태학적 특성을 그대로 가지고 있는 원 영상을 사용하며, 다양한 형태를 가진 명함상의 문자를 인식하기 위해 ART1 기반의 개선된 RBF 네트워크를 제안하고 인식 과정에 적용하였다 제안된 인식 알고리즘을 실제 영문 명함 영상에 적용하여 실험한 결과, 기존의 방법과 비교하여 문자 추출 및 인식 성능이 크게 향상됨을 확인하였다.

개선된 배깅 앙상블을 활용한 기업부도예측 (Bankruptcy prediction using an improved bagging ensemble)

  • 민성환
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.121-139
    • /
    • 2014
  • 기업의 부도 예측은 재무 및 회계 분야에서 매우 중요한 연구 주제이다. 기업의 부도로 인해 발생하는 비용이 매우 크기 때문에 부도 예측의 정확성은 금융기관으로서는 매우 중요한 일이다. 최근에는 여러 개의 모형을 결합하는 앙상블 모형을 부도 예측에 적용해 보려는 연구가 큰 관심을 끌고 있다. 앙상블 모형은 개별 모형보다 더 좋은 성과를 내기 위해 여러 개의 분류기를 결합하는 것이다. 이와 같은 앙상블 분류기는 분류기의 일반화 성능을 개선하는 데 매우 유용한 것으로 알려져 있다. 본 논문은 부도 예측 모형의 성과 개선에 관한 연구이다. 이를 위해 사례 선택(Instance Selection)을 활용한 배깅(Bagging) 모형을 제안하였다. 사례 선택은 원 데이터에서 가장 대표성 있고 관련성 높은 데이터를 선택하고 예측 모형에 악영향을 줄 수 있는 불필요한 데이터를 제거하는 것으로 이를 통해 예측 성과 개선도 기대할 수 있다. 배깅은 학습데이터에 변화를 줌으로써 기저 분류기들을 다양화시키는 앙상블 기법으로 단순하면서도 성과가 매우 좋은 것으로 알려져 있다. 사례 선택과 배깅은 각각 모형의 성과를 개선시킬 수 있는 잠재력이 있지만 이들 두 기법의 결합에 관한 연구는 아직까지 없는 것이 현실이다. 본 연구에서는 부도 예측 모형의 성과를 개선하기 위해 사례 선택과 배깅을 연결하는 새로운 모형을 제안하였다. 최적의 사례 선택을 위해 유전자 알고리즘이 사용되었으며, 이를 통해 최적의 사례 선택 조합을 찾고 이 결과를 배깅 앙상블 모형에 전달하여 새로운 형태의 배깅 앙상블 모형을 구성하게 된다. 본 연구에서 제안한 새로운 앙상블 모형의 성과를 검증하기 위해 ROC 커브, AUC, 예측정확도 등과 같은 성과지표를 사용해 다양한 모형과 비교 분석해 보았다. 실제 기업데이터를 사용해 실험한 결과 본 논문에서 제안한 새로운 형태의 모형이 가장 좋은 성과를 보임을 알 수 있었다.

시스템적인 군집 확인과 뉴스를 이용한 주가 예측 (Predicting stock movements based on financial news with systematic group identification)

  • 성노윤;남기환
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.1-17
    • /
    • 2019
  • 빅데이터 시대에 정보의 양이 급증하고, 그중 많은 부분을 차지하는 문자열 정보를 정량화하여 의미를 찾아 낼 수 있는 인공지능 방법론이 함께 발전하면서, 텍스트 마이닝을 통해 주가 예측에 적용해 온라인 뉴스로 주가를 예측하려는 시도가 다양해지고 있다. 이러한 주가 예측의 방법은 대개 예측하고자 하는 기업의 뉴스로 주가를 예측하는 방식이다. 하지만 특정 회사의 뉴스만이 그 회사의 주가에 영향을 주는 것이 아니라, 그 회사와 관련성이 높은 회사들의 뉴스 또한 주가에 영향을 줄 수 있다. 그러나 관련성이 높은 기업을 찾는 것은 시장 전반의 공통적인 영향과 무작위 신호 때문에 쉽지 않다. 따라서 기존 연구들은 주로 미리 정해진 국제 산업 분류 표준에 기반을 둬 관련성이 높은 기업을 찾았다. 하지만 최근 연구에 따르면, 국제 산업 분류 표준은 섹터에 따라 동질성이 다르며, 동질성이 낮은 섹터는 그들을 모두 함께 고려하여 주가를 예측하는 것이 성능에 악영향을 줄 수 있다는 한계점을 가진다. 이러한 한계점을 극복하기 위해, 본 논문에서는 주가 예측 연구에서 처음으로 경제물리학에서 주로 사용되는 무작위 행렬 이론을 사용하여 시장 전반 효과와 무작위 신호를 제거하고 군집 분석을 시행하여 관련성이 높은 회사를 찾는 방법을 제시하였다. 또한, 이를 기반으로 관련성이 높은 회사의 뉴스를 함께 고려하며 다중 커널 학습을 사용하는 인공지능 모형을 제시한다. 본 논문의 결과는 무작위 행렬 이론을 통해 시장 전반의 효과와 무작위 신호를 제거하여 정확한 상관 계수를 찾아 군집 분석을 시행한다면 기존 연구보다 더 좋은 성능을 보여 준다는 것을 보여준다.