• 제목/요약/키워드: 문자열 정렬

검색결과 26건 처리시간 0.025초

자율 학습을 이용한 선형 정렬 말뭉치 구축 (Construction of Linearly Aliened Corpus Using Unsupervised Learning)

  • 이공주;김재훈
    • 정보처리학회논문지B
    • /
    • 제11B권3호
    • /
    • pp.387-394
    • /
    • 2004
  • 본 논문에서는 자을 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축하는 방법을 제안한다. 기존의 자율 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축할 경우, 두 문자열의 길이가 서로 다르면 정렬된 두 문자열(입력열과 출력열)에 모두 공백문자가 나타난다. 이 방법을 그대로 사용하면 정렬 말뭉치의 구축은 용이하나 정렬된 말뭉치를 이용하는 응용 시스템에서는 탐색 공간이 기하급수적으로 늘어날 뿐 아니라 구축된 정렬 말뭉치는 다양한 기계학습 방법에 두루 사용될 수 없다는 문제가 있다. 본 논문에서는 이들 문제를 최소화하기 위해서 입력열에는 공백문자가 나타나지 않도록 기존의 자을 선형 정렬 알고리즘을 수정하였다. 이 알고리즘을 이용해서 한영 음차 표기 및 복원, 영어 단어의 발음 생성, 영어 발음의 단어 생성, 한국어 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하였으며, 간단한 실험을 통해, 그들의 실용성을 입증해 보였다.

음성인식과 변경된 동적계획법을 이용한 VOD 콘텐트와 자막의 동기화 (Synchronization of VOD Content and Captions Using Speech Recognition and Modified Dynamic Programming)

  • 오주현
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2021년도 하계학술대회
    • /
    • pp.131-134
    • /
    • 2021
  • 지상파 방송에서는 청각장애인을 위해 폐쇄자막(closed caption) 서비스가 제공되고 있지만, 이를 저장하여 VOD 서비스 등에 제공하고자 할 때는 영상과의 비동기화(desynchronization) 문제로 인해 활용할 수 없는 문제가 있다. 본 논문에서는 이를 해결하기 위해 자동 음성인식(automatic speech recognition)과, 자막 동기화 문제에 맞게 변경된 동적계획법(modified dynamic programming)을 이용하는 방법을 제안한다. 문자열 정렬에서 삽입과 삭제 등 간격(gap)의 발생을 제어하는 제약조건과 그에 따른 점수 구조를 적용함으로써 문자열 정렬 성능을 개선한다. 또한 정렬된 폐쇄자막과 음성인식 문자열로부터 시간 동기정보를 복원하고 동기화된 자막을 생성하는 방법을 제안한다. 실제 TV 프로그램과 자막에 적용하여 기존 방법에 비해 성능의 향상이 있음을 확인하였다.

  • PDF

실용적인 접미사 정렬 알고리즘의 개선 (Improvement of Practical Suffix Sorting Algorithm)

  • 정태영;이태형;박근수
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제36권2호
    • /
    • pp.68-72
    • /
    • 2009
  • 접미사 배열은 주어진 문자열 내의 모든 접미사를 사전식 순서로 저장하는 자료 구조로, 많은 저장 공간을 사용하는 접미사 트리를 대체하면서 여러 가지 문자열 관련 문제에 사용되고 있다. 이를 O(n) 시간 내에 생성하는 것과 더불어, 실세계 입력에 대하여 작은 시간과 공간을 사용하여 구성하는 알고리즘들 역시 제안되어 왔다. 본 논문은 Maniscalco와 Puglisi[1]가 제안한 접미사 정렬 알고리즘을 분석하고, 프로그램의 수행 시간을 개선한 새로운 알고리즘을 제안한다.

선형 시간 접미사 배열 생성 알고리즘들의 비교 (Comparison of Linear Time Suffix Array Construction Algorithms)

  • 이성림;박근수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.496-498
    • /
    • 2003
  • 접미사 배열은 긴 문자열에 대해 효율적인 문자열 검색을 가능하게 하는 자료구조이다. 접미사 배열은 문자열의 접미사들의 사전식 정렬순서를 배열로 저장한다. 비슷한 효과를 가진 접미사 트리에 비해서 접미사 배열은 저장 공간을 적게 차지하기 때문에 생명정보과학의 염기 서열 등 큰 크기의 문자열의 처리에 더욱 유리하다. 본 논문에서는 2003년에 발표된 Ko-Aluru, K$\square$rkk$\square$inen-Sanders 및 기존의 Manber-Myers 등 세 개의 접미사 배열 생성 알고리즘들의 염기 서열 입력 자료에 대한 실행 시간 및 기억 장치 사용량을 실험을 통해 비교한다. 특히 Ko-Aluru와 K$\square$rkk$\square$inen-Sanders 알고리즘은 실행 시간 및 저장 공간의 이론적인 복잡도가 O(n)으로 동일하기 때문에 실험을 통해서 계산 복잡도에 숨어있는 상수를 비교한다. 실험 결과 K$\square$rkk$\square$inen-Sanders 알고리즘이 가장 효율적임을 보인다.

  • PDF

재귀적 지역정렬을 이용한 프로그램 표절 탐색 (Source code Plagiarism Detection with Recursive Local Alignments)

  • 전명재;이평준;조환규
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.946-948
    • /
    • 2004
  • 지역정렬(local alignment)과 전체정렬(global alignment)로 대표되는 정렬 문제는 전산학 분야의 전형적인 문제로, 두 서열의 전체적인 또는 부문적인 유사성(similarity)을 찾아 주기 위한 방법이다. 특히 정렬은 두 문자열에서 유사하게 나타나는 유사 서브스트링을 찾아내는 문제라든가 근래의 생물정보학에서 두 DNA시퀀스간의 유사도를 판별하는 문제 등에서 매우 중요란 기법이다. 본 논문에서는 두 서열들을 유사하게 매칭 시켜 주는 기존의 정렬 방법을 응용, 변형하여 C, C++. JAVA등으로 짜여진 프로그램 소스들의 유사도를 측정하는 방법을 제시하였다. 실제로 이런 프로그램 소스의 표절은 대학교육 수업과정 등에서 빈번하게 발생되는 문제점으로서 본 논문에서는 프로그램 소스표절을 검사, 탐지할 수 있는 방법론 및 구체적인 프로그램과 그 결과를 제시하고 있다. 아울러 두 프로그램간의 유사성을 비교하기 위해 기존의 지역정렬 방법을 보다 효율적으로 적절히 변형시키는 방법을 제시하고 있다.

  • PDF

PAM 행렬 모델을 이용한 음소 간 유사도 자동 계산 기법 (Automatic Inter-Phoneme Similarity Calculation Method Using PAM Matrix Model)

  • 김성환;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제12권3호
    • /
    • pp.34-43
    • /
    • 2012
  • 두 문자열 간의 유사도를 계산하는 문제는 정보 검색, 오타 교정, 스팸 필터링 등 다양한 분야에 응용될 수 있다. 동적 계획법 기반의 유사도 계산 방법을 통하여 한글 문자열의 유사도 계산을 위해서는 우선 음소간의 유사도에 대한 정의가 필요하다. 그러나 기존의 방법들은 수동적 설정에 의한 유사도 점수를 사용하고 있다는 한계점이 있다. 본 논문에서는 PAM(Point Accepted Mutation) 행렬과 유사한 확률 모델을 이용하여 변형 단어 집합으로부터 음소 간의 유사도를 자동적으로 계산하는 기법을 제안한다. 제안 기법은 주어진 변형 단어의 집합 내 유사한 단어 쌍을 찾아 문자열 정렬(Text Alignment)을 수행함으로써 음소 변형 규칙을 도출하고, 이로부터 각 음소 쌍의 상호 변형 빈도에 따른 유사도 점수를 계산한다. 실험 결과 특이도(Specificity) 77.2~80.4% 수준에서 불일치 여부에 따른 단순 점수 부여 방식에 비해서는 10.4~14.1%, 수동으로 음소 간 유사도를 직접 설정하는 방식에 비해서는 8.1~11.8%의 민감도(Sensitivity) 향상이 있음을 확인하였다.

서열 정렬 알고리즘을 이용한 주가 패턴 탐색 시스템 개발 (Developing Stock Pattern Searching System using Sequence Alignment Algorithm)

  • 김형준;조환규
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제37권6호
    • /
    • pp.354-367
    • /
    • 2010
  • 시계열 데이터에서 패턴을 분석하는 기법은 많은 발전이 이루어져 오고 있다. 그러나 주식시장의 경우 시계열 데이터임에도 불구하고 패턴 분석 및 예측은 많은 연구가 이루어지지 않고 있으며 예측도가 매우 낮다. 그 이유는 주가의 등락 자체가 본질적으로 무작위하다고 하면 어떠한 과학적 방법으로도 그 예측은 불가능하다. 본 연구에서는 주가의 등락이 보여주는 무작위성의 정도를 Kolmogorov 복잡도를 이용해 측정하여 그 무작위의 정도와 본 논문에서 제시한 반 전역정렬(semi-global alignment)로 예측할 수 있는 주가의 예측의 정확간의 깊은 상관관계가 있음을 보인다. 이를 위해서 주가지수의 등락을 양자화된 문자열로 변환하고 그 문자열의 Kolmogorov 복잡도를 이용해 주가 변동의 무작위성을 측정하였다. 우리는 KOSPI 주식 데이터 28년 690개의 데이터를 수집하여 이를 실험용 데이터로 사용하여 본 논문에서 제시한 방법의 의미를 평가하였다. 그 결과 Kolmogorov 복잡도가 높은 경우에는 변동 예측이 어려우며, Kolmogorov 복잡도가 낮은 경우에는 주식 변동 예측은 가능하나 3종류의 예측율에 대해서 투자자들이 관심이 많은 등락 예측율은 단기 예측은 12% 이상의 예측율을 보일 수 없으며, 장기 예측의 경우 54%의 예측율로 수렴함을 확인하였다.

전도와 전치 연산을 사용하여 정렬하는 빠르고 간단한 알고리즘 (Fast and simple algorithm for sorting by reversals and transpositions)

  • 한보형;박근수
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (A)
    • /
    • pp.674-676
    • /
    • 2000
  • 최근 들어 계산분자생물학 분야에서 문자열 알고리즘과 관련된 유전자 재배열 문제가 많은 관심을 끌고 있다. 특히 이러한 문제에는 전도(reversal)나 전치(transpositon)와 같은 재배열 연산들이 사용되고 있다. 전도와 전치 두 가지 연산을 모두 사용하는 정렬은 필요한 최소 연산 회수의 3배 이내의 연산 수행만으로 가능하다고 알려져 있다. 이 논문에서는 기존의 알고리즘을 분석하고 휴리스틱을 사용함으로써 실제 연산 수행 회수를 대폭 줄일수 있음을 보였다. 또한, 기존의 알고리즘보다 간단한 새로운 알고리즘을 제시하고, 이 알고리즘과 휴리스틱을 같이 사용하는 경우 수행 시간과 근사비(approximation ratio)에 있어서 매우 효과적임을 보였다.

  • PDF

시계열 데이터의 양자화된 문자열 변환을 통한 새로운 패턴 분석 기법 (A New Pattern Analysis Methodology for Time-Series Data using Symbol String Quantization)

  • 김형준;윤태진;조환규
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2009년도 춘계학술발표대회
    • /
    • pp.523-526
    • /
    • 2009
  • 시계열 데이터에서 패턴을 분석하는 기법은 많은 발전이 이루어져 오고 있으나 주식시장의 경우 패턴 분석 및 예측에 관련되어 많은 연구가 이루어져 있지 않고 있다. 이는 주가의 등락 자체가 본질적으로 무작위하다고 생각되어지고 있기 때문이다. 본 연구에서는 주가의 등락이 보여주는 무작위성의 정도를 Kolmogorov Complexity로 측정, 그 무작위성의 정도와 본 논문에서 제시한 반전역정렬로 예측하는 주가의 예측 간의 상관관계를 보인다. 이를 위하여 KOSPI 주식 데이터 28년 690개의 데이터를 수집하여 이들 주식 데이터의 등락을 양자화된 문자열로 변환하여 본 논문에서 제시한 방법의 의미를 평가하였다. 그 결과 Kolmogorov Complexity가 높은 경우에는 주가 변동 예측이 어려우며, Kolmogorov Complexity가 낮은 경우에는 주식 변동 예측은 가능하나 등락 예측 율은 단기 예측은 12%이상의 예측율을 보일 수 없으며, 장기 예측의 경우 54%의 예측율로 수렴함을 확인하였다.

N과 X를 포함하는 DNA 서열을 위한 효율적인 지역정렬 알고리즘 (An Efficient Local Alignment Algorithm for DNA Sequences including N and X)

  • 김진욱
    • 한국정보과학회논문지:컴퓨팅의 실제 및 레터
    • /
    • 제16권3호
    • /
    • pp.275-280
    • /
    • 2010
  • 지역정렬(local alignment) 알고리즘은 주어진 두 서열에서 서로 유사한 부분 문자열을 찾아내는 알고리즘이다. DNA 서열은 A, C, G, T 외에 N과 X도 가질 수 있는데, N과 X는 DNA로부터 염기배열 정보를 뽑아낼 때 실험적인 이유로 혹은 다른 이유로 일부 배열 정보를 잃어버린 경우에 사용된다. 본 논문에서는 A, C, G, T 이외에 N과 X를 모두 갖는 DNA 서열의 affine gap penalty metric에 대한 지역정렬을 찾는 효율적인 알고리즘을 제시한다. 이는 N만 처리할 수 있는 Kim-Park 알고리즘을 N과 X를 모두 처리할 수 있도록 성공적으로 확장한 결과이며, 더불어 새로운 문자가 추가되더라도 바로 적용이 가능한 일반화된 결과이다.