• 제목/요약/키워드: n-gram similarity

검색결과 32건 처리시간 0.018초

Style-Specific Language Model Adaptation using TF*IDF Similarity for Korean Conversational Speech Recognition

  • Park, Young-Hee;Chung, Min-Hwa
    • The Journal of the Acoustical Society of Korea
    • /
    • 제23권2E호
    • /
    • pp.51-55
    • /
    • 2004
  • In this paper, we propose a style-specific language model adaptation scheme using n-gram based tf*idf similarity for Korean spontaneous speech recognition. Korean spontaneous speech shows especially different style-specific characteristics such as filled pauses, word omission, and contraction, which are related to function words and depend on preceding or following words. To reflect these style-specific characteristics and overcome insufficient data for training language model, we estimate in-domain dependent n-gram model by relevance weighting of out-of-domain text data according to their n-. gram based tf*idf similarity, in which in-domain language model include disfluency model. Recognition results show that n-gram based tf*idf similarity weighting effectively reflects style difference.

커버곡 검색을 위한 크로마 n-gram 선택에 관한 연구 (An investigation of chroma n-gram selection for cover song search)

  • 서진수;김정현;박지현
    • 한국음향학회지
    • /
    • 제36권6호
    • /
    • pp.436-441
    • /
    • 2017
  • 음악 유사도 계산은 음악 검색 시스템 구현에 있어서 필수적인 구성 요소이다. 본 논문은 음악 검색 중에서 커버곡 검색에 대해서 다룬다. 크로마 n-gram을 이용한 커버곡 검색에 있어서 특징 DB 저장 공간을 줄이고 성능을 향상시키기 위해서 t-tab n-gram을 제안하고, n-gram 선택 방법, n-gram 집합 간 비교 방법에 관해서 연구하였다. 공개되어 있는 커버곡 데이터셋에서 실험을 수행하여 제안된 방법이 저장 공간을 줄이면서 동시에 커버곡 검색 성능을 향상시킬 수 있음을 보였다.

N-gram 기반의 유사도를 이용한 대화체 연속 음성 언어 모델링 (Spontaneous Speech Language Modeling using N-gram based Similarity)

  • 박영희;정민화
    • 대한음성학회지:말소리
    • /
    • 제46호
    • /
    • pp.117-126
    • /
    • 2003
  • This paper presents our language model adaptation for Korean spontaneous speech recognition. Korean spontaneous speech is observed various characteristics of content and style such as filled pauses, word omission, and contraction as compared with the written text corpus. Our approaches focus on improving the estimation of domain-dependent n-gram models by relevance weighting out-of-domain text data, where style is represented by n-gram based tf/sup */idf similarity. In addition to relevance weighting, we use disfluencies as Predictor to the neighboring words. The best result reduces 9.7% word error rate relatively and shows that n-gram based relevance weighting reflects style difference greatly and disfluencies are good predictor also.

  • PDF

집합 기반 POI 검색을 이용한 문장 유사도 측정 기법 (Sentence Similarity Measurement Method Using a Set-based POI Data Search)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.711-716
    • /
    • 2014
  • 최근 논문 표절 논란과 지능형 텍스트 검색서비스에 대한 관심이 증가하면서 문장 유사도 측정의 필요성이 증가하고 있다. n-gram, 편집거리, LSA 등 기존의 다양한 방향으로 선행 연구가 있었지만 각 기법마다 장단점이 존재한다. 본 논문에서는 집합 기반 POI 검색 기법을 이용한 새로운 방향의 문장 유사도 측정 기법을 제안한다. 집합 기반 POI 검색 기법은 하드매칭에 비해 단어의 도치, 누락, 삽입, 변경에 현저한 성능 향상을 보인다. 이 기법을 이용하면 보다 정확하고 빠른 문장 유사도 측정이 가능하다. 제안하는 기법은 기존 집합 기반 POI 검색 기법의 데이터 로딩 알고리즘과 텍스트 검색 알고리즘을 변형하고 어절 연산 알고리즘을 추가하여 두 문장의 유사도를 백분율로 표현한다. 실험을 통해 본 논문에서 제시하는 기법이 정확도와 속도에서 n-gram과 기존 집합 기반 POI 검색 기법에 비해 우수함을 확인하였다.

Color N$\times$M-grams를 이용한 영상 분류 (Image Categorization Using Color N$\times$M-grams)

  • 이은주;정성환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1998년도 가을 학술발표논문집 Vol.25 No.2 (2)
    • /
    • pp.402-404
    • /
    • 1998
  • 최근 영상 정보를 저장하는 시스템의 급증으로, 영상의 특징 요소들의 유사성(similarity)에 근거하여 영상을 분류.검색하는 기술에 많은 관심을 보이고 있다. 본 논문에서는 칼라영상의 분류를 위해 기존의 N$\times$M-grams를 변형한 Color N$\times$M-grams를 제안한다. Color N$\times$M-grams는 영상의 칼라정보를 이용하여 영상고유의 구조 정보를 추출한 후 유사성을 측정하여 영상을 분류한다. 제안된 방법의 성능 평가를 위하여 39쌍의 Benchmark 영상을 사용하여 실험하였다. 실험결과, 제안한 Color N$\times$M-grams를 사용한 방법이 기존의 N$\times$M-grams를 사용하여 칼라 영상을 분류하는 방법보다 1순위로 분류되는 비율에 있어서 약 19% 더 좋은 결과를 보였다.

  • PDF

단백질 서열의 n-Gram 자질을 이용한 세포내 위치 예측 (Classification Protein Subcellular Locations Using n-Gram Features)

  • 김진숙
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2007년도 추계 종합학술대회 논문집
    • /
    • pp.12-16
    • /
    • 2007
  • 단백질의 기능은 그 기능을 발휘하는 세포내의 위치와 밀접한 연관이 있다. 따라서 새로운 단백질의 서열이 밝혀지면 이 단백질의 세포내 위치를 규명하는 것은 생물학적으로 매우 중요한 일이다. 이 논문에서는 단백질의 n-그램과 kNN (k-Nearest Neighbor) 분류기를 이용한 새로운 세포내 위치예측 방법을 다룬다. 이 방법은 입력 단백질 서열과 가장 유사한 가중치를 가지는 k개의 단백질이 가지는 세포내 위치 정보들을 취합하여 입력 단백질의 세포내 위치를 추정한다. 단백질간의 유사도 가중치는 두 단백질서열의 5-그램 자질의 유사도를 비교하여 계산된다. 단백질의 세포내 위치예측 정확도를 검증하기 위해 SWISS-PROT 단백질 데이터베이스로 부터 세포내 위치가 알려진 51,885개의 서열을 추출하여 대용량 테스트 컬렉션을 구축하였으며, 다른 연구자들이 제공하는 또 하나의 소용량 테스트 컬렉션을 실험에 사용하였다. 이 논문에서 사용한 예측방법은 대용량 테스트컬렉션에 대해 약 93%의 정확도를 보여주었으며, 소용량 데스트컬렉션을 이용하여 이전 실험과 비교하였을 때도 이 방법이 다른 시스템에 비해 성능이 우월함을 알 수 있었다.

  • PDF

이상탐지 활용 전자집단민원 추정 방법론에 관한 탐색적 연구: 창원시 시민의 소리 사례를 중심으로 (An Exploratory Study of Collective E-Petitions Estimation Methodology Using Anomaly Detection: Focusing on the Voice of Citizens of Changwon City)

  • 정하영
    • 정보화정책
    • /
    • 제26권4호
    • /
    • pp.85-106
    • /
    • 2019
  • 최근 전자민원시스템에 집단민원을 제기하는 사례가 늘어나고 있으나 이에 대한 효율적인 관리시스템이 아직 마련되어 있지 않아 행정 업무량 증대와 사회적 갈등 양산 등의 부작용이 우려되고 있다. 이에 본 연구에서는 이상탐지와 코퍼스 언어학 기반의 내용분석을 활용한 전자 집단민원 추정 방법론을 제시하고자 하였다. 이를 위하여 1)집단민원의 개념에 대한 이론적 고찰과 2) 비모수적 비지도 학습에 기반 한 이상탐지를 활용한 전자 집단민원 추정과 3) n-gram 코사인 각도 거리를 활용한 민원의 내용 유사도 분석방법론을 제안하고 4) 창원시 시민의 소리에 대한 사례분석을 통하여 제시한 방법론의 유용성과 정책적 시사점, 향후 과제를 검토하였다.

대화체 연속음성 인식을 위한 언어모델 적응 (Language Model Adaptation for Conversational Speech Recognition)

  • 박영희;정민화
    • 대한음성학회:학술대회논문집
    • /
    • 대한음성학회 2003년도 5월 학술대회지
    • /
    • pp.83-86
    • /
    • 2003
  • This paper presents our style-based language model adaptation for Korean conversational speech recognition. Korean conversational speech is observed various characteristics of content and style such as filled pauses, word omission, and contraction as compared with the written text corpora. For style-based language model adaptation, we report two approaches. Our approaches focus on improving the estimation of domain-dependent n-gram models by relevance weighting out-of-domain text data, where style is represented by n-gram based tf*idf similarity. In addition to relevance weighting, we use disfluencies as predictor to the neighboring words. The best result reduces 6.5% word error rate absolutely and shows that n-gram based relevance weighting reflects style difference greatly and disfluencies are good predictor.

  • PDF

N-gram을 활용한 DGA-DNS 유사도 분석 및 APT 공격 탐지 (DGA-DNS Similarity Analysis and APT Attack Detection Using N-gram)

  • 김동현;김강석
    • 정보보호학회논문지
    • /
    • 제28권5호
    • /
    • pp.1141-1151
    • /
    • 2018
  • APT(Advanced Persistent Threat) 공격에서 감염 호스트와 C&C(Command and Control) 서버 간 통신은 공격 대상의 내부로 침입하기 위한 핵심단계이다. 공격자는 C&C 서버를 통해 다수의 감염 호스트를 제어하고, 침입 및 공격 행위를 지시하는데, 이 단계에서 C&C 서버가 노출되면 공격은 실패할 수 있다. 따라서 최근의 경우 DGA(Domain Generation Algorithm)를 통해 C&C 서버의 DNS를 짧은 시간 간격으로 교체하여 탐지를 어렵게 하고 있다. 특히 하루에도 500만개 이상 새로 등록되는 DNS 전부를 검증하고 탐지하는 것은 매우 어렵다. 이러한 문제점을 해결하기 위해 본 논문에서는 정상 DNS와 DGA를 통해 생성된 DNS(DGA-DNS)의 형태적 유사도(similarity) 분석을 이용한 DGA-DNS 탐지와 이를 통해 APT 공격 징후로 판단하는 모델을 제시하고 유효성을 검증한다.

오픈소스 소프트웨어 라이선스 파일 식별 기술 (Measurement for License Identification of Open Source Software)

  • 윤호영;조용준;정병옥;신동명
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제12권2호
    • /
    • pp.1-8
    • /
    • 2016
  • 본 논문은 오픈소스 소프트웨어의 배포과정에서 라이선스 정보가 누락, 훼손, 변경, 충돌됨에 따라 발생하는 무의적인 저작권 침해를 미연에 방지하고자 라이선스 파일을 추출/식별하는 기술을 연구하였다. 라이선스 파일이 갖는 특성을 파악하기 위해 n-gram과 TF-IDF 기법을 활용하여 322개의 라이선스 내용을 분석하였고, 이를 활용하여 패키지 내에서 라이선스 파일을 추출하였다. 추출한 라이선스는 코사인 측정법을 통해 확보한 라이선스간의 유사도를 산정하여 라이선스 정보를 식별하였다.