• 제목/요약/키워드: Edit Distance

검색결과 47건 처리시간 0.019초

집합 기반 POI 검색을 이용한 문장 유사도 측정 기법 (Sentence Similarity Measurement Method Using a Set-based POI Data Search)

  • 고은별;이종우
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제20권12호
    • /
    • pp.711-716
    • /
    • 2014
  • 최근 논문 표절 논란과 지능형 텍스트 검색서비스에 대한 관심이 증가하면서 문장 유사도 측정의 필요성이 증가하고 있다. n-gram, 편집거리, LSA 등 기존의 다양한 방향으로 선행 연구가 있었지만 각 기법마다 장단점이 존재한다. 본 논문에서는 집합 기반 POI 검색 기법을 이용한 새로운 방향의 문장 유사도 측정 기법을 제안한다. 집합 기반 POI 검색 기법은 하드매칭에 비해 단어의 도치, 누락, 삽입, 변경에 현저한 성능 향상을 보인다. 이 기법을 이용하면 보다 정확하고 빠른 문장 유사도 측정이 가능하다. 제안하는 기법은 기존 집합 기반 POI 검색 기법의 데이터 로딩 알고리즘과 텍스트 검색 알고리즘을 변형하고 어절 연산 알고리즘을 추가하여 두 문장의 유사도를 백분율로 표현한다. 실험을 통해 본 논문에서 제시하는 기법이 정확도와 속도에서 n-gram과 기존 집합 기반 POI 검색 기법에 비해 우수함을 확인하였다.

Classification of Porcine Wasting Diseases Using Sound Analysis

  • Gutierrez, W.M.;Kim, S.;Kim, D.H.;Yeon, S.C.;Chang, H.H.
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제23권8호
    • /
    • pp.1096-1104
    • /
    • 2010
  • This bio-acoustic study was aimed at classifying the different porcine wasting diseases through sound analysis with emphasis given to differences in the acoustic footprints of coughs in porcine circo virus type 2 (PCV2), porcine reproductive and respiratory syndrome (PRRS) virus and Mycoplasma hyopneumoniae (MH) - infected pigs from a normal cough. A total of 36 pigs (Yorkshire${\times}$Landrace${\times}$Duroc) with average weight ranging between 25-30 kg were studied, and blood samples of the suspected infected pigs were collected and subjected to serological analysis to determine PCV2, PRRS and MH. Sounds emitted by coughing pigs were recorded individually for 30 minutes depending on cough attacks by a digital camcorder placed within a meter distance from the animal. Recorded signals were digitalized in a PC using the Cool Edit Program, classified through labeling method, and analyzed by one-way analysis of variance and discriminant analysis. Input features after classification showed that normal cough had the highest pitch level compared to other infectious diseases (p<0.002) but not statistically different from PRRS and MH. PCV2 differed statistically (p<0.002) from the normal cough and PRRS but not from MH. MH had the highest intensity and all coughs differed statistically from each other (p<0.0001). PCV2 was statistically different from others (p<0.0001) in formants 1, 2, 3 and 4. There was no statistical difference in duration between different porcine diseases and the normal cough (p>0.6863). Mechanisms of cough sound creation in the airway could be used to explain these observed acoustic differences and these findings indicated that the existence of acoustically different cough patterns depend on causes or the animals' respiratory system conditions. Conclusively, differences in the status of lungs results in different cough sounds. Finally, this study could be useful in supporting an early detection method based on the on-line cough counter algorithm for the initial diagnosis of sick animals in breeding farms.

내용기반 음악검색 시스템의 비교 분석 (A Comparative Analysis of Content-based Music Retrieval Systems)

  • 노정순
    • 정보관리학회지
    • /
    • 제30권3호
    • /
    • pp.23-48
    • /
    • 2013
  • 본 연구는 웹에서 접근 가능한 내용기반 음악검색(CBMR) 시스템들을 조사하여, 탐색질의의 종류, 접근점, 입출력, 탐색기능, 데이터베이스 성격과 크기 등의 관점에서 특성을 비교 분석하고자 하였다. 비교 분석에 사용된 특성을 추출하기 위해 내용기반 음악정보의 특성과 시스템 구축에 필요한 파일의 변환, 멜로디 추출 및 분할, 색인자질 추출과 색인, 매칭에 사용되는 기술들을 선행연구로 리뷰하였다. 15개의 시스템을 분석한 결과 다음과 같은 특성과 문제점이 분석되었다. 첫째, 도치색인, N-gram 색인, 불리언 탐색, 용어절단검색, 키워드 및 어구 탐색, 음길이 정규화, 필터링, 브라우징, 편집거리, 정렬과 같은 텍스트 정보 검색 기법이 CBMR에서도 검색성능을 향상시키는 도구로 사용되고 있었다. 둘째, 시스템들은 웹에서 크롤링하거나 탐색질의를 DB에 추가하는 등으로 DB의 성장과 실용성을 위한 노력을 하고 있었다. 셋째, 개선되어야 할 문제점으로 선율이나 주선율을 추출하는데 부정확성, 색인자질을 추출할 때 사용되는 불용음(stop notes)을 탐색질의에서도 자동 제거할 필요성, 옥타브를 무시한 solfege 검색의 문제점 등이 분석되었다.

자율 학습을 이용한 선형 정렬 말뭉치 구축 (Construction of Linearly Aliened Corpus Using Unsupervised Learning)

  • 이공주;김재훈
    • 정보처리학회논문지B
    • /
    • 제11B권3호
    • /
    • pp.387-394
    • /
    • 2004
  • 본 논문에서는 자을 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축하는 방법을 제안한다. 기존의 자율 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축할 경우, 두 문자열의 길이가 서로 다르면 정렬된 두 문자열(입력열과 출력열)에 모두 공백문자가 나타난다. 이 방법을 그대로 사용하면 정렬 말뭉치의 구축은 용이하나 정렬된 말뭉치를 이용하는 응용 시스템에서는 탐색 공간이 기하급수적으로 늘어날 뿐 아니라 구축된 정렬 말뭉치는 다양한 기계학습 방법에 두루 사용될 수 없다는 문제가 있다. 본 논문에서는 이들 문제를 최소화하기 위해서 입력열에는 공백문자가 나타나지 않도록 기존의 자을 선형 정렬 알고리즘을 수정하였다. 이 알고리즘을 이용해서 한영 음차 표기 및 복원, 영어 단어의 발음 생성, 영어 발음의 단어 생성, 한국어 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하였으며, 간단한 실험을 통해, 그들의 실용성을 입증해 보였다.

Ad-Hoc 무선 환경의 발행/구독 시스템을 위한 구독주제 유사도 기반의 이벤트 라우팅 알고리즘 (Topic Similarity-based Event Routing Algorithm for Wireless Ad-Hoc Publish/Subscribe Systems)

  • 웬중휴;오상윤
    • 한국컴퓨터정보학회논문지
    • /
    • 제14권10호
    • /
    • pp.11-22
    • /
    • 2009
  • 동적이고 자원 제한적인 무선 애드혹 네트워크 환경에서, 발행/구독을 위한 이벤트 라우팅 알고리즘은 네트워크의 성능을 결정하는 중요한 역할을 한다. 지금까지는 노드간의 거리 정보를 이용하여 네트워크 오버헤드를 최소화하려는 이벤트 라우팅 알고리즘이 대표적으로 사용되어 왔다. 본 논문에서는 네트워크 오버헤드 중심의 이벤트 라우팅 알고리즘을 기반으로, 구독되는 주제의 유사도를 추가적으로 고려하여 발행/구독 트리에서의 노드 부모를 결정하는 새로운 알고리즘, TopSim을 제안한다. 본 제안 알고리즘은 기반이 되는 ShopParent 알고리즘을 이용하여 네트워크 오버헤드를 계산하고, 이를 기반으로 부모 후보 집합을 만든 후 새로 가입하는 노드와 부모 후보 노드들의 구독주제의 유사도를 계산하여 이를 기반으로 부모를 결정한다. 그럼으로써 노드들이 다수의 구독 주제를 가지는 경우에 보다 효과적으로 네트워크 오버헤드를 줄이도록 하였다. 성능평가를 통해 기존의 네트워크 오버헤드기반의 알고리즘에 비해 제안 알고리즘이 네트워크 성능을 향상시키는 것을 확인하였다.

리눅스 기반 서버의 소프트-RAID 시스템용 원격 상태 표시 소프트웨어의 구성에 관한 연구 (A study on the Construction of Remote Status Display Software for Soft-RAID system of Linux based Server)

  • 나원식;이현창
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제15권1호
    • /
    • pp.97-102
    • /
    • 2019
  • 본 논문에서는 Linux OS로 구성된 서버에서 사용되는 소프트-RAID 시스템에서, 저장 장치에서 발견된 오류들을 원격에서 직관적으로 확인할 수 있는 방법을 제시하였다. 이를 위해 리눅스 OS의 소프트-RAID 방식에서 오류 보고 방법의 원리 및 문제점을 분석하고, 저장장치들의 상태를 인터넷 홈페이지를 통해 원격으로 확인할 수 있는 방법을 제시하였다. 제시한 방법은 인터넷 홈페이지에 그림을 표시하는 방법으로 구성되어 홈페이지 작성 시 자유로운 배치가 가능하고, 표시할 그림 데이터는 외부 파일의 형태로 구성되므로 그림의 편집 및 교체가 매우 편리한 장점을 가진다. 제시한 방법의 효과를 확인하기 위해 리눅스 서버 시스템에서 소프트웨어를 구성해 실험한 결과, 홈페이지 구성에 큰 추가사항 없이 원거리에서 각 저장장치들의 상태를 직관적이면서 쉽게 점검할 수 있음을 확인하였다.

코퍼스 지표를 활용한 모의 토익시험의 유용성 검증 : 난이도와 변별도 분석을 중심으로 (Verification of the Usefulness of the Mock TOEIC Test using Corpus Indices : Focusing on the Analysis of Difficulty and Discrimination)

  • 이예나
    • 한국콘텐츠학회논문지
    • /
    • 제21권10호
    • /
    • pp.576-593
    • /
    • 2021
  • 본 연구에서는 토익 시험의 정답률과 변별도에 영향을 미치는 구조적인 요인이 무엇인지 분석하기 위하여 문항 분석에서 도출된 각 파트별 코퍼스 지표들을 분석하였다. 이를 위하여 모의 토익 시험의 정답률과 변별도에 대한 코퍼스 요인들의 회귀 분석을 실시하였고, 분석 결과는 다음과 같다. 정답률에 대해서는 기초산출치중에서 word_length, no_word_sentence1, sentence_length, 정합성 지표들 중에서는 LSA_overlap_adjacent_sentences, 어휘 다양성 지표들 중에서는 MTLD_VOCD, 접속사 지표들 중에서는 All_logical_causal_connectives_incidence, 상황모형 지표들 중에서는 casual_particles_causal_verbs_Ratio, 통사적복잡성 지표들 중에서는 Minimal_Edit_Distance1, Left_embeddedness, 통사적 패턴밀도 지표들 중에서는 Infinitive_density, Preposition_phrase_density 등이 음의 영향을 미치는 것으로 나타났다. 이러한 코퍼스 요인들은 토익의 정답률을 낮추는 효과가 있기 때문에 하위 레벨의 학습자들이 단기적인 학습효과를 향상시킬 수 있는 중요한 정보들을 제공해 줄 수 있을 것이다. 변별도에 대해서는 어휘 다양성 지표들 중에서 MTLD_VOCD, 접속사 지표들 중에서는 All_logical_causal_connectives_incidence, Additive_connectives_incidence, 통사적 패턴밀도 지표들 중에서는 Infinitive_density, 어휘정보 지표들 중에서는 person1_2_pronoun_incidence 등이 정의 영향을 미치는 것으로 나타났다. 이러한 코퍼스 요인들은 변별도 증가에 영향을 주기 때문에 영어 능력 하위 그룹에 필요한 학습 프로그램을 개발하는 데 있어서 활용될 수 있을 것이다.