• 제목/요약/키워드: gram

검색결과 3,602건 처리시간 0.035초

n-gram/2L: 공간 및 시간 효율적인 2단계 n-gram 역색인 구조 (n-Gram/2L: A Space and Time Efficient Two-Level n-Gram Inverted Index Structure)

  • 김민수;황규영;이재길;이민재
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권1호
    • /
    • pp.12-31
    • /
    • 2006
  • n-gram 기반 역색인 구조는 언어 중립적이고 에러 허용적인 장점들로 인해 일부 아시아권 언어에 대한 정보 검색이나 단백질과 DNA의 sequence의 근사 문자열 매칭에 유용하게 사용되고 있다. 그러나, n-gram 기반의 역색인 구조는 색인의 크기가 크고 질의 처리 시간이 오래 걸린다는 단점들을 가지고 있다. 이에 본 논문에서는 n-gram 기반 역색인의 장점을 그대로 유지하면서 색인의 크기를 줄이고 질의 처리 성능을 향상시킨 2단계 n-gram 역색인(간단히 n-gram/2L 역색인이라 부른다)을 제안한다. n-gram/2L 역색인은 n-gram 기반 역색인에 존재하던 위치 정보의 중복을 제거한다. 이를 위해 문서로부터 길이 m의 m-subsequence들을 추출하고, 그 m-subsequence들로부터 n-gram을 추출하여 2단계로 역색인을 구성한다. 이러한 2단계 구성 방법은 이론적으로 의미 있는 다치 종속성이 존재하는 릴레이션을 정규화하여 중복을 제거하는 것과 동일하며, 이를 본문에서 정형적으로 증명한다. n-gram/2L 역색인은 데이타의 크기가 커질 수록 n-gram 역색인에 비해 색인 크기가 줄어들며 질의 처리 성능이 향상되고, 질의 문자열의 길이가 길어져도 질의 처리 시간이 거의 증가하지 않는 좋은 특성을 가진다. 1GByte 크기의 데이타에 대한 실험을 통하여, n-gram/2L 역색인은 n-gram 기반 역색인에 비해 최대 1.9${\~}$2.7배 더 작은 크기를 가지면서, 동시에 질의 처리 성능은 3${\~}$18 범위의 길이를 가지는 질의들에 대해 최대 13.1배 향상됨을 보였다.

음절 n-gram 기반의 미등록 어휘 추정기 구현 (Out of Vocabulary Word Extractor based on a Syllable n-gram)

  • 신준수;홍초희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2013년도 제25회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.139-141
    • /
    • 2013
  • 다양한 콘텐츠가 생성됨에 따라 신조어 및 미등록어도 다양한 형태로 나타나고 있다. 이러한 신조어 및 미등록어는 텍스트 처리 단계에서 오분석 되어 성능 저하의 원인이 된다. 본 논문은 이러한 문제를 해결하기 위해서 대량의 문서로부터 신조어 및 미등록 어휘를 추정하는 방법에 대해서 제안한다. 제안 방법은 대량의 문서로부터 음절 n-gram을 추출한 뒤, 각 n-gram에서 n을 한음절 축소 및 확장 시켜, (n+1)gram, (n-1)gram을 추가적으로 추출한다. 추출된 음절 n-gram을 기준으로 (n+1)gram, (n-1)gram과의 빈도 차이를 계산하여 빈도차가 급격하게 발생하는 구간을 신조어 및 미등록 어휘로 추정한다. 실험결과 신조어 뿐만 아니라 트위터, 미투데이 등과 같은 도메인에 종속적인 미등록 어휘도 추출되는 것을 확인할 수 있었다.

  • PDF

커버곡 검색을 위한 크로마 n-gram 선택에 관한 연구 (An investigation of chroma n-gram selection for cover song search)

  • 서진수;김정현;박지현
    • 한국음향학회지
    • /
    • 제36권6호
    • /
    • pp.436-441
    • /
    • 2017
  • 음악 유사도 계산은 음악 검색 시스템 구현에 있어서 필수적인 구성 요소이다. 본 논문은 음악 검색 중에서 커버곡 검색에 대해서 다룬다. 크로마 n-gram을 이용한 커버곡 검색에 있어서 특징 DB 저장 공간을 줄이고 성능을 향상시키기 위해서 t-tab n-gram을 제안하고, n-gram 선택 방법, n-gram 집합 간 비교 방법에 관해서 연구하였다. 공개되어 있는 커버곡 데이터셋에서 실험을 수행하여 제안된 방법이 저장 공간을 줄이면서 동시에 커버곡 검색 성능을 향상시킬 수 있음을 보였다.

김치발효의 지표로서 미생물군집의 측정 (Determination of Microbial Community as an Indicator of Kimchi Fermentation)

  • 한홍의;임종락;박현근
    • 한국식품과학회지
    • /
    • 제22권1호
    • /
    • pp.26-32
    • /
    • 1990
  • 김치발효 지표로서 미생물군집의 특성을 밝히고자 하였다. 군집크기는 Gram염색법에 의한 현미경직접계수에 의하여 측정하였다. 실온$(15^{\circ}C)$에서 김치발효는 Gram양성균군집, 효모군집 그리고 Gram음성균군집이 순서적으로 천이되었다. Gram양성균군집은 김치를 발효시키는 유산균으로 구성되어 있다. 효모군집의 발달은 김치의 악취를 내는 원인이 되며, Gram음성균군집은 악취와 더불어 김치의 연화작용에 관계된다는 사실이 특정적이었다. 그리고, 외관상의 Gram음성균군은 Gram양성균군집 내의 개체군의 노화와 사멸을 평가하는데 이용될 수 있었다. 특히 저온$(5^{\circ}C)$ 김치발효에서는 효모군집과 Gram 음성균군집이 발달되지 않고 Gram양성균군집만이 발달됨을 알았다. 이 사실로부터 숙성된 김치는 Gram양성균군집에 의하여 만들어짐을 의미한다. 따라서 미생물군집의 발달과 크기는 김치발효의 지표로 이용될 수 있고, 또한 김치숙성도를 수십분 내에 예측하는데 중요한 방법이 될 수 있다.

  • PDF

병실 낙하균 및 산모감염에 관한 연구 (A Study on the Air Counts and the Infection of Maternity in n General Hospital)

  • 이남희
    • 대한간호학회지
    • /
    • 제9권2호
    • /
    • pp.17-26
    • /
    • 1979
  • This research is to prevent the infection of maternity in the hospital by examining the microbes contaminations in maternity through airbone microbes and those who are engaged in the ward of O.B. & G.Y. and to furnish the basic data available to hospital management. The bacterial growth of airbone microbes contaminations in nosocomial air and who thor the nasal cavity of passers by (doctors, nurses, parturient women) who went to the ward of O.B. & G.Y. contaminated or not were examined in“E”Univ. Hospital from July to August, 1979 by using thioglycollate broths and agar plates. The following results were obtained: 1. The average colony number of airborne microbes revealed as follows the pediatric ward (36 colonies), the internal ward (33 colonies), the ward of O.B. & G.Y. (30 colonies), the ward of surgery (24 colonies), delivery-waiting room (11 colonies), and the delivery room (3 colonies). 2. The bacterial growth beforenoon differed from that of afternoon. Namely, the latter (24 colonies) was higher than the former (21 colonies). 3. The type of strains isolated from the air of the ward revealed staphylococci (82%), Gram negative bacilli (18%), fungi (17%), Gram positive diplococci (13%), and Bacillus subtilis (2.8%). 4. The strains isolated in the delivery-waiting room revealed staphylococci (66.7%), Gram negative bacilli (33.6%), and revealed staphylococci (75%), Gram positive diplococci (8.3%), and fungi (8.3%), in delivery room. 5. Most of strains isolated in the ward of O.B. & G.Y. revealed staphylococci (100.0%), Gram positive diplococci (8.3%), and Gram negative bacilli (6.7%). 6. The strain isolated in the surgical ward revealed staphylococci (91.7%), fungi (33.3%), Gram positive diplococci (25%), Gram negative bacilli (25%) and Bacillus subtilis (8.3%). 7. The strain isolated in the pediatric ward revealed staphylococci (75%), fungi (25%), Gram positive diplococci (8.3%), Bacillus subtilis (8.3%), and Gram negative bacilli (8.3%). 8. The strain isolated in the internal ward revealed staphylococci (91.7%), fungi (33.3%), Gram positive diplococci (25%), and negative bacilli (16.7%). The strains isolated from the nasal cavity of those doctors and nurses who and enaged in the ward of O.B. & G.Y. revealed staphylococci (80%), Bacillus subtilis (10%), and Gram negative bacilli (10%), from doctors and Gram positive diplococci (10%), instead of Gram negative bacilli (10%), from nurses. 10. The strain isolated from nasal cavity of parturient women on admission revealed staphylococci (90%), and Gram negative bacilli (10%), but after admission revealed staphylococci (70%), Gram positive diplococci (10%), and Gram negative bacilli (10%). 11. Of the total 91 staphylococci isolated from the air of the ward, the Coagulase pastive was 36 (39.6%), and the negative 55 (60.4%), As a result of the coagulase experiment of the staphylococci isolated from the nasal cavity of those who are engaged in the ward of O.B. & G.Y. all were revealed as negative that belonged to non-pathogenic. 12. Consequence of the biochemic examination of the gram negative bacilli isolated from the air of the ward the aerobacter aerogens revealed was (16.7%) E-coli 5% in the nasal cavity of those came and went to the of O.B. & G.Y. and Aerobacter aerogens 7.5%.

  • PDF

Antibacterial Activity of CNT-Ag and GO-Ag Nanocomposites Against Gram-negative and Gram-positive Bacteria

  • Yun, Hyosuk;Kim, Ji Dang;Choi, Hyun Chul;Lee, Chul Won
    • Bulletin of the Korean Chemical Society
    • /
    • 제34권11호
    • /
    • pp.3261-3264
    • /
    • 2013
  • Carbon nanocomposites composed of carbon nanostructures and metal nanoparticles have become one of useful materials for various applications. Here we present the preparation and antibacterial activity of CNT-Ag and GO-Ag nanocomposites. Their physical properties were characterized by TEM, XPS, and Raman measurements, revealing that size-similar and quasi-spherical Ag nanoparticles were anchored to the surface of the CNT and GO. The antibacterial activities of CNT-Ag and GO-Ag were investigated using the growth curve method and minimal inhibitory concentrations against Gram-negative and Gram-positive bacteria. The antibacterial activities of the carbon nanocomposites were slightly different against Gram-positive and Gram-negative bacteria. The proposed mechanism was discussed.

남북한 고등학교 영어교과서 4-gram 연어 비교 분석 (Comparative Analysis of 4-gram Word Clusters in South vs. North Korean High School English Textbooks)

  • 김정렬
    • 한국콘텐츠학회논문지
    • /
    • 제20권7호
    • /
    • pp.274-281
    • /
    • 2020
  • 본 연구는 4-gram 연어분석으로 남북한 고등학교 영어교과서를 비교분석하고자 하는 것이 목적이다. N-gram 분석은 그동안 우리가 알고 있는 관습적인 관용어와는 달리 코퍼스를 구성하여 기계적인 방법으로 물리적으로 함께 공기하는 빈도가 높은 낱말군을 객관적인 방법으로 추출하여 분석하는 것이다. 본 연구의 목적은 AntConc의 N-gram 분석 도구로 4-gram 연어를 남북한 영어교과서 코퍼스에서 찾아서 비교 분석해 보는 것이다. 분석의 대상은 북한의 2013 교육개혁에 따른 북한 고등중학교 영어교과서와 남한의 2015교육과정에 따른 고등학교 영어교과서로 구성된 코퍼스에서 구어와 문어의 token과 type을 구분하여 분석 비교한다. 이를 분석대상으로 하여 코퍼스의 4-gram 연어를 문법범주와 기능범주로 나눈 준거를 통해서 분석하였다. 문법범주는 크게 명사구, 동사구, 전치사구, 부분절 그리고 기타로 나누어 범주화하고 기능범주는 지칭, 텍스트의 조직, 입장과 기타로 나누었다. 분석한 결과 4-gram 연어에 나타난 구어와 문어 모두 남한의 영어교과서가 북한의 영어교과서 보다 token과 type의 수가 상대적으로 많았다. 그리고 문법범주에는 남북한 모두 영어교과서에 동사구와 부분절 형태의 4-gram 연어가 가장 많았으며 기능범주에는 남북한 모두 영어교과서에 입장 기능과 관련된 4-gram 연어가 가장 많았다.

N-Gram 증강 나이브 베이스를 이용한 정확한 침입 탐지 (Accurate Intrusion Detection using n-Gram Augmented Naive Bayes)

  • 강대기
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2008년도 추계종합학술대회 B
    • /
    • pp.285-288
    • /
    • 2008
  • 기계 학습을 응용한 많은 침입 탐지 시스템들은 n-그램 접근 방법을 주로 쓰고 있다. 그러나, n-그램 접근 방법은 주어진 시퀀스에서 획득한 n-그램들이 서로 겹치는 문제들을 가지고 있다. 본 연구에서는 이러한 문제들을 해결하기 위해, n-그램 증강 나이브 베이스 (n-gram augmented naive Bayes) 알고리즘을 침입 시퀀스의 분류에 적용하였다. 제안된 시스템의 성능을 평가하기 위해 n-그램 특징들을 사용하는 일반 나이브 베이스 (naive Bayes) 알고리즘과 서포트 벡터 머신 (support vector machines) 알고리즘과 본 연구에서 제안한 n-그램 증강 나이브 베이스 알고리즘을 비교하였다. 뉴 멕시코 대학의 벤치마크 데이터에 적용해 본 결과에 따르면, n-그램 증강 방법이, n-그램이 나이브 베이스에 직접 적용되는 경우(예: n-그램 특징을 사용하는 일반 나이브 베이스), 생기는 독립성 가정에 대한 위배 문제도 해결하면서, 동시에 n-그램 특징을 사용하는 일반 나이브 베이스보다 더 정확하며, n-그램 특징을 사용하는 SVM과 필적할만한 수준의 침입 탐지기를 생성해 내었다.

  • PDF

수정된 Gram 염색법에 의한 혼합세균 개체군의 분별 측정 (Differentiation of mixed bacterial populations by modified gram stain)

  • 장진경;임종락;정계효;한홍의
    • 미생물학회지
    • /
    • 제25권3호
    • /
    • pp.244-248
    • /
    • 1987
  • 자연 발효과정중에 GRam 향성 및 음성세균의 수를 신속하고동시에 측정할 t ndlT는 방법을 검토하였다. 본 연구에서는 일반적으로 사용되고 있는 Gram 염색법을 응용하였다. 그 결과로써 Gram 염색법에의 세균수는 분광광도계에 의한 혼탁도와 A610=0.7의 범위내에서 비례관계가 성립하였다. 염색조작중 세척에 의한 균의 제거는 약 8%를 초과하지 않았다. 그리고 Escherichia coli와 Micrococcus luteus의 혼합액에서 이들의 분리 측정에 대한 표준오차는 $5.1\pm2.3$%이었다. 계수가능범위는 $5.5\times 10^{7}-1.0\times 10^{9}$세포 / ml 이었다. 그러므로 일반적인 Gram 염색법은 Gram 양성 및 음성 개체군이 혼합된 배양약에서 이들을 분별 측정하는데도 적용될 수 있다고 본다. 실제적으로, 대마침지와 김치 발효과정에서 균 생장의 동역학적 관계를 검토하였다.

  • PDF

헬스케어 분야 빅데이터 분석을 위한 개체명 사전구축에 새로운 역 N-Gram 적용 연구 (A Study on Applying Novel Reverse N-Gram for Construction of Natural Language Processing Dictionary for Healthcare Big Data Analysis)

  • 이경현;백락준;김우수
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.391-396
    • /
    • 2024
  • 본 연구에서는 헬스케어 분야에 특화된 개체명 사전을 구축하기 위해 기존 N-Gram 방식의 한계를 극복하고 성능을 향상하게 시키기 위해 새로운 역 N-Gram 방식을 제안하였다. 제안된 역 N-Gram 방식은 헬스케어 관련 빅데이터의 복잡한 언어적 특성을 더 정밀하게 분석하고 처리할 수 있다. 제안된 방식의 효율성 검증을 위해 매년 1월에 개최되는 소비자 가전 전시회(Consumer Electronics Show: CES) 기간 동안 발표된 헬스케어 및 디지털 헬스케어 관련 빅데이터를 수집하기 위하여 뉴스를 대상으로 2010년 1월 1일부터 31일, 그리고 2024년 1월 1일부터 31일까지 언급된 2,185건의 뉴스 제목 및 요약문을 파이썬 프로그래밍언어로 새로운 역 N-Gram 방식을 구현하여 전처리한 결과, 헬스케어 분야에서의 자연어 처리를 위한 사전이 안정적으로 구축되었음을 확인할 수 있었다.