• 제목/요약/키워드: n-gram similarity

검색결과 32건 처리시간 0.022초

Route matching delivery recommendation system using text similarity

  • Song, Jeongeun;Song, Yoon-Ah
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권8호
    • /
    • pp.151-160
    • /
    • 2022
  • 본 연구에서는 급증하는 배송 서비스 수요에 맞춰 더 신속하고 최저 비용으로 근거리 배송을 가능하게 하는 알고리즘을 제안하고자 한다. 본 연구에서 제안하는 알고리즘에서는 배송원으로 지하철 승객을 물류 이동에 참여시킨다. 이때 승객은 이동 경로와 일치하는 배송 물류를 선택할 수 있다. 그리고 서비스 이용자의 입장에서는 현재 근처에 경로가 일치하는 배송원을 선택할 수 있다. 이때 배송원 추천은 TF-IDF&N-gram과 BERT를 결합한 텍스트 유사도 측정 방식으로 진행된다. 따라서 기존 택배 시스템과 달리 소비자-배송원 간의 man-to-man 방식으로 양방향 선택을 지원한다. 탑승 중인 승객을 물류 이동에 참여시킨다는 점에서 비용 최소화와 배송 기간 단축을 모두 보장할 수 있다. 더하여 운송 측면에서도 특별한 기술을 요하지 않으므로, 일자리 입지가 축소된 노동자들에게 경제 참여 기회를 제공할 수 있다는 점에서도 의의가 있다.

수영만에서 분리된 Bacillus cereus Group LS-1 의 세균학적 특성에 관한 연구 (Studies on Bacterial Characteristics of Bacillus cereus Group LS-1 Isolated from Suyeong Bay)

  • 성희경;이원재;김용호;함건주
    • 미생물학회지
    • /
    • 제30권5호
    • /
    • pp.339-346
    • /
    • 1992
  • 수영만에서 분리된 Bacillus cereus group LS-1 의 형태학적, 생화학적 성상 및 지방산 조성 분석을 통하여 세균학적인 특성을 밝혔다. B. cereus group LS-1 은 면양혈구배지에서 비용혈성의 점조성 집략과 convex 하고 가장자리가 규칙적인 둥근형태로 운동성이 없고 glucose, maltose, sucrose 와 gelatin 을 이용하고 trehalose 와 salicin 을 분해하지 않으며 6.5% NaCl 에서 자라지 않는 Gram 양성의 중심성 아포형성간균으로 표준균주 B. cereus group 과 다소 차이를 나타내었다. 지방산 조성 분석에서 chain 의 길이가 $C_{12}$ 에서 $C_{17}$로 iso $C_{15}$와 iso $C_{13}$의 branched chain 이 우점하는 B. cereus group 의 전형적인 특징을 나타내었으며 $nC^{15}$가 검출되지 않는 B.mycoides GC subgroup B 로 0.312 의 similarity index(SI) 를 지칭하여 다른 연구 결과와도 일치하였다. 한편 API system (API 50 CHB & API 20E) 의 ATB computer profile 에서 "Doubful Profile" 99.7% 의 B. firmus 로 나타내어 큰차이를 나타내었다. 67 개의 biochemical character 로 B. mycoids S-12 는 각각 42%, 42% 59% 와 52% 의 similarity matrix 를 나타내었다. B. cereus group 간의 아주 낮은 similarity 를 나타내어 상당한 차이가 있음을 인식하였다. 따라서 key test 와 지방산 조성등을 종합하여 볼때 B. ceresu group 중의 B. mycoides 로 새로운 biotype 인 것으로 사료되며 지방산 조성 분석으로 동정함이 훨씬 용이하였다.

  • PDF

제주 연안에서 분리된 해양방선균의 이화학적 특성 및 다양성 (Physico-chemical Characteristics and Diversity of Marine Actinomycetes Isolated from the Coast of Jeju Island)

  • 김만철;허문수
    • 환경생물
    • /
    • 제28권4호
    • /
    • pp.223-230
    • /
    • 2010
  • 제주도 연안해역 4개 지역(한림, 애월, 신촌, 함덕) 해수의 온도, 염분농도, 용존산소량(DO), 화학적 산소요구량(COD), 부유물질(SS), 암모니아성 질소($NH_3-N$), 질산성 질소($NO_3-N$) 및 아질산성 질소($NO_2-N$)와 같이 다양한 이화학적 특성을 확인하였다. 해수의 평균 온도는 $26.23{\sim}28.6^{\circ}C$, 염분농도는 31.4~32.88‰, pH는 8.15~8.35, COD는 0.48~0.91 mg $L^{-1}$, DO는 6.78~6.87 mg $L^{-1}$로 나타났다. 해수에서 분리된 해양방선균은 총 52종으로 제주시 동부지역(A, B)에서는 24균주, 서부지역(C, D)은 28균주가 분리되었다. 분리된 해양방선균은 16S rRNA 염기서열 분석을 이용하여 최종적으로 동정되었으며, 염기서열 정보를 기초로하여 유사도(similarity)를 조사하였다. 분리된 방선균의 16S rRNA 염기서열 분석을 통하여 계통 분류학적으로 어떤 division에 속하는지를 확인하여 본 결과 제주도 제주시 동부지역(Site A, B) 해양에서 분리된 방선균 24균주는 Gram positive bacteria (division)/Actinobacteria (class)/Actinomycetales (order)/Streptomy-cineae (suborder)/Streptomycataceae (family)/Streptomyces(genus)에 22 균주, Actinomycetales (order)/Streptosporangineae (suborder)/Nocardiopsaceae (family)/Nocardiopsis (genus)에 2 균주가 분리되었다. 제주시 서부지역(Site C, D) 해양에서 분리된 방선균 28균주는 Gram positive bacteria (division)/Actinobacteria (class)/Actinomycetales (order)/Streptomycineae (suborder)/Streptomycataceae (family)/Streptomyces (genus)에 27균주, Actinomycetales (order)/Streptosporangineae (suborder)/Nocardiopsaceae (family)/Nocardiopsis (genus)에 1균주가 분리되었다.

Cohnella panacarvi sp. nov., a Xylanolytic Bacterium Isolated from Ginseng Cultivating Soil

  • Yoon, Min-Ho;Ten, Leonid N.;Im, Wan-Taek
    • Journal of Microbiology and Biotechnology
    • /
    • 제17권6호
    • /
    • pp.913-918
    • /
    • 2007
  • A Gram-positive, aerobic, rod-shaped, nonmotile, endospore-forming bacterium, designated Gsoil $349^T$, was isolated from soil of a ginseng field and characterized using a polyphasic approach. Comparative analysis of 16S rRNA gene sequences revealed that the strain Gsoil $349^T$ belongs to the family Paenibacillaceae, and the sequence showed closest similarity with Cohnella thermotolerans DSM $17683^T$ (94.1%) and Cohnella hongkongensis DSM $17642^T$ (93.6%). The strain showed less than 91.3% 16S rRNA gene sequence similarity with Paenibacillus species. In addition, the presence of MK-7 as the major menaquinone and $anteiso-C_{15:0},\;iso-C_{16:0},\;and\;C_{16:0}$ as major fatty acids suggested its affiliation to the genus Cohnella. The G+C content of the genomic DNA was 53.4 mol%. On the basis of its phenotypic characteristics and phylogenetic distinctiveness, strain Gsoil $349^T$ should be treated as a novel species within the genus Cohnella for which the name Cohnella panacarvi sp. nov. is proposed. The type strain is Gsoil $349^T\;(=KCTC\;13060^T=\;DSM\;18696^T)$.

Optimized Chinese Pronunciation Prediction by Component-Based Statistical Machine Translation

  • Zhu, Shunle
    • Journal of Information Processing Systems
    • /
    • 제17권1호
    • /
    • pp.203-212
    • /
    • 2021
  • To eliminate ambiguities in the existing methods to simplify Chinese pronunciation learning, we propose a model that can predict the pronunciation of Chinese characters automatically. The proposed model relies on a statistical machine translation (SMT) framework. In particular, we consider the components of Chinese characters as the basic unit and consider the pronunciation prediction as a machine translation procedure (the component sequence as a source sentence, the pronunciation, pinyin, as a target sentence). In addition to traditional features such as the bidirectional word translation and the n-gram language model, we also implement a component similarity feature to overcome some typos during practical use. We incorporate these features into a log-linear model. The experimental results show that our approach significantly outperforms other baseline models.

BERT 기반 한국어 문장의 유사도 측정 방법 (Measuring Similarity of Korean Sentences based on BERT)

  • 현종환;최호진
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.383-387
    • /
    • 2019
  • 자연어 문장의 자동 평가는 생성된 문장과 정답 문장을 자동으로 비교 및 평가하여, 두 문장 사이의 의미 유사도를 측정하는 기술이다. 이러한 자연어 문장 자동 평가는 기계 번역, 자연어 요약, 패러프레이징 등의 분야에서 자연어 생성 모델의 성능을 평가하는데 활용될 수 있다. 기존 자연어 문장의 유사도 측정 방법은 n-gram 기반의 문자열 비교를 수행하여 유사도를 산출한다. 이러한 방식은 계산 과정이 매우 간단하지만, 자연어의 다양한 특성을 반영할 수 없다. 본 논문에서는 BERT를 활용한 한국어 문장의 유사도 측정 방법을 제안하며, 이를 위해 ETRI에서 한국어 말뭉치를 대상으로 사전 학습하여 공개한 어절 단위의 KorBERT를 활용한다. 그 결과, 기존 자연어 문장의 유사도 평가 방법과 비교했을 때, 약 13%의 성능 향상을 확인할 수 있었다.

  • PDF

내용기반 음악검색 시스템의 비교 분석 (A Comparative Analysis of Content-based Music Retrieval Systems)

  • 노정순
    • 정보관리학회지
    • /
    • 제30권3호
    • /
    • pp.23-48
    • /
    • 2013
  • 본 연구는 웹에서 접근 가능한 내용기반 음악검색(CBMR) 시스템들을 조사하여, 탐색질의의 종류, 접근점, 입출력, 탐색기능, 데이터베이스 성격과 크기 등의 관점에서 특성을 비교 분석하고자 하였다. 비교 분석에 사용된 특성을 추출하기 위해 내용기반 음악정보의 특성과 시스템 구축에 필요한 파일의 변환, 멜로디 추출 및 분할, 색인자질 추출과 색인, 매칭에 사용되는 기술들을 선행연구로 리뷰하였다. 15개의 시스템을 분석한 결과 다음과 같은 특성과 문제점이 분석되었다. 첫째, 도치색인, N-gram 색인, 불리언 탐색, 용어절단검색, 키워드 및 어구 탐색, 음길이 정규화, 필터링, 브라우징, 편집거리, 정렬과 같은 텍스트 정보 검색 기법이 CBMR에서도 검색성능을 향상시키는 도구로 사용되고 있었다. 둘째, 시스템들은 웹에서 크롤링하거나 탐색질의를 DB에 추가하는 등으로 DB의 성장과 실용성을 위한 노력을 하고 있었다. 셋째, 개선되어야 할 문제점으로 선율이나 주선율을 추출하는데 부정확성, 색인자질을 추출할 때 사용되는 불용음(stop notes)을 탐색질의에서도 자동 제거할 필요성, 옥타브를 무시한 solfege 검색의 문제점 등이 분석되었다.

니코틴 분해세균 Arthrobacter sp. NU11과 NU15의 분리 및 특성 (Isolation and Characterization of Nicotine-Degrading Bacterium Arthrobacter sp. NU11 and NU15)

  • 정연주;오지성;노동현
    • 미생물학회지
    • /
    • 제50권1호
    • /
    • pp.67-72
    • /
    • 2014
  • 담배식물과 담배재배 토양으로부터 최소배지에 유일 탄소원으로 니코틴을 첨가한 배지(MB/N)를 이용하여 니코틴을 분해하는 새로운 균주의 분리를 시도하였다. 16S rRNA 유전자의 염기서열 분석과 표현형 시험 및 형태학적 시험으로 분리균주들은 Micrococcaceae 과의 Arthrobacter 속에 포함되는 균주로 판명되었다. NU15는 Arthrobacter nicotinovorans와 99.8%의 상동성을 보였고, NU11는 Arthrobacter equi와 98.2%의 상동성을 보여 신주일 가능성이 있었다. 두 균주 모두 양성의 간구균이며, catalase 양성, oxidase 음성이었다. 신주일 가능성이 있는 NU11균주의 니코틴 분해를 확인하기 위하여 MB/N 액체배지에서 배양하면서 니코틴 특이적으로 나타내는 260 nm에서의 흡광도가 감소를 측정한 결과, 니코틴이 균주에 의해 특이적으로 분해되는 것을 확인 할 수 있었으며, 분해균들은 니코틴 오염을 복원하는데 사용될 수 있을 것으로 생각된다.

주변 문장 유사도를 이용한 문서 재사용 측정 모델 (A Text Reuse Measuring Model Using Circumference Sentence Similarity)

  • 최성원;김상범;임해창
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2005년도 제17회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.179-183
    • /
    • 2005
  • 기존의 문서 재사용 탐지 모델은 문서 혹은 문장 단위로 그 내부의 단어 혹은 n-gram을 비교를 통해 문장의 재사용을 판별하였다. 그렇지만 문서 단위의 재사용 검사는 다른 문서의 일부분을 재사용하는 경우에 대해서는 문서 내에 문서 재사용이 이루어지지 않은 부분에 의해서 그 재사용 측정값이 낮아지게 되어 오류가 발생할 수 있는 가능성이 높아진다. 반면에 문장 단위의 문서 재사용 검사는 비교문서 내의 문장들에 대한 비교를 수행하게 되므로, 문서의 일부분에 대해 재사용물 수행한 경우에도 그 재사용된 부분 내의 문장들에 대한 비교를 수행하는 것이므로 문서 단위의 재사용에 비해 그런 경우에 더 견고하게 작동된다. 그렇지만, 문장 단위의 비교는 문서에 비해 짧은 문장을 단위로 하기 때문에 그 신뢰도에 문제가 발생하게 된다. 본 논문에서는 이런 문장단위 비교의 단점을 보완하기 위해 문장 단위의 문서 재사용 검사를 수행 후, 문장의 주변 문장의 재사용 검사 결과를 이용하여 문장 단위 재사용 검사에서 일어나는 오류를 감소시키고자 하였다.

  • PDF

Isolation and characterization of a noval membrane-bound cytochrome $C_{553}$ from the strictly anaerobic phototroph, heliobacillus mobilis

  • Lee, Woo-Yiel;Bla;Kim, Seung-Ho
    • Journal of Microbiology
    • /
    • 제35권3호
    • /
    • pp.206-212
    • /
    • 1997
  • Heliobacillus mobilis is a strictly anaerobic Gram-positive bacterium which contains a primitive Photosystem I-type reaction center. The membrane-bound cytochrome $C_{553}$ from the heliobacterium suggested to be the immediate electron donor to the photooxidized pigment (P798+) has been isolated and characterized. The heme protein was visualized as a major component with an apparent molecular size of 17kDa in TMBZ-staining analysis of the membrane preparation and showed characteristic $\alpha$ (552.5 nm), $\beta$ (522nm), and Soret absorption (416 nm) peaks of a typical reduced c-type cytochrome in the partially purified sample. The internal 43 amino acid sequence of the electron donor was obtained by chemical agent and protease treatments followed by N-terminal sequencing of the resulting fragments. The internal sequence carries lots of lysine residues and a Cys-X-X-Cys-His sequence motif which are the characteristics of typical c-type cytochromes. The analysis of the sequence by FAST or FASTA program, however, did not show any significant similarity to other known heme proteins.

  • PDF