• 제목/요약/키워드: n-gram

검색결과 575건 처리시간 0.025초

텍스트 마이닝 기법을 활용한 ECDIS 사고보고서 분석 (Text Mining Analysis Technique on ECDIS Accident Report)

  • 이정석;이보경;조익순
    • 해양환경안전학회지
    • /
    • 제25권4호
    • /
    • pp.405-412
    • /
    • 2019
  • SOLAS에서는 국제 항해에 종사하는 총톤수 500톤 이상의 선박에 대하여 2018년 7월 1일 이후 도래하는 최초 검사까지 ECDIS를 설치해야 한다고 규정하고 있다. 새로운 주요 항해 장비로 ECDIS가 탑재되면서 ECDIS 사용에 관련한 다양한 사고가 발생하고 있다. MAIB, BSU, BEAmer, DMAIB, DSB에서 발행한 12가지의 사고보고서에는 항해사의 운용 미숙과 ECDS 시스템의 사고 원인으로 분석하였고, 사고 원인과 관련된 단어들을 정량적으로 분석하기 위해 R-프로그램을 사용하여 텍스트를 분석하였다. 도출 빈도에 따른 단어의 중요도를 나타내기 위해 텍스트 마이닝 기법인 단어 구름, 단어 연관성, 단어 가중치의 방법을 사용하였다. 단어 구름은 사용된 단어들의 빈도수를 구름 형태로 나타내는 방법으로써 N-gram 모델을 적용하였다. N-gram 모델 중 Uni-gram 분석 결과 ECDIS 단어, Bi-gram 분석 결과는 Safety Contour 단어의 사용 빈도가 가장 많았다. Bi-gram 분석을 기반으로 사고 원인 단어를 항해사와 ECDIS 시스템으로 구분하고, 연관된 단어들을 단어 연관성으로 나타내었다. 마지막으로 항해사와 ECDIS 시스템에 연관된 단어들을 단어 말뭉치로 구성한 후 단어 가중치를 적용하여 연도별 말뭉치 빈도 변화를 분석하였다. 추세선 그래프로 말뭉치 변화 경향을 분석한 결과, 항해사 말뭉치는 최근으로 올수록 감소하였으며 반대로 ECDIS 시스템 말뭉치는 점점 증가함을 나타내었다.

Biophysical Studies Reveal Key Interactions between Papiliocin-Derived PapN and Lipopolysaccharide in Gram-Negative Bacteria

  • Durai, Prasannavenkatesh;Lee, Yeongjoon;Kim, Jieun;Jeon, Dasom;Kim, Yangmee
    • Journal of Microbiology and Biotechnology
    • /
    • 제28권5호
    • /
    • pp.671-678
    • /
    • 2018
  • Papiliocin, isolated from the swallowtail butterfly (Papilio xuthus), is an antimicrobial peptide with high selectivity against gram-negative bacteria. We previously showed that the N-terminal helix of papiliocin (PapN) plays a key role in the antibacterial and anti-inflammatory activity of papiliocin. In this study, we measured the selectivity of PapN against multidrug-resistant gram-negative bacteria, as well as its anti-inflammatory activity. Interactions between Trp2 of PapN and lipopolysaccharide (LPS), which is a major component of the outer membrane of gram-negative bacteria, were studied using the Trp fluorescence blue shift and quenching in LPS micelles. Furthermore, using circular dichroism, we investigated the interactions between PapN and LPS, showing that LPS plays critical roles in peptide folding. Our results demonstrated that Trp2 in PapN was buried deep in the negatively charged LPS, and Trp2 induced the ${\alpha}$-helical structure of PapN. Importantly, docking studies determined that predominant electrostatic interactions of positively charged arginine residues in PapN with phosphate head groups of LPS were key factors for binding. Similarly, hydrophobic interactions by aromatic residues of PapN with fatty acid chains in LPS were also significant for binding. These results may facilitate the development of peptide antibiotics with anti-inflammatory activity.

Structure-Activity Relationship of the N-terminal Helix Analog of Papiliocin, PapN

  • Jeon, Dasom;Jeong, Min-Cheol;Kim, Jin-Kyoung;Jeong, Ki-Woong;Ko, Yoon-Joo;Kim, Yangmee
    • 한국자기공명학회논문지
    • /
    • 제19권2호
    • /
    • pp.54-60
    • /
    • 2015
  • Papiliocin, from the swallowtail butterfly, Papilio xuthus, shows high bacterial cell selectivity against Gram-negative bacteria. Recently, we designed a 22mer analog with N-terminal helix from $Lys^3$ to $Ala^{22}$, PapN. It shows outstanding antimicrobial activity against Gram-negative bacteria with low toxicity against mammalian cells. In this study, we determined the 3-D structure of PapN in 300 mM DPC micelle using NMR spectroscopy and investigated the interactions between PapN and DPC micelles. The results showed that PapN has an amphipathic ${\alpha}$-helical structure from $Lys^3$ to $Lys^{21}$. STD-NMR and DOSY experiment showed that this helix is important in binding to the bacterial cell membrane. Furthermore, we tested antibacterial activities of PapN in the presence of salt for therapeutic application. PapN was calcium- and magnesium-resistant in a physiological condition, especially against Gram-negative bacteria, implying that it can be a potent candidate as peptide antibiotics.

N-terminal GNBP homology domain of Gram-negative binding protein 3 functions as a beta-1,3-glucan binding motif in Tenebrio molitor

  • Lee, Han-Na;Kwon, Hyun-Mi;Park, Ji-Won;Kurokawa, Kenji;Lee, Bok-Luel
    • BMB Reports
    • /
    • 제42권8호
    • /
    • pp.506-510
    • /
    • 2009
  • The Toll signalling pathway in invertebrates is responsible for defense against Gram-positive bacteria and fungi, leading to the expression of antimicrobial peptides via NF-$\kappa$B-like transcription factors. Gram-negative binding protein 3 (GNBP3) detects beta-1,3-glucan, a fungal cell wall component, and activates a three step serine protease cascade for activation of the Toll signalling pathway. Here, we showed that the recombinant N-terminal domain of Tenebrio molitor GNBP3 bound to beta-1,3-glucan, but did not activate down-stream serine protease cascade in vitro. Reversely, the N-terminal domain blocked GNBP3-mediated serine protease cascade activation in vitro and also inhibited beta-1,3-glucan-mediated antimicrobial peptide induction in Tenebrio molitor larvae. These results suggest that the N-terminal GNBP homology domain of GNBP3 functions as a beta-1,3-glucan binding domain and the C-terminal domain of GNBP3 may be required for the recruitment of immediate down-stream serine protease zymogen during Toll signalling pathway activation.

한의학 고문헌 텍스트에서의 인용문 추정과 탐색 (Detecting Local Text Reuse in the Texts of East Asian Traditional Medicine)

  • 오준호
    • 대한한의학원전학회지
    • /
    • 제34권1호
    • /
    • pp.37-45
    • /
    • 2021
  • Objectives : The purpose of this paper was to examine quantitative methods for estimating and detecting local text reuse in the texts of East Asian Traditional Medicine. Methods : We introduce techniques that estimate the volume of local text reuse with n-gram and those that directly detect the reuse with the Smith-Waterman algorithm (SW algorithm). Based on this, the estimation and detection of local text reuse were carried out for 『Donguibogam』 and 『Huangdineijing·Suwen』. Results : Estimates with n-gram had more errors than methods with SW algorithms. SW algorithms detected suspected strings directly with local text reuse, resulting in more accurate results. Conclusions : Although n-gram does not accurately find local text reuse, its high speed makes it a preferable method for certain purposes, such as screening similar documents. On the other hand, SW algorithms have the advantage of being relatively good at finding similar phrases suspected as local text reuse even if the strings do not completely match. However, due to its excessive consumption of time and computing resources, its benefits are limited to cases where precise results are required.

Color $N{\times}M$-grams과 CCV를 이용한 내용기반 영상 검색 시스템 (Content-based Image Retrieval System Using Color $N{\times}M$-grams & CCV)

  • 이은주;이상미;정성환
    • 한국멀티미디어학회:학술대회논문집
    • /
    • 한국멀티미디어학회 1998년도 춘계학술발표논문집
    • /
    • pp.40-45
    • /
    • 1998
  • 칼라 히스토그램의 단점을 보완할 수 있는 CCV(Color Coherence Vector) 방법이 소개되었다. CCV는 구현이 쉽고, 칼라 히스토그램과 달리 같은 색상 분포를 가지는 다른 영상을 구별하는 것이 가능하다. 그러나, CCV는 계산량이 많아 많은 처리 시간이 요구된다. 본 논문에서는 효율적인 계산을 위하여 N$\times$M-grams과 계층적인 검색 방법을 이용하여 처리 시간을 줄이는 검색 방법을 제시한다. 먼저, 영상의 구조적 특징을 잘 반영하는 N$\times$M-grams를 사용하여 주어진 질의 영상과 같은 부류(category)에 속하는 모든 영상들을 찾는다. 그리고, 찾은 영상들만을 대상으로 CCV를 계산하여 검색한다. 200개의 영상을 가지고 실험한 결과, 검색율은 약 79%이고, CCV만을 사용한 방법보다 시간이 약 37% 감소하였다.

  • PDF

통계적 문맥의존 철자오류 교정 기법의 향상을 위한 지역적 문서 정보의 활용 (The Utilization of Local Document Information to Improve Statistical Context-Sensitive Spelling Error Correction)

  • 이정훈;김민호;권혁철
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권7호
    • /
    • pp.446-451
    • /
    • 2017
  • 본 논문에서의 문맥의존 철자오류(Context-Sensitive Spelling Error) 교정 기법은 샤논(Shannon)의 노이지 채널 모형(noisy channel model)을 기반으로 한다. 논문에서 제안하는 교정 기법의 향상에는 보간(interpolation)을 사용하며, 일반적인 보간 방법은 확률의 중간 값을 채우는 방식으로 N-gram에 존재하지 않는 빈도를 (N-1)-gram과 (N-2)-gram 등에서 얻는다. 이와 같은 방식은 동일 통계 말뭉치를 기반으로 계산하는데 제안하는 방식에서는 통계 말뭉치와 교정 문서간의 빈도 정보를 이용하여 보간 한다. 교정 문서의 빈도를 이용하였을 때 이점은 다음과 같다. 첫째 통계 말뭉치에 존재하지 않고 교정 문서에서만 나타나는 신조어의 확률을 얻을 수 있다. 둘째 확률 값이 모호한 두 교정 후보가 있더라도 교정 문서를 참고로 교정하게 되어 모호성을 해소한다. 제안한 방법은 기존 교정 모형보다 정밀도와 재현율의 성능향상을 보였다.

n-Gram 색인화와 Support Vector Machine을 사용한 스팸메일 필터링에 대한 연구 (A study on the Filtering of Spam E-mail using n-Gram indexing and Support Vector Machine)

  • 서정우;손태식;서정택;문종섭
    • 정보보호학회논문지
    • /
    • 제14권2호
    • /
    • pp.23-33
    • /
    • 2004
  • 인터넷 환경의 급속한 발전으로 인하여 이메일을 통한 메시지 교환은 급속히 증가하고 있다. 그러나 이메일의 편리성에도 불구하고 개인이나 기업에서는 스팸메일로 인한 시간과 비용의 낭비가 크게 증가하고 있다. 이러한 스팸메일에 대한 문제들을 해결하기 위하여 많은 방법들이 연구되고 있으며, 대표적인 방법으로 키워드를 이용한 패턴매칭이나 나이의 베이지안 방식과 같은 확률을 이용한 방법들이 있다. 본 논문에서는 기존의 연구에 대한 문제점을 보완하기 위하여 패턴 분류문제에 있어서 우수한 성능을 보이는 Support Vector Machine을 사용하여 정상적인 메일과 스팸메일을 분류하는 방안을 제시하였으며, 특히 n-Gram을 사용하여 생성된 색인어와 단어사전을 학습데이터 생성에 사용함으로서 효율적인 학습을 수행하도록 하였다. 결론에서는 제안된 방법에 대한 성능을 검증하기 위하여 기존의 연구 결과와 비교함으로서 제안된 방법의 성능을 검증하였다.

N-gram Opcode를 활용한 머신러닝 기반의 분석 방지 보호 기법 탐지 방안 연구 (A Study on Machine Learning Based Anti-Analysis Technique Detection Using N-gram Opcode)

  • 김희연;이동훈
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.181-192
    • /
    • 2022
  • 신종 악성코드의 등장은 기존 시그니처 기반의 악성코드 탐지 기법들을 무력화시키며 여러 분석 방지 보호 기법들을 활용하여 분석가들의 분석을 어렵게 하고 있다. 시그니처 기반의 기존 연구는 악성코드 제작자가 쉽게 우회할 수 있는 한계점을 지닌다. 따라서 본 연구에서는 악성코드 자체의 특성이 아닌, 악성코드에 적용될 수 있는 패커의 특성을 활용하여, 단시간 내에 악성코드에 적용된 패커의 분석 방지 보호 기법을 탐지하고 분류해낼 수 있는 머신러닝 모델을 구축하고자 한다. 본 연구에서는 패커의 분석 방지 보호 기법을 적용한 악성코드 바이너리를 대상으로 n-gram opcode를 추출하여 TF-IDF를 활용함으로써 피처(feature)를 추출하고 이를 통해 각 분석 방지 보호 기법을 탐지하고 분류해내는 머신러닝 모델 구축 방법을 제안한다. 본 연구에서는 실제 악성코드를 대상으로 악성코드 패킹에 많이 사용되는 상용 패커인 Themida와 VMProtect로 각각 분석 방지 보호 기법을 적용시켜 데이터셋을 구축한 뒤, 6개의 머신러닝 모델로 실험을 진행하였고, Themida에 대해서는 81.25%의 정확도를, VMProtect에 대해서는 95.65%의 정확도를 보여주는 최적의 모델을 구축하였다.

단어간 의존관계에 기반한 언어모델링 (Language Modeling based on Inter-Word Dependency Relation)

  • 이승미;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.239-246
    • /
    • 1998
  • 확률적 언어모델링은 일련의 단어열에 문장확률값을 적용하는 기법으로서 음성인식, 확률적 기계번역 등의 많은 자연언어처리 응용시스템의 중요한 한 요소이다. 기존의 접근방식으로는 크게 n-gram 기반, 문법 기반의 두가지가 있다. 일반적으로 n-gram 방식은 원거리 의존관계를 잘 표현 할 수 없으며 문법 기반 방식은 광범위한 커버리지의 문법을 습득하는데에 어려움을 가지고 있다. 본 논문에서는 일종의 단순한 의존문법을 기반으로 하는 언어모델링 기법을 제시한다. 의존문법은 단어와 단어 사이의 지배-피지배 관계로 구성되며 본 논문에서 소개되는 의존문법 재추정 알고리즘을 이용하여 원시 코퍼스로부터 자동적으로 학습된다. 실험 결과, 제시된 의존관계기반 모델이 tri-gram, bi-gram 모델보다 실험코퍼스에 대해서 약 11%에서 11.5%의 엔트로피 감소를 보임으로써 성능의 개선이 있었다.

  • PDF