• 제목/요약/키워드: Page Similarity

검색결과 69건 처리시간 0.022초

메타 태그를 이용한 자동 웹페이지 분류 시스템 (An Automatic Web Page Classification System Using Meta-Tag)

  • 김상일;김화성
    • 한국통신학회논문지
    • /
    • 제38B권4호
    • /
    • pp.291-297
    • /
    • 2013
  • 최근 월드 와이드 웹(World Wide Web)의 사용이 폭발적으로 증가함에 따라 다양한 정보를 포함하고 있는 웹 페이지들의 양도 엄청나게 증가 하였다. 따라서 웹상에 존재 하고 있는 웹페이지들에 대한 접근을 용이하게 하고, 그룹화를 통한 검색을 가능하게 하기 위해 웹 페이지 분류의 필요성이 대두 되고 있다. 웹 페이지 분류는 기존의 웹 상에 산재 되어 있는 웹페이지들을 비슷한 문서 유형 또는 같은 키워드를 사용하는 문서들의 묶음으로 구분하는 작업을 의미하며, 웹 페이지 분류 기술은 웹페이지 검색, 그룹 검색, 메일 필터링 등의 분야에 응용될 수 있는 기술이다. 하지만 웹상에 존재하는 웹페이지들을 사람이 수동적으로 분류하는 방법으로는 현재 월드 와이드 웹에 존재하는 엄청난 양의 웹페이지들을 처리할 수 없으며, 자동적인 분류 방법 역시 서로 다른 형태로 작성된 웹페이지들을 정확하게 분류할 수 없다는 문제로 인해 한계를 보이고 있다. 본 논문에서는 서로 다른 형태로 작성된 웹 문서들에 대한 부정확한 분류 문제를 해결하기위해 웹페이지에 존재하는 메타 정보를 획득하여 자동적으로 분류하는 메타 태그기반의 자동화된 웹페이지 분류 시스템을 제안하였다.

Local Similarity based Document Layout Analysis using Improved ARLSA

  • Kim, Gwangbok;Kim, SooHyung;Na, InSeop
    • International Journal of Contents
    • /
    • 제11권2호
    • /
    • pp.15-19
    • /
    • 2015
  • In this paper, we propose an efficient document layout analysis algorithm that includes table detection. Typical methods of document layout analysis use the height and gap between words or columns. To correspond to the various styles and sizes of documents, we propose an algorithm that uses the mean value of the distance transform representing thickness and compare with components in the local area. With this algorithm, we combine a table detection algorithm using the same feature as that of the text classifier. Table candidates, separators, and big components are isolated from the image using Connected Component Analysis (CCA) and distance transform. The key idea of text classification is that the characteristics of the text parallel components that have a similar thickness and height. In order to estimate local similarity, we detect a text region using an adaptive searching window size. An improved adaptive run-length smoothing algorithm (ARLSA) was proposed to create the proper boundary of a text zone and non-text zone. Results from experiments on the ICDAR2009 page segmentation competition test set and our dataset demonstrate the superiority of our dataset through f-measure comparison with other algorithms.

Graph based KNN for Optimizing Index of News Articles

  • Jo, Taeho
    • Journal of Multimedia Information System
    • /
    • 제3권3호
    • /
    • pp.53-61
    • /
    • 2016
  • This research proposes the index optimization as a classification task and application of the graph based KNN. We need the index optimization as an important task for maximizing the information retrieval performance. And we try to solve the problems in encoding words into numerical vectors, such as huge dimensionality and sparse distribution, by encoding them into graphs as the alternative representations to numerical vectors. In this research, the index optimization is viewed as a classification task, the similarity measure between graphs is defined, and the KNN is modified into the graph based version based on the similarity measure, and it is applied to the index optimization task. As the benefits from this research, by modifying the KNN so, we expect the improvement of classification performance, more graphical representations of words which is inherent in graphs, the ability to trace more easily results from classifying words. In this research, we will validate empirically the proposed version in optimizing index on the two text collections: NewsPage.com and 20NewsGroups.

개인화된 뉴스 서비스를 위한 소셜 네트워크 기반의 콘텐츠 추천기법 (Content-based Recommendation Based on Social Network for Personalized News Services)

  • 홍명덕;오경진;가명현;조근식
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.57-71
    • /
    • 2013
  • 세계에는 수많은 사람들이 살아가고 있고, 사람들의 일상으로부터 매일, 매 시간 단위로 새로운 뉴스가 발생한다. 발생되는 뉴스는 예정된 일과 예상하지 못한 일들을 포함하고 있다. 발생하는 뉴스의 거대한 양과 이를 전달하는 수많은 미디어들로 인해 사람들은 뉴스 콘텐츠를 이용하는데 많은 시간을 소비하게 된다. 하지만 미디어에 시시각각 나타나는 속보와 실시간 이슈의 대부분이 가십 기사로 이루어져 있어 사용자들이 자신의 성향에 맞는 뉴스를 선별하고, 뉴스로부터 정보를 획득하는 것은 쉽지 않은 일이다. 또한 사용자의 관심사가 시간에 따라 변하기 때문에 뉴스 제공에 있어 사용자의 변하는 관심사를 반영하는 것이 요구된다. 본 논문에서는 사용자의 최근 관심사를 기반으로 사용자 선호도에 맞는 뉴스를 제공하기 위한 콘텐츠 기반의 추천 기법 및 시스템을 제안한다. 사용자의 최근 선호도를 파악하기 위하여 소셜 네트워크 서비스인 Facebook 사용자의 정보와 최근 게시글을 이용하여 동적으로 사용자 프로파일을 생성하여 이를 뉴스 서비스에 활용하고, 사용자 선호도에 적합한 뉴스를 추출하기 위해서 뉴스 콘텐츠의 분석을 요구한다. 뉴스 콘텐츠 분석을 위해 미디어에서 제공되는 뉴스의 카테고리를 사용하고, 뉴스 방송원고의 분석 및 주요 키워드 추출을 통해 뉴스 프로파일을 생성한다. 사용자 프로파일과 뉴스 프로파일 간의 유사도 측정을 위해서는 두 프로파일 간 형식의 일치화가 요구되므로 사용자 프로파일을 뉴스 프로파일과 동일한 형태로 생성한다. 사용자가 시스템에 접속하면 시스템은 사용자 프로파일에 명시된 선호도를 기반으로 뉴스 프로파일과의 유사도를 측정하고, 사용자 선호도에 가장 적합한 뉴스들을 제공하게 된다. 또한 사용자에게 제공된 뉴스 프로파일과 다른 뉴스 프로파일들 간에 유사도를 측정하여 유사도가 높은 관련된 뉴스들을 제공하게 된다. 제안한 개인화된 뉴스 서비스의 성능을 평가하기 위해 사용자에게 추천된 뉴스에 대한 사용자 평가와 시스템 예측값의 오차를 기반으로 6Sub-Vectors 벤치마크 알고리즘과 성능 평가를 수행하였고, 실험 결과를 통해 제안한 시스템의 우수성을 입증하였다.

Peptide Sequence Analysis of the CNBr-Digested 34-36 kd Sperminogen

  • Yu, Hyunkyung;Yi, Lee-S.-H.
    • Animal cells and systems
    • /
    • 제5권3호
    • /
    • pp.199-203
    • /
    • 2001
  • Sperminogen was purified from the acid extracts of boar spermatozoa and partial peptide sequence of the 34-36 kd sperminogen was determined. Acid extracts of boar spermatozoa was gel-filtered through Sephadex G-75, and the 34-36 kd sperminogen was purified by preparative SDS-PAGE. The sperminogen bands were sliced out, and 34-36 kd sperminogen were eluted from the gel fragments and was subjected to peptide sequencing. Since the amino termini were blocked for Edman degradation method, internal amino acid sequences of the eluted 34-36 kd sperminogen were obtained from CNBr-digested peptides of sperminogen. Among several bands resolved on tricine SDS-PAGE, 14, 22 and 26 kd peptides were subjected to peptide sequencing. The ana1yzed amino acid sequences of the 26 and 22 kd peptides showed high homologies with that of the zona pellucida binding protein, Sp38, and the analyzed amino acid sequence of the 14 kd peptide showed neither sequence homology nor similarity with any known proteins.

  • PDF

Cloning and Sequencing of the ${\alpha}-1{\rightarrow}6$ Dextransurcrase Gene from Leuconostoc mensenteroides B-742CB

  • Kim, Ho-Sang;Kim, Do-Man;Ryu, Hwa-Ja;Robyt, John-F.
    • Journal of Microbiology and Biotechnology
    • /
    • 제10권4호
    • /
    • pp.559-563
    • /
    • 2000
  • A dextransucrase gene (dsrB742) that expresses a dextransucrase to synthesize mostly ${\alpha}-1{\rightarrow}6$ linked dextran with a low amount (3-5%) of ${\alpha}-1{\rightarrow}3$ branching was cloned and sequenced from Leuconostoc mesenteroides B-742CB. The 6.1-kb PstI fragments were ligated with pGEM-3Zf(-) and transformed into E. coli $DH5{\alpha}$. The recombinant clone (pDSRB742) synthesized dextran on an agar plate containing 2% (w/v) sucrose. The dextran synthesized was hydrolyzed with Penicillium endo-dextranase. The hydrolyzate was composed of glucose, isomaltose, isomaltotriose, and branced pentasaccharide. The nucleotide sequence of dsrB742 showed one open reading frame (ORF) composed of 4,524 bp encoding dextrasnsucrase. The deduced amino acid sequence revealed a calculated molecular mass of 168.6 kDa. It also showed an activity band of 184 kKa on a non-denaturing SDS-PAGE (10%). The amino acid sequence of DSRB742 exhibited a 50% similarity with DSRA from L. mesenteroides B-1299, a 70% similarity with DSRS from L. mesenteroides B-512 (F, FMCM) and a 45-56% similarity with Streptococcal GTFs.

  • PDF

Summarizing the Differences in Chinese-Vietnamese Bilingual News

  • Wu, Jinjuan;Yu, Zhengtao;Liu, Shulong;Zhang, Yafei;Gao, Shengxiang
    • Journal of Information Processing Systems
    • /
    • 제15권6호
    • /
    • pp.1365-1377
    • /
    • 2019
  • Summarizing the differences in Chinese-Vietnamese bilingual news plays an important supporting role in the comparative analysis of news views between China and Vietnam. Aiming at cross-language problems in the analysis of the differences between Chinese and Vietnamese bilingual news, we propose a new method of summarizing the differences based on an undirected graph model. The method extracts elements to represent the sentences, and builds a bridge between different languages based on Wikipedia's multilingual concept description page. Firstly, we calculate the similarity between Chinese and Vietnamese news sentences, and filter the bilingual sentences accordingly. Then we use the filtered sentences as nodes and the similarity grade as the weight of the edge to construct an undirected graph model. Finally, combining the random walk algorithm, the weight of the node is calculated according to the weight of the edge, and sentences with highest weight can be extracted as the difference summary. The experiment results show that our proposed approach achieved the highest score of 0.1837 on the annotated test set, which outperforms the state-of-the-art summarization models.

시그니처 트리를 사용한 의미적 유사성 검색 기법 (Semantic Similarity Search using the Signature Tree)

  • 김기성;임동혁;김철한;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권6호
    • /
    • pp.546-553
    • /
    • 2007
  • 온톨로지의 활용이 늘어나면서 의미적 유사성 검색에 대한 관심이 높아지고 있다. 본 논문에서는 질의 객체와의 의미적 유사성이 높은 객체를 검색하는 최근접 질의 기법을 제안하였다. 의미적 유사성을 측정하는 유사성 함수로는 최적 대응값 방식의 유사도 함수를 사용하였으며 주석 정보에 대한 색인을 위해 시그니처 트리를 사용하였다. 시그니처 트리는 집합 유사성 검색에서 많이 사용되는 색인 구조로서 유사성 검색에 사용하기 위해서는 검색시 각 노드를 탐색하였을 때 발견할 수 있는 유사도의 최대값을 예측할 수 있어야 한다. 이에 본 논문에서는 최적 대응값 방식의 유사도 함수에 대한 예측 최대값 함수를 제안하고 올바른 예측 함수임을 증명하였다. 또한 시그니처 트리에 동일한 시그니처가 중복되어 저장되지 않도록 구조를 개선하였다. 이는 시그니처 트리의 크기를 감소시킬 뿐만 아니라 질의 성능 또한 향상시켜 주었다. 실험의 데이타로는 대용량 온톨로지와 주석 정보 데이타를 제공하는 Gene Ontology(GO)를 사용하였다. 실험에서는 제안한 방법의 성능 향상 외에도 페이지 크기와 노드 분할 방법이 의미적 유사성 질의 성능에 미치는 영향에 대해 알아보았다.

Genetic Variation and Polymorphism in Rainbow Trout, Oncorhynchus mykiss Analysed by Amplified Fragment Length Polymorphism

  • Yoon, Jong-Man;Yoo, Jae-Young;Park, Jae-Il
    • 한국양식학회지
    • /
    • 제17권1호
    • /
    • pp.69-80
    • /
    • 2004
  • The objective of the present study was to analyze genetic distances, variation and characteristics of individuals in rainbow trout, Oncorhynchus mykis using amplified fragment length polymorphism (AFLP) method as molecular genetic technique, to detect AFLP band patterns as genetic markers, and to compare the efficiency of agarosegel electrophoresis (AGE) and polyacrylamide gel electrophoresis (PAGE), respectively. Using 9 primer combinations, a total of 141 AFLP bands were produced, 108 bands (82.4%) of which were polymorphic in AGE. In PAGE, a total of 288 bands were detected, and 220 bands (76.4%) were polymorphic. The AFLP fingerprints of AGE were different from those of PAGE. Separation of the fragments with low molecular weight and genetic polymorphisms revealed a distinct pattern in the two gel systems. In the present study, the average bandsharing values of the individuals between two populations apart from the geographic sites in Kangwon-do ranged from 0.084 to 0.738 of AGE and PAGE. The bandsharing values between individuals No.9 and No. 10 showed the highest level within population, whereas the bandsharing values between individuals No.5 and No.7 showed the lowest level. As calculated by bandsharing analysis, an average of genetic difference (mean$\pm$SD) of individuals was approximately 0.590$\pm$0.125 in this population. In AGE, the single linkage dendrogram resulted from two primers (M11+H11 and M13+H11), indicating six genetic groupings composed of group 1 (No.9 and 10), group 2 (No. 1, 4, 5, 7, 10, 11, 16 and 17), group 3 (No. 2, 3, 6, 8, 12, 15 and 16), group 4 (No.9, 14 and 17), group 5 (No. 13, 19, 20 and 21) and group 6 (No. 23). In AGE, the genetic distances among individuals of between-population ranged from 0.108 to 0.392. In AGE, the shortest genetic distance (0.108) displaying significant molecular differences was between individuals No.9 and No. 10. Especially, the genetic distance between individuals No. 23 and the remnants among individuals within population was highest (0.392). Additionally, in the cluster analysis using the PAGE data, the single linkage dendrogram resulted from two primers (M12+H13 and M11+H13), indicating seven genetic groupings composed of group 1 (No. 15), group 2 (No. 14), group 3 (No. 11 and 12), group 4 (No.5, 6, 7, 8, 10 and 13), group 5 (No.1, 2, 3 and 4), group 6 (No.9) and group 7 (No. 16). By comparison with the individuals in PAGE, genetic distance between No. 10 and No. 7 showed the shortest value (0.071), also between No. 16 and No. 14 showed the highest value (0.242). As with the PAGE analysis, genetic differences were certainly apparent with 13 of 16 individuals showing greater than 80% AFLP-based similarity to their closest neighbor. The three individuals (No. 14, No. 15 and No. 16) of rainbow trout between two populations apart from the geographic sites in Kangwon-do formed distinct genetic distances as compared with other individuals. These results indicated that AFLP markers of this fish could be used as genetic information such as species identification, genetic relationship or analysis of genome structure, and selection aids for genetic improvement of economically important traits in fish species.

TNT에 대한 세균의 반응기작: 생존율, 스트레스 유도단백질의 SDS-PAGE 및 2-D 전기영동 분석 (Responses of Bacteria to TNT: Cells′Survival, SDS-PAGE and 2-D Electrophoretic Analyses of Stress-Induced Proteins)

  • 오계헌;장효원;강형일;김승일
    • 미생물학회지
    • /
    • 제38권2호
    • /
    • pp.67-73
    • /
    • 2002
  • 폭약 2,4,6-trinitrotoluene (TNT)스트레스 조건하에서 토양세균 Pseudomonas sp. HK-6의 세포반응에 대하여 조사하였다. 다양한 농도의 TNT에 노출됨으로서 약 70-kDa DnaK와 60-kDa GroEL의 스트레스 충격단백질 (stress shock proteins, SSPs)이 단떠질이 유도되었다. 이들 SSPs의 존재는 SDS-PAGE과 anti-DnaK와 anti-GroEL monoclonal antibodies를 이용한 Western bolt을 통하여 확인되었다. SSPs은 0.5 mM TNT로 6-12 시간 처리된 세포에서 나타났으며, TNT에 노출 후8시간대 에서 최대의 단백질 유도가 관찰되었다. $30^{\circ}C$에서 $42^{\circ}C$로 열변환충격을 주었을 때의 SSPs는 TNT노출에서와 유사한 유도양상을 보여주었다. TNT에 노출된 Pseudomonas sp. HK-6세포에서 유도된 SSPs의 존재는 배양된 세포의 수용성 단백질 분획에 대하여 2-D PAGE를 통하여 확인되었다. Coomassie brilliant blue R25O로 염색된 젤로부터 pH 3-10 범위에서 약 450 개의 spots이 탐침되었으며, 이들 가운데 12 개의 spots이 TNT 스트레스에 대하여 현저하게 유도되었다. Gel상에서 가장 짙게 나타난 대표적 인 spot에 대한 N-말단 아미노산 서열을 분석한 결과, $^1XXAKDVKFGDSARKKML^17$로서, Pseudomonas putida의 GroEL의 N-말단 아미노산 염기서열인 $^1XXAKDVKFGDSARKKML^17$과 동일한 것으로 분석되었다.