• 제목/요약/키워드: Text Similarity

검색결과 280건 처리시간 0.024초

연속하는 공간적 특징의 시간적 유사성 검출을 이용한 고속 동영상 검색 (Fast Video Detection Using Temporal Similarity Extraction of Successive Spatial Features)

  • 조아영;양원근;조주희;임예은;정동석
    • 한국통신학회논문지
    • /
    • 제35권11C호
    • /
    • pp.929-939
    • /
    • 2010
  • 멀티미디어 기술이 발전함에 따라 대용량의 데이터베이스의 관리와 불법 복제물 검출을 위한 동영상 검색의 필요성이 커지고 있다. 본 논문에서는 이러한 요구에 맞춰 대용량 데이터베이스에서 고속 동영상 검색을 수행할 수 있는 방법을 제안한다. 고속 동영상 검색 방법은 프레임의 휘도 분포를 이용하여 공간적 특징을 추출하고, 동영상의 시간적 유사성 지도를 생성하여 시간적 특정을 추출한다. 동영상의 공간적 특정과 시간적 특정을 식별자로 구성하고 단계적인 정합 방법을 수행한다. 실험에서는 원본 동영상과 밝기 변화, 압축률 변환, 자막/로고 삽입과 같은 다양한 변형을 이용하여 정확성, 추출 및 정합 속도, 식별자 크기를 측정하여 성능을 평가하였다. 또한, 제안한 방법의 파라미터를 실험적으로 선택한 과정을 기술하고 비교 알고리즘과 공간적 특정만을 이용한 단순 정합 결과를 제시하였다. 정확성, 경색 속도 식별자 크기의 모든 결과에서, 제안한 고속 검색 방법이 대용량 데이터베이스의 동영상 경색에 가장 적합한 기술임을 보였다.

실행코드 비교 감정에서 주변장치 분석의 유효성 (Study on the comparison result of Machine code Program)

  • 김도현;이규대
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제16권1호
    • /
    • pp.37-44
    • /
    • 2020
  • 소프트웨어의 유사성 비교는 소스코드를 대상으로 한다. 소스코드는 프로그램 언어로 표현된 개발자의 지적 저작권으로 보호된다. 문서형식으로 작성된 프로그램 소스코드는 개발자의 전문지식과 아이디어가 포함된 내용을 포함하고 있다. 소프트웨어 저작권의 불법도용을 판단하기 위한 감정 작업은 원본과 비교본의 소스 코드를 대상으로 파일의 구성과 내용을 검증하는 방법으로 수행된다. 그러나 실제적으로 피고소인 측의 불성실한 목적물 제공으로 소스코드의 일대일 비교감정이 어려운 상황이 증가하고 있다. 이 경우 실행코드에 대한 비교감정이 수행되어야 하며, 역어셈블 방법, 역공학기법, 기능실행의 시퀀스 분석 등의 간접적인 방법이 적용된다. 본 논문에서는 소스코드제공이 어려운 상황에서 시스템과 실행코드 파일을 대상하는 하는 감정 사례를 통해 간접적인 비교결과의 유효성에 대해 분석하고, 감정결과에 활용하는 방안을 제시한다.

고창·부안 갯벌에 자생하는 염생식물 칠면초 근권 및 근면으로부터 내 염성 세균 분리와 그 특성화 (Isolation of salt-tolerant bacteria from rhizosphere and rhizoplane of halophyte plant Suaeda japonica in Gochang·Buan tidal flat)

  • 기민규;이혜리;조아현;운노타쯔야;이지훈
    • Journal of Applied Biological Chemistry
    • /
    • 제60권2호
    • /
    • pp.125-131
    • /
    • 2017
  • 고창 부안 갯벌에 자생하는 칠면초의 근권 및 근면으로부터 내염성을 지니는 9 균주를 분리하였다. 16S rRNA 유전자를 이용한 계통분석으로 분리된 균주는 Vibrio 속과 Bacillus 속으로 분류되었다. 분리된 균주 중 Vibrio와 Bacillus로 나누어 각각 대표성을 나타낼 수 있는 균주를 선택하여 염 농도에 따른 최적 생장조건을 평가한 결과, 균주 JRS-1 (Vibrio neocaledonicus)은 총 염분 4-6%에서 높은 생장률을 보였다. 균주 JRL-2(Bacillus thuringiensis)는 염분 농도 증가에 따라 생장이 증가하였으며, 7%에서 최대 생장률을 보이고 8%에서는 감소하는 경향을 보였다. 분리된 균주들은 기존에 서식하던 토양의 염 농도인 3% (w/v) 보다 더 높은 염분에도 견딜 수 있는 내염성을 보였다. 또한 분리균주에 대한 생화학적 기질 이용 형태에 분석을 통해 triglyceride, ${\rho}$-nitrophenyl-${\alpha}$,$\text\tiny{D}$-glucoside, ${\rho}$-nitrophenyl-${\beta}$, $\text\tiny{D}$-glucoside 이용 등 식물과의 특이적인 상호작용을 나타내는 것으로 간주할 수 있는 반응들을 확인하였다.

비정형 텍스트 데이터 분석을 활용한 기록관리 분야 연구동향 (Research Trends in Record Management Using Unstructured Text Data Analysis)

  • 홍덕용;허준석
    • 한국기록관리학회지
    • /
    • 제23권4호
    • /
    • pp.73-89
    • /
    • 2023
  • 본 연구에서는 텍스트 마이닝 기법을 활용하여 국내 기록관리 연구 분야의 비정형 텍스트 데이터인 국문 초록에서 사용된 키워드 빈도를 분석하여 키워드 간 거리 분석을 통해 국내기록관리 연구 동향을 파악하는 것이 목적이다. 이를 위해 한국학술지인용색인(Korea Citation Index, KCI)의 학술지 기관통계(등재지, 등재후보지)에서 대분류(복합학), 중분류 (문헌정보학)으로 검색된 학술지(28종) 중 등재지 7종 1,157편을 추출하여 77,578개의 키워드를 시각화하였다. Word2vec를 활용한 t-SNE, Scattertext 등의 분석을 수행하였다. 분석 결과, 첫째로 1,157편의 논문에서 얻은 77,578개의 키워드를 빈도 분석한 결과, "기록관리" (889회), "분석"(888회), "아카이브"(742회), "기록물"(562회), "활용"(449회) 등의 키워드가 연구자들에 의해 주요 주제로 다뤄지고 있음을 확인하였다. 둘째로, Word2vec 분석을 통해 키워드 간의 벡터 표현을 생성하고 유사도 거리를 조사한 뒤, t-SNE와 Scattertext를 활용하여 시각화하였다. 시각화 결과에서 기록관리 연구 분야는 두 그룹으로 나누어졌는데 첫 번째 그룹(과거)에는 "아카이빙", "국가기록관리", "표준화", "공문서", "기록관리제도" 등의 키워드가 빈도가 높게 나타났으며, 두 번째 그룹(현재)에는 "공동체", "데이터", "기록정보서비스", "온라인", "디지털 아카이브" 등의 키워드가 주요한 관심을 받고 있는 것으로 나타났다.

『금궤옥함경』에 관한 문헌적 연구 (A Literary Study on Jinguiyuhanjing)

  • 염용하;하기태;김준기;최달영
    • 동의생리병리학회지
    • /
    • 제16권1호
    • /
    • pp.8-13
    • /
    • 2002
  • Jinguiyuhanjing, one of the Jing-Yue's three writings which were proofread by Lin-Yi et al. in the Song dynasty, can be regarded as the book composed of another text of Shanghanlun. The book has been quoted by some medical scholars in the Song and Jin dynasty, but it has been kept hiding by some collectors from the Yuan dynasty and has not been known to the public until republished by Shi-Jie Chen in the early Ching dynasty. As compared with Shanghanlun, Jinguiyuhanjing shows much difference in contents. Rather, it has a close similarity to Qianjinyifang(千金翼方) written by SunSaiMiao(孫思邈) in the Dang dynasty. The section 1 of Zhengzhizongcongli(證治總例), which may have edited by the man who have also edited Jinguiyuhanjing published between the Nanbei(南北) dynasty and the Sui(隋) and Tang dynasty, has a lot of resemblance to Qianjinyifang. Though the book and Qianjinyifang might have come from the same version, it seems that the edition and publication of Jinguiyuhanjing have no direct relation to those of Qianjinyifang because the former has more articles and prescriptions than the other has. Jinguiyuhanjing gives a great deal of attention to scholars who study the taxt of the Song dynasty because the contents of the book particularly reveals a considerable difference to Shanghanlun published in the Song dynasty. Despite all the importances that the book have, however, no one in Korea did not pay attention to the book ever before. We are sure that it is a valuable work to introduce and study the book in Korea.

<상한론(傷寒論)>의 병리전변분석을 통한 중경(仲景)의 삼음삼양(三陰三陽) 증치원리(證治原理) 연구 (Studies on Differential Therapeutic Principle of Three Yang and Three Yin through Analysis of Pathological Transmission)

  • 지규용
    • 동의생리병리학회지
    • /
    • 제28권4호
    • /
    • pp.365-370
    • /
    • 2014
  • The intrinsic concepts of the three yin and three yang diseases in is unclear yet in spite of considerable controversy. In order to answer these problems, the structures of pathological transmission and anatomical terms used in the text were analyzed first. On these structural bases, the theoretical background and differential therapeutic principles of three yin and three yang disease classification. The organic structures frequently used in the text were heart, stomach, pancreas, blood chamber and urinary bladder, and the important regions in the transmission were chest, flank, epigastrium, abdomen, hypogastrium, groin on the other hand. When a host is invaded by extrinsic pathogen, an affinity is formed between the two based on the similarity of epidermal density condition and nutrient-defense features and existing disorders in the body. And then the symptoms show in 3 stages with 6 patterns in the general infective diseases. The initial stage is the period that the syndrome is limited in the external flesh area, and it mainly corresponds with taiyang bing besides the other exterior patterns of 3 yang and 2 yin bing. The middle stage is to the climax after the end of initial stage and it corresponds with mainly yangming bing including shaoyang and taiyin bing. In the terminal stage, the host gradually falls into exhaustive step or recovery phase, corresponding with shaoyin and jueyin bing. Conclusively, these dual meanings of three yang and yin should be a first guide and principle of treatment against various infective diseases.

A Study on the Smart Tourism Awareness through Bigdata Analysis

  • LEE, Song-Yi;LEE, Hwan-Soo
    • 산경연구논집
    • /
    • 제11권5호
    • /
    • pp.45-52
    • /
    • 2020
  • Purpose: In the 4th industrial revolution, services that incorporate various smart technologies in the tourism sector have begun to gain popularity. Accordingly, academic discussions on smart tourism have also started to become active in various fields. Despite recent research, the definition of smart tourism is still ambiguous, and it is not easy to differentiate its scope or characteristics from traditional tourism concepts. Thus, this study aims to analyze the perception of smart tourism exposed online to identify the current point of smart tourism in Korea and present the research direction for conceptualizing smart tourism suitable for the domestic situation. Research design, data, and methodology: This study analyzes the perception of smart tourism exposed online based on 20,198 news data from portal sites over the past six years. Data on words used with smart tourism were collected from the leading portal sites Naver, Daum, and Google. Text mining techniques were applied to identify the social awareness status of smart tourism. Network analysis was used to visualize the results between words related to smart tourism, and CONCOR analysis was conducted to derive clusters formed by words having similarity. Results: As a result of keyword analysis, the frequency of words related to the development and construction of smart tourism areas was high. The analysis of the centrality of the connection between words showed that the frequency of keywords was similar, and that the words "smartphones" and "China" had relatively high connection centrality. The results of network analysis and CONCOR indicated that words were formed into eight groups including related technologies, promotion, globalization, service introduction, innovation, regional society, activation, and utilization guide. The overall results of data analysis showed that the development of smart tourism cities was a noticeable issue. Conclusions: This study is meaningful in that it clearly reflects the differences in the perception of smart tourism between online and research trends despite various efforts to develop smart tourism in Korea. In addition, this study highlights the need to understand smart tourism concepts and enhance academic discussions. It is expected that such academic discussions will contribute to improving the competitiveness of smart tourism research in Korea.

의학 사상의 유사성은 계량 분석 될 수 있는가 - 『동의보감』과 『의학입문』, 『경악전서』를 중심으로 - (Can Similarities in Medical thought be Quantified? - Focusing on Donguibogam, Uihagibmun and Gyeongagjeonseo -)

  • 오준호
    • 대한한의학원전학회지
    • /
    • 제31권2호
    • /
    • pp.71-82
    • /
    • 2018
  • Objectives : The purpose of this study is to compare the similarities among Donguibogam(DO), Uihagibmun(UI), and Gyeongagjeonseo(GY) in order to examine whether the medical thoughts embedded in the texts can be compared in a quantitative way. Methods : Under an empirical assumption that medical thoughts can be reduced to the frequency of major key words within the text, we selected the fourteen words of the four categories that are commonly used to describe physiology and pathology in Korean medicine as key words. And the frequency of these key words was measured and compared with each other in the three important medical texts in Korea. Results : As a result of quantitative analysis based on ${\chi}^2$ statistic, the key words in the books were distributed most heterogeneously in DO and distributed most homogeneously in UI. In comparison of the similarity analyzed by the same method, DO and UI were significantly more similar than those of DO and UI. The results of the word frequency pattern and the similarities of the book contents(CBDF) show that DO is influenced by UI, and the differences between standardized residuals and homogeneity tells us that internal context of both books are constructed differently. Conclusions : These results support the results of traditional research by experts. With the above, we were able to confirm that medical thoughts can be reduced to the frequency of major key words within the text, and compared through the frequency of such key words.

학회 웹사이트의 토픽 정보추출을 이용한 주제에 따른 학회 자동분류 기법 (Academic Conference Categorization According to Subjects Using Topical Information Extraction from Conference Websites)

  • 이수경;김관호
    • 한국전자거래학회지
    • /
    • 제22권2호
    • /
    • pp.61-77
    • /
    • 2017
  • 최근 온라인상에 게시된 학회정보가 급증함으로써 주제에 따른 학회정보의 자동분류는 연구자들에게 효율적인 관련 학회 탐색을 가능하게 한다. 그러나 대부분의 학회 목록 제공 서비스에서는 학회명칭, 날짜, 위치, URL 등의 정보만 제공하기 때문에 학회 주제를 파악할 수 있는 정보는 학회명칭에 국한된다. 따라서 본 연구에서는 URL을 통한 학회 웹사이트의 토픽정보를 추출함으로써 학회정보량의 부족문제를 해결하고, 동시에 양질의 정보로 학습의 성능을 향상시키는 기법을 제안한다. 구체적으로는 웹사이트 URL을 통해 수집한 HTML 문서로부터 주요 콘텐츠를 추출하고, 학회명칭과 유사한 토픽 키워드 정보를 선정하여 추가 가중치를 부여한다. 실 데이터를 활용한 실험 결과, 제안된 방법인 추가적인 웹 콘텐츠 정보의 사용은 주제에 따른 학회 분류의 성능을 성공적으로 향상시킬 수 있음을 확인하였다. 추후 연구에서는 웹 사이트의 구조를 고려한 토픽 정보추출을 통해 분류의 정확성을 더욱 향상시킬 계획이다.

트랜잭션 기반 머신러닝에서 특성 추출 자동화를 위한 딥러닝 응용 (A Deep Learning Application for Automated Feature Extraction in Transaction-based Machine Learning)

  • 우덕채;문현실;권순범;조윤호
    • 한국IT서비스학회지
    • /
    • 제18권2호
    • /
    • pp.143-159
    • /
    • 2019
  • Machine learning (ML) is a method of fitting given data to a mathematical model to derive insights or to predict. In the age of big data, where the amount of available data increases exponentially due to the development of information technology and smart devices, ML shows high prediction performance due to pattern detection without bias. The feature engineering that generates the features that can explain the problem to be solved in the ML process has a great influence on the performance and its importance is continuously emphasized. Despite this importance, however, it is still considered a difficult task as it requires a thorough understanding of the domain characteristics as well as an understanding of source data and the iterative procedure. Therefore, we propose methods to apply deep learning for solving the complexity and difficulty of feature extraction and improving the performance of ML model. Unlike other techniques, the most common reason for the superior performance of deep learning techniques in complex unstructured data processing is that it is possible to extract features from the source data itself. In order to apply these advantages to the business problems, we propose deep learning based methods that can automatically extract features from transaction data or directly predict and classify target variables. In particular, we applied techniques that show high performance in existing text processing based on the structural similarity between transaction data and text data. And we also verified the suitability of each method according to the characteristics of transaction data. Through our study, it is possible not only to search for the possibility of automated feature extraction but also to obtain a benchmark model that shows a certain level of performance before performing the feature extraction task by a human. In addition, it is expected that it will be able to provide guidelines for choosing a suitable deep learning model based on the business problem and the data characteristics.