• 제목/요약/키워드: Text Similarity

검색결과 277건 처리시간 0.035초

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.

삼각형의 결정과 합동의 분석 (Analysis on Triangle Determination and Congruence)

  • 김수현;최윤상
    • 한국학교수학회논문집
    • /
    • 제10권3호
    • /
    • pp.341-351
    • /
    • 2007
  • 중학수학 7-나에서 삼각형의 결정조건은 '세 변이 주어질 때', '두 변과 끼인 각이 주어질 때', '한 변과 그 양끝 각이 주어질 때'로 기술하고 있다. 합동 닮음조건도 세 조건으로 기술하고 있다. 이 논문에서는 '두 선분과 긴 선분의 대각이 주어질 때'도 삼각형의 결정조건에, 대응하는 두 변과 긴 변의 대각이 같을 때'는 합동조건과 닮음조건에 포함될 수 있음을 밝히며, 최소필수성은 삼각형의 결정조건에 있다고 보기 어렵고 합동조건에만 존재한다는 것, 유클리드 기하를 통한 삼각형 결정 합동조건의 명제탐구 및 결정 합동조건을 동일시하는 개념 혼동에 의한 문제점, 삼각형 결정을 위한 작도학습에 있어서 각과 길이의 수치화로 인한 부정적 영향에 관하여 논의한다. 마지막으로 미국과 일본 등의 교과서에서는 다루지 않으며, 유클리드 기하에도 없는 결정조건의 학습 효과에 대한 논의와 중학 수학 7-나의 삼각형의 결정 합동부분에 있어 학생들의 탐구력과 창의성 향상을 위한 학습 방향을 제안하는 바이다.

  • PDF

연속적 I/O와 클러스터 인덱싱 구조를 이용한 이미지 데이타 검색 연구 (A study on searching image by cluster indexing and sequential I/O)

  • 김진옥;황대준
    • 정보처리학회논문지D
    • /
    • 제9D권5호
    • /
    • pp.779-788
    • /
    • 2002
  • 이미지, 비디오, 오디오와 같은 멀티미디어 데이터들은 텍스트기반의 데이터에 비하여 대용량이고 비정형적인 특성때문에 검색이 어렵다. 또한 멀티미디어 데이터의 특징은 행렬이나 벡터의 형태로 표현되기 때문에 완전일치 검색이 아닌 유사 검색을 수행하여 원하는 이미지와 유사한 이미지를 검색해야 한다. 본 논문에서는 멀티미디어 데이터 검색에 클러스터링과 인덱싱 기법을 같이 적용하여 유사한 이미지는 인접 디스크에 클러스터하고 이 클러스터에 접근하는 인덱스를 구축함으로써 이미지 근처의 클러스터를 찾아 빠른 검색 결과를 제공하는 유사 검색방법을 제시한다. 본 논문에서는 트리 유사 구조의 인덱스 대신 해싱 방법을 이용하며 검색시 I/O 시간을 줄이기 위해 오브젝트를 가진 클러스터 위치를 찾는데 한번의 I/O를 사용하고 이 클러스터를 읽기 위해 연속적인 파일 I/O를 사용하여 클러스터를 찾는 비용을 최소화한다. 클러스터 인덱싱 접근은 클러스터링을 생성하는 알고리즘과 해싱 기법의 인덱싱을 이용함으로써 고차원 데이터가 갖는 차원의 문제를 해결하며 클러스터링 또는 인덱싱 만을 이용하는 내용기반의 이미지 검색보다 효율적인 검색 적합성을 보인다.

외국어 음차 표기의 음성적 유사도 비교 알고리즘 (Phonetic Similarity Meausre for the Korean Transliterations of Foreign Words)

  • 강병주;이재성;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제26권10호
    • /
    • pp.1237-1246
    • /
    • 1999
  • 최근 모든 분야에서 외국과의 교류가 증대됨에 따라서 한국어 문서에는 점점 더 많은 외국어 음차 표기가 사용되는 경향이 있다. 하지만 같은 외국어에 대한 음차 표기에 개인차가 심하여 이들 음차 표기를 포함한 문서들에 대한 검색을 어렵게 만드는 원인이 되고 있다. 한 가지 해결 방법은 색인 시에 같은 외국어에서 온 음차 표기들을 등가부류로 묶어서 색인해 놓았다가 질의 시에 확장하는 방법이다. 본 논문에서는 외국어 음차 표기들의 등가부류를 만드는데 필요한 음차 표기의 음성적 유사도 비교 알고리즘인 Kodex를 제안한다. Kodex 방법은 기존의 스트링 비교 방법인 비음성적 방법에 비해 음차 표기들을 등가부류로 클러스터링하는데 있어 더 나은 성능을 보이면서도, 계산이 간단하여 훨씬 효율적으로 구현될 수 있는 장점이 있다.Abstract With the advent of digital communication technologies, as Koreans communicate with foreigners more frequently, more foreign word transliterations are being used in Korean documents more than ever before. The transliterations of foreign words are very various among individuals. This makes text retrieval tasks about these documents very difficult. In this paper we propose a new method, called Kodex, of measuring the phonetic similarity among foreign word transliterations. Kodex can be used to generate the equivalence classes of the transliterations while indexing and conflate the equivalent transliterations at the querying stage. We show that Kodex gives higher precision at the similar recall level and is more efficient in computation than non-phonetic methods based on string similarity measure.

딥러닝을 이용한 강좌 추천시스템 (Course recommendation system using deep learning)

  • 임민아;황승연;신동진;오재곤;김정준
    • 한국인터넷방송통신학회논문지
    • /
    • 제23권3호
    • /
    • pp.193-198
    • /
    • 2023
  • 딥러닝을 이용한 학습자 맞춤 강의 추천 프로젝트를 연구한다. 추천시스템은 웹과 앱에서 쉽게 발견할 수 있으며 이 특성을 이용한 예제는 사용자 클릭으로 특성 영상 추천과 SNS에서 평소 사용자가 관심 있던 분야의 아이템을 광고하는 것이 있다. 본 연구에서는 문장 유사도인 Word2Vec를 주로 이용하여 2번의 필터링을 거쳤으며 Surprise 라이브러리를 통해 강좌 추천을 하였다. 이러한 시스템으로 사용자에게 간편하고 편리하게 원하는 분류의 강좌 데이터를 제공한다. Surprise 라이브러리는 Python scikit-learn 기반의 라이브러리이며 추천시스템에 편리하게 사용된다. 데이터를 분석하여 시스템을 빠른 속도로 구현하고 딥러닝을 사용하여 강좌 단계를 거쳐 보다 더 정밀한 결과를 구현해낸다. 사용자가 관심 있는 키워드를 입력하면 해당 키워드와 강좌 제목과의 유사도를 실행하고 추출된 영상 데이터로 또 음성 텍스트와의 유사도를 실행하여 추출된 데이터로 Surprise 라이브러리를 통해 가장 높은 순위의 영상 데이터를 추천한다.

아돌프 로스와 안토니 가우디의 장식론에 대한 비교 연구 (A Comparative Study of the Theory of Ornament of Adolf Loos and Antonio Gaudí)

  • 한상훈;장용순
    • 한국실내디자인학회논문집
    • /
    • 제27권3호
    • /
    • pp.41-48
    • /
    • 2018
  • This thesis is a paper comparing Adolf Loos and Antoni Gaudí's 'theory of ornament', based on their text. Adolf Loos and Antoni Gaudí are architects who had worked from late 19c, just before advent of Modernism architecture, to early 20c. When 'ornament' had started to be excluded from architecture according to development of industrialization and capitalism, Loos and Gaudí have both written about 'ornament.' Generally, Loos is known to have possessed rational mind and designed modern building with no ornament, and Gaudí is known to have possessed romantic mind and used splendid ornaments. For those reasons, it was assumed that two architects would have contrast opinions regarding ornaments. However, analysis of two architects' major text reveals that their theories of ornament are fundamentally analogous. Loos and Gaudí both argue dissolution of past normative 'ornament' and claims that rational 'ornament' that fits modern time is possible. Interestingly, intentionally adopted ornaments exist considerably in architecture of Loos. On the other hand, in Gaudí's architecture, there are many points where Gaudí had restrained ornaments. This thesis organizes similarity and differences of two architects' 'theory of ornament' through their texts and works. Moreover, this thesis suggests that then today's architecture aims to restart a debate on 'ornament', it is worth reviewing texts of Loos and Gaudí.

Fast, Flexible Text Search Using Genomic Short-Read Mapping Model

  • Kim, Sung-Hwan;Cho, Hwan-Gue
    • ETRI Journal
    • /
    • 제38권3호
    • /
    • pp.518-528
    • /
    • 2016
  • The searching of an extensive document database for documents that are locally similar to a given query document, and the subsequent detection of similar regions between such documents, is considered as an essential task in the fields of information retrieval and data management. In this paper, we present a framework for such a task. The proposed framework employs the method of short-read mapping, which is used in bioinformatics to reveal similarities between genomic sequences. In this paper, documents are considered biological objects; consequently, edit operations between locally similar documents are viewed as an evolutionary process. Accordingly, we are able to apply the method of evolution tracing in the detection of similar regions between documents. In addition, we propose heuristic methods to address issues associated with the different stages of the proposed framework, for example, a frequency-based fragment ordering method and a locality-aware interval aggregation method. Extensive experiments covering various scenarios related to the search of an extensive document database for documents that are locally similar to a given query document are considered, and the results indicate that the proposed framework outperforms existing methods.

부상기술 예측을 위한 특허키워드정보분석에 관한 연구 - GHG 기술 중심으로 (Patent Keyword Analysis for Forecasting Emerging Technology : GHG Technology)

  • 최도한;김갑조;박상성;장동식
    • 디지털산업정보학회논문지
    • /
    • 제9권2호
    • /
    • pp.139-149
    • /
    • 2013
  • As the importance of technology forecasting while countries and companies manage the R&D project is growing bigger, the methodology of technology forecasting has been diversified. One of the forecasting method is patent analysis. This research proposes quick forecasting process of emerging technology based on keyword approach using text mining. The forecasting process is following: First, the term-document matrix is extracted from patent documents by using text mining. Second, emerging technology keyword are extracted by analyzing the importance of word from utilizing mean values and standard deviation values of the term and the emerging trend of word discovered from time series information of the term. Next, association between terms is measured by using cosine similarity. finally, the keyword of emerging technology is selected in consequence of the synthesized result and we forecast the emerging technology according to the results. The technology forecasting process described in this paper can be applied to developing computerized technology forecasting system integrated with various results of other patent analysis for decision maker of company and country.

An Image Retrieving Scheme Using Salient Features and Annotation Watermarking

  • Wang, Jenq-Haur;Liu, Chuan-Ming;Syu, Jhih-Siang;Chen, Yen-Lin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제8권1호
    • /
    • pp.213-231
    • /
    • 2014
  • Existing image search systems allow users to search images by keywords, or by example images through content-based image retrieval (CBIR). On the other hand, users might learn more relevant textual information about an image from its text captions or surrounding contexts within documents or Web pages. Without such contexts, it's difficult to extract semantic description directly from the image content. In this paper, we propose an annotation watermarking system for users to embed text descriptions, and retrieve more relevant textual information from similar images. First, tags associated with an image are converted by two-dimensional code and embedded into the image by discrete wavelet transform (DWT). Next, for images without annotations, similar images can be obtained by CBIR techniques and embedded annotations can be extracted. Specifically, we use global features such as color ratios and dominant sub-image colors for preliminary filtering. Then, local features such as Scale-Invariant Feature Transform (SIFT) descriptors are extracted for similarity matching. This design can achieve good effectiveness with reasonable processing time in practical systems. Our experimental results showed good accuracy in retrieving similar images and extracting relevant tags from similar images.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.