• 제목/요약/키워드: Keyword Similarity

검색결과 107건 처리시간 0.029초

컬러 분포와 WordNet상의 유사도 측정을 이용한 의미적 이미지 검색 (Semantic Image Retrieval Using Color Distribution and Similarity Measurement in WordNet)

  • 최준호;조미영;김판구
    • 정보처리학회논문지B
    • /
    • 제11B권4호
    • /
    • pp.509-516
    • /
    • 2004
  • 의미기반 이미지 검색에서의 의미적 내용 인식은 주석 위주의 텍스트 정보를 이용하는 것이 일반적이다. 이러한 텍스트 정보 기반 이미지 검색은 전통적인 검색 방법인 키워드 검색 기술을 그대로 사하여 쉽게 구현할 수 있으나, 텍스트의 개념적 매칭이 아닌 스트링 매칭이므로 주석 처리된 단어와 정확한 매칭이 없다면 검색할 수 없는 단점이 있었다. 이에 본 논문에서는 Ontology의 일종인 WordNet을 이용하여 깊이, 정보량, 링크 타입, 밀도 등을 고려한 단어간 의미 유사도를 측정하여 패턴 매칭의 문제점을 해결하고자 한다. 또한, 이미지의 컬러 분포 유사도를 측정하여 저차원 특징과 결합한 의미적 이미지 검색이 가능하도록 설계하였다. 제안된 검색 방안에 대해 'Microsoft Design Gallery Live'의 주석을 포함한 이미지를 대상으로 실험한 결과, 기존 의미기반 검색 시스템보다 향상된 결과를 확인하였다.

구조와 내용 유사도에 기반한 XML 웹 문서 검색시스템 구축 (An Implementation of XML document searching system based on Structure and Semantics Similarity)

  • 박우창;서여진
    • 인터넷정보학회논문지
    • /
    • 제6권2호
    • /
    • pp.99-115
    • /
    • 2005
  • XML은 인터넷상에서 데이터 표현과 변환을 위한 표준이며, 이러한 XML 문서에서 필요한 정보를 찾아내기 위해 XML 문서 검색 시스템이 필요하다. 본 연구는 이러한 필요성에 기반을 두어 XML 구조를 최대한 활용하여, 주어진 XML 문서에 대해 구조와 내용이 가장 가까운 문서들을 찾아내는 검색 시스템을 개발하였다. 검색 메트릭은 XML 문서들 중 각 태그의 이름에 대한 유사도, 각 태그가 포함하는 값의 유사도와 태그 간 구조에 대한 유사도를 모두 고려하며, 검색 후 유사도의 결과 값에 따라 검색 결과를 순위화 하여 보여준다. 검색 방법은 전통적인 키워드 검색 방식, 태그와 값을 입력하여 검색할 수 있는 방식, XML 문서를 입력하여 검색하는 세 가지 질의 방식을 제공함으로서 사용자들의 기호에 따라 원하는 방식을 골라 검색할 수 있도록 구성하여 시스템의 유용성을 높였다. 개발된 XML 문서 검색 시스템은 INEX에서 제공된 XML 문서들을 대상으로 하여 테스트하였다.

  • PDF

주변 확률을 고려하지 않는 확률적 흥미도 측도 계열 유사성 측도의 서열화 (A study on the ordering of PIM family similarity measures without marginal probability)

  • 박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권2호
    • /
    • pp.367-376
    • /
    • 2015
  • 데이터마이닝 기법 중의 하나인 군집분석은 다양한 특성을 지닌 관찰대상에 대해 유사성을 바탕으로 동질적인 군집으로 묶은 후, 동일 군집에 속해 있는 공통된 특성을 조사하는데 이용되는 기법이다. 본 논문에서는 주변 확률을 고려하지 않는 확률적 흥미도 측도 기반 유사성 측도인 Yule I과 II, Michael, Digby, Baulieu, 그리고 Dispersion 측도에 대해 상한 및 하한을 설정함으로써 이들의 대소관계를 규명하였다. 그 결과, 세 가지 유형의 대소 관계가 성립한다는 사실을 수식의 증명뿐만 아니라 실제 데이터 및 모의실험 데이터에 의해서도 확인할 수 있었다. 이들 측도들은 각 경계에 있는 측도와는 더욱 더 유사한 값을 가지므로 각 측도의 상한 및 하한은 여러 가지 측도들을 분류하는 도구가 되며, 실제 값의 관점에서 각 측도들의 관계를 알게 되면 주어진 알고리즘의 안정화에 도움이 될 수 있을 것이다.

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.

지식 간 내용적 연관성을 표현하는 키워드 기반 네트워크형 지식지도 개발 (Keyword-based networked knowledge map expressing content relevance between knowledge)

  • 유기동
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.119-134
    • /
    • 2018
  • 저장 및 관리하는 지식의 분류체계로서의 의미를 갖는 지식지도는, 문제해결을 위하여 지식을 조회 및 선택하는 사용자의 활동을 지원하고 보완할 수 있는 구조를 갖추어야 한다. 계층형 구조를 갖는 기존의 지식지도는, 관리하는 지식을 체계적으로 정리하는 데에는 이점이 있으나, 지식 사용자가 갖는 인지 및 활용의 논리를 반영하지 못할 뿐만 아니라 지식을 조회 및 추출하는 사용자의 활동을 지원하지 못한다. 본 연구는, 내용적 관련성을 갖는 연관지식을 연쇄적으로 조회 및 추출하는 사용자의 지식활용 패턴을 반영하는, 키워드 기반 네트워크형 지식지도를 구축하는 방법론을 제시한다. 즉, 지식 간 내용적 연관성을 파악하기 위하여 키워드를 추출하고 공통된 키워드를 갖는 지식 간 링크를 해당 키워드를 이용하여 정의한다. 키워드는 해당 지식의 내용을 대변하므로, 키워드를 기반으로 정의된 링크는 내용적으로 관련성이 있는 지식 간에 형성되며, 이를 종합하면 내용적 연관성을 지식 간의 네트워크, 즉 네트워크형 지식지도가 완성된다. 제시된 방법론의 적용 타당성을 검토하기 위해 50개의 연구논문을 이용하여 이들 간의 내용적 연관성을 표현하는 네트워크형 지식지도를 구현하였으며, 검토 결과 만족할만한 수준의 정밀도와 재현율을 보였다.

키워드 출현 빈도 분석과 CONCOR 기법을 이용한 ICT 교육 동향 분석 (Analysis of ICT Education Trends using Keyword Occurrence Frequency Analysis and CONCOR Technique)

  • 이영석
    • 산업융합연구
    • /
    • 제21권1호
    • /
    • pp.187-192
    • /
    • 2023
  • 본 연구는 기계학습의 키워드 출현 빈도 분석과 CONCOR(CONvergence of iteration CORrealtion) 기법을 통한 ICT 교육에 대한 흐름을 탐색한다. 2018년부터 현재까지의 등재지 이상의 논문을 'ICT 교육'의 키워드로 구글 스칼라에서 304개 검색하였고, 체계적 문헌 리뷰 절차에 따라 ICT 교육과 관련이 높은 60편의 논문을 선정하면서, 논문의 제목과 요약을 중심으로 키워드를 추출하였다. 단어 빈도 및 지표 데이터는 자연어 처리의 TF-IDF를 통한 빈도 분석, 동시 출현 빈도의 단어를 분석하여 출현 빈도가 높은 49개의 중심어를 추출하였다. 관계의 정도는 단어 간의 연결 구조와 연결 정도 중심성을 분석하여 검증하였고, CONCOR 분석을 통해 유사성을 가진 단어들로 구성된 군집을 도출하였다. 분석 결과 첫째, '교육', '연구', '결과', '활용', '분석'이 주요 키워드로 분석되었다. 둘째, 교육을 키워드로 N-GRAM 네트워크 그래프를 진행한 결과 '교육과정', '활용'이 가장 높은 단어의 관계로 나타났다. 셋째, 교육을 키워드로 군집분석을 한 결과, '교육과정', '프로그래밍', '학생', '향상', '정보'의 5개 군이 형성되었다. 이러한 연구 결과를 바탕으로 ICT 교육 동향의 분석 및 트렌드 파악을 토대로 ICT 교육에 필요한 실질적인 연구를 수행할 수 있을 것이다.

토픽 식별성 향상을 위한 키워드 재구성 기법 (Keyword Reorganization Techniques for Improving the Identifiability of Topics)

  • 윤여일;김남규
    • 한국IT서비스학회지
    • /
    • 제18권4호
    • /
    • pp.135-149
    • /
    • 2019
  • Recently, there are many researches for extracting meaningful information from large amount of text data. Among various applications to extract information from text, topic modeling which express latent topics as a group of keywords is mainly used. Topic modeling presents several topic keywords by term/topic weight and the quality of those keywords are usually evaluated through coherence which implies the similarity of those keywords. However, the topic quality evaluation method based only on the similarity of keywords has its limitations because it is difficult to describe the content of a topic accurately enough with just a set of similar words. In this research, therefore, we propose topic keywords reorganizing method to improve the identifiability of topics. To reorganize topic keywords, each document first needs to be labeled with one representative topic which can be extracted from traditional topic modeling. After that, classification rules for classifying each document into a corresponding label are generated, and new topic keywords are extracted based on the classification rules. To evaluated the performance our method, we performed an experiment on 1,000 news articles. From the experiment, we confirmed that the keywords extracted from our proposed method have better identifiability than traditional topic keywords.

딥러닝을 이용한 법률 분야 한국어 의미 유사판단에 관한 연구 (Deep Learning Based Semantic Similarity for Korean Legal Field)

  • 김성원;박광렬
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권2호
    • /
    • pp.93-100
    • /
    • 2022
  • 기존의 데이터 검색 방법으로는 키워드 중심의 검색 방법이 주로 사용되나, 이는 전문적인 용어가 많이 쓰이는 법률 분야의 검색 방법으로는 적합하지 않다. 이에 대해 본 논문에서는 법률 분야의 효과적인 데이터 검색 방안을 제안한다. 법률 도메인의 자연어처리 분야에서 문장 간의 유사성을 판단하는 데 최적화된 임베딩 방법에 관하여 서술한다. 법률문장을 TF-IDF를 이용하여 키워드 기반으로 임베딩하거나 Universal Sentence Encoder를 이용하여 의미 기반으로 임베딩을 한 후, BERT모델을 결합하여 법률 분야에서 문장 간 유사성을 검사하여 데이터를 검색하는 최적의 방안을 제안한다.

의미간의 유사도 연구의 패러다임 변화의 필요성-인지 의미론적 관점에서의 고찰 (The Need for Paradigm Shift in Semantic Similarity and Semantic Relatedness : From Cognitive Semantics Perspective)

  • 최영석;박진수
    • 지능정보연구
    • /
    • 제19권1호
    • /
    • pp.111-123
    • /
    • 2013
  • 개념간의 의미적 유사도 및 관계도(Semantic Similarity/Relatedness)를 구하는 연구는 고전적인 연구에서는 데이터 베이스 통합이나 시스템 통합, 그리고 현대의 연구에 있어서는 태그 및 키워드 추출, 연관 단어 추천 등에 걸쳐 다양한 분야에서 활용되어 온 연구이다. 그 연구는 역사가 오래되었을 뿐만 아니라, 경영정보와 컴퓨터 공학, 계산 언어학에 걸쳐 여러 분야에서도 많은 관심을 가져왔던 연구 분야라고 할 수 있다. 그러나, 지금까지의 개념간의 관계도 계산 방식은 미리 만들어진 사전이나 참조할 수 있는 다른 시맨틱 네트워크(Semantic Network)를 이용하여 계산하는 방법이 주를 이루었다. 이러한 접근 방법의 경우, 개념간의 의미적 관계가 변화에 대한 가능성을 고려하지 않는 것이 일반적이다. 하지만, 정보 기술의 발달과 빠른 사회변화는 개념간의 의미관계 등에 변화를 가져오고 있는 것이 현실이다. 사회적으로 일어나는 사건이나, 문화적 변화 등이 개념간의 의미관계를 변화시키는 것을 물론이며, 이러한 변화가 정보 통신 기술의 도움으로 빠르게 공유되고 있다. 이렇게 개념간의 의미 관계가 시간이나 맥락에 따라 빠르게 변화할 수 있는 가능성이 있음에도 불구하고, 기존의 개념간 의미적 유사도 및 관계도에 대한 연구들은 이러한 '의미관계의 변화'에 대한 새로운 문제에 대해 해답을 제시하지 못한 것이 사실이다. 따라서, 본 연구에서는 개념간의 유사도 연구에 있어 지금까지 있어왔던 '정적인 의미간 관계도 패러다임'에서 '동적인 의미간 관계도 패러다임'으로의 전환의 필요성과 그 당위성을 인지 의미론적(Cognitive Semantics)의 관점에서 역설하고자 한다. 인간이 인지하는 개념간의 의미관계가 변화할 수 있는 이론적 근거를 인지 의미론에서 찾아봄으로써, 패러다임 변화의 방향을 구체적으로 제시하였다. 또한 이러한 패러다임의 변화에 맞추어 개념간의 의미적 유사도 및 관계도에 대한 연구가 어떠한 방향으로 나아가야 할지 구체적인 연구 방향을 제시함으로써 관련 연구자들에게 새로운 연구의 가이드라인을 제시하였다.

OPAC에서 탐색결과의 클러스터링에 관한 연구 (The Effectiveness of Hierarchic Clustering on Query Results in OPAC)

  • 노정순
    • 한국문헌정보학회지
    • /
    • 제38권1호
    • /
    • pp.35-50
    • /
    • 2004
  • 본 연구는 한글 OPAC에서 문헌의 분류와 브라우징에 적합한 정적 계층클러스터링 모형이 서명단어 탐색으로 검색된 탐색결과를 클러스터링하는데도 효과적인지를 규명하기 위해 수행되었다. 서명에 출현하는 단어와 색인자가 부여한 통제어를 통합한 색인어를 이진빈도로 가중치를 주어, 다이스와 자카드 계수, 집단 간 평균연결과 완전연결 클러스터링 기법이 테스트되었다. 16개의 서명단어 탐색으로 검색된 문헌을 클러스터링한 결과 최적으로 선택된 클러스터의 정확률은 유사도 계수나 클러스터링 기법에 관계없이 서명단어탐색보다 100%이상 향상되었다. 1단계와 최종단계 클러스터링 모두에서, 정확률 측면에서는 완전연결이, 재현을 측면에서는 집단 간 평균연결이 더 효과적이었으나 통계적으로 유의한 수준은 아니었다. 1단계 클러스터에서 집단 간 평균연결이 보다 높은 재현율을 보인 것은 유의하였다. 다이스와 자카드 사이에 차이는 없었다. 최종클러스터가 선택되기까지 집단 간 평균연결은 너무 긴 계층군집 단계를 필요로 하여 탐색효율 측면에서 바람직해 보이지 않았다.