• 제목/요약/키워드: 키워드 그래프

검색결과 51건 처리시간 0.022초

LSI를 이용한 차원 축소 클러스터 기반 키워드 연관망 자동 구축 기법 (Automatic Construction of Reduced Dimensional Cluster-based Keyword Association Networks using LSI)

  • 유한묵;김한준;장재영
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1236-1243
    • /
    • 2017
  • 본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 LSI-based ClusterTextRank 기법과 추출된 키워드를 Latent Semantic Indexing(LSI)을 이용한 연관망 구축 기법을 제안한다. 제안 기법은 문서집합을 단어-문서 행렬로 표현하고, 이를 LSI를 이용하여 저차원의 개념 공간으로 차원을 축소한다. 그 다음 k-means 군집화 알고리즘을 이용하여 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최대신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 그리고나서 추출된 키워드들 간에 유사도를 LSI 기법을 통해 구한 단어-개념 행렬을 이용하여 계산한 후, 이를 키워드 연관망으로 활용한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 14% 가량 개선됨을 보인다.

RDF 데이타에 대한 효율적인 검색 기법 (An Efficient Keyword Search Method on RDF Data)

  • 김진하;송인철;김명호
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제35권6호
    • /
    • pp.495-504
    • /
    • 2008
  • 최근 문서나 웹 페이지뿐만 아니라 관계형 데이타나 XML 데이타, RDF 데이타 같은 구조화된 데이타에 대해서도 검색을 지원하고자 하는 연구가 활발히 진행되고 있다. 본 논문에서는 RDF 데이타에 대한 효율적인 검색 기법을 제안한다. 제안하는 기법은 먼저 RDF 데이타의 크기를 줄여 검색 성능을 높이고 검색 결과로 관련 있는 정보를 함께 반환해 주기 위해 RDF 데이타에서 관련 있는 노드와 에지를 묶어 새로운 RDF 그래프를 생성한다. 또한 검색 과정에서 검색의 결과를 정렬하기 위해 RDF 데이타 그래프의 노드와 예지에 키워드와의 연관도를 부여할 때, RDF 온톨로지 데이타의 특성을 활용함으로써 보다 사용자의 의도에 부합하는 검색 결과를 반환한다. 실제 RDF 데이타를 사용한 성능 비교 결과는 제안하는 기법이 RDF 데이타의 크기를 최대 2배까지 줄이고 기존 기법에 비해 검색 속도가 최대 5배 빠르다는 것을 보여준다.

동시 출현 키워드를 활용한 지중해지역 연구 동향 분석 (Research Trends Analysis on the Mediterranean Area Studies using Co-appearance Keywords)

  • 이동열;강지훈;문상호
    • 예술인문사회 융합 멀티미디어 논문지
    • /
    • 제6권5호
    • /
    • pp.409-419
    • /
    • 2016
  • 일반적으로 지역학 연구를 수행하는데 있어 연구 동향을 파악하는 것은 매우 중요하다. 그러나 지역학의 연구 분야는 매우 다양하며, 모든 지역학 연구 분야에 대한 연구가 동시에 진행되는 것은 매우 어렵다. 이로 인해 지역학연구는 시대에 따라 연구 분야 및 연구 동향이 변화 하였다. 이와 함께 지역학의 연구 동향을 이해하려는 관심이 꾸준히 증가되고 있다. 본 논문에서는 국내의 지중해지역 연구를 대상으로 동시 출현 키워드를 기반으로 연구 동향을 분석한다. 이를 위하여 국내 지중해지역 연구의 대표 학술지인 『지중해지역연구』에 게재된 논문들을 대상으로 논문 유형 분석 및 키워드를 추출하여 정제 과정을 거쳐 동시 출현 키워드를 생성하였다. 세부적으로 논문의 유형 분석을 통해 기본적인 동향 분석을 수행하였고, 논문의 동시 출현 키워드를 이용하여 단순 정량 분석보다 심층적인 분석을 수행하고, 동시출현 키워드를 통해 생성된 네트워크 그래프 형태의 시각화를 통해 분석을 수행한다.

RDF 기반 온톨로지 검색 서비스 플랫폼 구현에 관한 연구 (A Study on the Implementation of Ontology Retrieval Service Platform Based on RDF)

  • 신유탁;조재춘
    • 융합정보논문지
    • /
    • 제10권1호
    • /
    • pp.139-148
    • /
    • 2020
  • 인터넷과 컴퓨터 기술이 발전되면서 수많은 콘텐츠 속에서 문화와 역사, 전통 관련 자료를 효과적으로 검색하고 창작에 도움이 될 수 있는 전통문화 융·복합 지원이 필요하다. 본 연구는 이를 위한 RDF 기반 온톨로지 검색 서비스 플랫폼을 구축하고 사용성 및 타당성 검증을 수행하였다. 본 플랫폼은 트리플 검색, 키워드 간 관계 검색, 네트워크 그래프 검색, 스토리 탐색 및 관리, 큐레이션 관리 모듈로 구분된다. 이를 기반으로 데이터 간의 관계를 중심으로 검색 결과를 시각화하고 네트워크 그래프 검색과 스토리 검색을 통해 키워드 간의 관계를 쉽게 파악하고 키워드 간의 복잡한 관계 분석 및 검색 시간을 단축시킬 수 있다. 검증을 위해 자문 평가를 수행하였고 기존의 검색 기능보다 정보 간의 관계를 쉽게 파악하고 분석 및 검색 시간을 획기적으로 단축시킬 수 있는 향상된 검색이 가능하다는 평가를 받았다.

단어 간 의미적 연관성을 고려한 어휘 체인 기반의 개선된 자동 문서요약 방법 (An Improved Automatic Text Summarization Based on Lexical Chaining Using Semantical Word Relatedness)

  • 차준석;김정인;김판구
    • 스마트미디어저널
    • /
    • 제6권1호
    • /
    • pp.22-29
    • /
    • 2017
  • 최근 스마트 디바이스의 급속한 발달과 보급으로 인하여 인터넷 웹상에서 등장하는 문서의 데이터는 하루가 다르게 증가 하고 있다. 이러한 정보의 증가로 인터넷 웹상에서는 대량의 문서가 증가하여 사용자가 해당 문서의 데이터를 이해하는데, 어려움을 겪고 있다. 그렇기 때문에 자동 문서 요약 분야에서 문서를 효율적으로 요악하기 위해 다양한 연구가 진행 되고 있다. 효율적으로 문서를 요약하기 위해 본 논문에서는 텍스트랭크 알고리즘을 이용한다. 텍스트랭크 알고리즘은 문장 또는 키워드를 그래프로 표현하며, 단어와 문장 간의 의미적 연관성을 파악하기 위해 그래프의 정점과 간선을 이용하여 문장의 중요도를 파악한다. 문장의 상위 키워드를 추출 하고 상위 키워드를 기반으로 중요 문장 추출 과정을 거친다. 중요 문장 추출 과정을 거치기 위해 단어 그룹화 과정을 거친다. 단어그룹화는 특정 가중치 척도를 이용하여 가중치 점수가 높은 문장을 선별하여 선별된 문장들을 기반으로 중요 문장을 중요 문장을 추출하여, 문서를 요약을 하게 된다. 이를 통해 기존에 연구 되었던 문서요약 방법보다 향상된 성능을 보였으며, 더욱 효율적으로 문서를 요약할 수 있음을 증명하였다.

스팸 필터링을 위한 지식 그래프 기반의 신조어 감지 매커니즘 (Knowledge Graph-based Korean New Words Detection Mechanism for Spam Filtering)

  • 김지혜;정옥란
    • 인터넷정보학회논문지
    • /
    • 제21권1호
    • /
    • pp.79-85
    • /
    • 2020
  • 오늘날 스마트폰에서 스팸 문자를 차단하기 위해 문자 내용과 스팸 키워드의 단순 문자열 비교 또는 스팸 전화번호를 차단하는 방식을 사용하고 있다. 이에 따라 스팸 문자가 자동으로 차단되는 것을 방지하기 위해 점차 변화된 방식으로 스팸 문자를 전송한다. 특히 스팸 키워드에 포함되는 단어의 경우 단순 문자열 비교로 검색되지 않도록 특수문자, 한자, 띄어쓰기 등을 이용하여 비정상적인 단어로 스팸 문자를 발송한다. 기존 스팸 필터링 방식의 경우 이러한 스팸 문자를 차단할 수 없다는 한계가 있다. 따라서 변화하는 스팸 문자에 대응할 수 있는 새로운 기술이 필요한 시점이다. 본 논문에서는 스팸 문자에서 자주 사용되는 신조어를 검출하여 변화하는 스팸 문자에 대응할 수 있는 지식 그래프 기반의 신조어 감지 매커니즘을 제안한다. 또한 기본 Naive Bayes에 감지한 신조어를 적용하여 제안한 방법의 성능 실험 결과를 보여준다.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

유사 단어 커뮤니티 기반의 질의 확장 (Query Expansion based on Word Sense Community)

  • 곽창욱;윤희근;박성배
    • 정보과학회 논문지
    • /
    • 제41권12호
    • /
    • pp.1058-1065
    • /
    • 2014
  • 질의 확장은 입력된 질의와 관련된 키워드를 사용자에게 제시하여 검색 활동에 도움을 주는 방법이다. 최근에는 사용자가 검색한 내용에서 군집화 방법을 이용하여 도메인을 찾고 키워드를 제시하는 연구가 많이 이루어졌다. 하지만 군집화 방법은 군집의 개수를 정해야하기 때문에 다양한 도메인을 나타내는데 적절하지 않다. 따라서 본 논문은 커뮤니티 인지 알고리즘으로 검색 문서에서 질의마다 다양한 수의 도메인을 찾고 키워드로 선택하여 제시하는 방법을 제안한다. 이를 위해 사용자가 검색한 결과 중 상위 30개 문서를 대상으로 단어를 추출하여 그래프 기반의 커뮤니티를 만들고, 각 커뮤니티에서 키워드를 추출하여 이를 질의 확장에 이용하였다. 본 논문에서 제안한 방법은 구글 검색 엔진과 검색된 문서의 tf-idf를 이용한 키워드 추천 방법과 비교하였다. 제안한 방법이 다른 비교 대상들에 비해 더 다양한 키워드를 추천할 수 있었다.

XML DOM을 이용한 웹문서 검색 알고리즘 (Retrieval algorithm for Web Document using XML DOM)

  • 김노환;정충교
    • 한국컴퓨터산업학회논문지
    • /
    • 제2권6호
    • /
    • pp.775-782
    • /
    • 2001
  • 현재까지 웹 검색엔진은 각 문서가 어떤 키워드를 얼마나 갖고 있는지, 키워드의 빈도수에 따라서, 문서에 키워드를 많이 포함하는 문서가 가까운 문서라는 가정에 의거 문서 순위를 사용자에게 보여주는 형태였다. 이런 형태의 검색은 HTML 웹 데이터처럼 구조적인 정보를 포함하지 않은 일반 문서형태의 경우 키워드의 발생빈도를 고려하는 형태에서는 별 문제가 없지만 구조적인 정보를 갖고 있는 XML로 표현된 웹 데이터일 경우에는 그래프 형태의 모델표현이 가능하기 때문에 단순히 키워드의 빈도만을 고려하는 형태로서는 바른 검색결과를 얻을 수 없다. 따라서 XML 문서의 구조적인 특성을 최대한 활용하여 SQL과 유사한 형태의 질의를 통하여 원하는 데이터만을 추출한다면 단순히 키워드에 의존하는 형태의 질의를 탈피하며 보다 분명한 검색결과를 획득할 수 있다고 생각한다. 본 논문에서는 XML DOM을 이용하여 XML 데이터의 정보검색 시스템을 모델링하고, 이와 관련된 알고리즘을 제안하고자 한다.

  • PDF

트위터를 이용한 이벤트 감지 시스템 (Event Detection System Using Twitter Data)

  • 박태수;정옥란
    • 인터넷정보학회논문지
    • /
    • 제17권6호
    • /
    • pp.153-158
    • /
    • 2016
  • 최근 소셜 네트워크 사용자들이 늘어나면서, 각 지역에서 관심 받고 있는 사회적인 이슈나 재해 등과 같은 이벤트에 대한 정보들이 소셜 미디어 사이트를 통해 실시간으로 빠르게 대량으로 게시되고 있으며, 사회적 파급효과도 매우 커지고 있다. 본 논문에서는 지역정보를 가진 트위터 데이터를 이용하여 특정 시간, 지역에 사용자들이 관심을 가지고 있는 이벤트를 탐지하는 방법을 제안하고자 한다. 이를 위해 트위터 스트리밍 API를 이용해 데이터를 수집하고, 트윗의 키워드들의 시간에 따른 빈도수를 분석하여 정상적인 패턴과 다른 패턴을 가진 키워드를 이벤트로 추출하고, 같은 이벤트에 대한 키워드들을 군집화 하기 위해 co-occurrence 그래프를 이용하여 이벤트 감지 시스템을 구현하였다. 그리고 실험을 통해 제안한 기법의 유효성을 검증한다.