• 제목/요약/키워드: keyword

검색결과 2,066건 처리시간 0.043초

문서 단위 순위화를 통한 XML 문서에 대한 키워드 검색 성능 향상 (Accelerating Keyword Search Processing over XML Documents using Document-level Ranking)

  • 이형동;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권5호
    • /
    • pp.538-550
    • /
    • 2006
  • XML 문서에 대한 키워드 검색은 사용자로 하여금 XML 문서의 복잡한 구조에 관한 지식 없이 쉽게 정보를 검색할 수 있게 해준다. 또한 사용자의 정보 요구에 대해 해당 정보를 포함하는 문서 전체를 반환하는 기존의 정보 검색 시스템과 달리 문서 내의 해당 정보를 포함하는 문서 조각을 결과로 반환함으로써 보다 빠르게 원하는 정보를 얻을 수 있도록 도와준다. 이러한 특징은 XML 문서 검색 시스템이 XML 문서를 문서 단위가 아닌 세부적인 엘리먼트 단위로 처리함으로써 가능하다. 하지만 이로 인해 대용량 문서들에 대한 질의 처리 부담 역시 가중되었다. 본 논문에서는 엘리먼트 단위 질의 처리의 비용을 줄이기 위해 XML 문서에 대한 문서 단위 순위화 기법을 제안하는데, 이는 결과물의 점수에 영향을 미치는 질의 키워드들의 문서 내에서의 근접도를 경로 노드 집합 정보와 이에 대한 유사도를 통해 구함으로써 엘리먼트 단위 질의 처리 결과를 예측하고 문서 단위 점수를 계산한다. 이러한 문서 중심의 뷰는 대용량 문서에 대한 순위화 혹은 필터링을 가능하게 해주며, 우리는 문서 단위 인덱스를 통해 순위가 높은 문서를 우선적으로 처리함으로써 Top-k 질의에 대해 검색 성능을 높였으며, 실험을 통해 해당 기법의 유효성과 성능 향상을 검증하였다.

확장 불리언 질의에 대한 비용 기반 최적화 (Cost-based Optimization of Extended Boolean Queries)

  • 박병권
    • 정보관리학회지
    • /
    • 제18권3호
    • /
    • pp.29-40
    • /
    • 2001
  • 본 논문에서는 역색인 파일을 미용하여 학장 불리언 질의를 처리할 때 최소 비용의 질의 처리 방법을 구해 주는 질의 최적화 알고리즘을 제시한다. 확장 불리언 질의를 처리하는 방법은 질의를 구성하는 키위드의 처리 순서에 따라 여러 가지가 있을 수 있으므로 확장 불리언 질의 최적화 문제는 결국 최적 키워드 처리 순서를 구하는 문제로 귀결된다. 본 논문에서는 이 문제가 데이터베이스 질의 최적화에서 최적 조인 순서를 구하는 문제와 구조적으로 유사함을 보이고 이 분야의 연구 결과를 이용하여 문제를 해결한다. 즉, 확장 불리언 질의 처리에 대한 비용 모델을 수립하고 키워드 선택률과 역색인 파일 접근 비용을 이용하여 키워드 순위 개념을 도입한 후 이를 이용하여 최적 키워드 처리 순서를 구하는 알고리즘을 도출한다. 그리고 도출한 질의 최적화 알고리즘의 최적성을 증명하고. 실험을 통하여 실제로 최소비용의 질의 처리 방법을 구함을 보이고, 질의 최적화를 하지 않을 경우와 비교하였을 때 그 성능이 월등히 우수함을 보인다. 본 논문에서 제시한 질의 최적화 알고리즘은 정보검색시스템의 질의 처리 성능 향상에 큰 기여를 하리라 믿는다.

  • PDF

키워드 네트워크를 이용한 항공관련 글로벌 연구동향 분석: 스코퍼스(Scopus)게재 논문을 중심으로 (Study on Research Trends in Airline Industry using Keyword Network Analysis: Focused on the Journal Articles in Scopus)

  • 이주양;장필식
    • 한국융합학회논문지
    • /
    • 제8권5호
    • /
    • pp.169-178
    • /
    • 2017
  • 다양한 연구 분야에서, 광범위한 텍스트 분석을 이용한 연구 동향파악과 관련 패턴의 도출은 중요한 의미를 가진다. 본 연구에서는 키워드 네트워크 분석을 통해, 1997년부터 2016년까지의 항공관련 글로벌 연구 동향을 조사하였다. 이를 위해 스코퍼스 등재 학술지 논문 25,959편을 대상으로 키워드 네트워크 모델을 설정하고 중심성(연결, 매개) 분석을 수행하였다. 연구 결과는 항공관련 연구동향이 키워드 네트워크 분석을 통해 계량적으로 설명될 수 있음을 보여준다. 최근 20년간 항공관련 연구가 가장 활발히 이루어진 분야는 공학 분야와 사회과학 분야인 것으로 확인되었으며, 연결중심성이 높은 키워드들이 매개중심성 또한 높은 것으로 나타났다. 본 연구의 결과는 항공과 관련된 정책 수립 및 새로운 연구개발 주제를 탐색하는 자료로 활용될 수 있을 것으로 기대된다.

국내 예방의학 분야의 공저자.핵심어 네트워크와 군집 양상 - 대한예방의학회지($1991{\sim}2006$) 게재논문의 분석 - (Co-author and Keyword Networks and their Clustering Appearance in Preventive Medicine Fields in Korea: Analysis of Papers in the Journal of Preventive Medicine and Public Health, $1991{\sim}2006$)

  • 정민수;정동준
    • Journal of Preventive Medicine and Public Health
    • /
    • 제41권1호
    • /
    • pp.1-9
    • /
    • 2008
  • Objectives : This study evaluated knowledge structure and its effect factor by analysis of co-author and keyword networks in Korea's preventive medicine sector. Methods : The data was extracted from 873 papers listed in the Journal of Preventive Medicine and Public Health, and was transformed into a co-author and keyword matrix where the existence of a 'link' was judged by impact factors calculated by the weight value of the role and rate of author participation. Research achievement was dependent upon the author's status and networking index, as analyzed by neighborhood degree, multidimensional scaling, correspondence analysis, and multiple regression. Results : Co-author networks developed as randomness network in the center of a few high-productivity researchers. In particular, closeness centrality was more developed than degree centrality. Also, power law distribution was discovered in impact factor and research productivity by college affiliation. In multiple regression, the effect of the author's role was significant in both the impact factor calculated by the participatory rate and the number of listed articles. However, the number of listed articles varied by sex. Conclusions : This study shows that the small world phenomenon exists in co-author and keyword networks in a journal, as in citation networks. However, the differentiation of knowledge structure in the field of preventive medicine was relatively restricted by specialization.

키워드 네트워크 분석을 통한 도서관마케팅 연구 경향 분석 - 우리나라와 국외연구의 비교분석 - (A Study on the Library Marketing Research Trends through Keyword Network Analysis: Comparative Analysis of Korea and Other Countries)

  • 이성신
    • 한국문헌정보학회지
    • /
    • 제50권3호
    • /
    • pp.383-402
    • /
    • 2016
  • 본 연구의 목적은 도서관마케팅 관련 국내외 연구의 저자 키워드 네트워크 분석을 통해 도서관마케팅연구의 경향성을 살펴보고 국외 연구와의 비교를 통해 국내 연구가 지니는 특성을 살펴보는데 있다. 분석 대상은 국내의 경우 문헌정보학분야 4대 학회지의 도서관마케팅 관련 연구의 저자 키워드이며 국외의 경우 Scopus데이터베이스에 수록되어 있는 문헌정보학분야의 도서관마케팅 관련 연구의 저자 키워드이다. 수집된 저자 키워드는 NetMiner4 소프트웨어를 활용하여 분석하였다. 분석 결과 1) 국내의 도서관마케팅연구는 주로 공공도서관을 대상으로 한 반면 국외의 경우 대학도서관을 대상으로 한 연구가 상대적으로 많았다, 2) 국내의 경우, 도서관마케팅연구의 주제가 다양화되지 못한 경향이 있으며 일부 소수 학자들의 학문적 관심에 의해 주도되는 경향성이 강하였다, 3) 국외의 경우, 디지털시대에 걸맞은 소셜미디어와 온라인 등을 통한 마케팅적 접근이 활발한 반면 국내의 경우는 이에 대한 관심이 미미하였다, 4) 국내외의 경우 모두 학교도서관에 대한 도서관마케팅연구자들의 관심은 많지 않은 것으로 나타났다.

TF-IDF의 변형을 이용한 전자뉴스에서의 키워드 추출 기법 (Keyword Extraction from News Corpus using Modified TF-IDF)

  • 이성직;김한준
    • 한국전자거래학회지
    • /
    • 제14권4호
    • /
    • pp.59-73
    • /
    • 2009
  • 키워드 추출은 정보검색, 문서 분류, 요약, 주제탐지 등의 텍스트 마이닝 분야에서 기반이 되는 기술이다. 대용량 전자문서로부터 추출된 키워드들은 텍스트 마이닝을 위한 중요 속성으로 활용되어 문서 브라우징, 주제탐지, 자동분류, 정보검색 시스템 등의 성능을 높이는데 기여한다. 본 논문에서는 인터넷 포털 사이트에 게재되는 대용량 뉴스문서집합을 대상으로 키워드 추출을 수행하여 분야별 주제를 제시할 수 있는 키워드를 추출하는 새로운 기법을 제안한다. 기본적으로 키워드 추출을 위해 기존 TF-IDF 모델을 고찰, 이것의 6가지 변형식을고안하여 이를 기반으로 각 분야별 후보 키워드를 추출한다. 또한 분야별로 추출된 단어들의 분야간 교차비교분석을 통해 불용어 수준의 의미 없는 단어를 제거함으로써 그 성능을 높인다. 제안 기법의 효용성을 입증하기 위해 한글 뉴스 기사 문서에서 추출한 키워드의 질을 비교하였으며, 또한 주제 변화를 탐지하기 위해 시간에 따른 키워드 집합의 변화를 보인다.

  • PDF

연관규칙 마이닝을 활용한 뉴스기사 키워드의 연관성 탐사 (Discovering News Keyword Associations Using Association Rule Mining)

  • 김한준;장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제11권6호
    • /
    • pp.63-71
    • /
    • 2011
  • 현재 대부분의 웹포털 사이트는 인기도 또는 중요도가 높은 키워드를 제공하는 서비스가 제공되고 있는데, 구체적으로 태그 클라우드 형태와 연관 검색 서비스와 같은 사용자 친화형 서비스를 지원하고 있다. 하지만 일반적으로 뉴스기사는 날짜와 분야별로 기사들이 분류되어 있기에, 사용자는 카테고리별로 나누어진 기사를 읽을 수만 있을 뿐 그 기사와 연관된 다른 기사를 쉽게 찾아보지는 못한 실정이다. 또한 연관 검색어 서비스도 사용자가 검색한 입력내용을 기반으로 연관성 정도를 분석하기에 충분한 객관성을 보장하지 못하고 있다. 본 논문에서는 기존의 태그 클라우드 방식에서 좀 더 나아가 축적된 뉴스 기사로 부터 검색 키워드와 밀접히 연관된 키워드를 추출하여 제공하는 기사 검색 방식을 제안한다. 제안 기법은 기본적으로 연관규칙 마이닝을 이용하여 키워드 연관성을 추출하게 되며, 뉴스기사 특성을 반영하여 문장 내부에 존재하는 키워드에 한정하여 연관성을 추출한다. 연관된 키워드 집합을 이용하여 키워드와 가장 밀접한 기사를 검색할 뿐만 아니라, 연관 키워드간의 관계성을 보여줌으로써 뉴스 기사들 속에 숨겨진 연관정보의 탐색을 가능하게 한다.

클릭로그를 이용한 연관키워드 수집 (Relevant Keyword Collection using Click-log)

  • 안광모;서영훈;허정;이충희;장명길
    • 정보처리학회논문지B
    • /
    • 제19B권2호
    • /
    • pp.149-154
    • /
    • 2012
  • 본 논문은 사용자가 웹 검색을 위해 입력한 키워드와 그 키워드에 의해서 접근한 웹문서의 URL을 이용하여 연관키워드(relevant keyword)를 수집하는데 목적이 있다. 서로 다른 키워드들이라 할지라도 각각의 키워드들이 동일하게 링크된 URL의 수가 많다면, 그 키워드들은 서로 관련성이 높을 것이라는 것이 본 논문의 주된 가정이다. 실제로 이를 검증하기 위해 사용자가 입력한 키워드와 이 키워드를 이용하여 접근한 URL의 정보가 담겨있는 포털사이트의 클릭로그 데이터를 이용하여 URL과 키워드들의 쌍을 추출한 후, 연관키워드 집합을 생성하였다. 그 결과, 실험에서는 최소지지도(minimum support)가 10일 때, 유사어휘 수준에서의 정확도는 89.32%를 보였으며, 유사 어휘는 아니나 관련성이 있는 어휘 수준에서는 99.03%의 정확도를 보였다. 본 논문에서 제안하는 접근 방법은 언어에 독립적이고, 실세계의 데이터로부터 관련성이 있는 단어를 수집할 수 있다는 장점이 있다.

LSI를 이용한 차원 축소 클러스터 기반 키워드 연관망 자동 구축 기법 (Automatic Construction of Reduced Dimensional Cluster-based Keyword Association Networks using LSI)

  • 유한묵;김한준;장재영
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1236-1243
    • /
    • 2017
  • 본 논문은 기존의 TextRank 알고리즘에 상호정보량 척도를 결합하여 군집 기반에서 키워드 추출하는 LSI-based ClusterTextRank 기법과 추출된 키워드를 Latent Semantic Indexing(LSI)을 이용한 연관망 구축 기법을 제안한다. 제안 기법은 문서집합을 단어-문서 행렬로 표현하고, 이를 LSI를 이용하여 저차원의 개념 공간으로 차원을 축소한다. 그 다음 k-means 군집화 알고리즘을 이용하여 여러 군집으로 나누고, 각 군집에 포함된 단어들을 최대신장트리 그래프로 표현한 후 이에 근거한 군집 정보량을 고려하여 키워드를 추출한다. 그리고나서 추출된 키워드들 간에 유사도를 LSI 기법을 통해 구한 단어-개념 행렬을 이용하여 계산한 후, 이를 키워드 연관망으로 활용한다. 제안 기법의 성능을 평가하기 위해 여행 관련 블로그 데이터를 이용하였으며, 제안 기법이 기존 TextRank 알고리즘보다 키워드 추출의 정확도가 약 14% 가량 개선됨을 보인다.

키워드탐색과 비주얼 브라우징 기법을 이용한 이미지 개발 시스템 (An Image Retrieval System with Multiple Access Modes)

  • 이지연
    • 정보관리학회지
    • /
    • 제18권4호
    • /
    • pp.183-200
    • /
    • 2001
  • 기존의 전통적인 이미지 데이터로의 접근방식은 각 이미지를 기술하는 색인어 및 키워드들에 의하여 이루어졌다. 이러한 키워드에 의한 전통적인 방식은 색인의 객관성 및 이용자들의 적절한 탐색어 선택에 따르는 부담을 수반하는 것이어서 이미지 검색의 문제점으로 제시되어 왔다. 이 연구는 객관성 있는 이미지 기술의 어려움과 키워드 탐색의 한계성을 인식하고 색인어와 매칭되는 탐색어 선택에 따르는 이용자의 부담을 덜 수 있는 방법의 하나로 비주얼 브라우징 기법을 제시하였다. 키워드 탐색 방법과 비주얼 브라우징 방법, 그리고 이 두 가지를 혼합 사용하는 방법을 비교하는 실험을 통하여 각 방법의 효율성을 측정하고 장점 및 단점을 살펴보았다. 실험 결과 키워드 탐색 방식은 탐색의 효율적인 측면을 고려할 때에 적합한 것으로 나타났으며 비주얼 브라우징 방식은 탐색 결과의 포괄적인 측면을 기대할 때에 이용될 수 있는 것으로 드러났다. 이러한 결과는 한 방식이 다른 방식보다 절대 우위의 효율성을 가진다기보다는 이용자가 요구하는 정보의 양과 정확성에 따라 각 방식의 효율성이 달라진다는 것을 제시하고 있다. 이 연구는 비주얼 브라우징 방식을 통하여 현재의 키워드 중심의 이미지 탐색 방식의 문제점을 완화시키고 이용자 중심의 탐색 방식과 이미지 검색 시스템의 디자인을 위한 방향을 제시하고 있다.

  • PDF