• 제목/요약/키워드: 페이지랭크

검색결과 45건 처리시간 0.028초

네트워크 이론을 이용한 한국과 베트남의 관심어 차이 분석 - 스마트시티를 중심으로 (Analysis of the different of Interest words between Korea and Vietnam using network theory - Focusing on smart city)

  • 정성윤;김남곤
    • 스마트미디어저널
    • /
    • 제11권8호
    • /
    • pp.73-83
    • /
    • 2022
  • 본 연구는 정보력이 약한 신생 건설엔지니어링 기업이 해외 건설시장에 성공적으로 진출할 수 있도록 지원하기 위한 일환으로 해외 건설시장에서 관심을 갖는 관심어가 무엇이고, 우리나라와 어떤 차이가 있는지를 분석하고자 하였다. 이를 위해 최근 한국과 베트남에서 관심이 높은 스마트시티를 대상으로 2,473개의 뉴스 기사 제목과 주요 기사를 수집하였다. 네트워크 구성과 토픽 모델링을 통해 관심어와 관심어 간의 연결 관계를 살펴 보았다. 또한, 페이지랭크 중심성을 사용하여 네트워크에서 관심어의 영향력을 측정하였다. 이러한 분석을 통해 양국에서 스마트시티 관련 구축, 도시, 디지털에 대한 관심이 높은 것을 알 수 있었으며, 한국과 베트남이 갖는 관심어의 차이를 유추하였다. 끝으로, 본 연구가 갖는 제약과 이를 보완하기 위한 추가적인 연구 방향을 제시하였다.

개인별 유전자 네트워크 구축 및 페이지랭크를 이용한 환자 특이적 암 유발 유전자 탐색 방법 (Cancer Patient Specific Driver Gene Identification by Personalized Gene Network and PageRank)

  • 정희원;박지우;안재균
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권12호
    • /
    • pp.547-554
    • /
    • 2021
  • 암을 유발하는 유전자는 모든 암 환자에게 공통적인 것은 아니며, 이러한 환자 특이적 암 유발 유전자의 탐색은 개인 맟춤형 암 치료 및 항암제 개발에 있어서 매우 중요하다. 환자 특이적 암 유발 유전자를 찾기 위한 생물 정보학 연구들이 있어왔지만, 아직 정확도 면에서는 발전의 여지가 있다. 본 논문에서는 환자 특이적 암 유발 유전자를 탐색하기 위하여 NPD (Network based Patient-specific Driver gene identification)라는 방법을 제안한다. NPD는 환자 특이적 유전자 네트워크를 구축하고, 여기에 수정된 PageRank 알고리즘을 적용하여 유전자에 점수를 부여한 후, 유전적 변이 데이터를 사용한 승률 계산 방법을 통하여 암 유발 유전자를 찾는 세 단계로 이루어진다. TCGA 데이터 베이스의 여섯 개의 암 데이터에 NPD를 적용한 결과, NPD가 기존의 환자 특이적 암 유발 유전자 탐색 방법들보다 전체적으로 높은 F1 점수를 보여줌을 확인할 수 있었다.

공동연구 네트워크 분석을 위한 중심성 지수에 대한 비교 연구 (A Comparative Study on the Centrality Measures for Analyzing Research Collaboration Networks)

  • 이재윤
    • 정보관리학회지
    • /
    • 제31권3호
    • /
    • pp.153-179
    • /
    • 2014
  • 이 연구의 목적은 공동연구 네트워크에서 연구자의 영향력과 입지를 분석하는데 사용되는 중심성 지수들의 특징에 대해서 고찰하는 것이다. 전통적인 이진 네트워크 중심성 지수로는 연결정도중심성, 매개중심성, 근접중심성, 페이지랭크를 다루었고, 공동연구 네트워크에서의 중심성을 측정하기 위해서 개발되었거나 사용된 가중 네트워크 중심성 지수로는 삼각매개중심성, 평균연관성, 가중페이지랭크, 공동연구 h-지수와 공동연구 hs-지수, 복합연결정도중심성, c-지수에 대해서 살펴보았으며, 새로운 지수로 제곱근합 지수 SSR을 제안하였다. 이들 12종의 중심성 지수를 건축학, 문헌정보학, 마케팅 분야의 세 가지 공동연구 네트워크에 적용해본 결과 각 지수들의 특성과 지수 간 관계를 파악할 수 있었다. 분석 결과 공동연구 네트워크에서 공동연구 범위와 공동연구 강도를 모두 고려하기 위해서는 가중 네트워크 중심성 지수를 사용해야 하는 것으로 나타났다. 특히 공동연구 범위와 강도를 모두 고려하는 전역중심성을 측정하기 위해서는 삼각매개중심성 지수를 사용하고, 지역중심성을 측정하기 위해서는 SSR 지수를 사용하는 것이 바람직하다고 제안하였다.

공저 네트워크 분석을 위한 중심성 척도 비교 분석 (Comparing Centrality Measures for Analyzing Co-authorhip Networks)

  • 이재윤
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2013년도 제20회 학술대회 논문집
    • /
    • pp.27-30
    • /
    • 2013
  • 공동연구 네트워크의 대표적인 사례인 공저 네트워크는 오랫동안 네트워크 분석의 대상으로 다루어져 왔다. 최근에는 가중 네트워크로서 공저 네트워크에 대한 연구가 활발해지면서 연구자의 영향력을 측정하려는 몇 가지 척도가 제안되었다. 이 연구에서는 공저 네트워크에서의 중심성을 측정하기 위해서 사용된 척도인 가중페이지랭크, 공동연구 h-지수와 공동연구 hs-지수, 복합연결정도중심성, c-지수에 대해서 비교 분석해본다.

  • PDF

최신 분산 그래프 처리 시스템에서의 PageRank/BFS 질의 처리 성능 평가 (Experimental Evaluation of PageRank/BFS Queries on Distributed Graph Processing Systems)

  • 이경준;김현지;이유경;이준영;김강수;한욱신
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.826-828
    • /
    • 2017
  • 그래프는 객체와 객체 간의 관계를 표현하는 데에 있어 효과적인 데이터 표현 방법이다. 그래프 데이터는 웹 그래프, 사회 관계망 서비스, 신약 개발, 생명정보학 등의 다양한 분야에서 활용되고 있으며, 그래프 마이닝 응용에서 활용되기 위한 효율적인 처리 기술을 필요로 한다. 최근까지 그래프 데이터의 처리 및 분석을 위한 많은 시스템들이 개발되었다. 본 논문에서는 최신 분산 그래프 처리 시스템 중에서 대표적인 그래프 분석 질의인 페이지랭크(pagerank)와 너비 우선 탐색(breadth first search)를 수행하고 시스템의 성능을 평가한다.

국내 웹 분석을 통한 웹 스팸의 특성 (Characterization of Web Spam through the Korean Web Analysis)

  • 최승진;김성권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (D)
    • /
    • pp.333-338
    • /
    • 2007
  • 웹 스팸(Web Spam)은 스패머가 원하는 페이지를 검색 결과 상단에 올리는 기술이다. 이러한 웹 스팸에 의해 상위 랭크된 페이지는 사용자에게 올바른 정보를 전달해 주지 않는다. 해외에서는 웹 스팸의 심각성을 인식하고 이에 대한 연구 또한 활발히 진행되고 있다. 하지만 국내의 경우 아직 웹 스팸에 대하 연구가 미흡한 실정이다. 또한 해외에서 연구되고 있는 웹 스팸 탐지 기술들은 국내의 웹에 적용시키기 힘들다. 그래서 본 논문은 다양한 방식으로 국내 웹과 검색 사이트의 특성을 분석하고 해외와의 차이점에 대해 알아본다. 그리고 이 차이점을 통해 국내 웹에서 나타날 수 있는 웹 스팸과 앞으로의 연구 방향에 도움을 주고자 한다.

  • PDF

사회연결망 분석 이용 전문가 탐색 (Expert Exploration Using Social Network Analysis)

  • 김진광;윤성웅;이상훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제59차 동계학술대회논문집 27권1호
    • /
    • pp.171-174
    • /
    • 2019
  • 본 논문에서는 사회연결망 분석을 이용하여 군 장비정비정보체계의 정비데이터를 분석하고 이를 통해 정비 분야 전문가를 파악하고자 하였다. 장비정비정보체계는 군에서 장비를 효율적으로 정비하고 관리하기 위해 2009년부터 운용하고 있는 체계로 해군한 정비부대에 대한 2017년 정비데이터(00,000건)의 일부(0,000건)를 페이지랭크 중심성 분석을 통해 정비 분업화 수준과 참여도를 확인함으로써 전문분야를 확인하였다.

  • PDF

하이퍼링크 구조를 이용한 웹 검색의 순위 알고리즘에 관한 연구 (The Study on the Ranking Algorithm of Web-based Sear ching Using Hyperlink Structure)

  • 김성희;오건택
    • 정보관리연구
    • /
    • 제37권2호
    • /
    • pp.33-50
    • /
    • 2006
  • 본 연구에서는 하이퍼 링크 구조를 이용한 웹 검색 알고리즘에 대해 살펴 본 후 페이지 품질을 측정하기 위해 웹의 하이퍼 구조를 이용하고 있는 알고리즘인 HITS와 PageRank를 분석하였다. 이어서 이들 방법을 이용한 검색 엔진인 Google과 Ask.com을 검색 알고리즘의 특성을 기준으로 분석하였다. 이런 연구는 미래의 웹 문서의 중요도를 평가하는 데 기초자료로 활용할 수 있으며, 웹 정보검색의 검색성능을 향상시키는 시스템 개발에 도움이 될 수 있을 것이라 생각한다.

웹 크롤링에 의한 네이버 뉴스에서의 한국농수산대학 - 키워드 분석과 의미연결망분석 - (Korea National College of Agriculture and Fisheries in Naver News by Web Crolling : Based on Keyword Analysis and Semantic Network Analysis)

  • 주진수;이소영;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권2호
    • /
    • pp.71-86
    • /
    • 2021
  • 빅데이터 분석기술인 웹 크롤링 기술을 이용하여 네이버 뉴스 데이터 내에 담겨 있는 '한농대' 에 대한 이미지 단어를 추출하였다. 뉴스 기사에서 언급된 빈도에 따라 중요한 단어로 평가는 단어빈도 분석에서는 청년농업인을 육성하는 한농대의 특성을 잘 설명하는 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등의 단어가 자주 사용되는 것으로 나타났다. 또한 '디지털', '스마트', '드론', '졸업생', '창업', '새만금', '교육과정' 등 디지털 농업 전문 인재를 육성하기 위한 학교의 교육, 지원, 비전 등과 관련한 단어들이 추출되었다. 모든 기사 데이터의 단어 빈도(TF) 및 역 문서 빈도(IDF)를 이용한 TF-IDF 가중치의 전체 순위는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 한농대와 관련된 뉴스 기사에서 중요한 핵심어 역할을 하는 것으로 나타났다. 단어 빈도에서 '드론', '농림축산식품부', '전북', '청년농업인', '전주', '장치, '파종' 등은 순위가 매우 낮았으나 TF-IDF 가중치 순위에서는 한농대를 표현하는 핵심어로 나타났다. TF-IDF 평가에서 '교육', '지원', '청년', '사업', '농촌' 등의 키워드는 단어빈도가 높으면서 많은 문서에서 자주 등장하는 키워드로서 핵심어 역할은 크지 않은 것으로 나타났다. 단어 간 연계성을 파악하기 위한 의미연결망 분석에서 추출한 바이그램은 '청년'-'농업인', '디지털'-'농업', '영농'-'정착', '농업'-'농촌', '디지털'-'전환' 등의 순으로 빈도가 높게 나타났다. 중심성 지표로 키워드의 영향력을 평가한 결과 모든 지표에서 '농업'이 1위로 나타났으며, 2위에는 '농업인'(근접 중심성, 매개 중심성), '교육'(연결 중심성, 페이지랭크 중심성) 및 '미래'(고유벡터 중심성)으로 나타났다. 스피어먼 순위 상관계수에 의한 중심성 지표별 키워드의 순위의 유사성은 연결 중심성과 페이지랭크 중심성이 0.89 전후의 가장 높은 상관관계를 보였다. 이상으로 네이버 뉴스의 한농대 관련 기사에서 단어 빈도로 보면 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등이 중요한 단어로 평가되었으나, 문서빈도를 함께 고려한 평가에서는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 핵심어 역할을 하는 것으로 나타났다. 한편 단어나 문서의 빈도가 아니라 단어 간 네트워크 연계성을 고려한 중심성 분석에서는 연결 중심성과 페이지랭크 중심성에 의한 평가가 적합한 것으로 나타났으며, '농업', '교육', '미래', '농업인', '디지털', '지원', '활용' 등이 중심성이 강한 단어로 나타났다.

블로그 검색 성능 향상을 위한 주제-랭크 기법 (The Topic-Rank Technique for Enhancing the Performance of Blog Retrieval)

  • 신현일;윤은일;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.19-29
    • /
    • 2011
  • 1인 미디어인 블로그에 대한 관심이 증가함에 따라, 블로그 검색과 관련된 다양한 랭킹 알고리즘들이 제안되었다. 이러한 알고리즘들은 블로그가 웹 페이지와 다르게 갖는 구조적 특징에 맞게 변형되었으며, 각 블로그간의 연결이나, 댓글, 트랙백들을 통해 이루어진 상호소통 속에서 나타난 결과들을 바탕으로 블로그의 평판이나 인기도를 수치화하여 검색 시스템에 반영한다. 하지만 실제 블로그 검색에서는 블로그 자체의 랭크뿐만 아니라 검색어와 블로그 글과의 적합성과시간등의요소를복합적으로사용하게된다. 그런데기존에알려진요소만으로는검색결과의품질이낮을수 있다. 본 논문에서는 블로그의 주제와 관련도가 가장 높은 블로그를 찾아 낼 수 있는 주제-랭크 기법을 제안한다. 이 기법은 블로그와 블로그 글의 색인어뿐만 아니라, 블로그 글을 대표하는 주제와의 관계까지 랭킹을 매기는 방법이다. 제안된 기법을 통해 블로그 검색에서 검색어와 블로그의 연관성에 따라 랭킹을 효과적으로 부여할 수 있다. 본 논문 제안하는 주제-랭크 기법을 적용한 블로그 검색 시스템의 정확률과 적용률을 국내의 다른 블로그 검색 시스템들과 비교해 본 결과, 주제-랭크 기법을 사용한 블로그 검색 시스템의 성능이 타 시스템에 비해 더 우수함을 알 수 있었다.