• 제목/요약/키워드: 그래프 마이닝

검색결과 71건 처리시간 0.025초

토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법 (A Reply Graph-based Social Mining Method with Topic Modeling)

  • 이상연;이건명
    • 한국지능시스템학회논문지
    • /
    • 제24권6호
    • /
    • pp.640-645
    • /
    • 2014
  • 인터넷 상에서 많은 사람들은 사용자 간의 의사소통과 정보 공유, 사회적 관계를 생성하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. 그 중 대표적인 트위터는 하루에 수백만 건의 소셜 데이터가 발생하기 때문에 수집되고 있는 데이터의 양이 엄청나다. 이 방대한 양의 데이터로부터 의미 있는 정보를 추출하는 소셜 마이닝이 집중적으로 연구되고 있다. 트위터는 일반적으로 유용한 정보 혹은 공유하고자 하는 내용을 팔로잉-팔로워 관계를 이용해 쉽게 전달하고 리트윗할 수 있다. 소셜 미디어에서 트윗 데이터에 대한 토픽 모델링은 이슈를 추적하기 위한 좋은 도구이다. 짧은 텍스트 기반인 트윗 데이터의 제한점을 극복하기 위해, 사용자를 노드로 사용자간 댓글과 리트윗 메시지의 여부를 간선으로 하는 그래프 구조를 갖는 댓글 그래프의 개념을 소개한다. 토픽 모델링의 대표적인 방법인 LDA 토픽 모델이 짧은 텍스트 데이터에 대해 비효율적인 것을 보완하기 위한 방법으로, 이 논문에서는 짧은 문서의 수를 줄이고 마이닝 결과의 질을 향상시키기 위한 댓글 그래프를 사용하는 토픽 모델링 방법을 소개한다. 제안한 모델은 토픽 모델링 방법으로 LDA 모델을 사용하였으며, 7일간 수집한 트윗 데이터에 대한 실험 결과를 보인다.

Min-Hash를 이용한 효율적인 대용량 그래프 클러스터링 기법 (An Efficient Large Graph Clustering Technique based on Min-Hash)

  • 이석주;민준기
    • 정보과학회 논문지
    • /
    • 제43권3호
    • /
    • pp.380-388
    • /
    • 2016
  • 그래프 클러스터링은 서로 유사한 특성을 갖는 정점들을 동일한 클러스터로 묶는 기법으로 그래프 데이터를 분석하고 그 특성을 파악하는데 폭넓게 사용된다. 최근 소셜 네트워크 서비스와 월드 와이드 웹, 텔레폰 네트워크 등의 다양한 응용분야에서 크기가 큰 대용량 그래프 데이터가 생성되고 있다. 이에 따라서 대용량 그래프 데이터를 효율적으로 처리하는 클러스터링 기법의 중요성이 증가하고 있다. 본 논문에서는 대용량 그래프 데이터의 클러스터들을 효율적으로 생성하는 클러스터링 알고리즘을 제안한다. 우리의 제안 기법은 그래프 내의 클러스터들 간의 유사도를 Min-Hash를 이용하여 효과적으로 추정하고 계산된 유사도에 따라서 클러스터들을 생성한다. 실세계 데이터를 이용한 실험에서 우리는 본 논문에서 제안하는 기법과 기존 그래프 클러스터링 기법들과 비교하여 제안기법의 효율성을 보였다.

가중치 순회로부터 빈발 순회패턴의 탐사 및 순회분할을 통한 성능향상 (Discovery of Frequent Traversal Patterns from Weighted Traversals and Performance Enhancement by Traversal Split)

  • 이성대;박휴찬
    • 한국정보통신학회논문지
    • /
    • 제11권5호
    • /
    • pp.940-948
    • /
    • 2007
  • 실세계의 많은 문제는 그래프와 그 그래프를 순회하는 트랜잭션으로 모델링 될 수 있다. 예를 들면, 웹페이지의 연결구조는 그래프로 표현될 수 있고, 사용자의 웹페이지 방문경로는 그 그래프를 순회하는 트랜잭션으로 모델링 될 수 있다. 이와 같이 그래프를 순회하는 트랜잭션들로부터 빈발 패턴과 같이 중요한 패턴을 찾아내는 것은 의미있는 일이다. 본 논문에서는, 방향 그래프와 그 그래프를 순회하는 가중치가 있는 트랜잭션들이 주어졌을 때, 빈발한 순회패턴을 탐사하는 알고리즘을 제안한다. 또한, 이 알고리즘의 성능향상을 위하여 순회를 분할하는 방법을 제안하고 실험을 통하여 검증한다.

텍스트 마이닝 기반의 그래프 모델을 이용한 미발견 공공 지식 추론 (Inferring Undiscovered Public Knowledge by Using Text Mining-driven Graph Model)

  • 허고은;송민
    • 정보관리학회지
    • /
    • 제31권1호
    • /
    • pp.231-250
    • /
    • 2014
  • 정보통신기술의 발달로 학술 정보의 양이 기하급수적으로 증가하였고 방대한 양의 텍스트 데이터를 처리하기 위한 자동화된 텍스트 처리의 필요성이 대두되었다. 생의학 문헌에서 생물학적 의미와 치료 효과 등에 대한 정보를 발견해내는 바이오 텍스트 마이닝은 문헌 내의 각 개념들 간의 유의미한 연관성을 발견하여 의학 영역에서 상당한 시간과 비용을 줄여준다. 문헌 기반 발견 연구로 새로운 생의학적 가설들이 발견되었지만 기존의 연구들은 반자동화된 기법으로 전문가의 개입이 필수적이며 원인과 결과의 한가지의 관계만을 밝히는 제한점이 있다. 따라서 본 연구에서는 중간 개념인 B를 다수준으로 확장하여 다양한 관계성을 동시출현 개체와 동사 추출을 통해 확인한다. 그래프 기반의 경로 추론을 통해 각 노드 사이의 관계성을 체계적으로 분석하여 규명할 수 있었으며 새로운 방법론적 시도를 통해 기존에 밝혀지지 않았던 새로운 가설 제시의 가능성을 기대할 수 있다.

다이나믹 API 호출 흐름 그래프를 이용한 오프라인 기반 랜섬웨어 탐지 및 분석 기술 개발 (Offline Based Ransomware Detection and Analysis Method using Dynamic API Calls Flow Graph)

  • 강호석;김성열
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권2호
    • /
    • pp.363-370
    • /
    • 2018
  • 최근 랜섬웨어 탐지는 디지털 콘텐츠 보호를 위한 컴퓨터 보안 분야에서 중요한 주요한 이슈가 되고 있다. 그러나 불행하게도 현재 시그니쳐 기반이나 정적 탐지 모델의 경우 압축 및 암호화 등의 기법을 이용하여 탐지를 피해갈 수 있다. 이를 극복하기 위해 본 논문에서는 RF, SVM, SL, NB 알고리즘 같은 데이터 마이닝 기법을 이용한 다이나믹 랜섬웨어 탐지 시스템을 제안하였다. 이 기법은 실제 소프트웨어를 구동 시켜 동작 행위를 추출해 API 호출 흐름 그래프를 만들고 그 특징을 분석에 이용하였다. 그 후 데이터 정규화, 특징 선택 작업을 진행하였다. 우리는 이러한 분석과정을 더욱더 개선 시켰다. 마지막으로 데이터 마이닝 알고리즘을 적용시켜 랜섬웨어인지를 판별하였다. 제안한 알고리즘의 성능 측정을 위해 더 적합한 추가 샘플 랜섬웨어 데이터를 수집하여 실험하였고 탐지성능이 향상되었음을 보여주었다.

계층적 웹 환경에서의 멀티-에이전트 기반 웹 마이닝 시스템 설계 (Modeling a Multi-Agent based Web Mining System on the Hierarchical Web Environment)

  • 윤희병;김화수
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2003년도 추계 학술대회 학술발표 논문집
    • /
    • pp.27-30
    • /
    • 2003
  • 웹 기반하에서 사용자의 질의에 대한 효율적인 검색결과를 제공하기 위하여 다양한 검색 알고리즘들이 개발되어 왔으며, 이러한 알고리즘들의 대부분은 사용자의 선호도나 편의성을 고려하였다. 그러나 지금까지 개발된 검색 알고리즘들은 일반적으로 웹이라는 수평의 비계층적인 웹 환경에서 개발된 것으로서 기업의 전사적 네트워크와 같이 계층적이고 기능적으로 복잡하게 구성되어 있는 웹 기반 환경에서는 적용하기가 힘든 실정이다. 본 논문에서는 이러한 특수한 웹 기반 환경하에서 사용자에게 효율적으로 마이닝 결과를 제공할 수 있는 멀티-에이전트 기반의 웹 마이닝 시스템을 제안한다. 이를 위해 우리는 계층적 웹 기반 환경이라는 네트워크 모델을 제시하며, 제시된 웹 환경에서 적용할 수 있는 4개의 협력 에이전트와 14개의 프로세스 모듈을 가진 멀티-에이전트 기반의 웹 마이닝 시스템을 설계한다. 그리고 각 에이전트에 대한 세부기능을 계층적 환경을 고려하여 모듈별로 설명하며 특히, 새로운 머징 에이전트와 개선된 랭킹 알고리즘을 그래프 이론을 적용하여 제안한다.

  • PDF

텍스트 마이닝과 오피니언 마이닝 분석을 활용한 국내외 스포츠용품 브랜드 비교·분석 연구 (Comparison and Analysis of Domestic and Foreign Sports Brands Using Text Mining and Opinion Mining Analysis)

  • 김재환;이재문
    • 한국콘텐츠학회논문지
    • /
    • 제18권6호
    • /
    • pp.217-234
    • /
    • 2018
  • 본 연구는 국내외 스포츠용품 브랜드에 대한 빅데이터 분석을 실시하였다. 이를 위해 소셜 매트릭스 프로그램인 텍스톰과 패션데이터 분석 플랫폼인 MISP를 통해 텍스트 마이닝, TF-IDF, 오피니언 마이닝, 관심도 그래프를 실시하였으며, 스포츠브랜드에 대한 최근 인식을 살펴보기 위해 2017년 1월 1일부터 2017년 12월 31일까지 1년간을 연구대상 기간으로 한정하였다. 분석 결과, 첫째, 각 브랜드를 대표하는 상품을 확인할 수 있었다. 둘째, 각 브랜드를 대표하는 마케팅을 확인할 수 있었다. 셋째, 각 브랜드에서 공통적으로 추출된 단어를 확인할 수 있었다. 넷째, 각 브랜드의 긍정 및 부정에 대한 감정을 확인할 수 있었다.

공공데이터에 적합한 다양한 소셜 그래프 비주얼라이제이션 알고리즘 제안 (Social graph visualization techniques for public data)

  • 이만재;온병원
    • 한국HCI학회논문지
    • /
    • 제10권1호
    • /
    • pp.5-17
    • /
    • 2015
  • 최근 다양한 공공데이터가 개방되고 있으며, 적절한 데이터 마이닝과 시각화 알고리즘을 통해 일반 시민에게 서비스 되고 있다. 이를 통해 정부와 지방자치단체는 공공 정책의 투명성과 효율성을 널리 알릴 수 있을 뿐 아니라, 일반 사용자들이 개방된 공공데이터를 재가공하여 서비스함으로써 관련 산업의 성장을 이끌고 있다. 공공데이터의 최종 사용자는 일반 시민이기 때문에, 누구나 손쉽게 이해할 수 있도록 공공데이터를 적절히 시각화하는 것이 무엇보다 중요하다. 본 연구에서는 공공데이터 비주얼라이제이션의 중요성을 널리 알리기 위해, 일반 국민이 관심을 가질만한 공공데이터로 UN 회원국의 투표 데이터를 고려한다. 외교와 교육 목적으로 그 활용 가치가 높고 데이터를 쉽게 얻을 수 있는 장점이 있다. 또한 적절한 데이터 마이닝과 시각화 과정을 거친다면, 일반 사용자들이 유엔 회원국 간의 투표 성향에 대한 통찰력을 쉽게 얻을 수 있다. 유엔 투표 데이터를 시각화하기 위해서는, 회원국 간의 투표성향 유사도를 측정하고, 이를 바탕으로 소셜 그래프를 구현한다. 그리고 그래프 레이아웃 알고리즘을 적용하여 그래프를 화면에 렌더링 하게 된다. 기존 방법을 이용하여 소셜 그래프를 비주얼라이제이션 할 경우에 그래프의 복잡도가 증가하여 유엔 회원국 간의 투표성향을 파악하는데 큰 어려움이 있다. 이러한 문제를 개선하기 위해, 본 논문에서는 친구 매칭(Friend-Matching), 친구-라이벌 매칭(Friend-Rival Matching), 버블힙(Bubble Heap) 알고리즘들을 차례로 제안한 다. 제안된 알고리즘을 바탕으로, 기존 그래프 비주얼라이제이션을 개선하여 일반 사용자들이 손쉽게 유엔 회원국 간의 투표성향과 관련된 특정 패턴이나 통찰력을 얻는데 큰 도움을 줄 것이다. 또한 웹에서 동작하는 프로토타입을 구현하여, 누구나 방문하여 테스트를 할 수 있다. 웹 페이지 주소: http://datalab.kunsan.ac.kr/politiz/un/

인접성 벡터를 이용한 트리플 지식 그래프의 임베딩 모델 개선 (Improving Embedding Model for Triple Knowledge Graph Using Neighborliness Vector)

  • 조새롬;김한준
    • 한국전자거래학회지
    • /
    • 제26권3호
    • /
    • pp.67-80
    • /
    • 2021
  • 그래프 표현 학습을 위한 노드 임베딩 기법은 그래프 마이닝에서 양질의 결과를 얻는 데 중요한 역할을 한다. 지금까지 대표적인 노드 임베딩 기법은 동종 그래프를 대상으로 연구되었기에, 간선 별로 고유한 의미를 갖는 지식 그래프를 학습하는 데 어려움이 있었다. 이러한 문제를 해결하고자, 기존 Triple2Vec 기법은 지식 그래프의 노드 쌍과 간선을 하나의 노드로 갖는 트리플 그래프를 학습하여 임베딩 모델을 구축한다. 하지만 Triple2Vec 임베딩 모델은 트리플 노드 간 관련성을 단순한 척도로 산정하기 때문에 성능을 높이는데 한계를 가진다. 이에 본 논문은 Triple2Vec 임베딩 모델을 개선하기 위한 그래프 합성곱 신경망 기반의 특징 추출 기법을 제안한다. 제안 기법은 트리플 그래프의 인접성 벡터(Neighborliness Vector)를 추출하여 트리플 그래프에 대해 노드 별로 이웃한 노드 간 관계성을 학습한다. 본 논문은 DBLP, DBpedia, IMDB 데이터셋을 활용한 카테고리 분류 실험을 통해, 제안 기법을 적용한 임베딩 모델이 기존 Triple2Vec 모델보다 우수함을 입증한다.

그래프 스트림 처리를 위한 점진적 빈발 패턴 기반 인-메모리 압축 기법 (In-memory Compression Scheme Based on Incremental Frequent Patterns for Graph Streams)

  • 이현병;신보경;복경수;유재수
    • 한국콘텐츠학회논문지
    • /
    • 제22권1호
    • /
    • pp.35-46
    • /
    • 2022
  • 최근 네트워크 기술 발전과 함께 IoT 및 소셜 네트워크 서비스의 활성화로 인해 많은 그래프 스트림 데이터가 생성되고 있다. 본 논문에서는 압축률 및 압축 시간에 대해 중점적으로 연구되던 기존의 압축 기법에 그래프 마이닝을 적용하여 스트림 그래프 환경을 함께 고려한 그래프 압축 기술을 제안한다. 또한, 최신 패턴을 유지하여 실시간으로 변화하는 스트림 그래프에서 압축 효율 및 처리속도를 향상시킨다. 본 논문에서는 그래프 스트림 처리를 위한 점진적 빈발 패턴 기반 압축 기법을 제안하였다. 제안하는 기법의 우수성을 보이기 위해 압축률과 처리시간을 기존기법과 비교하여 성능평가를 수행한다. 제안하는 기법은 그래프 데이터의 크기가 커질 때 중복되는 데이터가 많아져 기존 기법보다 빠른 처리속도를 보인다. 따라서, 빠른 처리가 요구되는 스트림 환경에서 제안하는 기법을 활용할 수 있다.