• 제목/요약/키워드: Network Mining

검색결과 1,053건 처리시간 0.032초

설명가능한 그래프 신경망을 활용한 리뷰 콘텐츠 기반의 유용성 예측모형 (The Prediction of the Helpfulness of Online Review Based on Review Content Using an Explainable Graph Neural Network)

  • 김은미;야오즈옌;홍태호
    • 지능정보연구
    • /
    • 제29권4호
    • /
    • pp.309-323
    • /
    • 2023
  • 온라인 리뷰의 역할이 중요해짐에 따라 유용한 리뷰를 선별하기 위해 많은 연구들이 이루어져 왔다. 유용한 리뷰는 고객들이 유용하다고 인지하는 리뷰이며, 평점, 리뷰길이, 리뷰내용 등에 영향을 받는 것으로 많은 연구에서 검증되었다. 유용한 리뷰는 소비자들의 투표에 의한 '좋아요' 수에 의해 결정되며 유용성 투표가 많을수록 소비자의 구매의사결정에 중요한 영향을 미치는 것으로 간주된다. 그러나 최근에 작성되어 많은 고객들에게 노출되지 않은 리뷰는 상대적으로 '좋아요' 수가 적을 수 있으며, 투표에 응하지 않아 '좋아요' 수가 없을 수도 있다. 따라서 유용한 리뷰를 판단하기 위해 '좋아요' 수에 의존하기 보다는 리뷰 내용을 기반으로 유용한 리뷰를 분류하고자 한다. 리뷰의 텍스트는 리뷰 유용성에 가장 큰 영향을 미치는 요인으로, 토픽 모델링, 감정분석 등 텍스트 마이닝 기법을 적용하여 리뷰 텍스트에 포함된 콘텐츠와 감정의 영향을 다양하게 분석하고 있다. 본 연구에서는 글로벌 영화정보 사이트인 IMDb의 영화리뷰를 활용하여 리뷰 콘텐츠 기반의 리뷰 유용성 예측모형을 제안한다. 설명가능한 그래프 신경망인 GNN(Graph Neural Network)을 적용하여 리뷰 유용성 예측모형을 구축하고, 설명가능한 인공지능을 통해 예측모형의 한계인 모형의 해석에 대한 문제를 해결한다. 설명가능한 그래프 신경망은 리뷰들 간의 연결관계도 확인할 수 있어 유용한 리뷰 또는 유용하지 않은 리뷰에 대해 보다 신뢰할 수 있는 정보를 제공할 수 있을 것이라 기대한다.

"지질공학"(1991-2024)의 연구동향 분석: 잠재 디리클레 할당 및 네트워크 분석 (Analysis of Research Trends in The Journal of Engineering Geology (1991-2024): Latent Dirichlet Allocation and Network Analysis)

  • 김태용;이혜림;양민준
    • 지질공학
    • /
    • 제34권3호
    • /
    • pp.429-445
    • /
    • 2024
  • 국내 지질공학 분야를 대표하는 학술지인 "지질공학"은 1991년에 창간되어 현재까지 지속적으로 학술 활동 및 다양한 연구 논문을 발표하고 있다. 지난 수십 년 동안 많은 연구자들이 특정 분야를 주제로 한 문헌 고찰 연구를 수행해 왔으나, 학술지 "지질공학"을 대상으로 수행한 문헌고찰 연구는 미비한 실정이다. 따라서, 본 연구에서는 텍스트 마이닝 기법 중 하나인 잠재 디리클레 할당(latent Dirichlet allocation, LDA) 모델을 적용하여 연구 주제 분류 및 연구동향을 분석하였으며, 네트워크 분석을 통해 시대별 주제 간의 연관성을 파악하였다. 분석 결과 총 7개의 연구 주제로 분류되었으며, 3가지 연구동향(Classic topic, Emerging topic, Stable topic)으로 나누어 해석하였다. Classic topic에는 "지구물리학"과 "구조지질학"으로 분석되었으며, 초기에는 주요 논의 주제였으나 시간이 지남에 따라 연구 비중이 감소하였다. Emerging topic은 최근 연구가 활발한 "수리지질학"과 "지질재해"로 분석되었으며, 'Stable topic'은 지속적으로 연구 비중이 유지된 "지반 구조물", "지반 역학", "환경지질학"으로 나타났다. 네트워크 분석 결과, 2008년 이전에는 "구조지질학"이 중심 주제였으나, 2008년 이후 "지반 구조물"분야로 중심 주제가 이동하며 연구의 초점이 변화하였다. 본 연구는 학술지 "지질공학"의 연구 흐름과 발전 과정을 이해하고, 향후 연구 방향을 설정하는 데 중요한 자료를 제공하였음에 의의가 있다.

사회연결망 분석을 활용한 연관규칙 확장기법 (Extension Method of Association Rules Using Social Network Analysis)

  • 이동원
    • 지능정보연구
    • /
    • 제23권4호
    • /
    • pp.111-126
    • /
    • 2017
  • 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 상품 탐색 시간을 줄여주며 판매자의 매출 증대에 크게 기여한다. 이는 주문과 같은 거래의 빈도를 기반으로 생성되므로, 통계적으로 판매 확률이 높은 상품을 효과적으로 선별할 수 있다. 하지만, 판매 가능성이 높은 경우라도 신상품처럼 판매 초기에 거래 건수가 충분하지 않은 상품은 추천에서 누락될 수 있다. 연관 추천에서 누락된 상품은 이로 인해 노출 기회를 잃게 되고, 이는 거래 건수 감소로 이어져, 또 다시 추천 기회를 잃는 악순환을 겪을 수도 한다. 따라서, 충분한 거래 건수가 쌓이기 전까지 초기 매출은 일정 기간 동안 정체되는 현상을 보이는데, 의류 등과 같이 유행에 민감하거나 계절 변화에 영향을 많이 받는 상품은 이로 인해 매출에 큰 타격을 입을 수도 있다. 본 연구는 이와 같이 거래 초기의 낮은 거래 빈도로 인해 잘 드러나지 않는 상품 간의 잠재적인 연관성을 찾아 추천 기회를 확보할 수 있도록 연관 규칙을 확장하기 위한 목적으로 수행되었다. 두 상품 간에 직접적인 연관성이 나타나지 않더라도 다른 상품을 매개로 두 상품 간의 잠재적 연관성을 예측할 수 있을 것이며, 이런 연관성은 주문에서 나타나는 상품 간 상호작용으로 표현될 수 있으므로, 사회연결망 분석을 활용한 분석을 시도하였다. 사회연결망 분석기법을 통해 각 상품의 속성과 두 상품 간 경로의 특성을 추출하고 회귀분석을 실시하여, 두 상품 간 경로의 최단 거리 및 경로의 개수, 각 상품이 얼마나 많은 상품과 연관성을 갖는지, 두 상품의 분류 카테고리가 어느 정도 일치하는지가 두 상품 간의 잠재적 연관성에 미친다는 것을 확인하였다. 모형의 성능을 평가하기 위해, 일정 기간의 주문 데이터로부터 연결망을 구성하고, 이후 10일 간 생성될 상품 간 연관성을 예측하는 실험을 진행하였다. 실험 결과는 모형을 적용하지 않는 경우보다 제안 모형을 활용할 때 훨씬 많은 연관성을 찾을 수 있음을 보여준다.

텍스트 마이닝 기법을 활용한 고전 추리 소설 작가 간 문체적 차이와 문체 구조에 대한 연구 (A study on detective story authors' style differentiation and style structure based on Text Mining)

  • 문석형;강주영
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.89-115
    • /
    • 2019
  • 본 연구는 고전 추리 소설 작가로 유명한 아서 코난 도일과 애거서 크리스티의 문체적 차이점을 데이터 분석을 통해 제시하고, 나아가 텍스트 마이닝에 입각한 문체 연구의 해석적 방법론을 제시하고자 시행되었다. 추리 소설의 핵심 요소인 사건과 인물에 더해 작가의 문법적인 집필 방식을 문체로 정의하고 분석을 시도하였다. 작가 별로 각 2권, 총 4권의 책을 선정하였으며 문장 단위로 텍스트를 나누어 데이터를 확보하였다. 각 문장에 따른 감성 점수를 부여한 뒤 페이지 진행에 따른 감성을 시각화하였으며, 페이지에 따라 토픽 모델링을 적용하여 소설 속 사건 진행 흐름을 파악할 수 있었다. 동시 발생 매트릭스(co-occurrence matrix)를 구성하고 네트워크 분석(Network Analysis)을 시행함으로써 사건이 진행되는 과정에서 인물들 간 관계의 변화를 확인할 수 있었다. 또한 전체 문장을 총 6가지 문체를 기준으로 문법적인 체계를 나누어 작가 간, 그리고 작품 간 집필 방식의 차이점을 확인하였다. 이러한 일련의 연구 과정은 문체에 대한 이해를 바탕으로 글 전체의 맥락을 파악할 수 있도록 도움을 줄 수 있으며, 나아가 기존에 개별적으로 진행되었던 문체 연구를 통합시킴으로써 문체 구조에 대한 이해를 도울 수 있다. 그리고 이러한 선행된 이해를 통해 온라인 텍스트를 비롯한 비정형 데이터 속 문체의 존재를 발견하고 구체화하는 작업에 기여할 수 있다. 뉴미디어를 포함한 온라인 텍스트를 심도 있게 분석하고자 하는 시도가 증가하고 있는 상황에서 해당 연구들과 연계를 통해 보다 의미 있는 온라인 텍스트 분석에 기여할 것으로 기대된다.

온라인 과학 기사 텍스트 마이닝을 통해 분석한 에너지 용어 사용의 맥락 (Analyzing Different Contexts for Energy Terms through Text Mining of Online Science News Articles)

  • 오치영;강남화
    • 과학교육연구지
    • /
    • 제45권3호
    • /
    • pp.292-303
    • /
    • 2021
  • 본 연구에서는 일상생활에서 에너지 용어가 사용되는 맥락을 알아보기 위하여 온라인 과학 기사를 수집하여 언어 네트워크, 토픽 모델링 분석 기법을 활용해 에너지 관련 기사에 사용된 용어의 빈도, 용어 네트워크, 기사의 주제를 분석하였다. 분석에 사용된 자료는 2018.3.1.부터 1년간의 온라인 과학 분야의 기사 중 에너지를 검색어로 하여 10개의 국내 중앙지에서 검색 및 선정된 2,171편이다. 이 기사들을 자연어 처리하여 51,224개의 문장과 507,901개의 단어로 데이터를 구성하였다. R 프로그램을 활용하여 용어 빈도수 분석 및 언어 네트워크 분석을 실시하였고, 에너지 용어 사용의 맥락 탐색을 위해 구조적 토픽 모델링 분석을 적용해 기사의 주제를 도출하였다. 기사에 사용된 용어 중 빈도수가 유난히 높은 용어는 기술, 연구, 개발로 새로운 소식을 알리는 기사의 특성을 반영한 것으로 나타났다. 한편, 기사 2편당 한 번 이상의 빈도로 사용되는 용어에는 산업 관련 용어(산업, 제품, 시스템, 생산, 시장)와 '전기', '환경'과 같이 에너지 관련 용어로 충분히 기대되는 용어들이 있었다. 한편, 에너지 관련 과학 수업에서 자주 사용되는 '태양', '열', '온도', '발전'도 빈도수 상위에 속하는 용어로 드러났다. 용어 네트워크 분석에서는 산업 및 기술과 관련된 용어와 기초과학 및 연구 관련 용어들이 약한 강도이지만 서로 군집을 이루는 것을 확인하였다. 한편, 에너지와 쌍을 이루는 용어의 분석에서는 '에너지 효율'을 비롯해 '에너지 절감', '에너지 소비' 등과 같이 에너지의 사용에 관한 용어들이 다수를 이루고 그 사용 빈도가 가장 높았다. 에너지 용어가 사용되는 맥락은 16개의 주제를 분류한 4가지 영역으로 '첨단산업', '산업', '기초과학', '환경 및 건강'으로 나타났다. 에너지 사용 관련 용어가 상당히 많이 사용된다는 결과는 에너지 수업의 시작점으로 에너지 저급화 개념의 도입이 효과적일 수 있음을 시사한다. 또한, 첨단산업이나 환경 및 건강의 맥락을 에너지 학습에 도입할 필요성도 보여준다. 본 연구에서 드러난 16개 주제에서 보이는 다양한 에너지 용어가 사용되는 맥락을 재구성해 에너지 관련 수업에 활용한다면 학생들이 학교에서의 에너지 학습과 일상적 상황을 통합적으로 인식하는 데 도움이 될 것이다.

스마트팜 빅데이터 분석을 위한 이기종간 심층학습 기법 연구 (A Study on Deep Learning Methodology for Bigdata Mining from Smart Farm using Heterogeneous Computing)

  • 민재기;이동훈
    • 한국농업기계학회:학술대회논문집
    • /
    • 한국농업기계학회 2017년도 춘계공동학술대회
    • /
    • pp.162-162
    • /
    • 2017
  • 구글에서 공개한 Tensorflow를 이용한 여러 학문 분야의 연구가 활발하다. 농업 시설환경을 대상으로 한 빅데이터의 축적이 증가함과 아울러 실효적인 정보 획득을 위한 각종 데이터 분석 및 마이닝 기법에 대한 연구 또한 활발한 상황이다. 한편, 타 분야의 성공적인 심층학습기법 응용사례에 비하여 농업 분야에서의 응용은 초기 성장 단계라 할 수 있다. 이는 농업 현장에서 취득한 정보의 난해성 및 완성도 높은 생육/환경 모델링 정보의 부재로 실효적인 전과정 처리 기술 도출에 소요되는 시간, 비용, 연구 환경이 상대적으로 부족하기 때문일 것이다. 특히, 센서 기반 데이터 취득 기술 증가에 따라 비약적으로 방대해진 수집 데이터를 시간 복잡도가 높은 심층 학습 모델링 연산에 기계적으로 단순 적용할 경우 시간 효율적인 측면에서 성공적인 결과 도출에 애로가 있을 것이다. 매우 높은 시간 복잡도를 해결하기 위하여 제시된 하드웨어 가속 기능의 경우 일부 개발환경에 국한이 되어 있다. 일례로, 구글의 Tensorflow는 오픈소스 기반 병렬 클러스터링 기술인 MPICH를 지원하는 알고리즘을 공개하지 않고 있다. 따라서, 본 연구에서는 심층학습 기법 연구에 있어서, 예상 가능한 다양한 자원을 활용하여 최대한 연산의 결과를 빨리 도출할 수 있는 하드웨어적인 접근 방법을 모색하였다. 호스트에서 수행하는 일방적인 학습 알고리즘과 달리 이기종간 심층 학습이 가능하기 위해선 우선, NFS(Network File System)를 이용하여 데이터 계층이 상호 연결이 되어야 한다. 이를 위해서 고속 네트워크를 기반으로 한 NFS의 이용이 필수적이다. 둘째로 제한된 자원의 한계를 극복하기 위한 메모 공유 라이브러리가 필요하다. 셋째로 이기종간 프로세서에 최적화된 병렬 처리용 컴파일러를 이용해야 한다. 가장 중요한 부분은 이기종간의 처리 능력에 따른 작업을 고르게 분배할 수 있는 작업 스케쥴링이 수행되어야 하며, 이는 처리하고자 하는 데이터의 형태에 따라 매우 가변적이므로 해당 데이터 도메인에 대한 엄밀한 사전 벤치마킹이 수행되어야 한다. 이러한 요구조건을 대부분 충족하는 Open-CL ver1.2(https://www.khronos.org/opencl/)를 이용하였다. 최신의 Open-CL 버전은 2.2이나 본 연구를 위하여 준비한 4가지 이기종 시스템에서 모두 공통적으로 지원하는 버전은 1.2이다. 실험적으로 선정된 4가지 이기종 시스템은 1) Windows 10 Pro, 2) Linux-Ubuntu 16.04.4 LTS-x86_64, 3) MAC OS X 10.11 4) Linux-Ubuntu 16.04.4 LTS-ARM Cortext-A15 이다. 비교 분석을 위하여 NVIDIA 사에서 제공하는 Pascal Titan X 2식을 SLI로 구성한 시스템을 준비하였다. 개별 시스템에서 별도로 컴파일 된 바이너리의 이름을 통일하고, 개별 시스템의 코어수를 동일하게 균등 배분하여 100 Hz의 데이터로 입력이 되는 온도 정보와 조도 정보를 입력으로 하고 이를 습도정보에 Linear Gradient Descent Optimizer를 이용하여 Epoch 10,000회의 학습을 수행하였다. 4종의 이기종에서 총 32개의 코어를 이용한 학습에서 17초 내외로 연산 수행을 마쳤으나, 비교 시스템에서는 11초 내외로 연산을 마치는 결과가 나왔다. 기보유 하드웨어의 적절한 활용이 가능한 심층학습 기법에 대한 연구를 지속할 것이다

  • PDF

연관규칙 기반 동시출현단어 분석을 활용한 기술경영 연구 주제 네트워크 분석 (Exploring the Research Topic Networks in the Technology Management Field Using Association Rule-based Co-word Analysis)

  • 전익진;이학연
    • 기술혁신연구
    • /
    • 제24권4호
    • /
    • pp.101-126
    • /
    • 2016
  • 본 연구는 동시출현단어(co-word) 분석을 이용하여 기술경영 분야의 연구 주제 네트워크를 구축하고, 핵심 연구 주제 및 연구 주제 간 상호연관관계를 도출한다. 동시출현 빈도수의 정규화를 통해 키워드 간 유사성을 도출하여 무방향 네트워크를 분석하는 기존 연구들과는 달리 본 연구는 연관규칙분석(association rule)을 통해 키워드 간 신뢰도(confidence)를 도출하여 유방향 네트워크 분석을 수행한다. 2011~2014년 기술경영 분야 9개 국제 학술지에 게재된 2,456개의 논문의 저자키워드를 대상으로 빈도수 상위 200개 키워드를 추출하고, 주제(THEME), 방법(METHOD), 분야(FIELD)의 세 가지 유형으로 키워드를 분류한다. 각 유형별 일원(one-mode) 네트워크를 구축하여, 함께 많이 연구가 이루어진 키워드들을 찾아내고, 핵심 키워드를 도출한다. 또한 두 가지 유형의 키워드 간의 이원(two-mode) 네트워크를 구축하여, 연구 주제별로 함께 많이 활용된 방법 및 대상 분야를 탐색한다. 본 연구 결과는 최근 성숙기에 접어든 기술경영 분야의 연구 흐름 및 지식 구조를 키워드 수준에서 구체적으로 제시함으로써, 기술경영 분야 연구자들의 연구 주제 탐색 및 연구방향 설계에 활용될 수 있을 것으로 기대된다.

토픽 모델링 기반 내용 분석을 통한 학제 간 융합기술 도출 방법 (Discovering Interdisciplinary Convergence Technologies Using Content Analysis Technique Based on Topic Modeling)

  • 정도헌;주황수
    • 정보관리학회지
    • /
    • 제35권3호
    • /
    • pp.77-100
    • /
    • 2018
  • 본 연구는 텍스트 마이닝 기법을 활용하여 대량의 데이터로부터 학제 간 융합 기술을 발굴하는 일련의 과정을 제시하는 것을 목표로 한다. 바이오공학 기술(BT) 분야와 정보통신 기술(ICT) 분야 간의 융합 연구를 위해 (1) BT 분야의 기술용어 목록을 작성하여 대량의 학술논문 메타데이터를 수집한 후 (2) 패스파인더 네트워크 척도 알고리즘을 이용해 유망 기술의 지식 구조를 생성하고 (3) 토픽 모델링 기법을 사용하여 BT분야 중심의 내용 분석을 수행하였다. 다음 단계인 BT-ICT 융합 기술 아이템 도출을 위해, (4) BT-ICT 관련 정보를 얻기 위해 BT 기술용어 목록을 상위 개념으로 확장한 후 (5) OpenAPI 서비스를 이용하여 두 분야가 관련된 학술 정보의 메타데이터를 자동 수집하여 (6) BT-ICT 토픽 모델의 내용 분석을 실시하였다. 연구를 통해 첫째, 융합 기술의 발굴을 위해서는 기술 용어 목록의 작성이 중요한 지식 베이스가 된다는 점과 둘째, 대량의 수집 문헌을 분석하기 위해서는 데이터의 차원을 줄여 분석을 용이하게 해주는 텍스트 마이닝 기법이 필요하다는 점을 확인하였다. 본 연구에서 제안한 데이터 처리 및 분석 과정이 학제 간 융합 연구의 가능성이 있는 기술 요소들을 발굴하는 데 효과적이었음을 확인할 수 있었다.

데이터 마이닝을 활용한 북한 산림과학 연구 동향 분석(1962~2016) (Trend Analysis of North Korean Forest Science Research (1962-2016) by Data Mining)

  • 임중빈;김경민;김명길;이종민;박진우
    • 한국산림과학회지
    • /
    • 제109권1호
    • /
    • pp.81-98
    • /
    • 2020
  • 본 연구에서는 남북한 산림과학기술협력에 대비하여 북한의 산림과학 관련 학술지 분석을 통해 북한 산림과학 연구 동향을 분석하였다. 한국과학기술정보연구원(KISTI) 북한과학기술네트워크(NKtech)의 소장 논문을 대상으로 우리나라 국가과학기술표준분류체계를 토대로 임학 관련 주제어를 검색하여 분석 대상 논문을 수집하였다. 총1,389편의 논문을 수집하였으며 북한 산림업 계획 지표를 토대로 산림조성, 보호 및 이용 분야로 분류하여 각 분야별 북한 산림과학 연구 동향을 분석하였다. 2012년 김정은 집권 이후 산림조성 분야에서는 나무모 기르기(양묘)와 임농복합경영 분야의 연구 활동이 활발하였으며 사름률(활착률)을 강조하고 있었다. 산림보호 분야에서는 산림병해충에 대한 노력이 크며 임농복합경영과 풀뚝다락밭을 통해 토양침식을 감소시키려는 노력을 하고 있는 것으로 판단된다. 산림이용 분야에서는 주로 펄프/종이와 버섯 분야에서 연구가 활발함을 확인하였다. 산림경영 분야에서는 '생태정보' 분야의 활동이 눈에 띄게 나타났으며 탄소감축 노력을 확인할 수 있었다. 북한 산림과학 동향을 살펴본 결과 북한의 산림에 대한 관점이 기존의 '자연 개조' 대상에서 '자연 보호'를 함께 수반하는 관리의 대상으로 변화되었다고 보여 진다. 향후 세부 분야별 남북 산림과학 기술 비교 연구와 시기별 북한의 정책방향이 연구 방향에 미친 영향에 대한 분석을 진행할 계획이다. 특히, 남북산림협력사업을 원할히 하기 위해서 남북산림용어사전 편찬이 필요할 것으로 사료된다.

빅데이터 분석을 통한 문학치료의 대중적 인지도 분석 - 국문학과 통계학의 융합적 측면 (The Analysis of Public Awareness about Literary Therapy by Utilizing Big Data Analysis - The aspects of convergence literature and statistics)

  • 최경호;박정혜
    • 디지털융복합연구
    • /
    • 제13권4호
    • /
    • pp.395-404
    • /
    • 2015
  • 본 연구에서는 빅데이터(big data)를 활용한 분석을 통해 문학치료에 대한 일반인들의 인식을 고찰하는 것으로 문학치료의 객관적인 인지도를 탐색하였다. '문학치료'에 대한 온라인상의 소셜 네트워크 서비스(SNS)자료에 대해 빅데이터 관점에서의 분석을 통한 의미정보 도출을 목적으로 텍스트 마이닝과 관련된 오피니언 마이닝 기법을 활용하여 문학치료와 관계된 키워드의 내용분석을 주요 연구방법으로 하였다. '문학치료'를 중점적으로 파악하면서,'독서치료'를 함께 비교 분석하였다. 연구 조사 기간은 2014년 10월 10일부터 2014년 11월 10일까지 30일 동안 블로그와 트위터 등의 소셜 네트워크 서비스(SNS)자료를 검색대상으로 하였다. 연구 분석 결과에 따라 문학치료 지평의 확산과 문학치료 지형의 구조적 조화, 문학치료 인식의 축을 견고하게 하는 것이 필요하다는 결론을 내릴 수 있다. 본 연구는 문학치료에 대한 일반인들의 인지도를 탐색하고 이에 관련한 문학치료의 활성화를 위한 대안을 제시할 수 있다는 점에서 의의를 찾을 수 있다.