• 제목/요약/키워드: 유사 키워드

검색결과 311건 처리시간 0.022초

텍스트 마이닝과 네트워크 군집 분석을 활용한 한국의 데이터 관련 정책사업 분석 (Analyzing data-related policy programs in Korea using text mining and network cluster analysis)

  • 최성준;신기윤;오윤환
    • 한국산업정보학회논문지
    • /
    • 제28권6호
    • /
    • pp.63-81
    • /
    • 2023
  • 본 연구는 우리나라 데이터 관련 정책사업에 대한 텍스트 정보를 기반으로 네트워크 군집 분석을 통해 유사한 사업들을 분류하고 유형화하였다. 이를 위해 2022년에 우리나라에서 추진된 데이터 관련 재정사업 설명자료를 수집하고 사업 내용으로부터 키워드를 추출, TF-IDF로 각 사업 간 유사도를 도출하였으며, 이를 기반으로 정책사업 네트워크를 구축하였다. 이후 정책사업 네트워크의 구조적 특징을 분석하고, 네트워크 군집 분석을 통해 유사한 정책사업들을 군집화하여 유형화 하였다. 총 97개의 사업을 분석한 결과, 7개의 주요 군집이 식별되었으며, 이를 통해 비슷한 주제나 목표를 가진 사업들이 응용 분야 혹은 데이터가 활용되는 서비스 관점에서 유형화가 이루어진 것을 확인하였다. 본 연구의 결과는 현재 우리나라 데이터 관련 정책사업의 현황을 보여줌과 동시에 향후 국가데이터전략 수립 및 사업 기획에 있어서 전략적 접근을 위한 정책적 시사점을 제공하며 증거기반 정책 확립에 기여한다.

P2P 환경에서 사회적 연결망을 활용한 지식관리시스템의 구축 (Social Network-Based Knowledge Management System for P2P Environment)

  • 김윤상;권순범
    • 지능정보연구
    • /
    • 제13권1호
    • /
    • pp.59-79
    • /
    • 2007
  • P2P(Peer to Peer)기술은 저비용과 편리성 등의 이유로 파일교환과 공유에 널리 활용되고 있다. 주로 검색 키워드와 파일의 이름을 매칭하여 P2P 네트워크에서 원하는 파일을 찾아주는 형태로 이용된다. P2P 환경의 가장 큰 특징은 네트워크 자체가 매우 동적으로 진화한다는 점이다. 즉, 노드의 추가와 삭제, 각 노드가 갖고 있는 파일의 변화, 네트워크의 변화에 따라서 키워드 검색 범위 등이 동적으로 변화한다. 본 연구는 P2P 환경에서 지식관리시스템(KMS : Knowledge Management System)의 구축을 제안한다. 제안하는 시스템은 지식이 네트워크의 여러 사람에게 광범위하게 흩어져 있고 각자가 보유한 지식도 변화하는 동적인 환경에서의 지식관리가 가능하며 P2P의 저비용과 편리성을 제공할 수 있다. 또한 기존의 P2P 기반 시스템은 단순 키워드 매칭만으로 검색하여 검색의 질이 낮았는데, 본 시스템에서는 사회적 연결망(Social Network) 기법을 활용하여 보유한 지식(관심도)이 가장 유사한 노드들을 논리적인 네트워크로 구성, 유지하여 지식의 검색과 관리의 효율을 높인다. 네트워크의 동적인 진화는 새로운 노드가 추가되거나 삭제될 때, 그리고 네트워크를 구성하는 각 노드가 새로운 지식(문서)을 추가한 경우(검색의 결과 새로운 문서를 다운로드한 경우 등) 논리적 네트워크의 변화로 진화하게 된다. 최근 인터넷에서는 수많은 사이트(예: 블로그)에 지식이 흩어져 있고, 동적으로 변화하고 있다. 이러한 흩어진 지식을 어떻게 구조화하여 활용할 것인가가 중요한 이슈가 되고 있다. 기업 내부의 지식관리에 있어서도 여러 지역의 다양한 사람이 보유하고 있는 지식을 기업 지식포털로 통합하는 것이 큰 어려움이 중의 하나이다. 따라서 제안하는 지식관리시스템이 이러한 문제의 해결에 도움을 줄 수 있으리라 기대한다.

  • PDF

소셜네트워크 분석의 빅데이터를 활용한 2019세계수영선수권 대회의 국내 인식조사 (National Awareness of the 2019 World Swimming Championships using Big Data from Social Network Analysis)

  • 김기탁
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제13권4호
    • /
    • pp.173-184
    • /
    • 2019
  • 본 연구의 자료처리는 텍스톰(textom)을 통해 소셜 미디어의 단어검색을 중심으로 빅데이터 분석을 실시하여 3가지 영역(2019광주세계수영선수권대회, 2019광주세계수영마스터즈대회, 2019세계수영선수권 대회문제점)에 대한 단어를 웹 환경에서의 데이터 수집과 정제작업을 통해 일관되게 처리하였다. 또한 수집된 단어를 활용하여 Ucinet6의 프로그램에 적용한 후 시각화 하였으며, 단어들의 유사한 관계파악과 공통요인의 군집을 파악하기 위해 CONCOR분석을 실시하였다. 분석결과 2019광주세계수영선수권대회와 관련된 군집은 주요인식과 주변인식 4개의 영역으로 구분되어 수영선수권대회와 관련된 전반적인 대회운영적인 측면을 주로 검색하고 있는 것으로 나타났고 2019광주세계수영마스터즈대회와 관련된 군집은 주요인식과 주변인식 2개의 영역으로 구분되어 마스터즈대회의 홍보와 대회에 대한 측면을 주로 검색하고 있는 것으로 나타났으며, 2019광주세계수영선수권대회 문제점과 관련된 군집은 주요인식과 주변인식 5개의 영역으로 구분되어 수영선수권대회 문제점의 장소, 운영, 기관, 행사 등에 대한 측면을 주로 검색하고 있는 것으로 나타났다. 최종적으로 2019광주세계수영선수권대회 키워드 분석결과를 통해 첫째, 전남지방과의 상호구축관계형성, 둘째, 시설투자를 최소화한 대회운영, 셋째, 신뢰가 있는 대회운영을 해야 함을 시사할 수 있겠고 2019광주세계수영마스터즈대회 키워드 분석결과를 통해 첫째, 광산업을 활용한 대회홍보, 둘째, 광산업을 활용한 지역홍보를 해야 함을 시사할 수 있겠으며, 2019광주세계수영선수권대회 문제점에 관한 키워드 분석을 통해 2019세계수영선수권대회의 개최 전, 개최 중, 개최 후에 맞는 레거시 정책개발을 해야 함을 시사할 수 있겠다.

빅데이터 분석을 통한 유명인 모델의 광고효과 예측 모형 개발 (Development of a Prediction Model for Advertising Effects of Celebrity Models using Big data Analysis)

  • 김유나;한상필
    • 한국융합학회논문지
    • /
    • 제11권8호
    • /
    • pp.99-106
    • /
    • 2020
  • 본 연구는 소셜 빅데이터에 기반을 둔 유명인과 브랜드의 이미지 유사도가 광고효과를 예측할 수 있는 결정변수가 될 수 있는지를 파악하기 위해, 광고효과 예측모형을 생성하고 빅데이터 분석기법인 기계학습 방법을 통해 그 타당도를 검증하는 것을 목적으로 하였다. 이를 위해 SNS상의 키워드 네트워크 구조에 기반하여 유명인-브랜드 이미지 유사도를 정량화하고, 학습 데이터를 통해 이미지 유사도를 독립변수로, 광고효과 데이터를 종속변수로 하는 다중회귀모형을 반복 실시하여 광고효과 예측모형을 생성하였다. 이렇게 생성된 예측모형의 정확도를 판단하기 위해 예측 데이터에서 얻은 광고효과 예측값과 비교 기준으로서의 서베이값을 비교한 결과, 타당도를 판단하는 기준치인 75%의 분류 정확도를 보였으므로 본 광고효과 예측 모델링의 타당성은 확보된 것으로 입증되었다. 본 연구는 유명인-브랜드 이미지 유사성 구조를 소셜 네트워크 구조로 설명하고 그 효과를 기계학습을 통한 예측 모델링으로 검증하여 빅데이터 기반 모델링 연구에 새로운 방법론적 대안과 방향을 제시하였다.

온·오프라인 댓글 분석이 활용된 Word2Vec 기반 상품기획 모델연구: 버티컬 무소음마우스 사용자를 중심으로 (A Study on the Product Planning Model based on Word2Vec using On-offline Comment Analysis: Focused on the Noiseless Vertical Mouse User)

  • 안영휘
    • 디지털융복합연구
    • /
    • 제19권10호
    • /
    • pp.221-227
    • /
    • 2021
  • 본 논문에서는 버티컬 무소음 마우스 10,000건에 대한 웹크롤링을 통해 수집된 정형화된 데이터셋을 Word2Vec을 이용하여 단어 간 유사도분석을 시행하고 컴퓨터공학과 대학생 92명에게 5일 동안 제시된 상품을 사용하게 하고 자가보고식 설문 분석을 시행하도록 하였다. 설문 분석은 서술식 형태로 수집하여 단어빈도 분석과 단어 간 유사도분석에서 추출된 상위 50개 단어를 제시하고 선택하는 방식으로 이루어졌다. 전자상거래 사용자 상품평 유사도 분석결과 내용 중 클릭 키워드에 대한 장점으로 통증(.985), 디자인(.963)가 분석되었으며 단점은 가볍다(.952), 적응(.948)이었다. 서술식 빈도분석에서는 버티컬(123개), 통증(118개)이 가장 많이 선택 되었으며 장/단점 유사단어를 선택에 해당되는 장점에서는 버티컬(83개), 통증(75개) 선택 되었으며 단점에서는 적응(89개), 버튼(72개)이었다. 따라서 본 연구에서 적용한 방식을 상품기획 프로세스의 신상품 개발 및 기존 상품의 검토 전략으로 반영 시 중견기업, 중소기업의 의사결정자와 상품기획자는 의사결정에 중대한 자료로 활용 할 수 있을 것으로 기대된다.

Sentence BERT를 이용한 내용 기반 국문 저널추천 시스템 (Content-based Korean journal recommendation system using Sentence BERT)

  • 김용우;김대영;서현희;김영민
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.37-55
    • /
    • 2023
  • 전자저널의 발전과 다양한 융복합 연구들이 생겨나면서 연구를 게시할 저널의 선택은 신진 연구자들은 물론 기존 연구자들에게도 새로운 문제로 떠올랐다. 논문의 수준이 높더라도 논문의 주제와 저널 범위의 불일치로 인해 게재가 거부될 수 있기 때문이다. 이러한 문제를 해결하기 위해 연구자의 저널 선정을 돕기 위한 연구는 영문 저널을 대상으로는 활발하게 이루어졌으나 한국어 저널을 대상으로 한 연구는 그렇지 못한 실정이다. 본 연구에서는 한국어 저널을 대상으로 투고할 저널을 추천하는 시스템을 제시한다. 첫 번째 단계는 과거 저널에 게재된 논문들의 초록을 SBERT (Sentence-BERT)를 이용하여 문서 단위로 임베딩하고 새로운 문서와 기존 게재논문의 유사도를 비교하여 저널을 추천하는 것이다. 다음으로 초록의 유사도 여부, 키워드 일치 여부, 제목 유사성을 고려하여 추천할 저널의 순서가 결정되고, 저널별로 구축된 단어 사전을 이용하여 선순위 추천 저널과 유사한 저널을 찾아 추천 리스트에 추가하여 추천 다양성을 높인다. 이러한 방식으로 구축된 추천 시스템을 평가한 결과 Top-10 정확도 76.6% 수준으로 평가되었으며, 추천 결과에 대한 사용자의 평가를 요청하고 추천 결과의 유효성을 확인하였다. 또한, 제안된 프레임워크의 각 단계가 추천 정확도를 높이는 데에 도움이 된다는 결과를 확인하였다. 본 연구는 그동안 활발히 이루어지지 않았던 국문 학술지 추천에 대한 새로운 접근을 제시한다는 점에서 학술적 의의가 있으며, 제안된 기능을 문서와 저널 보유상태에 따라 변경하여 손쉽게 서비스에 적용할 수 있다는 점에서 실무적인 의의를 가진다.

빅데이터를 활용한 섬 관광지의 경관 특성 분석 - 신안군 박지·반월도를 대상으로 - (Analysis of the Landscape Characteristics of Island Tourist Site Using Big Data - Based on Bakji and Banwol-do, Shinan-gun -)

  • 도지윤;서주환
    • 한국조경학회지
    • /
    • 제49권2호
    • /
    • pp.61-73
    • /
    • 2021
  • 본 연구는 사용자의 경험에 의해 생성된 SNS 데이터를 활용하여 이용자의 경관 인식과 경관 특성을 파악하고자 하였다. 이에 섬에서 나타나는 주요 장소와 경관은 어떻게 인지하고 있는지, 주요 경관 특성은 무엇인지 온라인상의 텍스트 데이터와 사진 데이터를 활용하여 분석하였다. 텍스트 데이터는 텍스트마이닝과 네트워크 구조분석을 시행하였으며, 사진 데이터는 경관파악모델과 색채분석을 실시하였다. 연구의 결과는 첫째, 박지·반월도 주제어의 빈도분석 결과, 지역 경관 대상 키워드인 '퍼플교', '두리마을'과 장소, 행태, 경관 이미지 키워드를 도출할 수 있었으며, 이 중 경관 이미지는 감성분석을 동시해 수행함으로써 긍정의 키워드와 함께 도출하여 경관 대상 및 인식을 파악할 수 있었다. 둘째, 네트워크 구조 분석 결과, 주요 키워드와 도출되지 않은 키워드간의 연결을 보다 구체적으로 분석할 수 있어 색채를 활용한 경관 조성이 지역 활성화에 영향을 미치고 있음을 알 수 있었다. 셋째, 경관파악모델을 활용하여 분석한 결과, 주대상인 '퍼플교', '두리마을'을 활용한 선호 경관을 조성하기 위해선 인공요소가 배제되고, 원경으로 대상장인 바다와 하늘이 보이는 조망점을 설정하는 것이 효과적일 것으로 파악되었다. 넷째, 박지·반월도는 색채를 테마로 하여 조성한 최초의 섬으로 인공시설물에 사용된 색채는 주변 환경과 유사한 색채 계열, 상반되는 명도, 채도 값으로 주변 환경과 조화를 이루고 있음을 알 수 있었다. 본 연구는 경관분야에서 방문객이 직접 업로드한 온라인 데이터를 활용하여 이용자의 인식과 경관 대상을 파악하였다. 또한, 텍스트 및 사진 데이터를 모두 활용하여 경관 인식 및 특성을 파악한 것은 어떤 경관과 자원을 선호하고 인지하고 있는지 구체적으로 파악할 수 있다는 점에서 큰 의의가 있다. 또한, 지역의 경관에 대해 방문객의 인식을 파악함에 있어 정량적인 빅데이터 분석 방법과 정성적인 경관파악모델을 활용함은 대규모 이용자의 인식을 파악하고, 결과를 바탕으로 이루어지는 논의를 통해 경관을 보다 구체적으로 이해할 수 있을 것이다.

웹 크롤링에 의한 네이버 뉴스에서의 한국농수산대학 - 키워드 분석과 의미연결망분석 - (Korea National College of Agriculture and Fisheries in Naver News by Web Crolling : Based on Keyword Analysis and Semantic Network Analysis)

  • 주진수;이소영;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권2호
    • /
    • pp.71-86
    • /
    • 2021
  • 빅데이터 분석기술인 웹 크롤링 기술을 이용하여 네이버 뉴스 데이터 내에 담겨 있는 '한농대' 에 대한 이미지 단어를 추출하였다. 뉴스 기사에서 언급된 빈도에 따라 중요한 단어로 평가는 단어빈도 분석에서는 청년농업인을 육성하는 한농대의 특성을 잘 설명하는 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등의 단어가 자주 사용되는 것으로 나타났다. 또한 '디지털', '스마트', '드론', '졸업생', '창업', '새만금', '교육과정' 등 디지털 농업 전문 인재를 육성하기 위한 학교의 교육, 지원, 비전 등과 관련한 단어들이 추출되었다. 모든 기사 데이터의 단어 빈도(TF) 및 역 문서 빈도(IDF)를 이용한 TF-IDF 가중치의 전체 순위는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 한농대와 관련된 뉴스 기사에서 중요한 핵심어 역할을 하는 것으로 나타났다. 단어 빈도에서 '드론', '농림축산식품부', '전북', '청년농업인', '전주', '장치, '파종' 등은 순위가 매우 낮았으나 TF-IDF 가중치 순위에서는 한농대를 표현하는 핵심어로 나타났다. TF-IDF 평가에서 '교육', '지원', '청년', '사업', '농촌' 등의 키워드는 단어빈도가 높으면서 많은 문서에서 자주 등장하는 키워드로서 핵심어 역할은 크지 않은 것으로 나타났다. 단어 간 연계성을 파악하기 위한 의미연결망 분석에서 추출한 바이그램은 '청년'-'농업인', '디지털'-'농업', '영농'-'정착', '농업'-'농촌', '디지털'-'전환' 등의 순으로 빈도가 높게 나타났다. 중심성 지표로 키워드의 영향력을 평가한 결과 모든 지표에서 '농업'이 1위로 나타났으며, 2위에는 '농업인'(근접 중심성, 매개 중심성), '교육'(연결 중심성, 페이지랭크 중심성) 및 '미래'(고유벡터 중심성)으로 나타났다. 스피어먼 순위 상관계수에 의한 중심성 지표별 키워드의 순위의 유사성은 연결 중심성과 페이지랭크 중심성이 0.89 전후의 가장 높은 상관관계를 보였다. 이상으로 네이버 뉴스의 한농대 관련 기사에서 단어 빈도로 보면 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등이 중요한 단어로 평가되었으나, 문서빈도를 함께 고려한 평가에서는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 핵심어 역할을 하는 것으로 나타났다. 한편 단어나 문서의 빈도가 아니라 단어 간 네트워크 연계성을 고려한 중심성 분석에서는 연결 중심성과 페이지랭크 중심성에 의한 평가가 적합한 것으로 나타났으며, '농업', '교육', '미래', '농업인', '디지털', '지원', '활용' 등이 중심성이 강한 단어로 나타났다.

텍스트마이닝 기법을 활용한 한국인의 행복과 불행 탐색연구 (An Exploratory Study of Happiness and Unhappiness Among Koreans based on Text Mining Techniques)

  • 박상현;도강혁;김학영;박가은;윤진혁;김경일
    • 한국콘텐츠학회논문지
    • /
    • 제18권7호
    • /
    • pp.10-27
    • /
    • 2018
  • 본 연구에서는 텍스트 마이닝 분석을 통해 한국 사회에서 행복과 불행이 갖는 의미를 탐색하였다. 자료수집 및 분석을 위하여 온라인 뉴스 포털에서 Word2Vec과 TF-IDF 방법을 사용하여 '행복' 및 '불행' 키워드와 유사한 단어를 추출했다. 또한 K-LIWC 사전을 사용하여 행복 및 불행과 연관된 단어들의 감성 속성에 대해 알아보았다. TF-IDF 분석 결과, 행복과 불행은 사회적 요인과 해당 년도의 사회적 이슈들과 각각 높은 관련성이 있는 것으로 관찰됐다. Word2Vec 분석에서는 '희망'이 6년 연속으로 행복과 유사성이 높은 단어로 나타났다. K-LIWC 분석에서 '돈재정적이슈', '학교', '의사소통'은 행복 및 불행과 모두 관련성이 높았다. 그밖에 '몸 상태와 증상'이 불행과 높은 관련성이 있는 범주로 나타났다. 이러한 결과를 바탕으로 본 연구의 의의, 제한점 및 후속연구에 대한 필요성을 논의하였다.

인스턴트 메시징에서의 대화 주제 및 주제 전환 탐지 (Topic and Topic Change Detection in Instance Messaging)

  • 최윤정;신욱현;정윤재;맹성현;한경수
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권7호
    • /
    • pp.59-66
    • /
    • 2008
  • 본 논문에서는 인스턴트 메시징(Instant Messaging), 채팅과 같은 텍스트 기반의 대화에서 현재 발화를 기준으로 대화의 주제를 파악하고, 대화 주제 전환 여부를 판단하는 기법에 대해 기술한다. 대화는 다른 종류의 글과 다르게 길이가 매우 짧아 적은 수의 단어를 사용하고, 두 사람 이상이 참여를 하며, 대화의 이력(History)이 현재의 발화에 영향을 미친다. 이러한 특성에 따라 본 논문에서는 사용자 발화 뿐 아니라 대화 상대자의 발화에서 추출한 키워드 기반으로 주제 탐지를 하며, 대화의 이력도 고려하여 대화 주제 탐지의 정확도를 높힌 연구 결과를 기술한다. 대화주제 전환 탐지는 이전 발화와 현재 발화에서 탐지된 주제의 유사성을 계산하여, 유사성이 낮은 경우에 전환 탐지가 이루어졌다고 판단하였다. 본 논문의 실험에서 대화 주제 탐지는 88.20%. 대화 주제 전환 탐지는 87.36%의 정확도를 얻었다.

  • PDF