• 제목/요약/키워드: Similar Keyword

검색결과 114건 처리시간 0.021초

웹 크롤링에 의한 네이버 뉴스에서의 한국농수산대학 - 키워드 분석과 의미연결망분석 - (Korea National College of Agriculture and Fisheries in Naver News by Web Crolling : Based on Keyword Analysis and Semantic Network Analysis)

  • 주진수;이소영;김승희;박노복
    • 현장농수산연구지
    • /
    • 제23권2호
    • /
    • pp.71-86
    • /
    • 2021
  • 빅데이터 분석기술인 웹 크롤링 기술을 이용하여 네이버 뉴스 데이터 내에 담겨 있는 '한농대' 에 대한 이미지 단어를 추출하였다. 뉴스 기사에서 언급된 빈도에 따라 중요한 단어로 평가는 단어빈도 분석에서는 청년농업인을 육성하는 한농대의 특성을 잘 설명하는 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등의 단어가 자주 사용되는 것으로 나타났다. 또한 '디지털', '스마트', '드론', '졸업생', '창업', '새만금', '교육과정' 등 디지털 농업 전문 인재를 육성하기 위한 학교의 교육, 지원, 비전 등과 관련한 단어들이 추출되었다. 모든 기사 데이터의 단어 빈도(TF) 및 역 문서 빈도(IDF)를 이용한 TF-IDF 가중치의 전체 순위는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 한농대와 관련된 뉴스 기사에서 중요한 핵심어 역할을 하는 것으로 나타났다. 단어 빈도에서 '드론', '농림축산식품부', '전북', '청년농업인', '전주', '장치, '파종' 등은 순위가 매우 낮았으나 TF-IDF 가중치 순위에서는 한농대를 표현하는 핵심어로 나타났다. TF-IDF 평가에서 '교육', '지원', '청년', '사업', '농촌' 등의 키워드는 단어빈도가 높으면서 많은 문서에서 자주 등장하는 키워드로서 핵심어 역할은 크지 않은 것으로 나타났다. 단어 간 연계성을 파악하기 위한 의미연결망 분석에서 추출한 바이그램은 '청년'-'농업인', '디지털'-'농업', '영농'-'정착', '농업'-'농촌', '디지털'-'전환' 등의 순으로 빈도가 높게 나타났다. 중심성 지표로 키워드의 영향력을 평가한 결과 모든 지표에서 '농업'이 1위로 나타났으며, 2위에는 '농업인'(근접 중심성, 매개 중심성), '교육'(연결 중심성, 페이지랭크 중심성) 및 '미래'(고유벡터 중심성)으로 나타났다. 스피어먼 순위 상관계수에 의한 중심성 지표별 키워드의 순위의 유사성은 연결 중심성과 페이지랭크 중심성이 0.89 전후의 가장 높은 상관관계를 보였다. 이상으로 네이버 뉴스의 한농대 관련 기사에서 단어 빈도로 보면 '농업', '교육', '지원', '농업인', '청년', '대학', '사업', '농촌', '대표' 등이 중요한 단어로 평가되었으나, 문서빈도를 함께 고려한 평가에서는 '농업인', '드론', '농림축산식품부', '전북', '청년농업인', '농업', '전주', '대학', '장치', '파종' 등의 단어가 핵심어 역할을 하는 것으로 나타났다. 한편 단어나 문서의 빈도가 아니라 단어 간 네트워크 연계성을 고려한 중심성 분석에서는 연결 중심성과 페이지랭크 중심성에 의한 평가가 적합한 것으로 나타났으며, '농업', '교육', '미래', '농업인', '디지털', '지원', '활용' 등이 중심성이 강한 단어로 나타났다.

디지털 아카이브즈의 문제점과 방향 - 문화원형 콘텐츠를 중심으로 - (Digital Archives of Cultural Archetype Contents: Its Problems and Direction)

  • 함한희;박순철
    • 한국비블리아학회지
    • /
    • 제17권2호
    • /
    • pp.23-42
    • /
    • 2006
  • 본고는 문화원형콘텐츠를 유통시키고 있는 문화콘텐츠닷컴의 디지털아카이브 시스템에 주목해서 문제점을 분석하고 대안을 제시하는 것이 목적이다. 문화원형콘텐츠는 전통문화와 컴퓨터기술을 접목시켜 개척한 새로운 분야이다. 정부에서는 이 산업을 육성해서 한국문화의 세계화와 국가 경쟁력을 강화시킬 의도를 가지고 있다. 우리나라의 역사와 전통 풍물 생활 전승 예술 지리지 등 다양한 분야의 문화원형을 디지털 콘텐츠화하여 문화산업에 필요한 창작소재로 제공하는 것이 그 핵심내용이다. 아울러 디지털 콘텐츠 유통체계 정립과 저작권 관리를 통해서 공공부문 문화콘텐츠의 산업적 활용도를 제고하려는 의도도 포함된다. 본고에서 다루는 대상자료는 현재 문화콘텐츠닷컴에서 유통, 관리되고 있는 문화원형콘텐츠들이다. 이 성과물들은 2002년부터 2005년까지 개발되어서 문화콘텐츠닷컴 DB에 구축되어 있다. 이 자료들을 통해서 현재의 디지털아카이브 시스템의 문제점을 분석하였고, 현재의 시스템이 안고 있는 한계점을 요약하면 다음과 같다. 첫째는 각 자료에서 사용하는 주요 용어의 선택에 따라 유사한 자료들이 서로 다른 주제로 분류되면서 다른 항목에 속하게 되는 것이다. 둘째는, 따라서 서로 다른 항목 간에 교차검색이 이루어지지 않는 한계점이 있다. 현재의 제 문제를 해결할 수 있는 방법으로 본고에서는 온톨로지 기능을 포함한 데이터마이닝시스템을 이용해서 풍부한 지식정보표현과 활용이 가능한 디지털아카이브 시스템을 제안하고 있다. 데이터마이닝은 다섯 가지의 방법으로 가능하다. 의미검색 문서요약 문서클러스터링 문서분류 그리고 주제추적이다. 최근에 빠르게 개발되고 있는 디지털 신기술도 인문학과 긴밀하게 연결되지 않으면, 그 활용도가 제한적이라는 점을 본고를 통해서 지적하였다. 창작소재로서의 문화원형콘텐츠의 활용도를 크게 향상시킬 수 있는 길은 바로 신지식관리를 위한 통학적(uni-discipline) 접근이라는 점을 일깨우고자 한다.

모바일 랜드마크 가이드 : LOD와 문맥적 장치 기반의 실외 증강현실 (A Mobile Landmarks Guide : Outdoor Augmented Reality based on LOD and Contextual Device)

  • 조비성;누르지드;장철희;이기성;조근식
    • 지능정보연구
    • /
    • 제18권1호
    • /
    • pp.1-21
    • /
    • 2012
  • 최근 스마트폰의 등장으로 인해 사용자들은 시간과 공간의 제약 없이 스마트폰을 이용한 새로운 의사소통의 방법을 경험하고 있다. 이러한 스마트폰은 고화질의 컬러화면, 고해상도 카메라, 실시간 3D 가속그래픽과 다양한 센서(GPS와 Digital Compass) 등을 제공하고 있으며, 다양한 센서들은 사용자들(개발자, 일반 사용자)로 하여금 이전에 경험하지 못했던 서비스를 경험할 수 있도록 지원하고 있다. 그 중에서 모바일 증강현실은 스마트폰의 다양한 센서들을 이용하여 개발할 수 있는 대표적인 서비스 중 하나이며, 이러한 센서들을 이용한 다양한 방법의 모바일 증강현실 연구들이 활발하게 진행되고 있다. 모바일 증강현실은 크게 위치 정보 기반의 서비스와 내용 기반 서비스로 구분할 수 있다. 위치 정보 기반의 서비스는 구현이 쉬운 장점이 있으나, 증강되는 정보의 위치가 실제의 객체의 정확한 위치에 증강되는 정보가 제공되지 않는 경우가 발생하는 단점이 존재한다. 이와 반대로, 내용 기반 서비스는 정확한 위치에 증강되는 정보를 제공할 수 있으나, 구현 및 데이터베이스에 존재하는 이미지의 양에 따른 검색 속도가 증가하는 단점이 존재한다. 본 논문에서는 위치 정보 기반의 서비스와 내용기반의 서비스의 장점들을 이용한 방법으로, 스마트폰의 다양한 센서(GPS, Digital Compass)로 부터 수집된 정보를 이용하여 데이터베이스의 탐색 범위를 줄이고, 탐색 범위에 존재하는 이미지들의 특징 정보를 기반으로 실제의 랜드마크를 인식하고, 인식한 랜드마크의 정보를 링크드 오픈 데이터(LOD)에서 검색하여 해당 정보를 제공하는 랜드마크 가이드 시스템을 제안한다. 제안하는 시스템은 크게 2개의 모듈(랜드마크 탐색 모듈과 어노테이션 모듈)로 구성되어있다. 첫 번째로, 랜드마크 탐색 모듈은 스마트폰으로 인식한 랜드마크(건물, 조형물 등)에 해당하는 정보들을 (텍스트, 사진, 비디오 등) 링크드 오픈 데이터에서 검색하여 검색된 결과를 인식한 랜드마크의 정확한 위치에 정보를 제공하는 역할을 한다. 스마트폰으로부터 입력 받은 이미지에서 특징점 추출을 위한 방법으로는 SURF 알고리즘을 사용했다. 또한 실시간성을 보장하고 처리 속도를 향상 시키기 위한 방법으로는 입력 받은 이미지와 데이터베이스에 있는 이미지의 비교 연산을 수행할 때 GPS와 Digital Compass의 정보를 사용하여 그리드 기반의 클러스터링을 생성하여 탐색 범위를 줄임으로써, 이미지 검색 속도를 향상 시킬 수 있는 방법을 제시하였다. 두 번째로 어노테이션 모듈은 사용자들의 참여에 의해서 새로운 랜드마크의 정보를 링크드 오픈 데이터에 추가할 수 있는 기능을 제공한다. 사용자들은 키워드를 이용해서 링크드 오픈 데이터로에서 관련된 주제를 검색할 수 있으며, 검색된 정보를 수정하거나, 사용자가 지정한 랜드마크에 해당 정보를 표시할 수 있도록 지정할 수 있다. 또한, 사용자가 지정하려고 하는 랜드마크에 대한 정보가 존재하지 않는다면, 사용자는 랜드마크의 사진을 업로드하고, 새로운 랜드마크에 대한 정보를 생성하는 기능을 제공한다. 이러한 과정은 시스템이 카메라로부터 입력 받은 대상(랜드마크)에 대한 정확한 증강현실 컨텐츠를 제공하기 위해 필요한 URI를 찾는데 사용되며, 다양한 각도의 랜드마크 사진들을 사용자들에 의해 협업적으로 생성할 수 있는 환경을 제공한다. 본 연구에서 데이터베이스의 탐색 범위를 줄이기 위해서 랜드마크의 GPS 좌표와 Digital Compass의 정보를 이용하여 그리드 기반의 클러스터링 방법을 제안하여, 그 결과 탐색시간이 기존에는 70~80ms 걸리는 반면 제안하는 방법을 통해서는 18~20ms로 약 75% 정도 향상된 것을 확인할 수 있었다. 이러한 탐색시간의 감소는 전체적인 검색시간을 기존의 490~540ms에서 438~480ms로 약 10% 정도 향상된 것을 확인하였다.

카테고리 연관 규칙 마이닝을 활용한 추천 정확도 향상 기법 (A Study on the Improvement of Recommendation Accuracy by Using Category Association Rule Mining)

  • 이동원
    • 지능정보연구
    • /
    • 제26권2호
    • /
    • pp.27-42
    • /
    • 2020
  • 인터넷이라는 가상 공간을 활용함으로써 물리적 공간의 제약을 갖는 오프라인 쇼핑의 한계를 넘어선 온라인 쇼핑은 다양한 기호를 가진 소비자를 만족시킬 수 있는 수많은 상품을 진열할 수 있게 되었다. 그러나, 이는 역설적으로 소비자가 구매의사결정 과정에서 너무 많은 대안을 비교 평가해야 하는 어려움을 겪게 함으로써 오히려 상품 선택을 방해하는 원인이 되기도 한다. 이런 부작용을 해소하기 위한 노력으로서, 연관 상품 추천은 수많은 상품을 다루는 온라인 상거래에서 소비자의 구매의사결정 과정 중 정보탐색 및 대안평가에 소요되는 시간과 노력을 줄여주고 이탈을 방지하며 판매자의 매출 증대에 기여할 수 있다. 연관 상품 추천에 사용되는 연관 규칙 마이닝 기법은 통계적 방법을 통해 주문과 같은 거래 데이터로부터 서로 연관성 높은 상품을 효과적으로 발견할 수 있다. 하지만, 이 기법은 거래 건수를 기반으로 하므로, 잠재적으로 판매 가능성이 높을지라도 충분한 거래 건수가 확보되지 못한 상품은 추천 목록에서 누락될 수 있다. 이렇게 추천 시 제외된 상품은 소비자에게 구매될 수 있는 충분한 기회를 확보하지 못할 수 있으며, 또 다시 다른 상품에 비해 상대적으로 낮은 추천 기회를 얻는 악순환을 겪을 수도 있다. 본 연구는 구매의사결정이 결국 상품이 지닌 속성에 대한 사용자의 평가를 기반으로 한다는 점에 착안하여, 추천 시 상품의 속성을 반영하면 소비자가 특정 상품을 선택할 확률을 좀더 정확하게 예측할 수 있다는 점을 추천 시스템에 반영하기 위한 목적으로 수행되었다. 즉, 어떤 상품 페이지를 방문한 소비자는 그 상품이 지닌 속성들에 어느 정도 관심을 보인 것이며 추천 시스템은 이런 속성들을 기반으로 연관성을 지닌 상품을 더 정교하게 찾을 수 있다는 것이다. 상품의 주요 속성의 하나로서, 카테고리는 두 상품 간에 아직 드러나지 않은 잠재적인 연관성을 찾기에 적합한 대상이 될 수 있다고 판단하였다. 본 연구는 연관 상품 추천에 상품 간의 연관성뿐만 아니라 카테고리 간의 연관성을 추가로 반영함으로써 추천의 정확도를 높일 수 있는 예측모형을 개발하였고, 온라인 쇼핑몰로부터 수집된 주문 데이터를 활용하여 이루어진 실험은 기존 모형에 비해 추천 성능이 개선됨을 보였다. 실무적인 관점에서 볼 때, 본 연구는 소비자의 구매 만족도를 향상시키고 판매자의 매출을 증가시키는 데에 기여할 수 있을 것으로 기대된다.