• 제목/요약/키워드: Library Big Data

검색결과 96건 처리시간 0.022초

빅 데이터 가시화 기술을 적용한 공공데이터 콘텐츠 구현 - Map가시화 기법 (Implementation of public data contents using Big data Visualization technology - Map visualization technique)

  • 박선희;김정호;유현배
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권7호
    • /
    • pp.1427-1434
    • /
    • 2017
  • 4차 산업화의 가속화로 인하여 우리 주변의 데이터가 급속도로 증가하였다. 이에, 데이터를 수집하는 것 이상으로 데이터 분석을 통해 얻어진 데이터의 성질과 의미를 보다 손쉽게 파악하고 데이터의 가치판단에 유연하게 적용 할 수 있어야 한다. 가시화 표현기술은 현재 많은 분야에서 관심을 받고 있다. 가시화는 데이터 분석 결과를 보다 쉽게 이해할 수 있도록 그래프, 차트 등으로 사용자가 보다 쉽게 데이터의 정보를 파악할 수 있어, 즉각적인 판단이 가능하게 하여 빠른 의사결정을 할 수 있도록 한다. 그중에서도 사용자들의 활용 가치가 높은 공공데이터를 활용한 가시화에 대한 관심도가 높다. 이에 본 논문에서는 가시화를 표현 할 수 있는 다양한 소프트웨어들 중에서 R 라이브러리와 R Studio를 활용하여 전국 자전거 보관소 설치 장소의 공공데이터를 가시화 하는 콘텐츠를 구현하였다.

정보검색 연구의 방법론에 관한 고찰 (Methodological Problems in Information Retrieval Research)

  • 이명희
    • 한국비블리아학회지
    • /
    • 제7권1호
    • /
    • pp.231-246
    • /
    • 1994
  • A major problem for information retrieval research in the past three decades has been methodology, even though some progress has been made in obtaining useful results from methodologically sound experiments. Within a methodology, potential problems include artificial data generated by the researcher, small sample size interpretation of findings. Critics have pointed out that some room exists for improving methodology of information retrieval research; using existing data, having big enough sample size, including large numbers of search queries, introducing more control in relation to variables, utilizing more appropriate performance measures, conducting rests carefully and evaluating findings properly. Relevance judgments depend entirely on the perception of the user and on the situation of the moment. In an experiment, the best judge of relevance is a user with a well defined information need. Normally more than two categories for relevance judgments are desirable becase there are degrees of relevance. In experimental design, careful control of variables is meeded for internal validity. When no single database exists for comparison, existing operational databases should be used cautiously, Careful control for the variations of search queries, inter-searcher sonsistency, intra-searcher consistency and search strategies is necessary. Parametric statistics requiring rigid assumptions are not appropriate in information retrieval research and non-parametric statistics requiring few assumptions are necessary. Particularly, the sign test and the Wilcoxon test are good alternatives.

  • PDF

베스트셀러 순위가 공공도서관 대출에 미치는 영향 분석: 패널자료 분석을 중심으로 (The Effects of the Bestseller Ranks on Public Library Circulation: Based on Panel Data Analysis)

  • 이종욱;강우진;박중규
    • 정보관리학회지
    • /
    • 제38권4호
    • /
    • pp.1-23
    • /
    • 2021
  • 본 연구에서는 베스트셀러 목록에 포함된 도서의 순위가 공공도서관에서의 평균 대출 건수에 미치는 영향을 패널분석을 통해 살펴보고자 하였다. 본 연구를 위해 문화 빅데이터 플랫폼을 통하여 국립중앙도서관이 제공하는 데이터를 바탕으로 2018년 1월 1일부터 2019년 12월 29일까지 총 104주 동안의 분석 대상 도서 179권의 공공도서관 대출 데이터 세트를 생성하였고, YES24 웹사이트를 통해 같은 기간 주간 베스트셀러 목록 데이터 세트를 구축하였다. 공공도서관 대출과 베스트셀러 도서 순위 간 정확한 관계를 확인하기 위해 패널자료의 특성을 활용한 분석 방식인 선형회귀모형, 고정효과모형, 확률효과모형 등 세 개의 모형을 비교한 결과, 고정효과모형이 가장 적합한 것으로 나타났다. 순위 데이터 결측값이 47주 미만인 179권의 도서의 자료를 고정효과모형으로 분석한 결과, 도서의 베스트셀러 순위가 한 단계 내려가면 공공도서관에서의 해당 도서 평균 대출 건수가 0.108권 유의미한 수준에서 감소한다는 것을 밝혀내었다. 또한, 베스트셀러 순위가 도서 평균 대출 건수에 미치는 효과가 도서의 내용분류에 따라 상이함을 알 수 있었다. 이 연구는 베스트셀러 순위가 사람들의 도서관 대출행태에 영향을 미치고 있음을 실증적으로 확인한 것으로, 공공도서관에서는 이용자의 요구를 예측하고, 장서 개발 정책 수립에 베스트셀러 목록을 비롯한 사회문화적 맥락을 고려할 필요가 있음을 시사한다.

문헌정보학 교과과정에 대한 현황조사 및 인식조사 연구 (A Study on Status and Necessity of the Curriculum for the Department of Libraries and Information Sciences in Korea)

  • 홍현진;노영희;김동석
    • 한국문헌정보학회지
    • /
    • 제55권1호
    • /
    • pp.5-36
    • /
    • 2021
  • 본 연구에서는 한국 문헌정보학의 교과과정 현황과 전공과목별 필요성에 대한 인식을 조사·분석함으로써 문헌정보학의 교육과정의 발전방향을 제시하고자 하였다. 이를 위해 전국 문헌정보학과의 교육과정을 전수 조사하였고, 조사된 교과목을 기반으로 필수·선택과목에 대한 의견을 전체 문헌정보학과 교수들을 대상으로 설문조사를 하였다. 그 결과 첫째, 문헌정보학 총 개설과목 수는 최근 감소한 것으로 나타났다. 필수과목과 기초과목의 비중이 축소되고 선택과목의 비중이 늘어난 것을 확인할 수 있었다. 둘째, 정보학은 중요성과 비중이 지속적으로 증가하고 있으며 빅데이터 및 프로그램밍, 데이터 분석 등 새로운 과목의 신설 요구가 높은 것을 알 수 있었다. 셋째, 도서관·정보센터 경영학은 전체 교과과정에서 차지하는 비중은 다소 감소하고 있었다. 하지만 여전히 기본 영역으로 중시되고 있으며, 세부과목의 증설·심화에 대한 필요성은 높게 인식되고 있었다. 넷째, 서지학은 점차 비중이 축소되는 것으로 조사되었다. 다섯째, 기록관리학은 전공필수 과목은 아니지만 선택과목으로서 비중이 증가하는 반면, 어학 과목은 필요성에 대한 인식이 거의 사라진 것으로 나타났다.

문헌정보학분야 해외 연구 동향 및 유망 주제 분석 연구 (Research on Overseas Trends and Emerging Topics in Field of Library and Information Science)

  • 구본진;장덕현
    • 한국문헌정보학회지
    • /
    • 제57권3호
    • /
    • pp.71-96
    • /
    • 2023
  • 이 연구는 문헌정보학 분야의 연구 동향 분석을 통해 문헌정보학의 핵심 연구 영역을 파악하고 향후 유망 연구 주제로 부상할 가능성이 있는 주제를 식별하고자 하였다. 이를 위해 문헌정보학 분야의 국외 학술지 5종을 대상으로 지난 30년간 (1993~2022)의 학술논문 11,252건에서 40,897개의 저자 키워드를 수집하였으며, 저자 키워드를 활용한 키워드 분석을 통해 문헌정보학 분야의 핵심 연구 영역을 파악하였다. 이어서 논문수, 저자수, 공저논문 비율, 피인용 수를 활용하여 주성분분석과 상관관계분석을 통해 문헌정보학 분야의 미래 유망 연구 주제를 도출하였다. 분석 결과, 향후 문헌정보학 분야의 유망 연구 주제는 '머신러닝/알고리즘'과 '연구 영향력'이었으며, 이외에도 소셜미디어와 빅데이터분석, 자연어 처리, 연구 트렌드 분석, 연구성과 평가 등이 향후 주요한 연구주제로 성장할 가능성이 있는 것으로 나타났다.

TF-IDF와 Naïve Bayes 분류기를 활용한 문서 분류 기법 (Text Document Classification Scheme using TF-IDF and Naïve Bayes Classifier)

  • 유종열;현상현;양동민
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2015년도 추계학술대회
    • /
    • pp.242-245
    • /
    • 2015
  • 최근 디지털 경제의 확산으로 대규모의 데이터들이 생성되는 빅데이터 시대가 도래하고 있다. 이러한 빅데이터에서 비정형 데이터 중에서 기술문서, 기밀문서, 허위정보문서 등 유출 시 심각한 문제가 발생하는 텍스트 문서들이 존재한다. 이러한 문제를 방지하기 위해 비정형 텍스트 문서를 분류하고 처리하는 기술의 필요성이 크게 증가하고 있다. 본 논문에서는 TF-IDF와 $Na{\ddot{i}}ve$ Bayes 문서 분류 기법을 이용하여 비정형 텍스트 문서들을 정확하게 분류하는 기법을 제안한다. 제안된 기법의 성능평가를 위해서 파이썬 라이브러리의 TF-IDF와 $Na{\ddot{i}}ve$ Bayes 분류 기능을 활용하여 문서 분류기를 구현한다.

  • PDF

국내 데이터사이언스 학위 및 교과 운영 현황과 문헌정보학과로의 함의 (Data Science Degree and Curriculum in Korea and its Implications for the Information Field)

  • 박형주;이희진
    • 한국도서관정보학회지
    • /
    • 제53권3호
    • /
    • pp.431-454
    • /
    • 2022
  • 본 연구의 목적은 국내 대학에서 수여하는 데이터사이언스 학위 및 교과 운영 현황과 국내외 정보대학의 데이터사이언스 교과 운영 현황을 이해함으로써, 국내 문헌정보학과의 데이터사이언스 교과 운영에 대한 함의를 살펴보는 것이다. 데이터 수집의 대상은 2022년 한국교육개발원에서 공개한 국내 439개 학교의 데이터사이언스 학위였다. 분석의 대상은 데이터사이언스 학위를 운영하는 국내의 대학교, 단과대학, 학부, 학과, 세부 전공, 연계전공, 융합전공, 마이크로 학위, 나노 학위, 트랙, 모듈, 산학협동 과정 등이었다. 교과 분석을 위해서 국내 데이터사이언스 학위 과정에 개설된 1,148개의 교과 명을 분석했다. 국내 문헌정보학과 학사 과정의 1,325개의 교과 명을 분석해서 국내 문헌정보학과의 데이터사이언스 교과 운영 현황을 확인했다. 국내의 데이터사이언스 학위는 개론, 기술, 실습, 응용, 심화 교과 등 데이터사이언스 교과를 골고루 개설하고 있었다. 국내 문헌정보학과는 데이터사이언스와 관련된 교과 개설에 적극적이지 않았으나, 개설한 경우에는 데이터사이언스 개론, 데이터베이스, 데이터시각화, 데이터큐레이션, 메타데이터, 빅데이터, 정보 기술 교과가 개설되어 있었다. 본 연구의 결과는 문헌정보학의 관점에서 데이터사이언스 학위 과정, 세부 전공, 연계전공, 융합전공, 마이크로 학위, 나노 학위, 연계 트랙, 모듈, 산학협동과정 등의 교과의 개발 및 개정에 필요한 논의의 기초 자료로 활용되기를 기대한다.

디지털 리포지터리의 지속가능한 협력 모델로서 하티트러스트 사례 연구 (A Case Study on HathiTrust as a Sustainable Cooperative Model of Digital Repositories)

  • 이유경;성윤아;정영미
    • 한국도서관정보학회지
    • /
    • 제47권4호
    • /
    • pp.443-464
    • /
    • 2016
  • 세계의 많은 기관들은 학술 정보 유통을 위해 디지털 리포지터리들을 구축해왔다. 동시에 디지털 리포지터리들은 증가하는 디지털 자원을 어떻게 장기적으로 보존하고 지속가능한 정보 환경 구축할 것인가의 문제에 직면해 있다. 하티트러스트(HathiTrust) 파트너십은 미국 연구도서관들의 디지털 리포지터리의 지속가능한 협력 모델의 필요성에 의해 시작하여 전 세계의 리포지터리들과의 체결을 통해 점차 확장되고 있다. 이에 본 연구에서는 하티트러스트의 설립배경부터 구축, 운영 및 정책, 현황 및 이용 서비스에 이르는 전반적인 사례와 실질적인 운영 과정 등을 다루었고 또한 하티트러스트의 효과와 앞으로 기대되는 가능성 등을 파트너십 단위 기관의 시각에서 다루고자 하였다. 하티트러스트를 통해 파트너십 기관들은 효과적인 운영 비용, 디지털 콘텐츠의 공동 관리 및 장기 보존, 저작권 관리의 용이성, 접근성 확대 등의 특장점이 있으며, 향후에는 인쇄물의 공동보존서고 운영, 빅데이터 분석 토대 마련 등의 기회를 제공할 것으로 기대된다.

Twitter Crawling System

  • Ganiev, Saydiolim;Nasridinov, Aziz;Byun, Jeong-Yong
    • Journal of Multimedia Information System
    • /
    • 제2권3호
    • /
    • pp.287-294
    • /
    • 2015
  • We are living in epoch of information when Internet touches all aspects of our lives. Therefore, it provides a plenty of services each of which benefits people in different ways. Electronic Mail (E-mail), File Transfer Protocol (FTP), Voice/Video Communication, Search Engines are bright examples of Internet services. Between them Social Network Services (SNS) continuously gain its popularity over the past years. Most popular SNSs like Facebook, Weibo and Twitter generate millions of data every minute. Twitter is one of SNS which allows its users post short instant messages. They, 100 million, posted 340 million tweets per day (2012)[1]. Often big amount of data contains lots of noisy data which can be defined as uninteresting and unclassifiable data. However, researchers can take advantage of such huge information in order to analyze and extract meaningful and interesting features. The way to collect SNS data as well as tweets is handled by crawlers. Twitter crawler has recently emerged as a great tool to crawl Twitter data as well as tweets. In this project, we develop Twitter Crawler system which enables us to extract Twitter data. We implemented our system in Java language along with MySQL. We use Twitter4J which is a java library for communicating with Twitter API. The application, first, connects to Twitter API, then retrieves tweets, and stores them into database. We also develop crawling strategies to efficiently extract tweets in terms of time and amount.

웹 크롤링을 통한 개인 맞춤형 정보제공 애플리케이션 (Information-providing Application Based on Web Crawling)

  • 김주현;최정은;신우경;박민준;김태국
    • 사물인터넷융복합논문지
    • /
    • 제10권1호
    • /
    • pp.21-27
    • /
    • 2024
  • 본 논문에서는 필터링(Filtering)과 웹 크롤링(Web Crawling) 기술을 이용하여 개인 맞춤형 실시간 정보제공 애플리케이션을 구현하였다. 구현한 애플리케이션은 사용자가 설정한 키워드를 웹페이지 내에서 사용자가 선택한 키워드를 기준으로 Jsoup 라이브러리를 통해 웹 크롤링을 수행하고, MySQL 데이터베이스에 저장한다. 저장한 데이터는 Flutter를 이용해 구현한 애플리케이션으로 사용자에게 제공한다. 또한 FCM(Firebase Cloud Messaging)을 이용하여 모바일 푸시 알람을 제공한다. 이를 통해 사용자는 원하는 정보를 빠르고 효율적으로 얻을 수 있다. 또한 빅데이터가 생성되는 사물인터넷(Internet of things)에도 적용하여 사용자에게 필요한 정보만 제공할 수 있을 것으로 기대한다.