• 제목/요약/키워드: Big data analytics

검색결과 287건 처리시간 0.028초

A New Latent Class Model for Analysis of Purchasing and Browsing Histories on EC Sites

  • Goto, Masayuki;Mikawa, Kenta;Hirasawa, Shigeichi;Kobayashi, Manabu;Suko, Tota;Horii, Shunsuke
    • Industrial Engineering and Management Systems
    • /
    • 제14권4호
    • /
    • pp.335-346
    • /
    • 2015
  • The electronic commerce site (EC site) has become an important marketing channel where consumers can purchase many kinds of products; their access logs, including purchase records and browsing histories, are saved in the EC sites' databases. These log data can be utilized for the purpose of web marketing. The customers who purchase many product items are good customers, whereas the other customers, who do not purchase many items, must not be good customers even if they browse many items. If the attributes of good customers and those of other customers are clarified, such information is valuable as input for making a new marketing strategy. Regarding the product items, the characteristics of good items that are bought by many users are valuable information. It is necessary to construct a method to efficiently analyze such characteristics. This paper proposes a new latent class model to analyze both purchasing and browsing histories to make latent item and user clusters. By applying the proposal, an example of data analysis on an EC site is demonstrated. Through the clusters obtained by the proposed latent class model and the classification rule by the decision tree model, new findings are extracted from the data of purchasing and browsing histories.

RNA 시퀀싱 기법으로 생성된 빅데이터 분석 (Big Data Analytics in RNA-sequencing)

  • 우성훈;정병출
    • 대한임상검사과학회지
    • /
    • 제55권4호
    • /
    • pp.235-243
    • /
    • 2023
  • 차세대 염기서열 분석이 개발되고 널리 사용됨에 따라 RNA-시퀀싱(RNA-sequencing, RNA-seq)이 글로벌 전사체 프로파일링을 검증하기 위한 도구의 첫번째 선택으로 급부상하게 되었다. RNA-seq의 상당한 발전으로 다양한 유형의 RNA-seq가 생물정보학(bioinformatics) 발전과 함께 진화했으나, 다양한 RNA-seq 기법 및 생물정보학에 대한 전반적인 이해 없이는 RNA-seq의 복잡한 데이터를 해석하여 생물학적 의미를 도출하기는 어렵다. 이와 관련하여 본 리뷰에서는 RNA-seq의 두 가지 주요 섹션을 논의하고 있다. 첫째, Standard RNA-seq과 주요하게 자주 사용되는 두 가지 RNA-seq variant method를 비교하였다. 이 비교는 어떤 RNA-seq 방법이 연구 목적에 가장 적절한지에 대한 시사점을 제공한다. 둘째, 가장 널리 사용되는 RNA-seq에서 생성된 데이터 분석; (1) 탐색적 자료 분석 및 (2) enriched pathway 분석에 대해 논의하였다. 데이터 세트의 전반적인 추세를 제공할 수 있는 주 성분 분석, Heatmap 및 Volcano plot과 같이 RNA-seq에 대해 가장 널리 사용되는 탐색적 자료 분석을 소개하였다. Enriched pathway 분석 섹션에서는 3가지 세대의 enriched pathway 분석에 대해 소개하고 각 세대가 어떤 식으로 RNA-seq 데이터 세트로부터 enriched pathway를 도출하는지를 소개하였다.

E-커머스 사용자의 평점과 리뷰 유용성이 상품 추천 시스템의 성능 향상에 미치는 영향 분석 (Analysis of the Effects of E-commerce User Ratings and Review Helfulness on Performance Improvement of Product Recommender System)

  • ;이병현;최일영;정재호;김재경
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.311-328
    • /
    • 2022
  • 정보통신기술 발달로 스마트폰이 보급되면서, 온라인 쇼핑몰 서비스는 컴퓨터가 아닌 모바일로도 사용이 가능해졌다. 그로 인해 온라인 쇼핑몰 서비스를 이용하는 사용자는 급격히 증가하게 되고, 거래되는 제품의 종류 또한 방대해지고 있다. 따라서 기업은 이익을 최대화하기 위해서는 사용자가 관심을 가질만한 정보를 제공해주는 것이 중요하다. 이를 위해 사용자의 과거 행동 데이터나 행동 구매 기록을 기반으로 사용자에게 필요한 정보 또는 제품을 제시하는 것을 추천 시스템이라 한다. 현재 추천 서비스를 제공하는 대표적인 해외 기업으로는 Netflix, Amazon, YouTube 등이 있다. 최근 이러한 전자상거래 사이트에서는 사용자가 해당 제품에 대한 리뷰가 유용한지에 대해 투표할 수 있는 기능을 제공하고 있다. 이를 통해, 사용자는 유용하다고 판단되는 제품에 대한 리뷰와 평점을 참고하여 구매 의사결정을 내린다. 따라서 본 연구에서는 제품에 대한 평점과 리뷰의 유용성 정보 간의 상관관계를 파악하고, 리뷰의 유용성 정보를 추천 시스템에 반영하여 추천 성능을 확인하고자 한다. 또한 대부분의 사용자들은 만족한 제품에만 평점을 부여하는 경향이 있고 제품에 대한 평점이 높을수록 구매 의도가 높아지는 경향이 있다. 따라서 전통적인 협업 필터링 기법에 모든 평점을 반영한 결과와 4점과 5점 평점만을 반영한 추천 성능 결과를 비교하고자 한다. 이를 위해 본 연구에서는 Amazon에서 수집한 전자 제품 데이터를 사용하였으며, 실험 결과는 평점과 리뷰 유용성 정보 간 상관관계가 있는 것으로 확인되었다. 또한 모든 평점과 4점과 5점 평점만을 추천 시스템에 반영하여 추천 성능을 비교한 결과, 4점과 5점 평점만을 추천 시스템에 반영한 결과의 추천 성능이 더 높게 나타났다. 그리고 리뷰 유용성 정보를 추천 시스템에 반영한 결과는 리뷰가 유용할수록 추천 성능은 높게 나타나는 것으로 확인하였다. 따라서 이러한 실험 결과는 향후 개인화 추천 서비스의 성능 향상에 기여하고, 전자상거래 사이트에 시사점을 제공할 수 있을 것으로 본다.

빅데이터 기반 대학도서관 웹사이트 이용행태에 관한 연구: C대학교 도서관을 중심으로 (A Study on User Behavior of University Library Website based Big Data: Focusing on the Library of C University)

  • 이선우;장우권
    • 정보관리학회지
    • /
    • 제36권3호
    • /
    • pp.149-174
    • /
    • 2019
  • 이 연구는 대학도서관의 웹사이트 실제 이용 데이터를 분석하여 이용자들의 이용행태를 분석하고, 웹사이트의 개선방안을 제안하는데 있다. 이 연구에서는 2018년 1월부터 2018년 12월까지 C대학교 웹사이트에서 이루어진 이용자들의 트래픽을 분석하여 이용행태를 분석하였다. 웹사이트의 분석 툴로는 '구글 애널리틱스'를 활용하였다. 웹 트래픽 변수는 세션, 사용자, 페이지뷰 수, 세션당 페이지수, 평균 세션 시간, 이탈률을 측정지표를 기준으로 이용자 일반적 특성, 사용자환경 분석, 방문 분석, 유입분석, 사이트 분석 5가지로 구분지어 분석하였다. 그 결과, 1) 이용자 일반적 특성을 분석 결과에서 웹사이트 접속 위치가 대한민국뿐만 아니라 중국에서도 일부 접속이 있었다. 2) 사용자 환경 분석에서는 주 이용 브라우저 유형은 인터넷 익스플로러로 나타났다. 다음 순위는 크롬이었으며, 3위와 4위인 Safari로 이탈률이 익스클로러나 크롬의 두 배에 달했다. 화면 해상도에서는 1920x1080 해상도가 가장 많은 비율을 차지하였으며 그 외에도 다양한 환경에서 접속하는 것으로 나타났다. 3) 유입 매체 분석에서는 직접 유입이 가장 높게 나타났다. 4) 사이트 분석에서는 총 페이지뷰 수인 4,534,084 페이지 중 최다 페이지뷰를 차지한 페이지는 메인페이지 다음으로 대출/연장/이력/예약 페이지, 학술DB 페이지, 소장자료 페이지 순으로 나타났다.

텍스트 문서 분류에서 범주간 유사도와 계층적 분류 방법의 성과 관계 연구 (A Study on the Relationship between Class Similarity and the Performance of Hierarchical Classification Method in a Text Document Classification Problem)

  • 장수정;민대기
    • 한국전자거래학회지
    • /
    • 제25권3호
    • /
    • pp.77-93
    • /
    • 2020
  • 비정형 텍스트 문서를 다중 범주로 분류하는 문제에 있어서, 계층적 분류 방법이 비계층적 분류 방법에 비하여 분류 성능이 우수한 것으로 알려져 있다. 기존 문헌과 다르게 본 연구에서는 사전에 범주들의 계층 구조가 정의된 상황에서 계층적 분류 방법과 비계층적 분류 방법의 성능을 비교하였다. 수자원 분야 기후변화 적응기술과 관련한 논문 분류 데이터와 20NewsGroup 오픈 데이터를 대상으로 계층적/비계층적 분류 방법의 성능을 비교하였다. 본 연구결과 기존 문헌과 다르게 계층적 분류 방법이 비계층적 분류 방법에 비하여 언제나 성능이 우수한 것은 아님을 확인하였다. 계층 구조의 상위/하위 수준에서의 상대적 유사도에 따라서 계층적/비계층적 분류 방법의 성능에 차이가 있음을 확인하였다. 즉, 상위 수준의 유사도가 하위 수준보다 상대적으로 낮은 경우 상위 수준에서의 오분류 감소로 계층적 분류 방법의 성능이 개선됨을 확인하였다.

4차 산업혁명 하에서의 6 시그마 DMAIC 단계별 변화에 대한 전망 (A Future Prospect for Change in each Step of Six Sigma DMAIC under the 4th Industrial Revolution)

  • 권혁무;홍성훈;이민구
    • 품질경영학회지
    • /
    • 제46권1호
    • /
    • pp.1-10
    • /
    • 2018
  • Purpose: This paper provides an idea on the future prospect for change in steps of the six sigma DMAIC project under the environment of the 4th industrial revolution. Methods: First, the purpose and activities required in each step of DMAIC are reviewed. Next, activities are reviewed together with tools and techniques, considering the purpose and the environmental changes of the 4th Industrial Revolution. Finally, the best approaches for achieving the purpose are prospected to get an idea on future change. Results: The purpose of each phase of DMAIC is expected to remain unchanged. But activities, techniques, or methods will be replaced with more effective and efficient ones. Also, many activities may possibly be executed by a system instead of people like BB, GB or team members. Moreover, DMAIC may not be a project any more but a routine job of the system in the future. Conclusion: Under the environment of the 4th industrial revolution, many activities including analyzing various types of data and extracting valuable information, will be executed by a system with proper algorithms instead of people. And six sigma improvement projects may be intrinsic parts of the system and may not exist as separate projects any more.

빅데이터 기반 골목상권 영역설정 방법론 개발 (Development for establishing Big Data-based alley commercial area)

  • 황동현;고경석;박상준;김완수
    • 한국정보전자통신기술학회논문지
    • /
    • 제11권6호
    • /
    • pp.784-792
    • /
    • 2018
  • 본 연구는 골목상권 영역을 실제 점포 중심으로 영역을 구체화하여 대규모 상점들이 밀집한 발달상권, 전통시장 상권을 제외하고 영역을 설계하였다. 뿐만 아니라 지자체 또는 국가가 관리하고 있는 행정통계 및 조사통계 자료인 사업체조사, 상가업소DB 등 실제 데이터를 활용하여 신뢰성과 합리성이 확보될 수 있는 골목상권의 영역설정 방법을 개발했다. 도로명주소의 동일 '길'주소에 해당하는 점포들의 수를 '길'단위 길이 당 점포수로 변환하여 밀도화 하고, 이를 동질성 있게 분류하여 영역을 설정하는 방법으로 설계를 추진하였다. 특히, 분석 결과를 바탕으로 영역을 설정하는 데 있어서 토지 소유권을 구획하는 필지 연결선인 지적선을 활용함으로써 끊임없이 골목 양쪽을 적용하여 구분할 할 수 있도록 하였다. 도출된 골목상권 영역을 밀집도에 따라 5개 그룹으로 분류하였다. 이는 골목상권에 대한 다양한 활용성을 위해 밀집되지 않은 상권부터 밀집된 상권을 구분하여 이용자들은 본인의 관심 상권에 대해 효용적 접근이 가능할 것이라 판단된다.

국민건강영양조사 자료를 활용한 라이프스타일 위험요인과 다중이환간의 연관관계분석 (Assoication Rule Analysis between lifestyle risk behaviors and multimorbidity: Findings from KHANES)

  • 이현주;명성민
    • 한국학교ㆍ지역보건교육학회지
    • /
    • 제25권1호
    • /
    • pp.29-41
    • /
    • 2024
  • 목적: 본 논문에서는 대한민국 성인의 라이프스타일 위험요인과 복합만성질환간의 연관성 규칙을 탐색하여 보건교육프로그램에 필요한 방향성과 기초정보를 제공하는데 목적을 둔다. 방법: 제8기 국민건강영양조사 중 2019년부터 2020년까지 만 19세 이상 성인 7,609명을 대상으로 하였으며, 6개의 라이프스타일 위험요인과 11가지 이환질환에 대하여 R과 R 스튜디오를 이용하여 연관규칙마이닝을 수행하였다. 결과: 본 연구 결과를 통하여 연관규칙마이닝과 같은 데이터마이닝 기법을 통해 생활 습관 위험 요인의 중요성과 여러 만성 질환의 역할을 보여줬다는 점에서 의미가 있다. 결론: 상기 결과를 통하여 신체 활동 부족을 해결하기 위한 운동 프로그램, 부적절한 체중을 해결하기 위한 식이 중재, 부적절한 수면을 해결하기 위한 정신건강 교육프로그램과 같은 선택적이고 집중적인 건강교육 프로그램에 대한 개발의 필요성이 요구된다.

빅데이터와 스몰데이터로 본 선형공원 - 시카고 606 트레일과 서울 경춘선 숲길을 중심으로 - (Using Big Data and Small Data to Understand Linear Parks - Focused on the 606 Trail, USA and Gyeongchun Line Forest, Korea -)

  • 심지수;오창송
    • 한국조경학회지
    • /
    • 제48권5호
    • /
    • pp.28-41
    • /
    • 2020
  • 이 연구는 경관 인식 모델의 세 가지 요소(활동, 물리적 환경, 이용자)를 기본으로 하는 스몰데이터인 설문조사와 빅데이터인 소셜미디어 분석을 통해 문화가 다른 두 지역(미국, 한국)의 선형 공원 두 곳을 분석하고자 한다. 소셜 미디어의 사용이 증가하고 경관을 보는 새로운 매체로 부상했음에도 불구하고, 현재 소셜 미디어를 활용한 공원 연구는 제한적이다. 이에 본 연구는 소셜 미디어 분석과 설문 조사를 동시에 활용해서 비교함으로써 설문 조사가 갖는 한계를 보완함과 동시에 소셜 미디어 분석의 제한점을 보완하고자 한다. 미국 시카고의 606 트레일와 한국 서울의 경춘선 숲길은 버려진 길에 조성된 공원이다. 이 두 곳을 대상으로 총 505부의 설문조사를 시행했고, 그 결과는 통계 분석, 주성분 분석, 회귀 분석을 활용해서 분석하였다. 또한 각 선형 공원을 언급한 트위터를 총 20,000건 이상 수집했다. 이 트위터를 대상으로 군집 분석, 바이그램 네트워크 분석 등을 통해 각 공원이 갖는 장소적 특성 및 물리적 환경을 분석했다. 연구 결과는 공원 디자인이 다양해질수록 행동은 단순화 된다는 것을 발견할 수 있었다. 공원 이용자들의 절반은 선형 공원을 최종 목적지까지 도달하는 지름길로 이용했고, 공원의 특징에 따라 다양한 활동과 혜택을 확인할 수 있었다. 소셜 미디어 분석 결과, 606트레일은 경춘선 숲길 보다 주민들과 더욱 밀접한 관계를 갖고 있다는 것을 확인했다. 또한 경춘선은 606트레일보다 공원 내 이벤트와 연관이 깊음을 발견할 수 있었다.

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.