• 제목/요약/키워드: Bigdata analysis

검색결과 345건 처리시간 0.023초

의료기관 종류별 자동차보험 환자의 진료비 성향 분석 (Analysis of the propensity of medical expenses for auto insurance patients by type of medical institution)

  • 하오현
    • 융합정보논문지
    • /
    • 제12권2호
    • /
    • pp.184-191
    • /
    • 2022
  • 본 연구는 자동차보험 이용환자들의 효율적 관리방안을 모색하는데 필요한 기초정보를 제공하고자 보건의료빅데이터개방시스템에 등록된 2016년부터 2020년까지 5개년 자동차보험 진료비 심사자료를 대상으로 분석하였다. 분석결과, 자동차보험 입원진료비 내역 구성비율 1순위는 상급종합병원은 처치 및 수술료, 종합병원·병원·의원은 입원료, 한방의료기관(한방병원, 한의원)은 처치 및 수술료, 치과병원은 처치 및 수술료 이었다. 외래진료비 내역 구성비율 1순위는 양방의료기관(상급종합병원, 종합병원, 병원, 의원)은 진찰료, 한방의료기관(한방병원, 한의원)과 치과의료기관(치과병원, 치과의원)은 처치 및 수술료 이었다. 자동차보험 입원 건당 진료비에는 투약료, 마취료, 특수장비 비율이 영향요인이었으며, 외래 건당 진료비에는 이학요법료 비율이 영향요인으로 확인되었다.

서울특별시 자전거 안전사고 예방을 위한 자전거 도로 최적 입지 선정: 자전거 전용도로 및 전용차로를 중심으로 (Selecting Optimal Locations for Bicycle Lanes to Prevent Accidents in Seoul)

  • 김지은;남수민;이준기
    • 한국빅데이터학회지
    • /
    • 제8권2호
    • /
    • pp.45-54
    • /
    • 2023
  • 2015년 도입된 서울시 공공자전거 '따릉이'는 2022년 연간 이용자 수 4000만 명을 달성하였다. 개인형 이동장치의 일종인 '전동 킥보드' 또한 각종 공유 서비스의 증가로 2020년 이용자 수 100만 명을 돌파하였다. 다만, 이 새로운 교통수단의 주요 통행로인 자전거 도로는 타 교통수단에 비해 도로가 턱없이 부족한 실정이다. 따라서 본 연구에서는 서울시 자전거 안전사고 예방을 위한 자전거 도로 최적 입지 선정 방안을 제안하였다. 입지선정 시 도로 교통의 안전성에 주목하여 자전거 사고 위험도를 반영하고자 하였다. 이에 회귀모델을 통해 자전거 교통사고가 발생할 위험이 높은 지역을 선별하였다. 해당 지역을 클러스터링 분석을 통해 6개의 군집으로 분류하였으며 군집별 변수의 특징을 기반으로 적합한 자전거 도로의 유형을 제안하였다. 본 연구를 통해 서울시의 자전거 전용 도로 및 전용차로의 확충을 비롯한 교통 환경이 개선되기를 기대한다.

교통 빅데이터의 효율적 저장 및 검색 기술의 설계와 구현 (Design and Implementation of Efficient Storage and Retrieval Technology of Traffic Big Data)

  • 김기수;이재진;김홍회;장유림;함유근
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.207-220
    • /
    • 2019
  • 최근 정보통신기술의 발달은 센서를 바탕으로 수많은 데이터를 구축하고 이를 이용하여 실시간 서비스를 제공할 수 있게 한다. 교통안전공단에서는 디지털 운행기록계를 통해 전국의 상용차의 운행 정보를 수집하고 있다. 전국 상용자의 운행 정보는 교통 분야에서 다방면으로 활용이 가능하다. 그 중 특히 자율주행 분야에서는 실시간으로 운행정보를 분석하여 위험 운전에 대응을 하거나 방지하는데 도움을 줄 수 있다. 그러나 전통적인 데이터베이스 시스템을 이용하여 대용량의 데이터를 실시간 서비스에 적합한 수준의 성능으로 처리하는 데는 한계가 존재한다. 특히 국내에서는 이와 같은 기술적인 문제로 상용차 운행정보의 실시간 분석을 위한 대규모 교통 빅데이터의 처리가 이전에 시도된 적이 없다. 이런 문제를 해결하기 위해 본 연구에서는 새로운 방식의 데이터베이스 서버 시스템 최적화를 진행하였고 실시간 서비스가 가능한 수준임을 확인하였다. 구축된 데이터베이스 시스템을 이용하여 디지털 트윈, 자율주행환경을 마련하기 위한 기반 데이터를 확보할 수 있을 것으로 기대된다.

  • PDF

양방향 장단기 메모리 신경망을 이용한 욕설 검출 (Abusive Detection Using Bidirectional Long Short-Term Memory Networks)

  • 나인섭;이신우;이재학;고진광
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.35-45
    • /
    • 2019
  • 욕설과 비속어를 포함한 악성 댓글에 대한 피해는 최근 언론에 나오는 연애인의 자살뿐만 아니라 사회 전반에서 다양한 형태로 증가하고 있다. 이 논문에서는 양방향 장단기 메모리 신경망 모델을 이용하여 욕설을 검출하는 기법을 제시하였다. 웹 크룰러를 통해 웹상의 댓글을 수집하고, 영어나 특수문자 등의 사용하지 않은 글에 대해 불용어 처리를 하였다. 불용어 처리된 댓글에 대해 문장의 전·후 관계를 고려한 양방향 장단기 메모리 신경망 모델을 적용하여 욕설 여부를 판단하고 검출하였다. 양방향 장단기 메모리 신경망을 사용하기 위해 검출된 댓글에 대해 형태소 분석과 벡터화 과정을 거쳤으며 각 단어들에 욕설 해당 여부를 라벨링하여 진행하였다. 실험 결과 정제하고 수집된 총 9,288개의 댓글에 대해 88.79%의 성능을 나타내었다.

  • PDF

맵리듀스를 이용한 그리드 기반 인덱스 생성 및 k-NN 조인 질의 처리 알고리즘 (Grid-based Index Generation and k-nearest-neighbor Join Query-processing Algorithm using MapReduce)

  • 장미영;장재우
    • 정보과학회 논문지
    • /
    • 제42권11호
    • /
    • pp.1303-1313
    • /
    • 2015
  • 맵리듀스는 대용량 데이터 처리를 위한 시스템 안정성과 유용성을 제공한다. 맵리듀스 기반 k-최근접점 조인 질의처리 알고리즘은 두 데이터 집합 R과 S를 기반으로 R의 모든 레코드에 대해 S의 데이터 중 가장 인접한 k개의 레코드를 탐색하는 알고리즘으로써, 대용량 데이터 분석을 위한 중요한 질의 처리 알고리즘이다. 그러나 기존 k-최근접점 조인 질의처리 알고리즘은 높은 인덱스 구축비용 문제로 인해 대용량 데이터 처리에 적합하지 않은 문제점을 지닌다. 따라서, 본 논문에서는 그리드 기반 인덱스 생성 및 k-최근접점 질의 처리 알고리즘을 제안한다. 제안하는 기법은 질의 셀로부터 인접한 데이터만을 찾아 맵리듀스 테스크에 전송함으로써 데이터 전송 및 k-최근접점 연산 오버헤드를 줄인다. 성능평가를 통해, 제안하는 기법이 정확 매칭 질의를 제공하는 동시에 기존 기법에 비해 질의 처리 시간 측면에서 최대 7배의 성능을 개선함을 보인다.

페이스북 마케팅 활용 방안에 대한 연구: 페이스북 '좋아요' 기능과 인구통계학적 정보 추출 (The Study of Facebook Marketing Application Method: Facebook 'Likes' Feature and Predicting Demographic Information)

  • 유성종;안세은;이준기
    • 한국빅데이터학회지
    • /
    • 제1권1호
    • /
    • pp.61-66
    • /
    • 2016
  • 최근 기업들이 빅데이터를 활용하여 효과적인 마케팅 전략을 전개함에 있어서, 고객의 세부정보를 기반으로 하는 개인화된 마케팅 전략을 활용하고 있다. 하지만 프라이버시 및 개인정보 유출위협이 커짐에 따라 소셜 네트워크 사이트(Social Network Site, 이하 SNS)에서 계정의 개인정보 항목을 삭제하거나 정보공개수준을 통제하는 경향이 높아지고 있다. 이로인해 기업의 마케팅 담당자들은 고객의 세부정보를 파악하는 것에 어려움을 겪고 있다. 본 연구에서는 SNS 중에서 가장 많은 회원 수를 보유하고 있는 Facebook에서 제한된 정보를 바탕으로 성별을 예측하는 분석방법론을 도출하고자 하였다. 본 연구에는 측정도구로 Gaussian RBF, nFactors, randomForest, 그리고 5-fold cross-validation 사용하였다. 그 결과, 성별은 75%, 연령대는 97.85%로 '좋아요' 정보만을 가지고 성별과 연령을 예측할 수 있었다. 즉, 사용자들의 어떠한 세부정보 없이, Facebook의 '좋아요'의 정보를 가지고 인구통계학적인 정보를 추론할 수 있었다. 본 연구의 결과를 바탕으로 개인정보 수집에 어려움을 겪고 있는 기업 및 마케팅 담당자들에게 유용한 가이드 라인을 제시 할 수 있을 것으로 기대한다.

  • PDF

탐색적 자료 분석(EDA) 기법을 활용한 국내 11개 대표 온라인 쇼핑몰 BEST 100 비교 (Comparison of Online Shopping Mall BEST 100 using Exploratory Data Analysis)

  • 강지천;강주영
    • 한국빅데이터학회지
    • /
    • 제3권1호
    • /
    • pp.1-12
    • /
    • 2018
  • 초기 온라인 쇼핑몰이 등장할 때부터 지금까지 BEST 100은 모든 쇼핑몰 웹사이트의 핵심 기능으로 제공되고 있다. BEST 100은 소비자들이 한눈에 인기 상품들을 확인할 수 있기 때문에 쇼핑몰의 매출 등에 미치는 영향이 높지만 온라인 쇼핑 선행 연구에서 BEST 100과 관련된 연구는 거의 이루어지지 않고 있다. 따라서 본 연구에서는 현 온라인 쇼핑몰 11곳을 대상으로 선정하여 쇼핑몰별 판매 특징을 분석하였다. 연구 방법으로 각 쇼핑몰 웹 사이트의 BEST 100의 구성요소인 판매문구, 가격, 무료배송의 유/무 확인을 크롤링 하여 탐색적 자료 분석 기법(EDA)을 활용하였다. 분석 결과 쇼핑몰 11곳의 종합 평균 가격은 72,891.41원으로 나타났으며 상품 가격이 저렴할수록 무료배송 비율이 낮음을 확인하였다. 가격 이외에 판매문구에서는 텍스트 마이닝을 통해 8개의 카테고리로 구분하였다. 가장 많은 카테고리는 fashion 부분이었으나 카테고리의 설정이 제품 속성이 아닌 마케팅 문구를 분석한 점에 의의가 있다. 본 연구는 EDA를 활용하여 현 온라인 시장 흐름을 파악하고 향후 방향을 제시하는데 시사점이 있다.

한, 미, 일 웹툰 분석을 통한 구독자 선호 요인 탐색 : 네이버 웹툰을 중심으로 (A Study on Subscriber's Preference Factors through Korea, United States and Japan Webtoon Data Analysis : With Naver Webtoon)

  • 도상범;강주영
    • 한국빅데이터학회지
    • /
    • 제3권1호
    • /
    • pp.21-32
    • /
    • 2018
  • 현재 국내에서 서비스되고 있는 웹툰은 네이버, 다음 등 포탈을 중심으로 매우 빠른 성장을 보이고 있으며, 잠재적 시장성이 매우 높은 산업으로 촉망받고 있다. 웹툰의 특성 가장 두드러지는 특징은 다양한 요구를 가진 고객층을 대상으로 서비스를 제공할 수 있는 것이다. 이 때문에 국내뿐만 아니라 해외에서도 웹툰산업을 긍정적으로 판단하고 관련 산업 시장을 확충하고 있다. 이러한 현실은 국내 웹툰 작가 및 사업자로 하여금 웹툰을 기존의 k-pop이나 드라마 중심의 한류 컨텐츠와 더불어 새로운 한류 컨텐츠로 수출할 수 있는 기회를 제공한다. 성공적인 시장진출을 위해서는 수출 대상 국가의 소비자층에 대한 면밀한 분석이 요구된다. 본 논문에서는 네이버 웹툰에서 수집한 데이터의 분석을 통해 각 국가에서 서비스되는 웹툰과 해당 웹툰을 구독하는 소비자층에 대한 특성을 도출해보았다. 이를 통해 국가별로 웹툰 구독자의 선호도에 영향을 미치는 요소들을 빠르게 파악할 수 있을 것이다.

양방향 LSTM을 적용한 단어의미 중의성 해소 감정분석 (Emotion Analysis Using a Bidirectional LSTM for Word Sense Disambiguation)

  • 기호연;신경식
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.197-208
    • /
    • 2020
  • 어휘적 중의성이란 동음이의어, 다의어와 같이 단어를 2개 이상의 의미로 해석할 수 있는 경우를 의미하며, 감정을 나타내는 어휘에서도 어휘적 중의성을 띄는 경우가 다수 존재한다. 이러한 어휘들은 인간의 심리를 투영한다는 점에서 구체적이고, 풍부한 맥락을 전달하는 특징이 있다. 본 연구에서는 양방향 LSTM을 적용하여 중의성을 해소한 감정 분류 모델을 제안한다. 주변 문맥의 정보를 충분히 반영한다면, 어휘적 중의성 문제를 해결하고, 문장이 나타내려는 감정을 하나로 압축할 수 있다는 가정을 기반으로 한다. 양방향 LSTM은 문맥 정보를 필요로 하는 자연어 처리 연구 분야에서 자주 활용되는 알고리즘으로 본 연구에서도 문맥을 학습하기 위해 활용하고자 한다. GloVe 임베딩을 본 연구 모델의 임베딩 층으로 사용했으며, LSTM, RNN 알고리즘을 적용한 모델과 비교하여 본 연구 모델의 성능을 확인하였다. 이러한 프레임워크는 SNS 사용자들의 감정을 소비 욕구로 연결시킬 수 있는 마케팅 등 다양한 분야에 기여할 수 있을 것이다.

빅데이터 분석을 통한 익산의 도시 이미지 자산 비교 연구 (Comparative research on urban image assets of Iksan by analysing bigdata)

  • 양지유
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권2호
    • /
    • pp.385-392
    • /
    • 2018
  • 익산시는 전국의 0.51%, 전북의 6.3%에 달하는 중소 도시이다. 1읍 14면 14동의 행정구역을 가지고 있으며 자연산업의 특화 잠재력과 개발 사업에 유리한 자연환경을 가지고 있다. 또한 미륵사지를 포함한 다양한 역사문화자원을 가지고 있고 KTX 호남선 개통과 함께 고속철도 및 고속도로 등 교통기반이 우수한 인프라를 구축하고 있다. 그러나 인접 시 군과의 유기적인 연계성이 미약하고 인접지역의 대규모 개발, 특히 전주와 군산을 중심으로 한 지역 개발로 인적, 물적 유출이 우려된다. 이에 본 고에서는 SNS와 웹사이트에서 추출한 빅데이터 분석을 통해 익산이 보유하고 있는 도시 이미지 자산을 '익산역' 및 'ktx'를 키워드로 하여 분류해 보고 교통물류중심도시로서의 가능성을 알아보고자 한다. KTX 호남선 정차역 중 역세권을 중심으로 유사한 지역적 특성으로 개발이 이루어지고 있는 광주송정과 비교를 진행하였으며 이를 통해 향후 익산시의 도시 이미지 개선 및 수립방향의 기틀을 마련하고자 하였다.