• 제목/요약/키워드: Network Mining

검색결과 1,036건 처리시간 0.028초

재입원 예측 모형 개발에 관한 연구 (A Study on the Development of Readmission Predictive Model)

  • 조윤정;김유미;함승우;최준영;백설경;강성홍
    • 한국산학기술학회논문지
    • /
    • 제20권4호
    • /
    • pp.435-447
    • /
    • 2019
  • 불필요한 재입원을 예방하기 위해서는 재입원 확률이 높은 집단을 집중적으로 관리할 필요가 있다. 이를 위해서는 재입원 예측모형의 개발이 필요하다. 재원예측 모형을 개발하기 위해 1개 대학병원의 2016년에서 2017년의 2년간의 퇴원요약환자 데이터를 수집하였다. 이때 재입원 환자는 연구 기간 내에 2번 이상 퇴원한 환자라 정의 하였다. 재입원환자의 특성을 파악하기 위해 기술통계와 교착분석을 실시하였다. 재입원 예측 모형개발은 데이터마이닝 기법인 로지스틱회귀모형, 신경망, 의사결정모형을 이용하였다. 모형평가는 AUC(Area Under Curve)를 이용하였다. 로지스틱회귀모형이 AUC가 0.81로 가장 우수하게 나옴에 따라 본 연구에서는 로지스틱 회귀모형을 최종 재입원 예측 모형으로 선정을 하였다. 로지스틱회귀모형에서 선정된 재입원에 영향을 끼치는 주요한 변수는 성별, 연령, 지역, 주진단군, Charlson 동반질환지수, 퇴원과, 응급실 경유 여부, 수술여부, 재원일수, 총비용, 보험종류 등이었다. 본 연구에서 개발한 모형은 1개병원의 2년치 자료이므로 일반화하기에는 제한점이 있다. 추후에 여러 병원 장기간의 데이터를 수집하여 일반화 할 수 있는 모형을 개발하는 것이 필요하다. 더 나아가 계획에 없던 재입원 까지 예측을 할 수 있는 모형을 개발하는 것이 필요하다.

용어 사전의 특성이 문서 분류 정확도에 미치는 영향 연구 (Analyzing the Effect of Characteristics of Dictionary on the Accuracy of Document Classifiers)

  • 정해강;김남규
    • 경영과정보연구
    • /
    • 제37권4호
    • /
    • pp.41-62
    • /
    • 2018
  • 다양한 소셜 미디어 활동과 인터넷 뉴스 기사, 블로그 등을 통해 유통되는 비정형 데이터의 양이 급증함에 따라 비정형 데이터를 분석하고 활용하기 위한 연구가 활발히 진행되고 있다. 텍스트 분석은 주로 특정 도메인 또는 특정 주제에 대해 수행되므로, 도메인별 용어 사전의 구축과 적용에 대한 중요성이 더욱 강조되고 있다. 용어 사전의 품질은 비정형 데이터 분석 결과의 품질에 직접적인 영향을 미치게 되며, 분석 과정에서 정제의 역할을 수행함으로써 분석의 관점을 정의한다는 측면에서 그 중요성이 더욱 강조된다. 이렇듯 용어 사전의 중요성은 기존의 많은 연구에서도 강조되어 왔으나, 용어 사전이 분석 결과의 품질에 어떤 방식으로 어떤 영향을 미치는지에 대한 엄밀한 분석은 충분히 이루어지지 않았다. 따라서 본 연구에서는 전체 문서에서의 용어 빈도수에 기반을 두어 사전을 구축하는 일괄 구축 방식, 카테고리별 주요 용어를 추출하여 통합하는 용어 통합 방식, 그리고 카테고리별 주요 특질(Feature)을 추출하여 통합하는 특질 통합 방식의 세 가지 방식으로 사전을 구축하고 각 사전의 품질을 비교한다. 품질을 간접적으로 평가하기 위해 각 사전을 적용한 문서 분류의 정확도를 비교하고, 각 사전에 고유율의 개념을 도입하여 정확도의 차이가 나타나는 원인을 심층 분석한다. 본 연구의 실험에서는 5개 카테고리의 뉴스 기사 총 39,800건을 분석하였다. 실험 결과를 심층 분석한 결과 문서 분류의 정확도가 높게 나타나는 사전의 고유율이 높게 나타남을 확인하였으며, 이를 통해 사전의 고유율을 높임으로써 분류의 정확도를 더욱 향상시킬 수 있는 가능성을 발견하였다.

토핑 모델링을 활용한 동해안 관광의 변화 분석 (The Analysis of Changes in East Coast Tourism using Topic Modeling)

  • 정은희
    • 한국정보전자통신기술학회논문지
    • /
    • 제13권6호
    • /
    • pp.489-495
    • /
    • 2020
  • 4차혁명이 진행되고 있는 초연결사회에선 다양한 IT기기를 통해 데이터량이 증가하고 있고, 이렇게 생산된 데이터를 분석하여 새로운 가치를 창출 할 수 있다. 본 연구에서는 빅카인즈에서 2017년부터 2019년까지 중앙지, 경제지, 지역조합지, 주요방송사 등에서 "(동해안 관광 또는 동해안 여행) 그리고 강원도"라는 키워드로 기사를 총 1,526건을 수집하였다. 수집된 1,526건의 기사를 분석하기 위해 R언어로 구현된 LDA 알고리즘을 이용하여 토픽 모델링을 수행하였다. 2017년부터 2019년까지 각각의 년도별 키워드를 추출하고, 각 년도별로 빈도수가 높은 키워드를 분류하여 비교하였다. Log Likelihood와 Perplexity를 이용하여 최적의 토픽 수를 8로 설정한 후, 깁스 샘플링 방법으로 8가지의 토픽을 추론하였다. 추론된 토픽들은 강릉과 해변, 고성과 금강산, KTX와 동해북부선, 주말바다여행, 속초와 통일전망대, 양양과 서핑, 체험관광, 교통망 인프라이다. 추론된 8개의 토픽의 비중을 이용해 동해안 관광에 대한 기사들의 변화를 분석하였다. 그 결과, 통일전망대와 금강산의 비중은 큰 변화가 없는 것으로 나타났고, KTX와 체험관광의 비중은 증가하였고, 그 외의 토픽들의 비중은 2017년에 비해 2018년에 감소하였다. 2019년에는 KTX와 체험관광의 비중은 감소하였으나, 나머지 토픽들의 비중은 큰 변화가 없는 것으로 나타났다.

연결패턴 정보 분석을 통한 온라인 게임 내 불량사용자 그룹 탐지에 관한 연구 (Detecting gold-farmers' group in MMORPG by analyzing connection pattern)

  • 서동남;우지영;우경문;김종권;김휘강
    • 정보보호학회논문지
    • /
    • 제22권3호
    • /
    • pp.585-600
    • /
    • 2012
  • 온라인 게임 산업이 성장함에 따라 온라인 게임 보안 이슈는 증가하고 있다. 특히 게임내의 사이버재화를 현금으로 바꾸는 행위인 현금거래(RMT; Real Money Trade)는 탈세나 돈세탁등과 같은 실물경제의 범죄활동과 연관되면서 국내를 비롯한 여러 나라에서 민감한 문제로 떠오르고 있다. 이러한 현금거래는 작업장이라고 불리는 전문적인 불량사용자 조직에 의해 이루어진다. 온라인 게임 사업자들은 이러한 작업장을 탐지하기 위하여 게임 bot 탐지 알고리즘을 이용해 각각의 bot 사용자를 탐지하고 그들의 계정과 IP 주소를 차단하고 있다. 하지만 게임 bot 탐지 알고리즘은 작업장의 일부분만 탐지가 가능하여 큰 효과를 거두기 어렵고, IP 주소 차단 역시 IP 변조나 가상 사설망 기술을 이용하여 쉽게 우회 가능하다는 문제점을 가진다. 본 논문에서는 온라인게임 서비스를 이용하는 사용자들의 연결패턴 정보에 데이터마이닝 기법을 적용하여, 작업장 그룹 내 불량사용자 군집을 탐지할 수 있는 모델을 제안한다. 제안한 모델을 활용하여 IP 변조나 VPN 기술을 통한 우회접속 역시 탐지할 수 있다. 국내 최대 온라인 게임의 실제 데이터를 샘플로 하여 수행결과를 도출하였고, 본 논문에서 제시한 기법을 이용한 결과를 실제 차단 리스트와 비교하여 본 결과, 효율적으로 작업장을 탐지해 낼 수 있음을 확인할 수 있었다.

코로나 19에 따른 프로야구 무관중 시청품질요인의 중요도, 만족도 분석 (Analysis of the Importance and Satisfaction of Viewing Quality Factors among Non-Audience in Professional Baseball According to Corona 19)

  • 백승헌;김기탁
    • 한국엔터테인먼트산업학회논문지
    • /
    • 제15권2호
    • /
    • pp.123-135
    • /
    • 2021
  • 본 연구의 자료처리는 '코로나 19와 프로야구', '코로나 19와 프로야구 무관중'과 관련된 키워드를 중심으로 텍스톰(textom)프로그램의 텍스트마이닝과 소셜네트워크 분석을 활용해 문제점 도출 및 시청품질의 변인을 설정하는데 활용하였다. 정량적 분석을 위해 시청품질에 관한 설문지를 구성하였으며, 270부의 설문응답자 중 250부의 설문을 최종연구에 사용하였다. 설문지의 타당도와 신뢰도를 확보하기 위한 도구로 탐색적 요인 분석과 신뢰도 분석을 실시하였으며, 타당도와 신뢰도가 확보된 설문을 바탕으로 IPA분석(중요도-만족도)을 실시하여 결과 및 전략을 제시하였다. IPA분석을 실시한 결과 1사분면에 영상과 관련된 요인(영상구성, 영상배색, 영상 선명도, 영상 확대 및 구도, 고음질 영상)이 나타났고 2사분면은 경기상황(응원 팀 경기수준, 응원 선수 경기수준, 스타선수 발굴, 라이벌 팀과의 경기)과 경기정보(경기일정 안내, 선수정보 확인, 팀 성적 및 선수성적, 경기정보), 상호작용(응원팀과의 공감대) 일부의 요인이 나타났으며, 3사분면은 해설자(야구관련 지식, 의사전달 능력, 발음과 목소리, 표준어 사용, 경기관련 정보 소개)와 상호작용(프런트와 실시간 소통, 시청자와의 공감대, 채팅 등의 정보교환)의 요인이 나타났다.

사용성 및 프라이버시 개선을 위한 NFT 플랫폼 연구 (A Study on Non-Fungible Token Platform for Usability and Privacy Improvement)

  • 강명조;김미희
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제11권11호
    • /
    • pp.403-410
    • /
    • 2022
  • 블록체인 기반으로 생성된 NFT는 자신만의 고유한 값을 지녀 위변조가 불가하며 다른 토큰이나 코인과 교환될 수 없다. 이러한 특성을 이용해 이미지나 비디오, 예술작품, 게임 캐릭터 및 아이템 등과 같은 디지털 자산에 NFT를 발행하여 사이버상에 존재하는 수많은 사용자와 객체들 사이에서 디지털 자산의 소유권을 주장할 수 있으며, 동시에 원본 증명도 가능하다. 하지만, 2020년 초기부터 NFT에 관한 관심이 폭발하여 블록체인 네트워크에 많은 부하를 일으켰고, 이에 따라 사용자들은 연산 처리가 늦어지거나 채굴 과정에 매우 큰 수수료가 발생하는 문제점을 겪고 있다. 또한, 사용자들의 모든 행위가 블록체인 장부에 저장되고 디지털 자산은 블록체인 기반 분산 파일 저장 시스템에 저장되어 자신의 신분을 밝히고 싶지 않은 사용자의 개인정보가 불필요하게 노출될 가능성이 있다. 본 논문에서는 클라우드 컴퓨팅과 접근 게이트, 변환 테이블, 클라우드 아이디 등을 활용한 NFT 플랫폼을 제안하여 기존 시스템에서 발생하는 사용성 문제와 프라이버시 문제를 개선할 수 있도록 한다. 로컬시스템과 클라우드 시스템의 성능 비교를 위해 스마트 계약 배포 및 NFT 발행 트랜잭션 연산 처리에 사용된 가스를 측정했다. 그 결과, 클라우드 시스템이 같은 실험 환경 및 파라미터를 사용했음에도 스마트 계약 배포에는 약 3.75%, NFT 생성 트랜잭션 처리에는 약 4.6%의 가스를 절약하는 결과를 도출했고, 이를 통해 클라우드 시스템이 로컬시스템보다 효율적으로 연산을 처리할 수 있음을 확인했다.

빅데이터 분석을 활용한 메타버스 플랫폼 연구 동향 분석 (A Study on Research Trends in Metaverse Platform Using Big Data Analysis)

  • 홍진욱;한정완
    • 디지털융복합연구
    • /
    • 제20권5호
    • /
    • pp.627-635
    • /
    • 2022
  • 본 최근 코로나19로 인해 비대면 상황이 장기간 지속화됨에 따라 사회 전반에 걸쳐 IOT, AR, VR, 빅데이터와 같은 4차 산업 혁명의 기반 기술이 메타버스 플랫폼에 전반적으로 영향을 미치고 있다. 이러한 사회, 문화 등 외부 환경의 변화는 학문의 발전에 영향을 미칠 수 있으며, 변화에 대비하여 기존 성과물을 체계적으로 정리하는 일은 매우 중요하다. 한국 교육학술정보원(RISS)에서 키워드에 '메타버스 플랫폼'을 포함하는 자료를 수집하여 빅데이터 분석 중 하나인 텍스트 마이닝 기법을 사용하였다. 수집된 데이터 자료를 워드 클라우드 빈도 분석, 키워드 간 연결강도, 구조등위성 분석을 하여 메타버스 플랫폼 연구 동향을 살펴보았다. 연구결과 워드 클라우드 분석에서는 '활용', '디지털', '기술', '교육' 순으로 키워드가 나타났다. 키워드 간 연결강도(N-gram) 분석 결과 '에듀→테크'의 연결강도가 가장 높게 나타났으며, 워드 연쇄 군집 수의 총 3개의 군집이 도출되었다. 세부 연구영역은 '디지털 기술'을 포함 다섯 영역으로 분류되었다. 종합적으로 고려했을 때 메타버스 플랫폼 분야의 학문적 연구 주제 범위는 그리 넓지 않았으며, 장기 지향적 관점에서 보다 적극적인 연구 주제의 발굴 및 논의가 필요해 보인다.

심층 신경망을 활용한 진료 기록 문헌에서의 종단형 개체명 및 관계 추출 비교 연구 - 파이프라인 모델과 결합 모델을 중심으로 - (A Comparative Research on End-to-End Clinical Entity and Relation Extraction using Deep Neural Networks: Pipeline vs. Joint Models)

  • 최성필
    • 한국문헌정보학회지
    • /
    • 제57권1호
    • /
    • pp.93-114
    • /
    • 2023
  • 정보추출은 문헌 내에 존재하는 개체명을 인식함과 동시에 이들 간의 의미적 관계까지도 식별하여 최종적으로 문헌 내에 포함된 의미적 트리플을 자동으로 추출하여 활용할 수 있으므로 문헌에 대한 심층적인 분석과 이해에 많은 도움을 줄 수 있다. 그러나 지금까지 대부분의 정보추출에 대한 연구는 개체명 인식과 관계추출이 개별 연구로 각각 분리되어 진행되었으며, 그 결과 입력 문헌에 대한 정보추출의 최종 출력인 의미적 트리플 추출 성능에 대한 객관적이고 정확한 평가가 제대로 이루어지지 않았다. 이에 본 논문에서는 진료 기록 문헌에 나타나는 개체명과 그들 간의 관계를 트리플 형태로 직접 추출할 수 있는 종단형 정보추출의 2가지 모델인 파이프라인 및 결합형 모델을 구축하는 구체적인 방법론을 제시하고 성능 비교 실험을 진행하였다. 우선 파이프라인 모델은 양방향 GRU-CRFs를 활용한 개체명 인식 모듈과 다중 인코딩 기반 관계추출 모듈로 구현되었고, 결합형 모델을 위해서는 다중 헤드 레이블링 기반의 양방향 GRU-CRFs이 적용되었다. 두 가지 시스템을 바탕으로 진료기록 문헌 내의 개체명과 관계를 모두 태깅하여 구축된 i2b2/VA 2010 데이터셋을 활용한 비교 실험에서 파이프라인 모델의 성능이 5.5%(F-measure) 더 높게 나타났다. 추가적으로, 대규모 신경망 언어모델과 수작업으로 구축된 자질 정보를 활용한 최고 수준의 기존 시스템과의 비교 실험을 통해, 본 논문에서 구현한 종단형 모델의 객관적인 성능 수준을 파악할 수 있었다.

빅데이터를 활용한 요양보호사의 서비스질 인식에 관한 연구 (A Study on the Perception of Quality of Care Services by Care Workers using Big Data)

  • 조한아
    • 대한치위생과학회지
    • /
    • 제6권1호
    • /
    • pp.13-25
    • /
    • 2023
  • 연구배경: 본 연구는 비정형 빅데이터를 활용하여 노인장기요양보험의 직접적 서비스 인력인 요양보호사의 서비스질 관리를 확인하고자 수행되었다. 연구방법: 요양보호사의 서비스질과 관련된 소셜 비정형 데이터를 텍스톰을 사용하여 수집·분석하였다. 데이터를 크롤링하여 수집된 상위 50개 키워드들 간의 빈도분석, TF-IDF, 중심성 분석, 의미연결망분석과 CONCOR 분석을 실시하였다. 연구결과: 빈도분석 결과 상위권에 속한 키워드는 '요양서비스' '요양보호사', '서비스질', '요양보호', '장기요양기관', '향상', '어르신', '처우', '개선', '필요' 였으며, 연결중심성과 위세중심성 분석결과도 거의 동일한 순위로 확인되었다. CONCOR 분석결과 4개의 그룹으로, 요양서비스질 개선, 요양서비스 운영, 요양서비스 제도, 요양보호사의 심리적인 부분에 대한 인식이 높은 것으로 나타났다. 결론: 본 연구는 요양보호사의 서비스질과 관련한 인식을 의미있는 그룹으로 제시하였으며 이는 요양보호사 서비스질 향상을 위한 다각적인 방향성 수립에 기여할 것으로 판단된다.

탄소중립 기술의 미래신호 탐색연구: 국내 뉴스 기사 텍스트데이터를 중심으로 (Detecting Weak Signals for Carbon Neutrality Technology using Text Mining of Web News)

  • 정지송;노승국
    • 산업융합연구
    • /
    • 제21권5호
    • /
    • pp.1-13
    • /
    • 2023
  • 우리나라는 기후변화 위기에 대응하기 위해 2050 탄소중립을 선언하였으며, 이를 위해 다양한 감축 계획 및 입법화 과정을 진행 중이다. 탄소중립의 실현은 산업기술 전반에서의 근본적 변화를 필요로 하기 때문에 이를 위한 구체적 대응체계 마련이 매우 중요하다. 본고는 탄소중립 관련 산업기술 확보 경쟁에서 선제적으로 대비하기 위하여 글로벌 탄소중립 기술분야의 현황과 발전 트렌드를 파악하고자 한다. 이를 위해, 탄소중립 관련 온라인 뉴스기사 데이터를 웹 크롤링하여 수집하였고, 미래신호분석방법론과 인공신경망 딥러닝 기술인 Word2Vec알고리즘을 적용하여 탄소중립 기술 트렌드를 분석 및 예측하였다. 분석결과, 탄소 과배출 업종인 철강업 및 석유화학 분야의 기술고도화가 요구되고 있었으며, 전기차 분야에의 투자 타당성 확보와 기술 고급화가 추세인 것으로 드러났다. 이에 대한 정부의 적극적인 지원과 글로벌한 기술협력/인프라 조성이 밑받침되어야 할 것으로 보인다. 그 외에도 탄소중립 관련 인력양성이 시급한 것으로 나타났으며, 기업에서 필요한 탄소중립 인력을 양성할 수 있도록 간접지원정책 마련의 필요성을 확인할 수 있었다.