• 제목/요약/키워드: 생존데이터

검색결과 325건 처리시간 0.026초

생존분석에서의 기계학습 (Machine learning in survival analysis)

  • 백재욱
    • 산업진흥연구
    • /
    • 제7권1호
    • /
    • pp.1-8
    • /
    • 2022
  • 본 논문은 중도중단 데이터가 포함된 생존데이터의 경우 적용할 수 있는 기계학습 방법에 대해 살펴보았다. 우선 탐색적인 자료분석으로 각 특성에 대한 분포, 여러 특성들 간의 관계 및 중요도 순위를 파악할 수 있었다. 다음으로 독립변수에 해당하는 여러 특성들과 종속변수에 해당하는 특성(사망여부) 간의 관계를 분류문제로 보고 logistic regression, K nearest neighbor 등의 기계학습 방법들을 적용해본 결과 적은 수의 데이터이지만 통상적인 기계학습 결과에서와 같이 logistic regression보다는 random forest가 성능이 더 좋게 나왔다. 하지만 근래에 성능이 좋다고 하는 artificial neural network나 gradient boost와 같은 기계학습 방법은 성능이 월등히 좋게 나오지 않았는데, 그 이유는 주어진 데이터가 빅데이터가 아니기 때문인 것으로 판명된다. 마지막으로 Kaplan-Meier나 Cox의 비례위험모델과 같은 통상적인 생존분석 방법을 적용하여 어떤 독립변수가 종속변수 (ti, δi)에 결정적인 영향을 미치는지 살펴볼 수 있었으며, 기계학습 방법에 속하는 random forest를 중도중단 데이터가 포함된 생존데이터에도 적용하여 성능을 평가할 수 있었다.

다중 모드 데이터를 사용한 폐암 생존분석 검토 (Review of Lung Cancer Survival Analysis with Multimodal Data)

  • 최철웅;김현지;심은석;임아연;이윤준;정선주;김경백
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2020년도 추계학술발표대회
    • /
    • pp.784-787
    • /
    • 2020
  • 폐암 환자의 생존율을 예측할 때 미국암연합회(AJCC)의 TNM병기 분류체계에 의해 진단되는 최종병기를 많이 사용한다. 최종병기는 폐암환자의 임상데이터 중 하나로 종양의 위치, 크기, 전이정도를 고려하여 환자의 폐암 상태를 판별하는 정보이다. 최종병기는 개략적인 환자의 상황을 설명하는 데 효과적이지만, 보다 구체적인 생존분석을 위해서는 임상데이터 뿐만 아니라 PET/CT와 같은 영상 데이터를 함께 분석해야 한다. 이 논문에서는 데이터 과학적 접근을 통해 폐암환자의 임상데이터, CT영상과 PET영상 등 다양한 종류의 데이터를 함께 활용하는 생존분석기법을 검토한다. 실험을 통해 다중 모드 데이터를 활용하는 생존분석을 위해 비선형모델 개발과 Feature임베딩 기법 고도화가 필요함을 확인하였다.

헬기 생존계통 센서 운용 환경 하에서의 데이터 융합 알고리즘에 관한 연구 (A Study on the Data Fusion Algorithm under Operational Environment of the Sensors for Helicopter ASE System)

  • 박영선;김화수;김숙경;우상민;정훈기
    • 한국국방경영분석학회지
    • /
    • 제34권3호
    • /
    • pp.79-92
    • /
    • 2008
  • 본 논문은 최근 개발되는 헬기의 생존성 보장을 위하여 장착되는 센서체계에서 상호 독립적으로 수집된 센서 데이터의 융합 알고리즘 개발을 위하여 다양한 지식 기반의 데이터 융합 기법 등을 검토하였다. 이 논문에서는 다양한 데이터 융합기법 중에서 헬기 생존 계통 센서 체계의 데이터 응함에 유효한 대안이 될 수 있는 Bayesian Network를 이용한 지식 기반의 데이터 융합 기법 알고리즘을 설계하고 구현하였다.

모수적과 비모수적 위험률 변화점 통계량 비교 (Comparison of parametric and nonparametric hazard change-point estimators)

  • 김재희;이시은
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권5호
    • /
    • pp.1253-1262
    • /
    • 2016
  • 위험률에 변화점이 존재할 경우 위험률 변화점에 대한 추정 정확한 모수 추정을 위해 매우 필요하다. 본 연구에서는 한 개 위험률 변화점이 존재하는 경우 위험률의 변화점 추정량에 대한 비교 연구를 수행하였다. 우도함수에 기반한 모수적 방법인 Matthews와 Farewell (1982) 위험률 변화점 추정량과 Nelson-Aalen 누적 위험률에 기반한 비모수적 방법의 Zhang 등 (2014) 위험률 변화점 통계량을 고찰하여 특성을 파악하였다. 모의실험에서 지수분포를 따르는 생존데이터에 대해 위험률 변화점이 한 개 있는 경우 중도절단이 없는 경우와 중도절단이 있는 경위험률 추정량의 능력을 평균제곱오차를 계산하여 비교하였다. 실제 데이터에 대한 적용으로 백혈병 생존데이터와 원발성 담백증 경화 생존데이터에 대해 위험률 변화점을 추정하고 비교해 보았다.

LDU 분해를 이용한 데이터 암호화 기법에 관한 연구 (The Study on Data Encryption Schemes Using LDU Decomposition)

  • 최성진;윤희용;최중섭;이강신
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.757-759
    • /
    • 2003
  • 저장장치의 발전과 인터넷 사용량의 증가, 전자 상거래의 활성화에 의해 많은 사람들이 디지털정보를 편리하게 이용할 수 있게 되었다. 이에 따라 저장장치의 보안성과 생존성은 가장 중요한 사항으로 고려되고 있으며, 이러한 보안성과 생존성을 높이기 위하여 새로운 분산저장기법의 연구개발이 절실히 필요한 실정이다. 따라서, 본 논문에서는 분산저장시스템의 보안성과 생존성을 높이기 위해 필수적으로 필요한 분산/암호화 기법을 LDU 분해를 이용하여 제안하고, 제안된 기법의 가용성을 평가한다 제안된 기법은 데이터의 분할과 암호화를 동시에 허락하여 보안성을 높임과 동시에 기존의 기법과 비교하여 10%정도의 가용성 향상을 보인다.

  • PDF

포스트 코로나 시대 데이터 비즈니스 생존전략 (Survival Strategies for Data Business in the Post-COVID Era)

  • 이래형
    • 기술혁신연구
    • /
    • 제28권4호
    • /
    • pp.165-175
    • /
    • 2020
  • 본 View Point에서는 COVID-19으로 초래된 사회 경제적 새로운 질서(New Normal)에서 데이터 산업의 성장 가능성을 조망하고 데이터 비즈니스가 산업생태계에서 생존하는 데 필요한 요소와 전략을 살펴본다. 비대면 사회로의 전환은 데이터의 양적 팽창과 함께 집중화 현상 촉진으로 이어지고 있다. 국가적으로 데이터 산업생태계의 발전 전략을 수립하고 자본의 흐름이 뒤따르고 있는 지금은 데이터 비즈니스에 기회의 시기라고 할 수 있다. 특정 데이터 비즈니스가 산업 생태계에서 생존하고 성장하기 위해서는 안정적인 데이터 품질을 기반으로 경쟁사 대비 비교우위에 있는 품질 속성을 파악해야 하고 특히 어떤 비즈니스 세분화 영역에 해당하는지를 판단할 수 있어야 불필요한 자원투입의 낭비를 막고 효율적인 투자를 할 수 있다.

무선 센서네트워크의 에너지 효율적 배치에 관한 연구 (A Study on Energy-Efficient Deployment for Wireless Sensor Networks)

  • 문준수;이상학;이승관;정태충
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 가을 학술발표논문집 Vol.31 No.2 (3)
    • /
    • pp.10-12
    • /
    • 2004
  • 무선 센서네트워크는 센싱 지역에 분산되어 있는 초소형 센서 노드들이 감지/처리한 데이터를 수집노드로 전송하여 원격의 사용자가 센싱 지역의 상황인지를 가능하게 하는 유비쿼터스 컹퓨팅의 기반 네트워크이다. 전력 사용이 극히 제한된 센서 노드를 이용하여 무선 센서 망을 구성, 유지하며 데이터를 수집하기 위해서는 효율적인 망의 형태와 이에 따른 네트워크 배치 전략을 필요로 한다. 클러스터 기반 네트워크의 형태는 밀집도가 높은 센서네트워크에서 데이터병합을 수행하고 노드간 에너지 소비 균형을 이루기 위한 효과적인 구조이다. 본 논문에서는 클러스터 기반의 단일 홉 전송 구조에서 데이터 수집률을 높이고 노드간 에너지 사용의 균형을 이루게 하여 네트워크의 생존시간을 최대화할 수 있는 네트워크 배치 방법을 제안하였다. 클러스터링 기법에 따른 에너지 소비 모델을 분석하고 이를 통해 노드의 적절한 밀집도를 산출하였다. 싱크로부터 멀어질수록, 센서필드의 중앙보다는 외곽에 노드의 배치를 조밀하게 배치하여 네트워크의 생존시간을 늘렸다. 시뮬레이션을 통해 효율적인 네트워크의 배치가 노드간 에너지 소비의 균형을 이루도록 하여 네트워크의 생존시간을 늘일 수 있음을 확인하였다.

  • PDF

부부의 사망시차 및 생존기간의 종속관계 분석 -국민연금의 유족연금 데이터를 이용한 연구- (Analysis of mortality after death of spouse in relation to duration of bereavement and dependence relation between married couple -using married couples data from survivor's pension of National Pension Service-)

  • 백혜연;한정림;이항석
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권4호
    • /
    • pp.931-946
    • /
    • 2015
  • 부부 또는 가족 등의 혈연관계는 생활환경 및 방식이 유사하기 때문에 그들의 생존기간 간에 상관관계가 존재한다는 것을 짐작할 수 있다. 따라서 본 연구에서는 실제 부부 데이터를 이용하여 상관 분석을 위해 피어슨의 상관계수, 스피어만의 상관계수, 그리고 켄달의 타우를 계산해 본다. 또한, 부부 중 한 명이 사망 후 최종생존자가 사망할 때까지의 사망시차를 분석하여 부부의 사망 시점 간에 종속관계에 대하여도 분석하도록 한다. 실제로 보험에 함께 가입한 부부나 가족은 생존기간 또는 사망시점 간에 상관성이 존재하기 때문에 그들의 생존기간이 독립이라 가정하는 보험 실무 방법 대신 상관성을 고려하여 보험 상품의 가치를 평가하는 것이 더 타당할 수 있다. 본 연구를 통해 부부 중 한 명의 배우자의 사망으로 인한 최종생존자의 잔존생존기간의 변화를 분석하여 연생보험의 보험료 및 준비금 산출 등에 활용할 수 있는 근거를 제시해 보고자 한다.

단계적 데이터 품질 모델링 방법론과 스키마 (A schema and stepwise methodology for modeling the data quality)

  • 나관상;백두권
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.18-120
    • /
    • 2001
  • 고객에게 원하는 정보를 제공하기 위해서는 데이터의 설계, 개발 및 이용에 있어 최적화된 데이터의 모델링 및 구조화가 매우 중요하며, 이를 통해 사용자에게 적기에 고품질의 데이터를 제공하는 것이 무한 경쟁시대에서 생존을 위한 핵심 요소이다. 특히, 우리는 인터넷의 출현으로 오프라인 기업에서 오라인 기업으로 급속한 전환과 기업간, 기업과 고객간, 기업과 정부간 보다 넓게는 전세계의 국가를 하나로 엮는 정보유통 시대에 살고 있다. 인터넷 상거래의 활성하와 전자정부 구현 등에서 기업 생존의 핵심 요소는 방대한 양의 데이터를 어떻게 공유하고 유통시키며, 양질의 데이터를 구축 하느냐 이다. 본 고에서는 기존 시스템의 컨버젼이나 마이그레이션 또는 이질적 시스템 통합과정에서 그리고 데이터베이스 설계과정에서 데이터의 품질을 향상시키기 위해 필요한 데이터 품질문제를 알아보고, 체계적으로 데이터 품질을 추출 및 표현하기 위한 방법론을 제안하며, 이를 개선 발전시키기 위한 연구방향을 소개한다.

  • PDF

RFID 미들웨어 환경에서 센서 노드의 생존성 향상과 효율적인 프로토콜 설계를 위한 연구 (A study on improve survivability of sensor node and design of protocol in RFID Middleware environment)

  • 최용식;전영준;박상현;한수;신승호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (D)
    • /
    • pp.68-73
    • /
    • 2006
  • 센서 노드의 송수신 상태를 분석하여 노드의 생존성 향상과 효율적인 프로토콜 설계를 하려고 한다. 센서 노드의 분석을 위한 실험 환경은 다음과 같다. 센서 노드의 생존성-가용 배터리, 센서 노드의 출력-검색 가능 영역, 센서 노드의 통신 경로-라우팅 테이블 생성, 센서 노드의 대역폭-송신 데이터의 크기이다. RFID 태그와 리더를 통한 관리 시스템과 재해방지를 위한 다양한 센서를 통한 정보 수집 시스템과 의사결정 시스템에 적용 될 수 있다. 그리고 다양한 센서 데이터로부터 수신된 데이터의 자료수집, 센서분류, 수신율 조절 시스템을 위한 프로토콜 설계 자료로 활용 가능하다.

  • PDF