• 제목/요약/키워드: 로지스틱 회귀모델

검색결과 193건 처리시간 0.021초

기계학습을 활용한 소셜 텍스트의 주요 정보 추출 기법 (Extracting Significant Information from Social Text using Machine Learning)

  • 김소현;김한준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.742-745
    • /
    • 2016
  • 빅데이터 시대를 맞이하여 텍스트마이닝과 오피니언마이닝의 활용도가 커지고 있는 시점에서 소셜 네트워크 데이터로부터 유용한 데이터를 추출하는 작업은 매우 중요하다. 이에 본 논문은 블로그 HTML 문서에서 추출한 태그 특징에 로지스틱 회귀 및 앙상블 기법을 적용하여 본문을 포함하는 태그를 분류하는 모델을 구성한 뒤 태그의 깊이 특징을 이용하여 주요 본문을 찾는 방법을 제안한다. 직접 수집한 데이터를 이용한 실험에서 태그 분류 정확도가 0.990, 본문을 찾아낸 문서의 비율이 80.5%로 나왔다.

국내 의약품 정보 검색 사이트 사용 경험 연구 - 국가검색사이트와 사기업검색사이트 중심으로 - (A Study on the Use Experience of Drug Information Search Site in Korea - Focused on National Search Site and Private Business Search Site -)

  • 장정인
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2018년도 제25회 학술대회 논문집
    • /
    • pp.73-77
    • /
    • 2018
  • 본 연구는 국내 의약품 검색 사이트를 국가와 사기업의 두 그룹으로 나누어 사용 경험을 평가하였다. 피터 모빌의 허니콤 모델을 해당 연구에 맞게 수정하여 편리성, 정보접근성의 차이점, 그리고 신뢰도에 대한 설문 조사지를 작성하였다. 일반인을 대상으로 총 18개의 문항으로 설문을 진행하였으며, 구글 설문지를 통해 10대에서 60대까지의 219명에게 답변을 받았다. 분석방법은 다중로지스틱회귀분석으로 사용경험이 재방문 여부에 미치는 영향을 살펴보았다. 설문결과 91%가 사기업 사이트를 더 선호하였다. 본 연구는 향후 개발될 의약품 정보 검색과 앱개발에 기반자료가 될 수 있고 보다 편리한 검색환경의 개선 자료로 활용될 수 있음에 그 의의가 있다.

  • PDF

데이터 기반 리튬 이온 배터리 성능 예측을 위한 학습 데이터 모델 정의 및 기계학습 분석 (Learning Data Model Definition and Machine Learning Analysis for Data-Based Li-Ion Battery Performance Prediction)

  • 김병욱;박지수;장홍준
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권3호
    • /
    • pp.133-140
    • /
    • 2023
  • 리튬 이온 배터리는 사용 환경과 양극재 조합 비율에 따라 배터리의 성능이 좌우된다. 고성능 리튬 이온 배터리를 개발하기 위해서는 양극재 비율을 다양하게 변화시켜가면서 배터리를 제작하고 성능을 측정해야 한다. 하지만 모든 변수 조합에 대해 배터리를 제작하고 성능을 측정하기에는 많은 시간과 비용이 소모된다. 그렇기 때문에 최근에는 데이터 기반으로 인공지능 모델을 활용하여 배터리의 성능을 예측하고자 하는 연구가 활발히 진행되고 있다. 그러나 기존 공개 배터리 데이터는 동일한 배터리로 측정 실험을 하였기 때문에 양극재 조합 비율은 고정되어 있어서 데이터 속성으로 포함되지 않았다. 본 논문에서는 양극재 소재 조합 비율에 따른 배터리의 성능을 예측할 수 있는 인공지능 모델 개발에 필요한 학습 데이터 모델을 정의한다. 우리는 리튬 이온 배터리의 성능에 영향을 미칠 수 있는 요인을 분석하여 양극재 소재별 질량과 배터리 사용 환경을 입력데이터로, 배터리의 출력과 용량을 목적 데이터로 정의하였다. 공개 배터리 데이터 중에는 양극재 비율이 포함된 데이터가 없어 양극재 비율을 모두 동일한 값으로 설정한 제한된 데이터로 다중 선형회귀 분석, 서포트 벡터 회귀분석, 다중 로지스틱 회귀 분석, LSTM 분석을 수행하였다. 실험 환경이 다른 배터리 데이터에서 각각의 배터리 데이터는 고유한 패턴을 유지하였으며, 배터리 분류 모델은 각각의 배터리를 약 2%의 오차로 분류하는 것으로 나타났다.

로지스틱 회귀모형을 이용한 우리나라 산지면적의 공간변화 예측에 관한 연구 (Change Prediction of Future Forestland Area by Transition of Land Use Types in South Korea)

  • 곽두안;박소희
    • 한국지리정보학회지
    • /
    • 제24권4호
    • /
    • pp.99-112
    • /
    • 2021
  • 본 연구는 기존 연구에서 수행된 전국 단위의 정량적 산지면적 변화량을 공간적으로 배분하여 광역시도별 산지면적 변화를 추정함으로써 지역산림계획의 수립을 지원하기 위해 수행되었다. 토지를 산지, 농지, 도시 및 기타지로 구분하고 토지이용 형태별 변화 여부를 종속변수로, 지형요소, 이용 제한요소, 사회·경제적 요소, 개발 인프라를 독립변수로 하는 로지스틱 회귀모형을 개발하였다. 우리나라 전체를 30m×30m 격자로 분할하여 각 Cell에 해당하는 독립변수 자료를 구축하였고, 로지스틱 회귀모형을 이용하여 각 토지이용 형태가 타 유형으로 변화하는 확률을 추정하였다. 추정된 토지이용 변화확률을 기반으로 변화순위 지도를 구축하였고, 연도별 토지이용 변화량을 변화순위에 따라 순차적으로 배분함으로써 토지이용 변화의 공간적인 변화를 분석할 수 있었다. 경사도와 지자체별 개발 가능한 경사도 기준이 산지가 도시 및 기타지로 변화될 확률에 가장 큰 영향을 미쳤으며, 경사도와 개발 가능한 경사도 기준이 낮을수록, 토지가격과 인구밀도가 높을수록 산지가 도시 및 기타지로 변화될 확률이 높아졌다. 그 결과 2027년까지 수도권과 대도시의 산지가 도시 및 기타지로 변화하여 산지면적이 크게 감소하였다. 그러나 2028년 이후 2050년까지 서울, 경기, 제주를 제외한 대부분의 지역에서 산지면적이 빠르게 증가하는 것으로 예측되었는데, 이는 지방 소도시의 급격한 인구감소에 기인하는 것으로 분석되었다. 이에 중앙정부에서는 변화하는 산지면적에 대응하기 위해 산지관리 정책의 전환이 필요하고, 지자체 단위에서는 인구의 감소 정책과 그에 따른 산지를 포함한 토지의 효율적 보전 및 이용체계를 수립하는 것이 필요할 것으로 사료된다.

의학분야 학술잡지 선택에 영향을 미치는 요인 연구 (Effect of serial Characteristics and Library Environment on Serial Collection Decision in an Academic Health Science Library)

  • 김기영
    • 정보관리학회지
    • /
    • 제23권2호
    • /
    • pp.245-263
    • /
    • 2006
  • 학술잡지 구입 예산의 구입비용 상승에 따른 압력으로 지난 수십년간 학술잡지의 선택에 영향을 미치는 요인들에 대한 연구가 활발히 진행되어 왔지만, 학술잡지의 선택에 대한 만족할만한 이론적 틀이 제시되지 못하였다. 이에 따라 본 연구에서는 의학도서관에서 의학분야의 학술잡지의 선택에 영향을 미치는 요인들을 확인하여 이러한 이론적 틀을 제시할 수 있는 근거를 마련코자 한다. 본 연구는 상관관계 분석과 로지스틱회귀분석을 통해 학술잡지선택의 분산을 설명하고, 나아가 예측하는 통계적 모델들을 여러 변수조합을 이용해 제시한다. 또한 이러한 모델의 실제적 적용과 향후 연구방향을 논의한다.

XAI 기반 기업부도예측 분류모델 연구 (A Study on Classification Models for Predicting Bankruptcy Based on XAI)

  • 김지홍;문남미
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.333-340
    • /
    • 2023
  • 기업 부도의 효율적인 예측은 금융기관의 적절한 대출 결정과 여신 부실률 감소 측면에서 중요한 부분이다. 많은 연구에서 인공지능 기술을 활용한 분류모델 연구를 진행하였다. 금융 산업 특성상 새로운 예측 모델의 성능이 우수하더라도 어떤 근거로 결과를 출력했는지 직관적인 설명이 수반되어야 한다. 최근 미국, EU, 한국 등 에서는 공통적으로 알고리즘의 설명요구권을 제시하고 있어 금융권 AI 활용에 투명성을 확보하여야 한다. 본 논문에서는 외부에 오픈된 기업부도 데이터를 활용하여 인공지능 기반의 해석 가능한 분류 예측 모델을 제안하였다. 먼저 데이터 전처리 작업, 5겹 교차검증 등을 수행하고 로지스틱 회귀, SVM, XGBoost, LightGBM 등 10가지 지도학습 분류모델 최적화를 통해 분류 성능을 비교하였다. 그 결과 LightGBM이 가장 우수한 모델로 확인되었고, 설명 가능한 인공지능 기법인 SHAP을 적용하여 부도예측 과정에 대한 사후 설명을 제공하였다.

기업 인적자원 관련 변수를 이용한 기업 신용점수 모형 구축에 관한 연구 (A Study for Building Credit Scoring Model using Enterprise Human Resource Factors)

  • 이영섭;박주완
    • 응용통계연구
    • /
    • 제20권3호
    • /
    • pp.423-440
    • /
    • 2007
  • 본 논문의 목적은 기업 신용점수에 영향을 미치는 기업 인적자원 요소들을 찾아서 기업 신용점수 모형을 구축하는 것이다. 모형 구축을 위해 사용된 자료는 2005년 한국직업능력개발원의 인적자본 기업패널 (Human Capital Corporate Panel, HCCP) 설문조사 자료와 한국신용평가(주)의 KIS-신용평점모델에서 생성된 기업 신용점수이다. 모형 구축을 위한 독립변수는 McLagan (1989)의 '인적자원 바퀴모델'을 토대로 인적자본 기업패널 설문조사 문항을 선택하여 사용하였으며, 종속변수로는 기업 신용평가점수를 사용하였다. 또한 기업 인적자원 관련 변수를 이용한 기업 신용점수 모형 구축을 위해 로지스틱 회귀모형을 사용하였다. 모형 구축 결과 최종적으로 선택된 변수는 22개였다 영역별로 세분화해서 살펴보면 대분류 기준으로 HRD 영역은 6개, HRM 영역은 15개, 기타 1개이고, 중분류 기준으로 개인개발 2개, 경력개발 2개, 조직개발 2개, 조직직무설계 1개, 인적자원계획 4개, 정보체계 2개, 보상 및 장려 6개, 복지후생 1개, 노사관계 1개, 기업규모 1개가 선택되었다. 구축된 모형을 평가하기 위하여 10등급 교차타당성 분석을 통한 오분류율, G-mean은 각각 30.81, 68.27이었다. 그리고 반응율은 가장 좋은 십분위가 가장 나쁜 십분위보다 약 6.08배가 크고 점차 감소하는 경향을 보이고 있다. 그러므로 구축된 모형은 기업 인적자원 관련 변수를 이용해 기업 신용점수를 측정하는데 적당한 모형이라는 결론을 내릴 수 있다

WebGIS 기반의 시뮬레이션 시스템을 위한 지리공간 시뮬레이션 프레임워크 개발 (Development of Geospatial Simulation Framework for WebGIS-based Simulation System)

  • 이성규;김영섭;최철웅;서용철
    • Spatial Information Research
    • /
    • 제18권5호
    • /
    • pp.119-131
    • /
    • 2010
  • 연구자가 공간자료를 이용하기 위해서는 자료 포맷 분석, 리포맷팅, 지도투영 변환 등의 반복된 작업이 필요하다. 연구자는 이러한 문제를 해결하기 위해 개발자와 함께 웹 기반의 시뮬레이션 시스템을 구축하고 있다. 하지만, 공간자료를 이용하는 웹 기반의 시스템에 적절한 시뮬레이션 프레임워크가 없어 효율적인 개발에 어려움이 있다. 본 연구에서는 웹 기반 시스템에 효율적으로 적용할 수 있는 지리 공간 시뮬레이션 프레임워크를 설계하고 제안하였다. 프레임워크의 모듈은 웹 매핑 서비스, Geographic Information System(GIS) 매핑, 통계, 모델, 프로세싱, 그래픽, 공간 데이터세트 등 7개의 모듈로 구성되었다. 프레임워크의 효율성 평가를 위해 도시 성장을 사례로 검증하였으며, 공간정보분야에 전문지식이 없는 비전문가라도 공간자료를 활용한 웹 기반의 시스템 구축이 쉬울 것으로 생각한다.

신경망을 이용한 초등학생 컴퓨터 활용 능력 예측 (Prediction of Elementary Students' Computer Literacy Using Neural Networks)

  • 오지영;이수정
    • 정보교육학회논문지
    • /
    • 제12권3호
    • /
    • pp.267-274
    • /
    • 2008
  • 신경망은 데이터로부터 반복적인 학습 과정을 통해 숨어 있는 패턴을 찾아내고, 새로운 데이터의 목표값에 대한 정확한 예측에 유용한 모델링 기법이다. 본 논문은 개인적인 특성, 가정 사회적 환경, 타 교과 성적을 이용하여 학생의 컴퓨터 활용 능력 예측을 위한 다층 인식모형(MLP) 신경망을 구축하였다. 신경망의 인식률은 예측 방법으로 널리 활용되고 있는 로지스틱 회귀분석 모델과 비교하였다. 개발한 신경망에 대한 실험 결과, 개인적인 특성이 학생들의 컴퓨터 활용 능력을 가장 잘 설명하는 요소이며, 반면 가정 사회적 환경은 가장 낮은 예측 요소임을 발견하였다. 또한 본 연구의 신경망 모델은 회귀분석보다 더욱 높은 인식률을 나타냈다.

  • PDF

당동만의 빈산소 발생 예측 (The Prediction of Hypoxia Occurrence in Dangdong Bay)

  • 강훈;권민선;유선재;김종구
    • 해양환경안전학회지
    • /
    • 제26권1호
    • /
    • pp.65-74
    • /
    • 2020
  • 본 연구에서는 당동만을 중심으로 빈산소가 발생하는 물리적 해양환경 특성을 파악하고, 로지스틱 회귀분석을 이용해 빈산소 발생확률을 예측하였다. 관측 자료를 분석한 결과, 브런트-바이살라 주파수는 수심이 깊은 만 입구보다 수심이 얕은 만 내측에서 더 크게 나타났다. 이는 당동만 내측에서 담수 유입으로 인해 표층 염분이 낮아져 강한 밀도 성층이 형성되었기 때문이다. 시간적으로는 6월 ~ 9월까지 리차드슨 수와 브런트 바이살라 주파수가 매우 높게 나타났고, 9월 2일 이후로는 성층이 완화되어 감소하는 경향을 보였다. 당동만에서 관측된 용존산소 및 수온, 염분 자료를 분석한 결과, 저층의 용존산소 농도는 공통적으로 표층과 저층의 수온차에 가장 큰 영향을 받는 것으로 나타났다. 한편, 수심차(dz)를 고정된 변수로 두고, 수온차(dt)의 변화에 의한 빈산소의 발생 확률의 변화를 계산한 결과, 수심차(dz)가 각각 5 m, 10 m, 15 m, 20 m일 경우, 수온차(dt)는 8℃, 7℃, 5℃, 3℃일 때 빈산소 발생확률이 70 %를 상회하는 것으로 나타났다. 이는 당동만에서 수심차(dz)가 커질수록 빈산소 발생에 필요한 수온차(dt)는 작아지게 된다는 것을 뜻하며, 특히 당동만에서 수심차(dz)가 20 m 내외인 지역은 빈산소가 발생하기 매우 쉬운 환경이라는 것을 알 수 있었다.