• 제목/요약/키워드: 로지스틱모델

검색결과 245건 처리시간 0.025초

텍스트 마이닝을 이용한 기사 내 부적합 문단 검출 시스템 (Detecting Improper Sentences in a News Article Using Text Mining)

  • 김규완;신현주;김선진;이현아
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2017년도 제29회 한글및한국어정보처리학술대회
    • /
    • pp.294-297
    • /
    • 2017
  • SNS와 스마트기기의 발전으로 온라인을 통한 뉴스 배포가 용이해지면서 악의적으로 조작된 뉴스가 급속도로 생성되어 확산되고 있다. 뉴스 조작은 다양한 형태로 이루어지는데, 이 중에서 정상적인 기사 내에 광고나 낚시성 내용을 포함시켜 독자가 의도하지 않은 정보에 노출되게 하는 형태는 독자가 해당 내용을 진짜 뉴스로 받아들이기 쉽다. 본 논문에서는 뉴스 기사 내에 포함된 문단 중에서 부적합한 문단이 포함 되었는지를 판정하기 위한 방법을 제안한다. 제안하는 방식에서는 자연어 처리에 유용한 Convolutional Neural Network(CNN)모델 중 Word2Vec과 tf-idf 알고리즘, 로지스틱 회귀를 함께 이용하여 뉴스 부적합 문단을 검출한다. 본 시스템에서는 로지스틱 회귀를 이용하여 문단의 카테고리를 분류하여 본문의 카테고리 분포도를 계산하고 Word2Vec을 이용하여 문단간의 유사도를 계산한 결과에 가중치를 부여하여 부적합 문단을 검출한다.

  • PDF

로지스틱 회기를 이용한 아크 검출 (Arc Detection using Logistic Regression)

  • 김만배
    • 방송공학회논문지
    • /
    • 제26권5호
    • /
    • pp.566-574
    • /
    • 2021
  • 전기화재의 원인중의 하나는 직렬 아크이다. 최근까지 아크 신호를 검출하기 위해 다양한 기법들이 진행되고 있다. 시간 신호에 푸리에 변환, 웨이블릿 변환, 또는 통계적 특징 등을 활용하여 아크 검출을 하는 방법들이 소개되었지만, 변환 및 특징 추출은 부가적인 처리 시간이 요구되는 단점이 있다. 반면에 최근의 딥러닝 모델은 종단간 학습으로 특징 추출 과정없이 직접 원시 데이터를 활용한다. 그러나, 딥러닝의 문제는 연산 복잡도가 높다는 것이다. 이 문제는 단말기에 딥러닝 연산 모듈을 넣기가 어렵게 한다. 따라서 본 논문에서는 복잡도가 상대적으로 낮은 기계학습 기법중에 로지스틱회기 (logistic regression)를 이용하여 아크 검출을 하는 기법을 제안한다.

FR과 LR 앙상블 모형을 이용한 산사태 취약성 지도 제작 및 검증 (Landslide Susceptibility Mapping Using Ensemble FR and LR models at the Inje Area, Korea)

  • 김진수;박소영
    • 대한공간정보학회지
    • /
    • 제25권1호
    • /
    • pp.19-27
    • /
    • 2017
  • 본 연구의 목적은 인제읍을 대상으로 빈도비와 로지스틱 회귀분석 모델을 통합한 앙상블 모델을 이용하여 산사태 취약성을 분석하고, 예측 정확도를 비교하는 것이다. 산사태 위치는 산사태 발생 전 후에 촬영된 항공사진을 이용하여 추출되었다. 추출된 총 422개의 산사태는 산사태 취약성 분석을 위해 훈련용 (70%)과 검증용 (30%) 자료로 랜덤하게 분류되었다. 산사태 관련인자는 고도, 경사도, 경사향, 배수로부터의 거리, 토양수분지수, 하천강도지수, 토질, 유효토심, 영급, 경급, 밀도, 임상 등 총 12개의 인자를 이용하였다. 산사태 및 산사태 관련인자는 공간데이터베이스로 구축된 뒤 빈도비와 앙상블 모델을 이용하여 산사태와 산사태 관련 인자 간 상관관계를 분석하였다. 그 결과를 바탕으로 각 모델별 산사태 취약성 지도를 작성하였고, relative operating characteristics(ROC) 곡선을 이용하여 예측 정확도를 검증 및 비교하였다. 분석 결과, 앙상블 모델에 의해 작성된 산사태 취약성 지도는 75.2%의 예측 정확도를 보였고, 이 결과는 빈도비 모델에 의해 작성된 산사태 취약성 지도와 비교하여 예측 정확도가 약 2% 향상된 것으로 나타났다. 본 연구에서 작성된 산사태 취약성 지도는 향후 효과적인 토지이용 계획을 수립하고, 재난재해로 인한 피해를 경감시키는데 활용 가능할 것으로 판단된다.

신경망 기반의 소프트웨어 개발노력 추정모델 구축에 관한 연구 (Software Development Effort Estimation Using Neural Network Model)

  • 김병관;백승익
    • 한국IT서비스학회:학술대회논문집
    • /
    • 한국IT서비스학회 2005년도 춘계학술대회
    • /
    • pp.372-380
    • /
    • 2005
  • 소프트웨어 개발노력 추정에 대한 연구는 소프트웨어가 복잡해지고 범위가 크게 증가함에 따라서 그 중은 지속적으로 부각되고 있다. 관련 프로젝트를 발주하는 업체나, 이를 수주하고 개발을 진행하는 업체에게 원가를 고려하는 측면에서 매우 중요한 부분을 차지하고 있다. 이러한 개발노력 추정을 위하여 다양한 접근 방식들이 고려되어지고 있는데, 그중에서 많이 활용되어지고 있는 방식은 소프트웨어 규모에 기반을 둔 LOC(Line Of Code) 기반 COCOMO (Constructive Cost Model) 모델이나 기능점수(Function Point)를 기반으로 한 회귀분석 모델, 인공지능(Artificial Intelligence)을 활용한 신경망(Neural Network) 모델, 사례분석기법 (CBR, Case Based Reasoning) 등이 있다. 이중에서 최근에 기능점수를 활용한 개발노력 추정에 관한 연구들이 활발히 진행되고 있으나 개발노력 추정에는 소프트웨어 규모의 척도인 기능점수 뿐만 아니라, 개발환경을 구성하는 여러 가지 측면에 대한 고려가 추가되어져야 한다. 이에 본 논문은 최신의 소프트웨어 개발 사례들에 대하여 기능점수 및 추가적인 개발환경 요소들을 면밀히 분석하고, 분석한 내용에 대해서 전문가들의 설문을 통한 빈도분석 및 로지스틱 회귀분석, 데이터마이닝 기법인 신경망 분석 등을 활용하여 개발노력 추정 모델을 구축함으로써, 소프트웨어 개발의 다양한 측면의 중요성을 강조하고, 정확한 추정의 방안을 제시 하고자 노력 하였다.

  • PDF

공간통합 모델을 적용한 암괴류 및 애추 지형 분포가능지 추출 (Extraction of Potential Area for Block Stream and Talus Using Spatial Integration Model)

  • 이성호;장동호
    • 한국지형학회지
    • /
    • 제26권2호
    • /
    • pp.1-14
    • /
    • 2019
  • This study analyzed the relativity between block stream and talus distributions by employing a likelihood ratio approach. Possible distribution sites for each debris slope landform were extracted by applying a spatial integration model, in which we combined fuzzy set model, Bayesian predictive model, and logistic regression model. Moreover, to verify model performance, a success rate curve was prepared by cross-validation. The results showed that elevation, slope, curvature, topographic wetness index, geology, soil drainage, and soil depth were closely related to the debris slope landform sites. In addition, all spatial integration models displayed an accuracy of over 90%. The accuracy of the distribution potential area map of the block stream was highest in the logistic regression model (93.79%). Eventually, the accuracy of the distribution potential area map of the talus was also highest in the logistic regression model (97.02%). We expect that the present results will provide essential data and propose methodologies to improve the performance of efficient and systematic micro-landform studies. Moreover, our research will potentially help to enhance field research and topographic resource management.

로지스틱회귀분석 모델을 활용한 화학사고 사상사고 예측모형 개발 연구 (A Study on Accident Prediction Models for Chemical Accidents Using the Logistic Regression Analysis Model)

  • 이태형;박춘화;박효현;곽대훈
    • 한국화재소방학회논문지
    • /
    • 제33권6호
    • /
    • pp.72-79
    • /
    • 2019
  • 본 연구를 통해 화학사고 사상사고 예측모형을 개발하였다. 모형은 로지스틱회귀분석 모델을 활용하여 사상사고에 영향을 주는 변수를 도출하여 적용하였고, 통계적 검증방법과 오즈비를 활용하여 모형의 신뢰성 및 정확성을 검증하였다. 모형에 활용한 사고 자료는 과거 발생했던 화학사고 통계를 분석하여 활용하였으며, 사고의 유형, 원인, 발생 장소, 사상자 현황 및 사상자를 발생시킨 화학사고 등의 자료 분석을 통해 통계적으로 유의하게 나타난 독립변수(p < 0.05)를 적용하였다. 본 연구에서 개발한 모형은 사업장에서 화학사고로 인해 발생하는 사상사고의 예방 및 안전시스템 구축을 위한 연구로서 의의가 있다고 할 수 있다. 모형에 의한 분석결과 사상사고 발생에 가장 크게 영향을 미치는 변수는 폭발에 의한 화학사고인 것으로 조사되었다. 따라서 사업장에서 발생하는 폭발 유형의 화학사고를 예방하기 위한 대책마련이 시급하다고 판단된다.

빅 데이터 기반의 체납 수용가 예측 모델 (Prediction Model for Unpaid Customers Using Big Data)

  • 정재안;이규환;정회경
    • 한국정보통신학회논문지
    • /
    • 제24권7호
    • /
    • pp.827-833
    • /
    • 2020
  • 본 논문에서는 지자체의 요금 체납을 줄이기 위해 특정 지자체를 대상으로 검침원의 면담 등을 통해 지방상수도 통합정보시스템에서 체납에 영향을 미치는 내부 데이터 요소를 찾았다. 또한 국가 통계 데이터 중에서 체납에 영향을 미치는 후보 데이터를 도출하였다. 독립변수가 종속변수에 미치는 영향도는 정보이득이라는 데이터 집합에서 종속변수에 대한 무질서도를 조사하여 표본 데이터를 수집하였다. 그리고 빅 데이터 분석 알고리즘인 의사결정트리와 로지스틱 회귀기법 중 어느 알고리즘이 더 높은 예측율을 나타내는지 n-fold cross-validation 방법을 사용하여 평가하였다. 이를 통해 지자체의 데이터를 기초로 알고리즘의 성능을 비교한 결과 의사결정트리가 로지스틱회귀보다 더 정확한 수용가 납부 패턴을 찾을 수 있음을 확인하였다. 머신러닝을 이용한 분석 알고리즘 모델 개발의 과정에서는 알고리즘의 정확성 향상을 위해 의사결정트리의 복잡성과 정확성에 직접적인 영향을 주는 최소 데이터 개수와 최대 순도라는 두 개의 환경변수의 최적값을 도출하였다.

지역 특성을 고려한 무더위쉼터의 입지특성 분석 및 평가 모델 개발 (Development of a Model for Analylzing and Evaluating the Suitability of Locations for Cooling Center Considering Local Characteristics)

  • 류지은;부찬종;이경일;조경두
    • 환경영향평가
    • /
    • 제33권4호
    • /
    • pp.143-154
    • /
    • 2024
  • 기후변화로 인한 폭염은 취약계층의 건강 피해를 급격히 증가시키고 있으며, 이를 예방하기 위하여 국가, 광역, 기초지자체는 기후위기 적응대책을 수립하고 있다. 폭염 피해를 줄이기 위한 대표적인 기후위기 적응대책은 무더위쉼터 개소 수 확대이다. 단기간에 효과가 높아 전라북도를 제외한 대부분의 광역지자체에서는 해당 사업을 적응대책으로 포함하고 있다. 하지만 예산 및 비예산 등에 따라 무더위쉼터로서 선정 기준이 달라 무더위쉼터의 이용률 및 효과가 모두 다르다. 따라서 본 연구에서는 지자체에서 적응대책 이행을 위해 무더위쉼터 확장 시 가능성이 높은 지역을 예측 및 평가할 수 있는 로지스틱 회귀분석 모델을 개발하였다. 원도심과 신도시의 공존 등으로 다양한 폭염 취약 환경으로 구성된 인천광역시를 대상으로 사회·경제적·환경적 차이를 고려하여 강화·옹진군과 이외의 지역으로 구분하여 무더위쉼터 가능 지역을 예측하는 로지스틱 모델을 개발하였다. 연구 결과, 강화·옹진군 지역의 통계 모델에서는 지표면 온도가 높을수록, 65세 이상 고령자수가 많을수록 무더위쉼터 가능성이 높은 것으로 나타났으며, 약 80.93%의 예측 정확도를 나타냈다. 강화·옹진군 이외의 지역에 대해서는 지표면온도가 높을수록, 65세 이상 고령자 수가 많을수록, 30년 이상인 노후 주택으로부터의 거리가 가까울수록, 공공시설로부터의 거리가 가까울수록 무더위쉼터 가능성이 높은 것으로 나타났으며, 약 89.08%의 예측 정확도로 나타났다. 개발된 로지스틱 회귀모형은 지역의 특성을 고려하여 무더위쉼터로서 가능성이 높은 지역을 예측 및 평가할 수 있으며, 추후 무더위쉼터 추가 지정 시 우선순위 선정 및 관리에 활용할 수 있을 것으로 기대한다.

한국어 학습 모델별 한국어 쓰기 답안지 점수 구간 예측 성능 비교 (Comparison of Korean Classification Models' Korean Essay Score Range Prediction Performance)

  • 조희련;임현열;이유미;차준우
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권3호
    • /
    • pp.133-140
    • /
    • 2022
  • 우리는 유학생이 작성한 한국어 쓰기 답안지의 점수 구간을 예측하는 문제에서 세 개의 딥러닝 기반 한국어 언어모델의 예측 성능을 조사한다. 이를 위해 총 304편의 답안지로 구성된 실험 데이터 세트를 구축하였는데, 답안지의 주제는 직업 선택의 기준('직업'), 행복한 삶의 조건('행복'), 돈과 행복('경제'), 성공의 정의('성공')로 다양하다. 이들 답안지는 네 개의 점수 구간으로 구분되어 평어 레이블(A, B, C, D)이 매겨졌고, 총 11건의 점수 구간 예측 실험이 시행되었다. 구체적으로는 5개의 '직업' 답안지 점수 구간(평어) 예측 실험, 5개의 '행복' 답안지 점수 구간 예측 실험, 1개의 혼합 답안지 점수 구간 예측 실험이 시행되었다. 이들 실험에서 세 개의 딥러닝 기반 한국어 언어모델(KoBERT, KcBERT, KR-BERT)이 다양한 훈련 데이터로 미세조정되었다. 또 두 개의 전통적인 확률적 기계학습 분류기(나이브 베이즈와 로지스틱 회귀)도 그 성능이 분석되었다. 실험 결과 딥러닝 기반 한국어 언어모델이 전통적인 기계학습 분류기보다 우수한 성능을 보였으며, 특히 KR-BERT는 전반적인 평균 예측 정확도가 55.83%로 가장 우수한 성능을 보였다. 그 다음은 KcBERT(55.77%)였고 KoBERT(54.91%)가 뒤를 이었다. 나이브 베이즈와 로지스틱 회귀 분류기의 성능은 각각 52.52%와 50.28%였다. 학습된 분류기 모두 훈련 데이터의 부족과 데이터 분포의 불균형 때문에 예측 성능이 별로 높지 않았고, 분류기의 어휘가 글쓰기 답안지의 오류를 제대로 포착하지 못하는 한계가 있었다. 이 두 가지 한계를 극복하면 분류기의 성능이 향상될 것으로 보인다.

고속도로 건설사업의 재정/민자 발주선택 의사결정 지원모델 (Decision Support Model for Determining Public or Private Highway Investment Projects)

  • 여동훈;정우용;한승헌;이영천
    • 대한토목학회논문집
    • /
    • 제29권3D호
    • /
    • pp.381-389
    • /
    • 2009
  • 2007년 기준으로 정부는 18.4조원을 사회기반시설에 투자하고 있으며, 이 중 16.3%에 해당되는 3조원을 민간투자 사업에 집행하고 있다. 이는 인프라 시설에 대한 국민적인 요구를 충족시킴과 동시에 재정부담을 경감하고 사업 추진시 위험을 축소시키기 위한 것이다. 하지만 현재 국가 인프라 사업은 기획단계에서 재정사업 또는 민자사업으로 결정하는 체계적인 기준이나 지침이 없이 주로 재정 상태를 고려한 주무관청의 자체판단에 따라 사업추진 방식이 결정되고 있다. 또한 초기에 재정 사업으로 추진되는 경우에도, 사업타당성 조사를 실시하는 과정에서 민자사업으로서의 가능성은제대로 평가되지 않는 상황이다. 따라서 본 연구는 국가 인프라사업에 대하여 재정사업과 민자사업을 선택하는 합리적인 발주기준을 제시하는 것을 목표로 한다. 이를 위하여 고속도로 사업을 중심으로 재정 민자 의사결정 기준을 경제성, 정책성, 사업관리 항목으로 나누고 이를 바탕으로 재정 민자 의사결정 모델을 제시하였다. 본 연구에서는 의사결정 모델을 구축하기 위해 30건의 재정 및 민자사업 실제 사례를 분석하고 102건의 전문가 설문을 실시하였다. 본 모델은 크게 두 단계로 구분되는데, 첫째 경제성 평가는 평균 및 표준편차 분석을 통해 민자불가, 재정민자 양측가능 및 재정불가 구간을 제시하였으며, 둘째 정책성 평가와 사업관리 평가는 로지스틱 회귀분석을 실시함으로써 재정 또는 민자사업의 추진여부를 구분 짓는 예측식을 도출하였다. 본 연구의 결과를 통해 고속도로 사업의 기획단계에 참여하는 의사결정자는 고려중인 사업의 재정 민자사업 결정시 보다 체계적이고 합리적인 사업발주방식을 결정할 수 있을 것으로 사료된다.