• 제목/요약/키워드: 일반화선형모형

검색결과 148건 처리시간 0.025초

Patent Keyword Analysis using Gamma Regression Model and Visualization

  • Jun, Sunghae
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권8호
    • /
    • pp.143-149
    • /
    • 2022
  • 특허문서는 연구 개발된 기술에 대한 상세한 결과를 포함하고 있기 때문에 효과적인 기술분석을 위한 다양한 특허분석 방법에 대한 연구가 진행되고 있다. 특히 통계학과 머신러닝 알고리즘에 의한 정량적인 특허분석에 대한 연구가 최근 활발하게 이루어지고 있다. 정량적 특허분석에서 가장 많이 사용되는 특허 데이터는 기술 키워드이다. 기술 키워드 데이터를 분석하는 기존의 방법은 대부분 음의 무한대부터 양의 무한대까지 실수 공간 전체를 확률변수의 값으로 갖는 가우시안 확률분포에 기반한 모형이었다. 본 논문에서는 이론적으로 0부터 양의 무한대까지의 값을 갖는 특허 키워드의 빈도 데이터를 분석하기 위하여 감마 확률분포를 활용한 모형을 제안한다. 또한 감마 회귀모형의 회귀방정식을 결정하기 위하여 키워드 간의 기술 연관성을 시각화하는 2-모드 네트워크를 구축한다. 제안 방법과 기존의 가우시안 기반의 분석모형 간의 성능평가를 위하여 실제 특허 데이터를 수집하여 분석한다.

신경망 학습의 일반화 성능향상을 위한 인자들의 결합효과 (The Joint Effect of factors on Generalization Performance of Neural Network Learning Procedure)

  • 윤여창
    • 정보처리학회논문지B
    • /
    • 제12B권3호
    • /
    • pp.343-348
    • /
    • 2005
  • 본 연구에서는 신경망 학습의 일반화 성능과 학습속도를 개선시키기 위한 인자들의 결합 효과를 살펴본다. 신경망 학습에서 중요한 평가 척도로서 여기서 고려하는 인자들에는 초기 가중값의 범위와 학습률 그리고 계수조정 등이 있다. 특히 초기 가중값과 학습률을 고정시킨 후 새롭게 조정된 계수들을 단계적으로 변화시키는 새로운 인자 결합방법을 이용한다. 이를 통하여 신경망 학습량과 학습속도를 비교해 보고, 계수조정을 통한 개선된 학습 영향을 살펴본다. 그리고 비선형의 단순한 예제를 이용한 실증분석을 통하여 신경망 모형의 일반화 성능과 학습 속도 개선을 위한 각 인자들의 개별 효과와 결합 효과를 살펴보고 그 개선 방안을 논의한다.

사례연구: 대구 파티마 병원 폐렴 입원 환자 수에 영향을 미치는 날씨 변수 선택 (Case study: Selection of the weather variables influencing the number of pneumonia patients in Daegu Fatima Hospital)

  • 최소현;이학래;박천건;이경은
    • Journal of the Korean Data and Information Science Society
    • /
    • 제28권1호
    • /
    • pp.131-142
    • /
    • 2017
  • 매년 폐렴 입원 환자 수는 증가하는 추세이며, 국내 질환 중 입원율 1위이기도 하다. 주로 박테리아와 바이러스가 주된 원인인 폐렴은 날씨의 영향을 받기도 한다. 본 연구에서는 날씨 변수로는 습도, 일조량, 일교차, 평균온도, 미세먼지 농도를 각각 1일 전부터 27일 전까지의 총 135개 변수를 고려하였다. 날씨와 입원 환자 수에 잠재적으로 영향을 미치는 위험 요인으로 연도 효과, 휴일 효과, 계절 효과를 추가적으로 고려하였다. 벌점화 일반화 선형 모형을 이용하여 폐렴 입원 환자 수와 관련된 변수를 선택하였다.

근로계층의 빈곤 결정요인에 관한 다층분석 (Determinants of the Working Poor : An Analysis Using Hierarchical Generalized Linear Model)

  • 김교성;최영
    • 한국사회복지학
    • /
    • 제58권2호
    • /
    • pp.119-141
    • /
    • 2006
  • 본 연구의 목적은 우리나라 근로빈곤층의 실태와 특성을 파악하고 근로빈곤층의 정태적 결정요인을 파악하는데 있다. 이를 위해 본 연구는 한국노동패널조사의 제2차년도(1999년)부터 제7차년도(2004년)의 반복측정 자료를 개인간(between-person), 개인내(within-person) 2층(two-level)으로 병합하여 자료를 구성하고 이를 통해 각 수준의 변수들이 근로자의 빈곤지위여부에 미치는 영양을 위계적 일반화 선형모형(HGLM: hierarchical generalized linear model)을 이용하여 추정하였다. 분석의 결과, 우리나라 취업자 가운데 가구소득이 빈곤선 이하의 생활을 하는 근로빈곤층(개인)의 규모는 약 10.0% 내외의 규모를 보이는 것으로 나타났다. 이러한 근로계층의 빈곤지위에 영양을 미치는 요인으로는 성별, 교육수준, 결혼상태, 취업형태, 고용업종, 고용직종 등으로 밝혀졌으며 이외 가구원수, 연령 등은 유의미안 영향을 미치지 않은 것으로 나타났다.

  • PDF

통계적 모형을 이용한 대기중 망간 농도 예측 (A statistical prediction for concentrations of Manganese in the ambient air)

  • 권혜지;김용구
    • Journal of the Korean Data and Information Science Society
    • /
    • 제27권3호
    • /
    • pp.577-586
    • /
    • 2016
  • 최근 국내에서도 환경보건에 관한 관심이 급증하고 있는데, 특히 중금속은 발암의 특성이나 독성의 비임계성에서 대기오염물질과 구분이 되며, 낮은 수준일지라도 장기간 노출되면 호흡기계, 순환기계, 신경계 및 정신적 질환을 유발하는 것으로 알려져 있다. 이들 중금속 중 망간은 인체에 유해하지만 발암물질로 분류되지 않은 탓에, 망간 자체에 대한 연구는 미비한 편인고, 특히 망간은 자동측정장치 (AWS)를 통한 측정이 불가능하고 측정 및 분석에 고난도의 기술이 요구되어서 예산 등 비용효율성의 문제로 지속적인 관측이 불가능하다. 그러한 이유로 우리나라에서는 계절별로 10~12일 정도만 관측이 이루어지고 있다. 본 논문에서는 자동측정이 가능한 기온, 강수, 풍속 등 기상인자와 관측된 $SO_2$, $PM_{10}$, $O_3$ 등 대기질 물질을 이용한 망간 농도에 대한 통계 모형을 설계하고 이를 통해 부분적으로 관측된 망간 농도를 추정하여 망간의 위해성평가에 대한 정확도를 향상 시키고자 한다. 이를 위해 제안된 모형을 시화 반월 공업지역에서 관측된 자료를 적용하였다.

소표본에서 차이측도 통계량의 비교연구 (A Monte Carlo Comparison of the Small Sample Behavior of Disparity Measures)

  • 홍종선;정동빈;박용석
    • 응용통계연구
    • /
    • 제16권2호
    • /
    • pp.455-467
    • /
    • 2003
  • 소표본 분할표 자료에서 적합도 검정통계량들의 카이제곱 근사 적용 가능에 대하여 많은 연구가 진행되었다. 소표본에서 세 가지 검정 통계량(피어슨 카이제곱 Χ$^2$, 일반화 가능도비 G$^2$, 그리고 역발산 Ι(2/3) 검정통계량)에 관하여 비교한 Rudas(1986)의 연구를 확장하여, 최근에 제안된 차이측도(BWHD(1/9), BWCS(1/3), NED(4/3) 검정통계량)를 포함시켜 비교 분석하였다. 독립모형의 이차원 분할표, 조건부 독립모형과 한 변수 독립 모형을 따르는 삼차원 분할표에 대한 모의실험을 통하여 생성된 90과 95 백분위수와 이에 대응하는 95% 신뢰구간을 살펴보고 실제 백분위수와 비교하였다. 그 결과 Χ$^2$, Ι(2/3), 그리고 BWHD(1/9) 검정통계량이 유사한 결과를 나타내었고 이 통계량들이 기존에 제안된 검정통계량들보다 적은 표본크기에서도 카이제곱 근사방법에 적용 가능함을 발견하였다.

유전알고리즘을 이용한 링크관측교통량으로부터의 기종점 통행행렬 추정 (OD Matrix Estimation from Traffic Counts Using Genetic Algorithm)

  • 백승걸
    • 대한교통학회:학술대회논문집
    • /
    • 대한교통학회 2002년도 제41회 학술발표회논문집
    • /
    • pp.17-42
    • /
    • 2002
  • 전통적인 OD조사에 의한 OD추정의 여러 문제점들로 인해 링크관측교통량과 기존OD를 결합해 OD를 추정하고자 하는 연구들이 제시되고 있다. Yang(1995)은 일반화최소자승법을 풀기 위한 IEA와 SAB 알고리즘을 제시하였다. 그러나 두 알고리즘의 문제점은 첫째 실제 OD를 알기가 어렵기 때문에 기존 OD를 중요한 추정기준으로 설정한다는 것으로, 이러한 추정의 종속성으로 인해, 기존 OD와 실제 OD의 차이가 큰 경우 정확한 해를 도출하지 못한다. 두 번째 문제는 통행패턴 추정시 선형근사화를 가정하기 때문에 게임이론적 측면에서 전제로 설정한 완전한 Stackelberg 상황을 구현하지 못한다는 것이다. 이러한 문제점을 피하기 위해서는 기존 OD나 관측교통량의 오차에 일관적인 해도출 기법이 필요하다. OD추정 문제는 본질적으로 비선형이고 비볼록하여 전역해 탐색기법이 필요하기 때문에 전역최적화가 가능한 유전알고리즘을 이용한 OD추정모형(GAM)을 개발하였다. 사례네트워크 분석결과, GAM은 기존 OD의 오차에 대해 크게 종속적이지 않으며 OD구조가 변하는 경우에도 추정이 가능하여, 일반적으로 실제 OD를 알 수 없는(기존OD의 오차가 어느 정도인지를 알 수 없는) 도시부 네트워크에서 신뢰성있는 추정력을 보였다. 또한 기존 OD 추정모형은 비교적 용이하게 차종별로 관측할 수 있는 링크교통량을 차종구분 없이 단일차종으로 이용함으로써, 정보의 손실을 초래하여 결과적으로 모형의 추정력을 저하시켰다. 그렇지만 다차종 링크관측교통량으로부터 다차종 OD 추정연구는 거의 없었으며, 그 결과가 단일차종에 대한 추정결과와 어떻게 다른지에 대한 연구도 전무하였다. 본 연구에서는 유전알고리즘을 이용한 OD 추정모형을 다수단 OD 추정모형(GAMUC)으로 확대하였다. 사례 분석 결과 단일차종 OD추정기법은 심각한 추정오류를 범할 수 있으며, 그 적용성도 낮다는 것을 보였다. 다차종 OD 추정기법이 단일차종 OD 추정기법보다 양호한 추정력을 보였으며, 다차종 기법 중에서는 GAMUC가 IEAMUC보다 우수한 추정력을 보였다.

  • PDF

선형 점자료에 있어서의 시.공 복합 군집의 탐색 (Detecting Space-Time Clusters in Linear Point Data)

  • 홍상기
    • 대한지리학회지
    • /
    • 제33권2호
    • /
    • pp.325-338
    • /
    • 1998
  • 본 연구에서는 시.공 복합적인 선형 점 자료를 대상으로 시간과 공간을 함께 고려했을 때 자료 내에 군집(cluster)-시.공 복합 군집(space-time cluster)-이 존재하는 가를 검증하는 방법에 대해 논의하고, 실제 교통사고지점의 분포자료를 분석하여 군집의 유무를 통계적으로 검증하였다. 통계 분석의 결과 다음과 같은 사실이 확인되었다. 첫째, Knox의 분할표 방법과 Mantel의 역수 변환을 이용한 일반화된 회귀분석방법 모두 임계 거리 및 임계 시간 간격의 선택이 분석결과에 영향을 미친다. 둘째, 이러한 임의성을 극복하기 위해 다양한 임계 거리 및 임계 시간 간격(혹은 부가 상수)에 대해 반복 실험한 결과, 일부 임계값의 조합에서 시간과 공간이 서로 독립적이라는 귀무가설을 기각할 수 있는 증거가 발견되었다. 셋째, 시.공 복합 군집의 파악에 가장 적합한 임계 거리와 임계 시간 간격은 공간적으로는 7000m, 시간적으로는 14일 혹은 21일이다. 마지막으로, 통계 분석과정에서 자료에 존재하는 중복 기록 사고들의 존재가 밝혀짐으로써 시.공 복합군집 검증이 탐험적 자료 분석(exploratory data analysis)의 도구로서 가지는 가치를 확인할 수 있었다.

  • PDF

우도에 기반한 임의효과에 대한 추론과 로지스틱 회귀모형에서의 응용 (Likelihood-Based Inference of Random Effects and Application in Logistic Regression)

  • 김광수
    • 응용통계연구
    • /
    • 제28권2호
    • /
    • pp.269-279
    • /
    • 2015
  • 본 논문에서는 임의효과에 대한 추론 문제가 다루어졌으며 이 추론에서 신뢰분포를 사용하는 것이 제안되었다. 신뢰분포를 이용한 방법은 표본의 크기가 작아도 임의절편들이 있는 로지스틱 회귀분석에서 좋은 결과를 보여주었으며, 자료분석을 통해서도 각 개체가 가지는 임의효과들에 대한 세밀한 분석이 가능함을 확인하였다.

Hub-and-spoke 운송전략을 고려한 철도화물서비스 네트워크디자인모형의 개발 (A Service Network Design Model for Rail Freight Transportation with Hub-and-spoke Strategy)

  • 정승주
    • 대한교통학회지
    • /
    • 제22권3호
    • /
    • pp.167-177
    • /
    • 2004
  • Hub-and-spoke운송은 교통분야에서 널리 이용되고 있는 운송전략의 대표적 개념이다. 화물의 컨테이너화와 환적기술의 발달로 최근 유럽을 중심으로 철도화물운송부문에서도 이 운송전략의 적용사례가 나타나고 있다. 이에 본 연구는 Hub-and-spoke운송전략을 구현하는 철도화물서비스네트워크 디자인모형을 제시하고, 대규모 운송망에도 적용이 가능한 효율적 알고리즘을 개발하였다. 개발되는 모형이 전략적 수준의 계획모형임에도 불구하고 모형에서는 일반화된 운영비용 외에 열차속도, 서비스빈도, 터미널에서의 화물처리속도 등에 따른 시간지체비용도 고려되었다. 시간지체비용의 고려에 따라 야기되는 목적함수의 비선형성은 빈도별 서비스결정변수의 설정을 통해 선형최적화문제로 표현되었다. 규모가 큰 네트워크의 경우 해도출의 어려움 때문에 본 논문은 전체문제의 분할(decomposition)에 기초한 휴리스틱방법((heuristic method)으로 문제를 해결하고자 하였다. 해도출의 효율성을 높이기 위해 서비스빈도개선과 관련하여 3개의 알고리즘이 개발되었고, 개발된 알고리즘은 유럽의 실제네트워크를 기초로 도출한 4개의 테스트문제를 대상으로 해의 정확도와 해 도출의 효율성이 비교 평가되었다.