• 제목/요약/키워드: 통계적 문제해결 과정

검색결과 80건 처리시간 0.025초

자연재해 주제를 활용한 창의융합 HTE-STEAM(융합인재교육) 프로그램 개발 및 효과 (Development and Effect of Creative Convergence HTE-STEAM Program using Natural Disaster)

  • 한신;김용기;김형범
    • 대한지구과학교육학회지
    • /
    • 제12권3호
    • /
    • pp.291-301
    • /
    • 2019
  • 이 연구의 목적은 고등학생들을 대상으로 한 자연재해 활용 HTE-STEAM 프로그램을 개발하여, 그들의 STEAM에 대한 태도와 만족도 변화를 검증하는데 있다. 자연재해를 활용한 6차시의 HTE-STEAM 프로그램을 개발하였고, 경기도 G 고등학교와 세종시 N 고등학교에 재학 중인 243명을 대상으로 효과성을 검증하였다. 자료 분석은 단일집단 사전, 사후 대응표본 t-검정을 실시하여 STEAM에 대한 태도 및 만족도에 대한 효과를 검증하였다. 연구 결과는 다음과 같다. 첫째, 고등학생을 대상으로 지구과학 영역의 '자연재해' 주제를 선정하여 드론 인명 구조사가 되어 드론을 비행하는 STEAM 교육프로그램을 개발하였다. 총 6차시로 구성된 프로그램은 자연재해 및 드론과 관련된 필수 지식과 다른 상황에서 학습한 내용을 적용하여 학생들이 주어진 문제를 직접 해결하도록 하는 경험을 제공하는 프로그램으로 구성하였다. 둘째, STEAM 태도 검사의 사전·사후 점수 차에 의한 대응 표본 t-검정에서 모두 유의미한 통계적 검정 결과를 나타내었다(p<.05). 드론을 활용한 HTE-STEAM 프로그램은 7개 하위 구인으로 구성된 STEAM 교육에 대한 태도 전반에 걸쳐 유의미한 향상 효과가 있었다. 셋째, HTE-STEAM 만족도 검사에서는 하위 구인의 평균값이 3.64~3.76을 나타내어 전체적으로 긍정적인 반응을 나타내었다. 학생이 주어진 문제 상황을 스스로 이해하고, 이를 해결하기 위한 창의융합적인 설계 및 제작과정을 통해 학생들의 만족도가 높아진 것으로 판단된다.

컨테이너 터미널의 야드 장치 상태 생성을 위한 생성적 적대 신경망 모형 (Generative Adversarial Network Model for Generating Yard Stowage Situation in Container Terminal)

  • 신재영;김영일;조현준
    • 한국항해항만학회:학술대회논문집
    • /
    • 한국항해항만학회 2022년도 춘계학술대회
    • /
    • pp.383-384
    • /
    • 2022
  • 4차 산업 혁명 이후 디지털 트윈, IoT 및 AI 등의 기술 발전에 따라 고차원적인 데이터 분석을 기반으로 의사결정 문제를 해결하고 있는 추세이다. 이는 최근 항만물류 분야에도 적용되고 있으며 항만 생산성 향상을 위해 컨테이너 터미널을 대상으로 빅데이터 분석, 딥러닝 예측, 시뮬레이션 등의 연구가 다수 이루어지고 있다. 이러한 고차원적 데이터 분석 기법들은 일반적으로 많은 데이터 수를 요구한다. 그러나 2020년 코로나19 팬데믹으로 인해 전 세계 항만의 환경은 변화하였다. 코로나19 발병 이전의 데이터를 현재 항만 환경에 적용하는 것은 적절하지 않으며, 발병 이후의 데이터는 딥러닝 등의 데이터 분석에 적용하기에 충분히 수집되지 않았다. 따라서 본 연구에서는 이러한 문제 해결 방법의 하나로 데이터 분석을 위한 항만 데이터 증강 방법을 제시하고자 한다. 이를 위해 컨테이너 터미널 운영 측면에서 생성적 적대 신경망 모형을 통해 야드의 컨테이너 장치 상태를 생성하고, 실제 데이터와 증강된 데이터 간의 통계적 분포 확인을 통해 유사성을 검증하였다.

  • PDF

인간 인지 지식의 표현과 해석을 위한 지능형 시스템 설계 방법 (Intelligent System Design for Knowledge Representation and Interpretation of Human Cognition)

  • 주영도
    • 한국산업정보학회논문지
    • /
    • 제16권3호
    • /
    • pp.11-21
    • /
    • 2011
  • 인지 과학의 주제가 되는 인간의 정신과 행동 양식을 컴퓨터 시스템으로 구현하려는 연구는 인공지능 분야에서 관심이 높다. 본 논문은 이간의 인지과정을 처리하기 위한 지능형 시스템 설계 방법론을 제안한다. 연구는 도시공학 분야에 응용되었고, 심리학 이론인 개인 컨스트릭트 이론에 수리적인 퍼지 관계 이론을 적용하여 도시 주민이 갖고 있는 인지 지식의 획득과 표현 방법을 구현한다. 연구목표는 도시 환경과 상호 작용을 하고 있는 도시 주민의 심리학적 인식을 정형화하고 이를 분석함으로 그들의 의견과 경험을 반영하여, 다양한 도시 문제 해결에 기여하는 자문 시스템 개발에 초점을 두고 있다. 방법론적으로 인간의 인지 지식 구현에 해당하는 인지 구조를 도출하고, 인지 구조를 통해 도시 주민의 사고와 인식 작용을 해석하고 분석한다. 제안하는 퍼지 관계론적 기법은 기존의 통계적인 방법과 달리 논리에 기반하여 인간의 심리 시스템을 구조화하고 파악하는 새로운 접근 방법이다.

데일리 렌즈 데이터를 사용한 데이터마이닝 기법 비교 (Comparison of data mining methods with daily lens data)

  • 석경하;이태우
    • Journal of the Korean Data and Information Science Society
    • /
    • 제24권6호
    • /
    • pp.1341-1348
    • /
    • 2013
  • 데이터베이스 마케팅과 시장예측 등의 분야에서 분류문제를 해결하기 위해 다양한 데이터마이닝 기법들이 적용되고 있다. 본 연구에서는 데일리 렌즈 고객들의 거래 데이터를 기반으로 의사결정나무, 로지스틱 회귀모형과 같은 기존의 통계적 분류기법과 최근에 개발된 배깅, 부스팅, 라소, 랜덤 포리스트 그리고 지지벡터기계의 분류 성능을 비교하고자 한다. 비교 실험을 위해 데이터 정제, 탐색, 파생변수 생성, 그리고 변수 선택과정을 거쳤다. 실험결과 정분류율 측면에서는 지지벡터기계가 다른 모형보다 근소하게 높았지만 표준편차가 크게 나왔다. 정분류율과 표준편차의 관점에서는 랜덤 포리스트가 가장 좋은 결과를 보였다. 그러나 모형의 해석, 간명성 그리고 학습에 걸리는 시간을 고려하였을 때 라소모형이 적합하다는 결론을 내렸다.

웹 컨텐츠의 분류를 위한 텍스트마이닝과 데이터마이닝의 통합 방법 연구 (Interplay of Text Mining and Data Mining for Classifying Web Contents)

  • 최윤정;박승수
    • 인지과학
    • /
    • 제13권3호
    • /
    • pp.33-46
    • /
    • 2002
  • 최근 인터넷에는 기존의 데이터베이스 형태가 아닌 일정한 구조를 가지지 않았지만 상당한 잠재적 가치를 지니고 있는 텍스트 데이터들이 많이 생성되고 있다. 고객창구로서 활용되는 게시판이나 이메일, 검색엔진이 초기 수집한 데이터 둥은 이러한 비구조적 데이터의 좋은 예이다. 이러한 텍스트 문서의 분류를 위하여 각종 텍스트마이닝 도구가 개발되고 있으나, 이들은 대개 단순한 통계적 방법에 기반하고 있기 때문에 정확성이 떨어지고 좀 더 다양한 데이터마이닝 기법을 활용할 수 있는 방법이 요구되고 있다. 그러나, 정형화된 입력 데이터를 요구하는 데이터마이닝 기법을 텍스트에 직접 적용하기에는 많은 어려움이 있다. 본 연구에서는 이러한 문제를 해결하기 위하여 전처리 과정에서 텍스트마이닝을 수행하고 정제된 중간결과를 데이터마이닝으로 처리하여 텍스트마이닝에 피드백 시켜 정확성을 높이는 방법을 제안하고 구현하여 보았다. 그리고, 그 타당성을 검증하기 위하여 유해사이트의 웹 컨텐츠를 분류해내는 작업에 적용하여 보고 그 결과를 분석하여 보았다. 분석 결과, 제안방법은 기존의 텍스트마이닝만을 적용할 때에 비하여 오류율을 현저하게 줄일 수 있었다.

  • PDF

영상의 대비 개선을 위한 추가 항과 감마 보정에 기반한 히스토그램 변형 기법 (Histogram Modification based on Additive Term and Gamma Correction for Image Contrast Enhancement)

  • 김종호
    • 한국전자통신학회논문지
    • /
    • 제13권5호
    • /
    • pp.1117-1124
    • /
    • 2018
  • 기상 환경 및 조명의 영향을 받는 영상의 가시성을 향상시켜 다양한 컴퓨터 비전 시스템의 활용성을 높이기 위해 대비(contrast)를 개선하는 것은 매우 중요한 과정이다. 본 논문에서는 영상의 특성에 따라 히스토그램을 변형하고, 변형된 히스토그램에 균등화를 적용함으로써 과도한 밝기 변화로 인한 포화현상 및 영상 디테일이 손실되는 문제를 해결한다. 영상의 왜곡을 발생시키는 주된 원인인 히스토그램 피트(pit)는 추가 항(additive term)을 통해 감소시키고, 스파이크(spike)는 감마 보정 기법을 적용하여 히스토그램을 변형한다. 추가 항과 감마 보정을 적용할 때 파라미터는 영상의 통계적 특성에 따라 설정되도록 한다. 대비가 낮고 안개성분이 포함된 다양한 영상에 대해 수행한 실험 결과는 제안하는 기법이 기존의 방법에 비해 원 영상의 특성을 보존하면서 효과적인 대비 개선 및 안개 제거 성능을 나타내어 영상의 가시성을 향상시킴을 보인다.

시뮬레이션 출력의 안정상태 온라인 결정에 관한 연구 (On-Line Determination Steady State in Simulation Output)

  • 이영해;정창식;경규형
    • 한국시뮬레이션학회:학술대회논문집
    • /
    • 한국시뮬레이션학회 1996년도 춘계학술대회
    • /
    • pp.1-3
    • /
    • 1996
  • 시뮬레이션 기법을 이용한 시스템의 분석에 있어서 실험의 자동화는 현재 많은 연구와 개발이 진행 중인 분야이다. 컴퓨터와 정보통신 시스템에 대한 시뮬레이션의 예를 들어 보면, 수많은 모델을 대한 시뮬레이션을 수행할 경우 자동화된 실험의 제어가 요구되고 있다. 시뮬레이션 수행회수, 수행길이, 데이터 수집방법 등과 관련하여 시뮬레이션 실험방법이 자동화가 되지 않으면, 시뮬레이션 실험에 필요한 시간과 인적 자원이 상당히 커지게 되며 출력데이터에 대한 분석에 있어서도 어려움이 따르게 된다. 시뮬레이션 실험방법을 자동화하면서 효율적인 시뮬레이션 출력분석을 위해서는 시뮬레이션을 수행하는 경우에 항상 발생하는 초기편의 (initial bias)를 제거하는 문제가 선결되어야 한다. 시뮬레이션 출력분석에 사용되는 데이터들이 초기편의를 반영하지 않는 안정상태에서 수집된 것이어야만 실제 시스템에 대한 올바른 해석이 가능하다. 실제로 시뮬레이션 출력분석과 관련하여 가장 중요하면서도 어려운 문제는 시뮬레이션의 출력데이터가 이루는 추계적 과정 (stochastic process)의 안정상태 평균과 이 평균에 대한 신뢰구간(confidence interval: c. i.)을 구하는 것이다. 한 신뢰구간에 포함되어 있는 정보는 의사결정자에게 얼마나 정확하게 평균을 추정할 구 있는지 알려 준다. 그러나, 신뢰구간을 구성하는 일은 하나의 시뮬레이션으로부터 얻어진 출력데이터가 일반적으로 비정체상태(nonstationary)이고 자동상관(autocorrelated)되어 있기 때문에, 전통적인 통계적인 기법을 직접적으로 이용할 수 없다. 이러한 문제를 해결하기 위해 시뮬레이션 출력데이터 분석기법이 사용된다.본 논문에서는 초기편의를 제거하기 위해서 필요한 출력데이터의 제거시점을 찾는 새로운 기법으로, 유클리드 거리(Euclidean distance: ED)를 이용한 방법과 현재 패턴 분류(pattern classification) 문제에 널리 사용 중인 역전파 신경망(backpropagation neural networks: BNN) 알고리듬을 이용하는 방법을 제시한다. 이 기법들은 대다수의 기존의 기법과는 달리 시험수행(pilot run)이 필요 없으며, 시뮬레이션의 단일수행(single run) 중에 제거시점을 결정할 수 있다. 제거시점과 관련된 기존 연구는 다음과 같다. 콘웨이방법은 현재의 데이터가 이후 데이터의 최대값이나 최소값이 아니면 이 데이터를 제거시점으로 결정하는데, 알고기듬 구조상 온라인으로 제거시점 결정이 불가능하다. 콘웨이방법이 알고리듬의 성격상 온라인이 불가능한 반면, 수정콘웨이방법 (Modified Conway Rule: MCR)은 현재의 데이터가 이전 데이터와 비교했을 때 최대값이나 최소값이 아닌 경우 현재의 데이터를 제거시점으로 결정하기 때문에 온라인이 가능하다. 평균교차방법(Crossings-of-the-Mean Rule: CMR)은 누적평균을 이용하면서 이 평균을 중심으로 관측치가 위에서 아래로, 또는 아래서 위로 교차하는 회수로 결정한다. 이 기법을 사용하려면 교차회수를 결정해야 하는데, 일반적으로 결정된 교차회수가 시스템에 상관없이 일반적으로 적용가능하지 않다는 문제점이 있다. 누적평균방법(Cumulative-Mean Rule: CMR2)은 여러 번의 시험수행을 통해서 얻어진 출력데이터에 대한 총누적평균(grand cumulative mean)을 그래프로 그린 다음, 안정상태인 점을 육안으로 결정한다. 이 방법은 여러 번의 시뮬레이션을 수행에서 얻어진 데이터들의 평균들에 대한 누적평균을 사용하기 매문에 온라인 제거시점 결정이 불가능하며, 작업자가 그래프를 보고 임의로 결정해야 하는 단점이 있다. Welch방법(Welch's Method: WM)은 브라운 브리지(Brownian bridge) 통계량()을 사용하는데, n이 무한에 가까워질 때, 이 브라운 브리지 분포(Brownian bridge distribution)에 수렴하는 성질을 이용한다. 시뮬레이션 출력데이터를 가지고 배치를 구성한 후 하나의 배치를 표본으로 사용한다. 이 기법은 알고리듬이 복잡하고, 값을 추정해야 하는 단점이 있다. Law-Kelton방법(Law-Kelton's Method: LKM)은 회귀 (regression)이론에 기초하는데, 시뮬레이션이 종료된 후 누적평균데이터에 대해서 회귀직선을 적합(fitting)시킨다. 회귀직선의 기울기가 0이라는 귀무가설이 채택되면 그 시점을 제거시점으로 결정한다. 일단 시뮬레이션이 종료된 다음, 데이터가 모아진 순서의 반대 순서로 데이터를 이용하기 때문에 온라인이 불가능하다. Welch절차(Welch's Procedure: WP)는 5회이상의 시뮬레이션수행을 통해 수집한 데이터의 이동평균을 이용해서 시각적으로 제거시점을 결정해야 하며, 반복제거방법을 사용해야 하기 때문에 온라인 제거시점의 결정이 불가능하다. 또한, 한번에 이동할 데이터의 크기(window size)를 결정해야 한다. 지금까지 알아 본 것처럼, 기존의 방법들은 시뮬레이션의 단일 수행 중의 온라인 제거시점 결정의 관점에서는 미약한 면이 있다. 또한, 현재의 시뮬레이션 상용소프트웨어는 작업자로 하여금 제거시점을 임의로 결정하도록 하기 때문에, 실험중인 시스템에 대해서 정확하고도 정량적으로 제거시점을 결정할 수 없게 되어 있다. 사용자가 임의로 제거시점을 결정하게 되면, 초기편의 문제를 효과적으로 해결하기 어려울 뿐만 아니라, 필요 이상으로 너무 많은 양을 제거하거나 초기편의를 해결하지 못할 만큼 너무 적은 양을 제거할 가능성이 커지게 된다. 또한, 기존의 방법들의 대부분은 제거시점을 찾기 위해서 시험수행이 필요하다. 즉, 안정상태 시점만을 찾기 위한 시뮬레이션 수행이 필요하며, 이렇게 사용된 시뮬레이션은 출력분석에 사용되지 않기 때문에 시간적인 손실이 크게 된다.

  • PDF

Ad Hoc망에서 하이브리드 라우팅 프로토콜을 위한 경로 설정 최적화 (A Routing Optimization for Hybrid Routing Protocol in Wireless Ad Hoc Networks)

  • 추성은;김재남;강대욱
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (3)
    • /
    • pp.274-276
    • /
    • 2002
  • Ad Hoc망은 전형적인 무선 네트워킹과는 다른 새로운 무선 네트워킹 파라다임으로써 기존 유선 망의 하부 구조에 의존하지 않고 이동 호스트들로만 구성된 네트워크이다. Ad Hoc망에서 통신을 하기 위해서는 출발지 노드에서 목적지 노드까지 데이터 전송을 위한 라우팅에 관한 문제이다. Ad Hoc망에서는 모든 단말기의 위치변화가 가능하기 때문에 경로설정에 어려움이 따른다. 노드간에 정보를 보내고자 할 때 노드가 인접한 상태가 아니면 정보를 직접 보낼 수 없고 여러 중간 노드들을 거쳐서 정보를 보내는 다중-홉 라우팅 방식을 사용해야 한다. 따라서 중간 노드들은 패킷 라우터의 역할을 해야하는데 무선 통신자체가 좁은 대역폭과 한정된 채널을 가지고 전송 범위가 제한되는 문제가 있다. 또한 노드자체의 이동성과 전력 소모 등으로 인한 이탈은 망 위상을 수시로 변화시키므로 노드간에 정보를 전송하는데 가장 좋은 경로는 수시로 변경될 수 있으므로 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제의 해결방안으로 경로유지 과정에서 Ad Hoc망 내의 노드들은 이동성의 특성으로 인해 현재 사용되는 경로 보다 더 짧고 효율적인 경로가 발생하고 중간 노드가 이동 될 때 새로운 경로로 갱신하여 솔기없는 최적의 경로를 유지할 수 있는 방법을 제안한다. 제안 방법은 ZRP의 IERP에서 감청모드를 통하여 사용중인 경로보다 최적의 경로를 감지하여 새로운 경로로 갱신하는 방법과 중간 노드가 이동하여 경로가 깨진 경우 부분적으로 경로를 복구하는 방법을 제시하여 항상 최적화된 경로를 유지함으로써 Ad Hoc망의 위상변화에 대한 적응성을 높일 수 있도록 한다.기반으로 하는 교육용 애플리케이션 개발의 용이성의 증대를 기대할 수 있으며, 모델의 재사용성을 보장할 수 있다. 제안한다.수행하였다. 분석에서는 제품의 효율성뿐만 아니라 보안성을 중요하게 생각하였으며, 앞으로 보안 관련 소프트웨어 개발에 사용될 수 있는 도구들이 가이드 라인에 대한 정보를 제공한다.용할 수 있는지 세부 설계를 제시한다.다.으로서 hemicellulose구조가 polyuronic acid의 형태인 것으로 사료된다. 추출획분의 구성단당은 여러 곡물연구의 보고와 유사하게 glucose, arabinose, xylose 함량이 대체로 높게 나타났다. 점미가 수가용성분에서 goucose대비 용출함량이 고르게 나타나는 경향을 보였고 흑미는 알칼리가용분에서 glucose가 상당량(0.68%) 포함되고 있음을 보여주었고 arabinose(0.68%), xylose(0.05%)도 다른 종류에 비해서 다량 함유한 것으로 나타났다. 흑미는 총식이섬유 함량이 높고 pectic substances, hemicellulose, uronic acid 함량이 높아서 콜레스테롤 저하 등의 효과가 기대되며 고섬유식품으로서 조리 특성 연구가 필요한 것으로 사료된다.리하였다. 얻어진 소견(所見)은 다음과 같았다. 1. 모년령(母年齡), 임신회수(姙娠回數), 임신기간(姙娠其間), 출산시체중등(出産時體重等)의 제요인(諸要因)은 주산기사망(周産基死亡)에 대(對)하여 통계적(統計的)으로 유의(有意)한 영향을 미치고 있어 $25{\sim}29$세(歲)의 연령군에서, 2번째 임신과 2번째의 출산에서 그리고 만삭의 임신 기간에, 출산시체중(出産時體重

  • PDF

항공 라이다 데이터의 분할: 점에서 패치로 (Segmentation of Airborne LIDAR Data: From Points to Patches)

  • 이임평
    • 한국측량학회지
    • /
    • 제24권1호
    • /
    • pp.111-121
    • /
    • 2006
  • 최근 들어 항공 라이다 데이터를 도시모델링에 활용하려는 많은 연구들이 진행되고 있다. 도시모델을 구성하는 인공 구조물을 효율적으로 추출하기 위해서는 측정된 3차원 점의 집합으로부터 평면패치를 자동으로 추출하는 것이 중요하다. 평면 패치의 자동 추출에 대한 상당한 연구가 수행되었지만 아직도 추출의 정확도와 완전성 및 계산의 효율성 측면에서 만족할 만한 결과를 얻지 못하고 있다. 이에 본 연구는 항공 라이다 측량으로 취득된 3차원 점의 집합을 자동으로 분할하여 표면패치를 구성하는 효율적인 방법의 개발을 목표로 한다. 제안된 방법은 3차원 점간의 인접성을 수립하고, 소량의 인접점을 그룹핑하여 초기패치를 생성하고, 이를 성장시켜 표면패치를 생성하는 과정으로 구성된다. 제안된 방법은 패치를 성장시키는 과정에서 통계적 분석에 기반하여 가변적으로 설정되는 임계값을 이용하여 분할 결과의 질을 향상시키고, Priority Heap과 순차적최소제곱법에 기반한 효율적인 계산 방법을 사용하였다는 점이 특징적이다. 제안된 방법을 다양한 실측 라이다 데이터에 적용하여 성능을 검증하였다. 제안한 분할 방법을 통해 대용량 3차원 점으로 구성되는 라이다 데이터는 명시적이고 강인한 표현 형태인 표면 패치의 집합으로 변환될 수 있었다. 이러한 중간 변환 과정을 통해 빌딩 추출과 같은 객체 인식의 문제를 효과적으로 해결할 수 있다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).