• 제목/요약/키워드: Redundant System

검색결과 605건 처리시간 0.023초

교통사고 데이터의 마이닝을 위한 연관규칙 학습기법과 서브그룹 발견기법의 비교 (Comparison of Association Rule Learning and Subgroup Discovery for Mining Traffic Accident Data)

  • 김정민;류광렬
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.1-16
    • /
    • 2015
  • 교통사고의 원인을 규명하고 미래의 사고를 방지하기 위한 노력의 일환으로 데이터 마이닝 기법을 이용한 교통 데이터 분석의 연구가 이루어지고 있다. 하지만 기존의 교통 데이터를 이용한 마이닝 연구들은 학습된 결과를 사람이 이해하기 어려워 분석에 많은 노력이 필요하다는 문제가 있었다. 본 논문에서는 많은 속성들로 표현된 교통사고 데이터로부터 유용한 패턴을 발견하기 위해 규칙 학습 기반의 데이터 마이닝 기법인 연관규칙 학습기법과 서브그룹 발견기법을 적용하였다. 연관규칙 학습기법은 비지도 학습 기법의 하나로 데이터 내에서 동시에 많이 등장하는 아이템(item)들을 찾아 규칙의 형태로 가공해 주며, 서브그룹 발견기법은 사용자가 지정한 대상 속성이 결론부에 나타나는 규칙을 학습하는 지도학습 기반 기법으로 일반성과 흥미도가 높은 규칙을 학습한다. 규칙 학습 시 사용자의 의도를 반영하기 위해서는 하나 이상의 관심 속성들을 조합한 합성 속성을 만들어 규칙을 학습할 수 있다. 규칙이 도출되고 나면 후처리 과정을 통해 중복된 규칙을 제거하고 유사한 규칙을 일반화하여 규칙들을 더 단순하고 이해하기 쉬운 형태로 가공한다. 교통사고 데이터를 대상으로 두 기법을 적용한 결과 대상 속성을 지정하지 않고 연관규칙 학습기법을 적용하는 경우 사용자가 쉽게 알기 어려운 속성 사이의 숨겨진 관계를 발견할 수 있었으며, 대상 속성을 지정하여 연관규칙 학습기법과 서브그룹 발견기법을 적용하는 경우 파라미터 조정에 많은 노력을 기울여야 하는 연관규칙 학습기법에 비해 서브그룹 발견기법이 흥미로운 규칙들을 더 쉽게 찾을 수 있음을 확인하였다.

지식 누적을 이용한 실시간 주식시장 예측 (A Real-Time Stock Market Prediction Using Knowledge Accumulation)

  • 김진화;홍광헌;민진영
    • 지능정보연구
    • /
    • 제17권4호
    • /
    • pp.109-130
    • /
    • 2011
  • 연속발생 데이터는 데이터의 원천으로부터 데이터 저장소로 연속적으로 축적이 되는 데이터를 말한다. 이렇게 축적된 데이터의 크기는 시간이 지남에 따라 점점 커진다. 또한 이러한 대용량 데이터에서 정보를 추출하기 위해서는 저장공간, 시간, 그리고 많은 자원이 필요하다. 이러한 연속발생 데이터의 특성은 시간이 지남에 따라 축적된 대용량 데이터의 이용을 어렵고 고비용이 되게 한다. 만약 정보나 패턴을 추출할 때 누적된 전체 발생 데이터 중에서 최근의 일부만 사용 한다면 적은 일부 표본의 사용의 문제로 인하여 전체 데이터 사용에서 발견될 수 있는 유용한 정보의 유실이 있을 수 있다. 이러한 문제점을 해결하기 위해서 본 연구는 연속발생 데이터를 발생 시점에서 계속 모으기 보다 이러한 발생되는 데이터에서 규칙을 추출하여 효율적으로 지식을 관리하고자 한다. 이 방법은 기존의 방법에 비하여 적은 양의 데이터 저장공간을 필요로 한다. 또한 이렇게 축적된 규칙집합은 미래에 예측을 위해서 언제든 실시간 예측을 할 수 있게 준비가 된다. 여러 예측 모델을 결합시키는 방법인 앙상블 이론에 의하면 본 연구가 제시하는 데로 체계적으로 규칙집합을 시간에 따라 융합시킬 경우 더 나은 예측 성과가 가능하다. 본 연구는 주식시장의 변동성을 예측하기 위하여 주식시장 데이터를 사용하였다. 본 연구는 이 데이터를 이용해 본 연구가 제시하는 방법과 기존의 방법의 예측 정확도를 비교 하였다.

소비자의 가치 추구 동인이 블로그 리뷰의 신뢰성 지각에 미치는 영향: 유대강도에 따른 조절효과를 중심으로 (The Effect of Consumers' Value Motives on the Perception of Blog Reviews Credibility: the Moderation Effect of Tie Strength)

  • 주우진;노민정
    • Asia Marketing Journal
    • /
    • 제13권4호
    • /
    • pp.159-189
    • /
    • 2012
  • 블로그의 상품 리뷰가 소비자의 주목을 끄는 데에는 정보 원천인 블로거에 대한 신뢰가 자리잡고 있다. 블로거가 해당 상품 카테고리와 관련하여 충분한 지식 및 경험을 습득하고 있다는 전문성에 대한 믿음, 그리고 어떤 다른 이해 관계에 얽매여 정보를 왜곡하려는 등의 불순한 의도를 지니고 있지 않다는 진실성에 대한 믿음이 있기에 소비자들은 구매 의사 결정에 뒤따르는 불확실성을 줄일 요량으로 블로그의 상품 리뷰를 참조하게 된다. 본 연구는 이러한 점에 착안하여 소비자들이 리뷰 정보를 통해 추구하는 가치 동인이 무엇이냐에 따라 신뢰성의 하위 차원인 전문성 및 진실성에 이르는 경로 계수의 비중이 분화하며, 나아가 유대 강도의 강약에 따라 전문성 및 진실성 기반 신뢰성에 대한 기대치가 분기하게 될 것이라 예측하였다. 아울러, 유대 강도가 태도로서의 신뢰성이 리뷰 수용 의사에 대해 갖는 예측력에 조절 효과를 미쳐 파워블로그 사용 집단에서보다 개인블로그 사용 집단에서 이러한 예측력이 보다 고양될 것이라 가정하였다. 분석 결과, 도구적 정보 니즈를 충족시키고자 하는 유목적적 가치 동인은 정보 원천의 전문성에 대한 기대 의존도를 증폭시키지만, 고립감을 해소하고자 하는 대인간 연결의 가치 동인은 정보 원천의 진실성에 대한 의존도를 높이는 것으로 나타났다. 그리고, 전문성에 대한 기대치는 강한 유대 관계의 개인블로그 사용 집단에서보다 약한 유대 관계의 파워블로그 사용 집단에서 보다 증진되며, 태도로서의 신뢰성이 리뷰 수용 의사에 대해 갖는 예측력은 파워블로그 사용 집단에서보다 개인블로그 사용 집단에서 보다 고양되는 것으로 나타났다.

  • PDF

스마트교육을 위한 오픈 디지털교과서 (Open Digital Textbook for Smart Education)

  • 구영일;박충식
    • 지능정보연구
    • /
    • 제19권2호
    • /
    • pp.177-189
    • /
    • 2013
  • 스마트교육에서 디지털교과서의 역할은 학습자와 대면하는 교육미디어로써 그 중요성은 재론의 여지없다. 이러한 디지털교과서는 학습자의 편의와 더불어 교수자, 콘텐츠 제작자, 유통업자를 위하여 표준화되어야 활성화되고 산업화될 수 있다. 본 연구에서는 다음과 같은 3가지 목표를 지향하는 디지털교과서 표준화 방안을 모색한다. (1) 디지털교과서는 온-오프 수업을 모두 지원하는 혼합학습 매체의 역할을 해야 하며, 특별한 전용뷰어 없이 표준을 준수하는 모든 EPUB 뷰어에서 실행가능 해야 하며, 기존의 이러닝 학습 콘텐츠와 학습관리시스템를 활용할 수 있도록 하며, 디지털 교과서를 사용하는 학습자의 정보를 추적 관리할 수 있는 트랙킹기능이 있으면서도, 오프라인 동안의 정보를 축적하여 서버와 통신할 수 있는 기능도 필요하다. 디지털교과서의 표준으로서 EPUB을 고려하는 이유는 디지털교과서가 책의 형태를 가져야 하는데 이를 위해서 따로 표준을 정할 필요가 없으며, EPUB 표준을 채택함으로써 풍부한 콘텐츠, 유통구조, 산업기반을 활용할 수 있기 때문이다. (2) 디지털교과서는 오픈소스를 적극 활용하여 저비용으로 현재 사용가능한 서비스를 구성하여 표준과 더불어 실제 실행 가능한 프로그램으로 제시되어야 하며, 관련 학습 콘텐츠가 오픈마켓의 형태로 운영될 수 있어야 한다. (3) 디지털교과서는 학습자에게 적절한 학습 피드백을 제공하기 위하여 모든 학습활동 정보를 축적하고 관리될 수 있는 인프라를 표준에 따라 구축하여 교육 빅데이터 처리의 기반을 제공하여야 한다. 이북 표준인 EPUB 3.0을 기반으로 하는 오픈 디지털교과서는 (1) 학습활동 정보를 기록하고 (2) 이 학습활동 지원을 위한 서버와 통신하여야 한다. 현재 표준으로 정해져 있지 않은 이북의 기록과 통신 기능을 EPUB 3.0의 JavaScript로 구현하여 현재 EPUB 3.0 뷰어에서도 활용하면서 이를 차세대 이북 표준 또는 교육을 위한 이북 표준(EPUB 3.0 for education)으로 제안하여 향후 제정된 표준 이북 뷰어에서는 JavaScript없이도 처리되도록 하는 전략이 필요하다. 향후 연구는 제안한 오픈 디지털교과서 표준에 의한 오픈소스 프로그램을 개발하고, 개발된 오픈 디지털교과서의 학습활동정보를 활용한 새로운 교육서비스 방안(교육 빅데이터 활용방안 포함)을 제시하는 것이다.

전이학습 기반 다중 컨볼류션 신경망 레이어의 활성화 특징과 주성분 분석을 이용한 이미지 분류 방법 (Transfer Learning using Multiple ConvNet Layers Activation Features with Principal Component Analysis for Image Classification)

  • 바트후 ?바자브;주마벡 알리하노브;팡양;고승현;조근식
    • 지능정보연구
    • /
    • 제24권1호
    • /
    • pp.205-225
    • /
    • 2018
  • Convolutional Neural Network (ConvNet)은 시각적 특징의 계층 구조를 분석하고 학습할 수 있는 대표적인 심층 신경망이다. 첫 번째 신경망 모델인 Neocognitron은 80 년대에 처음 소개되었다. 당시 신경망은 대규모 데이터 집합과 계산 능력이 부족하여 학계와 산업계에서 널리 사용되지 않았다. 그러나 2012년 Krizhevsky는 ImageNet ILSVRC (Large Scale Visual Recognition Challenge) 에서 심층 신경망을 사용하여 시각적 인식 문제를 획기적으로 해결하였고 그로 인해 신경망에 대한 사람들의 관심을 다시 불러 일으켰다. 이미지넷 첼린지에서 제공하는 다양한 이미지 데이터와 병렬 컴퓨팅 하드웨어 (GPU)의 발전이 Krizhevsky의 승리의 주요 요인이었다. 그러므로 최근의 딥 컨볼루션 신경망의 성공을 병렬계산을 위한 GPU의 출현과 더불어 ImageNet과 같은 대규모 이미지 데이터의 가용성으로 정의 할 수 있다. 그러나 이러한 요소는 많은 도메인에서 병목 현상이 될 수 있다. 대부분의 도메인에서 ConvNet을 교육하기 위해 대규모 데이터를 수집하려면 많은 노력이 필요하다. 대규모 데이터를 보유하고 있어도 처음부터 ConvNet을 교육하려면 많은 자원과 시간이 소요된다. 이와 같은 문제점은 전이 학습을 사용하면 해결할 수 있다. 전이 학습은 지식을 원본 도메인에서 새 도메인으로 전이하는 방법이다. 전이학습에는 주요한 두 가지 케이스가 있다. 첫 번째는 고정된 특징점 추출기로서의 ConvNet이고, 두번째는 새 데이터에서 ConvNet을 fine-tuning 하는 것이다. 첫 번째 경우, 사전 훈련 된 ConvNet (예: ImageNet)을 사용하여 ConvNet을 통해 이미지의 피드포워드 활성화를 계산하고 특정 레이어에서 활성화 특징점을 추출한다. 두 번째 경우에는 새 데이터에서 ConvNet 분류기를 교체하고 재교육을 한 후에 사전 훈련된 네트워크의 가중치를 백프로퍼게이션으로 fine-tuning 한다. 이 논문에서는 고정된 특징점 추출기를 여러 개의 ConvNet 레이어를 사용하는 것에 중점을 두었다. 그러나 여러 ConvNet 레이어에서 직접 추출된 차원적 복잡성을 가진 특징점을 적용하는 것은 여전히 어려운 문제이다. 우리는 여러 ConvNet 레이어에서 추출한 특징점이 이미지의 다른 특성을 처리한다는 것을 발견했다. 즉, 여러 ConvNet 레이어의 최적의 조합을 찾으면 더 나은 특징점을 얻을 수 있다. 위의 발견을 토대로 이 논문에서는 단일 ConvNet 계층의 특징점 대신에 전이 학습을 위해 여러 ConvNet 계층의 특징점을 사용하도록 제안한다. 본 논문에서 제안하는 방법은 크게 세단계로 이루어져 있다. 먼저 이미지 데이터셋의 이미지를 ConvNet의 입력으로 넣으면 해당 이미지가 사전 훈련된 AlexNet으로 피드포워드 되고 3개의 fully-connected 레이어의 활성화 틀징점이 추출된다. 둘째, 3개의 ConvNet 레이어의 활성화 특징점을 연결하여 여러 개의 ConvNet 레이어의 특징점을 얻는다. 레이어의 활성화 특징점을 연결을 하는 이유는 더 많은 이미지 정보를 얻기 위해서이다. 동일한 이미지를 사용한 3개의 fully-connected 레이어의 특징점이 연결되면 결과 이미지의 특징점의 차원은 4096 + 4096 + 1000이 된다. 그러나 여러 ConvNet 레이어에서 추출 된 특징점은 동일한 ConvNet에서 추출되므로 특징점이 중복되거나 노이즈를 갖는다. 따라서 세 번째 단계로 PCA (Principal Component Analysis)를 사용하여 교육 단계 전에 주요 특징점을 선택한다. 뚜렷한 특징이 얻어지면, 분류기는 이미지를 보다 정확하게 분류 할 수 있고, 전이 학습의 성능을 향상시킬 수 있다. 제안된 방법을 평가하기 위해 특징점 선택 및 차원축소를 위해 PCA를 사용하여 여러 ConvNet 레이어의 특징점과 단일 ConvNet 레이어의 특징점을 비교하고 3개의 표준 데이터 (Caltech-256, VOC07 및 SUN397)로 실험을 수행했다. 실험결과 제안된 방법은 Caltech-256 데이터의 FC7 레이어로 73.9 %의 정확도를 얻었을 때와 비교하여 75.6 %의 정확도를 보였고 VOC07 데이터의 FC8 레이어로 얻은 69.2 %의 정확도와 비교하여 73.1 %의 정확도를 보였으며 SUN397 데이터의 FC7 레이어로 48.7%의 정확도를 얻었을 때와 비교하여 52.2%의 정확도를 보였다. 본 논문에 제안된 방법은 Caltech-256, VOC07 및 SUN397 데이터에서 각각 기존에 제안된 방법과 비교하여 2.8 %, 2.1 % 및 3.1 %의 성능 향상을 보였다.