• 제목/요약/키워드: 이론 기반 데이터 과학

검색결과 119건 처리시간 0.025초

베이스 에러율의 상위 경계 최소화에 기반한 고차 곱 근사 방법과 숫자 인식기 결합에의 적용 (A High Order Product Approximation Method based on the Minimization of Upper Bound of a Bayes Error Rate and Its Application to the Combination of Numeral Recognizers)

  • 강희중
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제28권9호
    • /
    • pp.681-687
    • /
    • 2001
  • 다수의 인식기를 결합하여 베이지안 결정 이론 하에서 클래스 분별력을 높이려면, 훈련 데이터 샘플로부터 얻은 클래스 변수와 결정 변수들로 구성된 조건부 엔트로피에 의해서 한정되는 베이스 에러율의 상위 경계를 최소화해야 한다. Wang과 Wong은 베이스 에러율의 상위 경계를 최소화하기 위하여 클래스 변수와 다수의 특징 패턴 변수들로 구성된 고차 확률 분포를 트리 의존관계로 근사하는 1차 근사 방법을 제안하였다. 본 논문에서는 이러한 베이스 에러율의 상위 경계 최소화에 기반한 기존의 1차 트리 의존관계 근사 방법을 확장하여 고차 의존관계까지 고려할 수 있는 확장된 곱 고차 근사 방법을 제안한다. 제안된 근사 방법을 CENPARMI의 무제약 필기 숫자를 인식하는 다수의 숫자 인식기 결합 방법에 적용하여 인식 실험을 하였으며, 이 방법에 의해서 보다 높은 인식율을 얻게 되었다.

  • PDF

다차원 온라인 분석처리에서 분리-포함 분할 다차원 파일 구조를 사용한 원-패스 집계 알고리즘 (A One-Pass Aggregation Algorithm using the Disjoint-Inclusive Partition Multidimensional Files in Multidimensional OLAP)

  • 이영구;문양세;황규영
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제28권2호
    • /
    • pp.153-167
    • /
    • 2001
  • 다차원 온라인 분석처리(Multidimensional On-Line Analytical Processing: MOLAP)에서 집계 연산은 중요한 기본 연산이다. 기존의 MOLAP 집계 연산은 다차원 배열 구조를 기반으로 한 파일 구조에 대해서 연구되어 왔다. 이러한 파일 구조는 편중된 분포를 갖는 데이터에서는 잘 동작하지 못한다는 단점이 있다. 본 논문에서는 편중된 분포에도 잘 동작하는 다차원 파일구조를 사용한 집계 알고리즘을 제안한다. 먼저, 새로운 분리-포함 분할이라는 개념을 사용한 집계 연산 처리 모델을 제안한다. 집계 연산 처리에서 분리-포함 분할 개념을 사용하면 페이지들의 액세스 순서를 미리 알아 낼 수 있다는 특징을 가진다. 그리고, 제안한 모델에 기반하여 원-패스 버퍼 크기(one-pass buffer size)를 사용하여 집계 연산을 처리하는 원-패스 집계 알고리즘을 제안한다. 원-패스 버퍼 크기란 페이지 당 한 번의 디스크 액세스를 보장하기 위해 필요한 최소 버퍼 크기이다. 또한, 제안한 집계 연산 처리 모델 하에서 제안된 알고리즘이 최소의 원-패스 버퍼 크기를 갖는다는 것을 증명한다. 마지막으로, 많은 실험을 통하여 이론적으로 구한 원-패스 버퍼 크기가 실제 환경에서 정확히 동작함을 실험적으로 확인하였다. 리 알고리즘은 미리 알려진 페이지 액세스 순서를 이용하는 버퍼 교체 정책을 사용함으로써 최적의 원-패스 버퍼 크기를 달성한다. 제안하는 알고리즘을 여 러 집계 질의가 동시에 요청되는 다사용자 환경에서 특히 유용하다. 이는 이 알고리즘이 정규화 된 디스크 액세스 횟수를 1.0으로 유지하기 위해 반드시 필요한 크기의 버퍼만을 사용하기 때문이다.

  • PDF

유전알고리즘을 이용한 유전자발현 데이타상의 특징-분류기쌍 최적 앙상블 탐색 (Searching for Optimal Ensemble of Feature-classifier Pairs in Gene Expression Profile using Genetic Algorithm)

  • 박찬호;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권4호
    • /
    • pp.525-536
    • /
    • 2004
  • 유전발현 데이타는 생명체의 특정 조직에서 채취한 샘플을 microarray상에서 측정한 것으로, 유전자들의 발현 정도가 수치로 나타난 데이타이다. 일반적으로 정상조직과 이상조직에서 관련 유전자들의 발현정도는 차이를 보이기 때문에, 유전발현 데이타를 통하여 질병을 분류할 수 있다. 이러한 분류에 모든 유전자들이 관여하지는 않으므로 관련 유전자를 선별하는 작업인 특징선택이 필요하며, 선택된 유전자들을 적절히 분류하는 방법이 필요하다. 본 논문에서는 상관계수, 유사도, 정보이론 등에 기반을 둔 7가지 특징선택 방법과 대표적인 6가지 분류기에 대하여 특징-분류기 쌍의 최적 앙상블을 탐색하기 위한 유전자 알고리즘 기반 방법을 제안한다. 두 가지 암 관련 유전자 발현 데이타에 대하여 leave-one-out cross validation을 포함한 실험을 해본 결과, 림프종 데이타와 대장암 데이타 모두 단일 특징-분류기 쌍보다 훨씬 우수한 성능을 보이는 앙상블들을 발견할 수 있었다.

그리드에서 서비스 기반 가상 탐색 시스템 설계 및 구현 (Design and Implementation of Service based Virtual Screening System in Grids)

  • 이화민;진성호;이종혁;이대원;박성빈;유헌창
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제35권6호
    • /
    • pp.237-247
    • /
    • 2008
  • 가상 탐색은 대규모의 화학분자 데이타베이스의 화학분자 데이타들을 분자 다킹과 같은 컴퓨팅 기술을 이용하여 한정된 소규모의 화학분자만을 스크리닝하는 과정으로, 대규모 컴퓨팅 파워와 데이터 저장 용량을 요구하는 대표적인 대규모의 과학 어플리케이션이다. AutoDock, FlexX, Glide, DOCK, LigandFit, ViSION 등과 같은 기존의 분자 다킹 소프트웨어나 어플리케이션들은 슈퍼 컴퓨터, 단일 클러스터, 또는 단일 워크스테이션 둥을 이용하여 작업을 수행하도록 개발되었다. 하지만 슈퍼컴퓨터를 이용한 가상 탐색은 너무 많은 비용이 든다는 문제점이 있고, 단일 클러스터나 워크스테이션을 이용한 가상 탐색은 오랜 수행 시간이 요구되는 문제점을 가지고 있다. 이에 본 논문에서는 대규모의 데이타 집약적인 연산을 지원하는 그리드 컴퓨팅 기술을 이용하는 서비스 기반 가상 탐색 시스템을 제안한다. 이를 위해 본 논문에서는 가상 탐색을 위한 3차원 화학 데이타베이스를 구축하였다. 그리고 효율적인 분자 다킹 서비스를 제공하기 위해 자원 브로커와 데이타 브로커를 설계하고 가상 탐색을 위한 다양한 서비스들을 제안하였다. 본 논문에서는 DOCK 5.0과 Globus 3.2를 이용하여 서비스 기반 가상 탐색 시스템을 구현하고 성능 평가를 실시하였다. 본 논문에서 구현한 서비스 기반 가상 탐색 시스템은 신약 개발이나 신소재 개발 과정에서 연구 개발 기간을 단축하고 개발 비용을 절감할 수 있다.

연구 설계 및 연구 방법의 최근 동향: 초.중등 수학과 교육과정에 관한 연구를 중심으로 (Trends in Research Design and Methods: Research on Elementary and Secondary Mathematics Curriculum)

  • 김래영;김구연;권나영
    • 대한수학교육학회지:학교수학
    • /
    • 제14권3호
    • /
    • pp.395-408
    • /
    • 2012
  • 본 연구는 방법적 조사 연구로서 최근 10년간 한국연구재단 등재 학술지에 발표된 초 중등 수학과 교육과정을 다룬 연구물 124편을 분석함으로써 연구 설계 및 방법의 최근 동향을 파악하고 이를 통해 향후 연구에 대한 시사점을 얻고자 시행되었다. 연구 결과, 최근 들어 데이터를 기반으로 하는 과학적 실증적 연구들이 꾸준히 이루어지고는 있으나 과학적 연구 방법을 사용하기보다는 기존 자료를 재정리하거나 객관적 근거 없이 자신의 의견을 피력하는 연구물들이 다수를 차지하고 있었다. 또한, 연구 문제, 이론적 배경, 자료 수집, 자료 분석, 결론이라는 구성 요소별로 분석하였을 때도 이들 요소간의 유기적 관계를 통한 연구 설계의 엄밀성, 일관성, 객관성을 확보하지 못하고 있는 경우도 다수 발견되었다. 따라서, 본 연구에서는 수학과 교육과정을 다루는 연구에서 연구 윤리 및 연구 방법에 대한 재인식이 필요함과 더불어 개선 방안 마련이 시급함을 제안하였다.

  • PDF

인적서비스 이용자 만족도 및 지속의도의 이해: 대학도서관의 연구 (Towards an Understanding of User Satisfaction and Continuance Intention in Human-Mediated Services: An Investigation of Academic Libraries)

  • 이보람;박지홍
    • 정보관리연구
    • /
    • 제42권3호
    • /
    • pp.187-210
    • /
    • 2011
  • 본 연구는 대학도서관 직원의 서비스 품질이 이용자 만족도와 지속의도에 어떠한 영향을 미치는지 알아보고, 만족도와 지속의도 향상을 위한 실질적인 방안을 제시하는 데 그 목적을 두고 있다. 다양한 도서관 서비스의 가치를 실현시킬 수 있는 기반핵심요소로서의 인적서비스는 그 가치와 중요성에 비해서 이전연구에서 상대적으로 강조되지 않았다. 본 연구는 인적서비스, 서비스 품질, 만족도, 지속의도의 개념을 이론적 배경으로 개념적 분석틀을 개발하여 이를 데이터 수집 및 분석에 유용한 가이드라인으로 활용한다. 본 연구에서는 방법론적으로 정량적 평가 외에 심층면담을 추가한 통합방법론을 활용하며, 결과적으로는 이용자들에게 대학도서관 인적서비스에 대한 긍정적 태도를 높여주는 전략을 제시함으로써 지속의도 확보 가능성을 확인할 수 있다는 점이 의의에 포함된다.

소비자의 공연 경험에 다가가기 - 온라인 게시글 분석을 통한 공연 경험의 구성요소 탐구 - (Getting Closer to Consumer Performance Experience: Research on Performance Experience Components through Online Post Analysis)

  • 고예나;이중식;김은미;이수민
    • 예술경영연구
    • /
    • 제52호
    • /
    • pp.75-105
    • /
    • 2019
  • 오늘날 문화소비를 연구하는데 있어 실제 관람객의 경험을 구체적으로 이해하고 분석하는 작업은 핵심적이다. 이는 소셜미디어 등 표현할 수 있는 미디어 공간이 증가하면서 실제로 사람들이 많은 공연 경험들을 기록으로 남기고 있기 때문에 이 전에는 접근이 불가능했던 주관적인 경험의 기록들을 데이터로 활용할 수 있게 되었다는 점과 깊이 관련되어 있다. 이 연구는 사람들의 공연 경험이 실제로 어떤 요소로 구성되어 있는지를 온라인상에 존재하는 공연 경험에 대한 사람들의 실제 표현에 기반해 살펴보고자 한다. 이를 위해 두 가지 유형의 데이터를 확보하였다. 먼저 관람 전에 공연 추천을 요청하는 글을 올릴 때 원하는 공연을 어떻게 표현하는가를 지식인과 카페 플랫폼에서 수집해 수식어를 중심으로 분석하였다. 그 결과 사람들은 동반자나 나이와 같은 개인의 구체적인 상황이 반영된 수식어를 주로 사용하는 것으로 나타났다. 한편 티켓예매사이트의 공연 후기 글을 통해 관람 후 경험이 어떻게 묘사되었는가를 분석하였다. 그 결과 기존 연구에서 공연 경험 만족 요소로 알려져 왔던 스토리나 음악과 같은 요소 외에도 동반자, 재관람 의도, 관람 경력과 관련된 표현이 중심을 이루는 것으로 드러났다. 연구 결과에 대한 이론적 논의 뿐아니라 실용적 의의와 한계에 대해서 논의하였다.

웹 기반의 센서네트워크 질의 및 데이타 관리 (A Web-based Sensor Network Query and Data Management)

  • 황광일;엄두섭
    • 한국정보과학회논문지:시스템및이론
    • /
    • 제33권11호
    • /
    • pp.820-829
    • /
    • 2006
  • 최근 무수한 센서 노드들로 구성된 무선 센서 네크워크는 물리적인 환경을 감독하고 분석하는데 많은 기여를 할 것으로 기대된다. 그러나, 센서 네트워크는 매우 많은 노드들이 통신에 참여하고 전력이 제한된다는 점에서 기존의 네트워크와 매우 차별된다. 이러한 독특한 특징 때문에 센서네트워크의 데이타 질의를 포함한 센서 네트워크 데이타 관리는 주목할 만한 연구분야가 되고 있다. 또한 인터넷의 활발한 보급과 사용의 편리함 때문에 독립적인 한 네트워크에 대한 감독과 관리에 있어 인터넷을 통한 원격의 웹기반 네트워크 관리기술을 사용하는 것이 일반적으로 고려되고 있다. 그리하여 본 논문에서는 센서 네트워크 데이타 질의 및 관리를 보다 효율적으로 하기 위한 웹기반의 센서 데이타 질의 서버와 이를 기반으로 한 게이트웨이의 구조를 제안하고, 제안된 웹기반의 센서 게이트웨이의 구현관련 세부사항과 그 결과를 기술한다. 제안된 웹기반 게이트웨이는 크게 두 부분으로 구성된다.(인터넷 관련 처리부분과 센서 데이터 처리부분) 센서 데이타 처리부분은 인터넷으로 전달된 사용자의 질의와 해당하는 데이타를 다양한 센서 네트워크(평면적 또는 계층적)에 적용 가능한 센서 데이타 질의 및 데이타 관리를 대행하는 역할을 하며, 인터넷 관련 처리부분에서는 센서 네트워크와 인터넷 사이의 순조로운 데이타 교환을 위한 모듈화된 게이트웨이 기능을 공급한다.

메타개체군 이론을 활용한 도시개발에 따른 생물 종 영향 평가 활용 가능성 분석 (Analyzing the Impact of Species on Urban Development Using Meta Population Model)

  • 김은섭;모용원;박태윤;전윤호;최지영;이동근
    • 환경영향평가
    • /
    • 제32권2호
    • /
    • pp.61-71
    • /
    • 2023
  • 공간 스케일에 따른 생물 종 별 영향의 차이가 발생함에 따라, 도시 개발 사업에 따른 영향을 정량적으로 평가하기 위해서는 경관규모에서의 분석이 필요하다. 선행연구에서는 도시개발에 따라 변화하는 환경에 대한 생물종 영향을 분석하기위해 메타개체군 이론을 기반한 Incidence Function Model (IFM)을 활용하여 분석하고 있다. 하지만 해당 모델은 최소 점유영역이 10개 이상이 되어야 하므로, 모니터링이 어려운 생물종에 대한 활용은 어렵다. 따라서 본 연구에서는 이러한 문제점을 보완하기 위해 삵(Prionailurus bengalensis)을 중심으로 종 분포 모델을 통해 구축된 데이터를 바탕으로 IFM 모델을 분석하고자 하였다. 또한, 본 모델을 통해 환경영향평가서 중 자연생태환경분야에서의 활용 가능성을 검토하였다. 연구결과, 도시개발에 따른 삵의 최소 점유율은 56.5%, 생존가능성은 28.7%로 감소하는 것을 확인할 수 있었다. 서식지 개수 감소에 따른 개체군 수용력에 대한 분석을 통해 230개소와 70개소에서 개체군의 수용 능력이 급격하게 감소함을 확인하였다. 본 연구는 환경계획 관점에서 서식지 면적 감소에 따른 삵의 환경영향을 평가하였으며, 삵을 보호하기 위한 최소한의 서식지 개수 및 면적 설정에 대한 의사결정을 지원할 수 있다. 이는 개발 프로젝트 전, 후 영향평가 및 저감방안 계획에 기초자료로 활용됨으로써, 저감방안의 실효성을 높여줄 수 있을 것으로 기대된다.

SysML 기반 모델링 및 시뮬레이션 기법을 활용한 무기체계 정비도 지수 산출 (Computation of Maintainability Index Using SysML-Based M&S Technique for Improved Weapon Systems Development)

  • 유연용;이재천
    • 한국산학기술학회논문지
    • /
    • 제19권11호
    • /
    • pp.88-95
    • /
    • 2018
  • 정비도는 시스템에 고장이 발생하였을 때 얼마나 쉽게 정상 상태로 복구할 수 있는가를 나타내는 것으로서, 좋은 정비도를 갖도록 개발된 시스템은 정비시간, 정비인력 및 소요자원 등의 절감을 통해 무기체계의 운용유지비용 관점에서 경쟁력을 갖게 된다. 시스템설계 후반기에서의 정비도 반영을 위한 설계변경은 비용 초과와 일정 지연을 초래할 수 있어서 설계 초기단계부터 정비도를 고려할 필요가 있다. 정비도는 평균수리시간, 평균실정비시간 등으로 정량화할 수 있으나, 이는 시제품 제작 이후 또는 이력데이터가 있는 경우에만 추정가능하고 시스템 구성품의 물리적 특성을 나타내지 못하는 제약이 있다. 이점을 해결하기 위해 기존 논문에서는 그래프 이론을 활용하였으나, 일련의 과정이 개별적으로 독립된 환경에서 수행되어 전체과정에 대한 관리의 효율성이 부족하다. 또한 3D 모델 데이터를 활용하여 설계단계에서 정비도 평가방법을 제시하였으나, 새로운 시스템 설계시 또는 설계초기에 적용할 때 제약이 있다. 이 문제를 해결하기 위해 본 논문에서는 SysML 기반 모델링 및 시뮬레이션 기법을 활용하여 무기체계의 정비도 지수를 산출하는 방법을 연구하였다. 특히, 시스템 설계 및 정비도 추정을 동시에 고려하기 위해서, 시스템공학 도구 상의 정비속성 및 속성간 관계 값을 SysML 구조 다이어그램에 반영하여 구성품의 정비도를 모델링하였다. 그리고 나서 SysML Parametric 다이어그램을 생성하고 MATLAB과 연계한 시뮬레이션을 통해 정량적인 정비도 지수를 산출하였다. 본 연구결과를 활용하면, 설계초기부터 시스템 모델과 정비도 모델의 통합으로 효율적 관리가 가능하고, 정비도 지수가 낮은 구성품을 조기에 식별하여 설계 후반기에서의 설계변경에 따른 비용 및 일정에 대한 위험을 감소시킬 수 있다.