• 제목/요약/키워드: High-Dimensional Data

검색결과 1,553건 처리시간 0.031초

도시하천 분석과 모델링을 위한 스마트 지형공간정보의 응용 (Application of Smart Geospatial Information for Modeling and Analysis of City River)

  • 이현직;엄준식;유영걸;박은관
    • 대한공간정보학회지
    • /
    • 제21권4호
    • /
    • pp.135-142
    • /
    • 2013
  • 본 연구에서는 고해상도 디지털항공사진영상과 항공 LiDAR 자료를 이용하여 생성된 고품질 3차원 공간정보인 스마트 공간정보를 도시 하천의 이수 및 치수 목적에 부합되는 친환경 생태학적 하천복원의 3차원 계획 및 설계에 적용시키는 최적화 방안을 모색하고 개발 전 후의 3차원 모델링을 통하여 하천복원 등에 관한 기초자료를 제공하고자 하였다. 또한 기존의 2차원 기반의 계획 및 설계 환경을 3차원 기반의 계획 및 설계 환경으로 전환하여 하천 분석의 정확도를 확보하고 하천복원에 따른 다양한 민원을 사전에 분석하고자 하였다.

Multiple Group Testing Procedures for Analysis of High-Dimensional Genomic Data

  • Ko, Hyoseok;Kim, Kipoong;Sun, Hokeun
    • Genomics & Informatics
    • /
    • 제14권4호
    • /
    • pp.187-195
    • /
    • 2016
  • In genetic association studies with high-dimensional genomic data, multiple group testing procedures are often required in order to identify disease/trait-related genes or genetic regions, where multiple genetic sites or variants are located within the same gene or genetic region. However, statistical testing procedures based on an individual test suffer from multiple testing issues such as the control of family-wise error rate and dependent tests. Moreover, detecting only a few of genes associated with a phenotype outcome among tens of thousands of genes is of main interest in genetic association studies. In this reason regularization procedures, where a phenotype outcome regresses on all genomic markers and then regression coefficients are estimated based on a penalized likelihood, have been considered as a good alternative approach to analysis of high-dimensional genomic data. But, selection performance of regularization procedures has been rarely compared with that of statistical group testing procedures. In this article, we performed extensive simulation studies where commonly used group testing procedures such as principal component analysis, Hotelling's $T^2$ test, and permutation test are compared with group lasso (least absolute selection and shrinkage operator) in terms of true positive selection. Also, we applied all methods considered in simulation studies to identify genes associated with ovarian cancer from over 20,000 genetic sites generated from Illumina Infinium HumanMethylation27K Beadchip. We found a big discrepancy of selected genes between multiple group testing procedures and group lasso.

고차원 선형 및 로지스틱 회귀모형에 대한 변분 베이즈 방법 소개 (Introduction to variational Bayes for high-dimensional linear and logistic regression models)

  • 장인송;이경재
    • 응용통계연구
    • /
    • 제35권3호
    • /
    • pp.445-455
    • /
    • 2022
  • 본 논문에서는 고차원 희소 회귀분석을 위한 기존의 베이지안 방법들을 소개하고, 다양한 모의실험 세팅에서 성능을 비교한다. 특히, 확장 가능하고 정확한 베이지안 추론을 가능하게 하는 변분 베이즈 방법(variational Bayes method) (Ray와 Szabó, 2021) 에 중점을 둔다. 시뮬레이션 자료를 기반으로 한 희소 고차원 선형회귀분석을 실시하고 변분 베이즈 방법의 성능을 다른 베이지안 및 빈도론 방법들과 비교한다. 로지스틱 회귀분석에서 변분 베이즈 방법의 실제 성능을 확인하기 위해 백혈병 유전자 발현 자료를 사용하여 실자료 분석을 수행한다.

고차원 스펙트라 데이터 분석을 위한 Adjusted Direct Orthogonal Signal Correction 기법 (Adjusted Direct Orthogonal Signal Correction For High-Dimensional Spectral Data)

  • 김신영;김성범
    • 대한산업공학회지
    • /
    • 제37권4호
    • /
    • pp.400-407
    • /
    • 2011
  • Modeling and analysis of high-dimensional spectral data provide an opportunity to uncover inherent patterns in various information-rich data. Orthogonal signal correction (OSC) a preprocessing technique has been widely used to remove unwanted variations of spectral data that do not contribute to prediction or classification. In the present study we propose a novel OSC algorithm called adjusted direct OSC to improve visualization and the ability of classification. Experimental results with real mass spectral data from condom lubricants demonstrate the effectiveness of the proposed approach.

하이퍼스펙트럴 데이터 분류에서의 평탄도 LDA 규칙화 기법의 실험적 분석 (An Experimental Study on Smoothness Regularized LDA in Hyperspectral Data Classification)

  • 박래정
    • 한국지능시스템학회논문지
    • /
    • 제20권4호
    • /
    • pp.534-540
    • /
    • 2010
  • 고차원 특성과 높은 상관성은 하이퍼스펙트럴 데이터의 주요 특징이다. LDA와 그 변형 선형 투사 방법들이 고차원 스펙트럴 정보로부터 저차원의 특징을 추출하는데 사용되었다. LDA는 학습 데이터가 적은 경우 흔히 발생하는 과대적합으로 인해 일반화 성능이 낮아지는 문제가 발생하는데, 이를 완화하기 위하여 LDA 규칙화(regularization) 방법들이 제시되었다. 그 중, 평탄도(smoothness) 제약에 기반한 LDA 규칙화 기법은 높은 상관성을 갖는 하이퍼스펙트럴 데이터의 특성에 적합한 특징 추출 기법이다. 본 논문에서는 하이퍼스펙트럴 데이터 분류에서 평탄도 제약을 갖는 LDA 규칙화 방법을 소개하고 학습 데이터 조건에 따른 성능을 실험적으로 분석한다. 또한, 분류 성능의 향상을 위한 스펙트럴 정보와 공간적 정보의 상관성을 함께 활용하는 이중 평탄도 LDA 규칙화 기법을 제시한다.

Mini-Review of Studies Reporting the Repeatability and Reproducibility of Diffusion Tensor Imaging

  • Seo, Jeong Pyo;Kwon, Young Hyeon;Jang, Sung Ho
    • Investigative Magnetic Resonance Imaging
    • /
    • 제23권1호
    • /
    • pp.26-33
    • /
    • 2019
  • Purpose: Diffusion tensor imaging (DTI) data must be analyzed by an analyzer after data processing. Hence, the analyzed data of DTI might depend on the analyzer, making it a major limitation. This paper reviewed previous DTI studies reporting the repeatability and reproducibility of data from the corticospinal tract (CST), one of the most actively researched neural tracts on this topic. Materials and Methods: Relevant studies published between January 1990 and December 2018 were identified by searching PubMed, Google Scholar, and MEDLINE electronic databases using the following keywords: DTI, diffusion tensor tractography, reliability, repeatability, reproducibility, and CST. As a result, 15 studies were selected. Results: Measurements of the CSTs using region of interest methods on 2-dimensional DTI images generally showed excellent repeatability and reproducibility of more than 0.8 but high variability (0.29 to 1.00) between studies. In contrast, measurements of the CST using the 3-dimensional DTT method not only revealed excellent repeatability and reproducibility of more than 0.9 but also low variability (repeatability, 0.88 to 1.00; reproducibility, 0.82 to 0.99) between studies. Conclusion: Both 2-dimensional DTI and 3-dimensional DTT methods appeared to be reliable for measuring the CST but the 3-dimensional DTT method appeared to be more reliable.

효율적인 병렬 고차원 색인구조 설계 (Design of an Efficient Parallel High-Dimensional Index Structure)

  • 박춘서;송석일;신재룡;유재수
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권1호
    • /
    • pp.58-71
    • /
    • 2002
  • 일반적으로 이미지나 공간 데이터베이스와 같은 다차원의 특징을 갖는 데이터들은 대용량의 저장공간을 요구한다. 이 대량의 데이터를 하나의 워크스테이션에 저장하고 검색을 수행하는 데는 한계가 있다. 최근 활발히 연구되고 있는 병렬 컴퓨팅 환경에서 이들에 대한 저장 및 검색을 수행한다면 훨씬 더 높은 성능 향상을 가져 올 수 있을 것이다. 이 논문에서는 기존에 존재하는 병렬 컴퓨팅 환경의 장점을 최대한 이용하는 병렬 고차원 색인구조를 제안한다. 제안하는 색인구조는 nP(프로세서)-nD(디스크)와 lP-nD의 결합 형태인 nP-n$\times$mD의 구조라고 볼 수 있다. 노드 구조는 팬-아웃을 증가시키고 트리의 높이를 줄일 수 있도록 설계되었다. 또한 I/O의 별렬성을 최대화하는 범위 탐색 알고리즘을 제안하고 이것을 K-최근접 탐색 알고리즘에 적용하여 탐색 성능향상을 꾀한다. 마지막으로, 다양한 환경에서의 실험을 통해 제안하는 색인구조의 탐색 성능을 테스트하고 기존에 제안된 병렬 다차원 색인구조와의 비교를 통해 제안한 방법의 우수함을 보인다.

고차원 대용량 자료분석의 현재 동향 (Current trends in high dimensional massive data analysis)

  • 장원철;김광수;김정연
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.999-1005
    • /
    • 2016
  • 빅 데이터의 출현은 여러가지 과학적 난제에 대답 할 수 있는 기회를 제공하지만 흥미로운 도전을 또한 제공한다. 이러한 빅데이터의 주요 특징으로 "고차원"과 "대용량"을 들 수가 있다. 본 논문은 이러한 두 가지 특징에 동반되는 다음과 같은 도전문제에 대한 개요를 제시한다 : (1) 고차원 자료에서의 소음 축적과 위 상관 관계; (ii) 대용량 자료분석을 위한 계산 확장성. 또한 본 논문에서는 재난예측, 디지털 인문학과 세이버메트릭스 등 다양한 분야에서 빅 데이터의 다양한 응용사례를 제공한다.

Simulator for Dynamic 2/3-Dimensional Switching of Computing Resources

  • Ki, Jang-Geun;Kwon, Kee-Young
    • International Journal of Internet, Broadcasting and Communication
    • /
    • 제12권3호
    • /
    • pp.9-17
    • /
    • 2020
  • In this paper, as part of the research for the infrastructure of very high flexible and reconfigurable data center using very high speed crossbar switches, we developed a simulator that can model two and three dimensional connection structure of switches with an efficient control algorithm using software defined network and verified the functions and analyzed the performance accordingly. The simulator consists of a control module and a switch module that was coded using Python language based on the Mininet and Ryu Openflow frameworks. The control module dynamically controls the operation of switching cells using a shortest multipath algorithm to calculate efficient paths adaptively between configurable computing resources. Performance analysis by using the simulator shows that the three-dimensional switch architecture can accommodate more hosts per port and has about 1.5 times more successful 1:n connections per port with the same number of switches than the two-dimensional architecture. Also simulation results show that connection length in a 3-dimensional way is shorter than that of 2-dimensional way and the unused switch ratio in a 3-dimensional case is lower than that of 2-dimensional cases.

모터내장형 주축의 온도분포해석에 관한 연구 (Temperature Distributions of High Precision Spindle with Built -in Motor)

  • 김용길;김수태;박천홍;김춘배
    • 한국정밀공학회:학술대회논문집
    • /
    • 한국정밀공학회 1996년도 춘계학술대회 논문집
    • /
    • pp.624-628
    • /
    • 1996
  • Unsteady-state temperature distributions in the high precision spindle system with built-in motor are studied. For the analysis, three dimensional model is built for the high precision spindle. The three dimensional model includes the estimation on the amount of heat generation of bearing and built-in motor and the thermal characteristic values such as heat transfer coefficient. Temperature distributions are computed using the finite element method. Analysis results are compared with the measured data. Analysis shows that temperature distributions of high precision spindle system can be estimated resonably using the three dimensional model through the finite element method.

  • PDF