통합 검색 | Korea Science

Spark SQL 기반 고도 분석 지원 프레임워크 설계 (Design of Spark SQL Based Framework for Advanced Analytics)

정재화
- 정보처리학회논문지:소프트웨어 및 데이터공학
- /
- 제5권10호
- /
- pp.477-482
- /
- 2016
기업의 신속한 의사결정 및 전략적 정책 결정을 위해 빅데이터에 대한 고도 분석이 필수적으로 요구됨에 따라 대량의 데이터를 복수의 노드에 분산하여 처리하는 하둡 또는 스파크와 같은 분산 처리 플랫폼이 주목을 받고 있다. 최근 공개된 Spark SQL은 Spark 환경에서 SQL 기반의 분산 처리 기법을 지원하고 있으나, 기계학습이나 그래프 처리와 같은 반복적 처리가 요구되는 고도 분석 분야에서는 효율적 처리가 불가능한 문제가 있다. 따라서 본 논문은 이러한 문제점을 바탕으로 Spark 환경에서 고도 분석 지원을 위한 SQL 기반의 빅데이터 최적처리 엔진설계와 처리 프레임워크를 제안한다. 복수의 조건과 다수의 조인, 집계, 소팅 연산이 필요한 복합 SQL 질의를 분산/병행적으로 처리할 수 있는 최적화 엔진과 관계형 연산을 지원하는 기계학습 최적화하기 위한 프레임워크를 설계한다.
https://doi.org/10.3745/KTSDE.2016.5.10.477 인용 PDF KSCI

Sim-Hadoop : 신뢰성 있고 효율적인 N-body 시뮬레이션을 위한 Hadoop 분산 파일 시스템과 병렬 I / O (Sim-Hadoop : Leveraging Hadoop Distributed File System and Parallel I/O for Reliable and Efficient N-body Simulations)

아마드;이승룡;정태충
- 한국정보처리학회:학술대회논문집
- /
- 한국정보처리학회 2013년도 춘계학술발표대회
- /
- pp.476-477
- /
- 2013
Gadget-2 is a scientific simulation code has been used for many different types of simulations like, Colliding Galaxies, Cluster Formation and the popular Millennium Simulation. The code is parallelized with Message Passing Interface (MPI) and is written in C language. There is also a Java adaptation of the original code written using MPJ Express called Java Gadget. Java Gadget writes a lot of checkpoint data which may or may not use the HDF-5 file format. Since, HDF-5 is MPI-IO compliant, we can use our MPJ-IO library to perform parallel reading and writing of the checkpoint files and improve I/O performance. Additionally, to add reliability to the code execution, we propose the usage of Hadoop Distributed File System (HDFS) for writing the intermediate (checkpoint files) and final data (output files). The current code writes and reads the input, output and checkpoint files sequentially which can easily become bottleneck for large scale simulations. In this paper, we propose Sim-Hadoop, a framework to leverage HDFS and MPJ-IO for improving the I/O performance of Java Gadget code.
https://doi.org/10.3745/PKIPS.y2013m05a.476 인용 PDF

멀티프로세서 태스크 할당을 위한 GA과 SA의 비교 (Comparison of Genetic Algorithms and Simulated Annealing for Multiprocessor Task Allocation)

박경모
- 한국정보처리학회논문지
- /
- 제6권9호
- /
- pp.2311-2319
- /
- 1999
병렬 컴퓨팅에 있어 NP-complete 문제인 태스크 할당문제에 대한 두 가지 휴리스틱 알고리즘을 제시한다. 할당문제는 분산 메모리 멀티컴퓨터의 멀티 프로세싱 노드에 다중통신 태스크들을 최적의 매핑을 찾는 것이다. 태스크들을 목표 시스템 구조의 노드들에 매핑시키는 목적은 해법 품질에 손상 없이 병렬 실행시간을 최소화하기 위함이다. 많은 휴리스틱 기법들이 만족한 매핑을 얻기 위해 채택되어 왔다. 본 논문에서 제시되는 휴리스틱 기법은 유전자 알고리즘(GA)과 시뮬레이티드 어닐링(SA) 기법에 기반을 둔다. 매핑 설정을 위한 총 계산 비용으로 목적함수를 수식화하고 휴리스틱 알고리즘들의 성능을 평가한다. 랜덤, 그리디, 유전자, 어닐링 알고리즘들을 사용하여 얻은 해법의 품질과 시간을 비교한다. 할당 알고리즘 시뮬레이션 연구를 통한 실험적 결과를 보여준다.
PDF

PC 클러스터를 위한 정렬 중첩 격자의 병렬처리 (PARALLEL IMPROVEMENT IN STRUCTURED CHIMERA GRID ASSEMBLY FOR PC CLUSTER)

김유진;권장혁
- 한국전산유체공학회:학술대회논문집
- /
- 한국전산유체공학회 2005년도 추계 학술대회논문집
- /
- pp.157-162
- /
- 2005
Parallel implementation and performance assessment of the grid assembly in a structured chimera grid approach is studied. The grid assembly process, involving hole cutting and searching donor, is parallelized on the PC cluster. A message passing programming model based on the MPI library is implemented using the single program multiple data(SPMD) paradigm. The coarse-grained communication is optimized with the minimized memory allocation because that the parallel grid assembly can access the decomposed geometry data in other processors by only message passing in the distributed memory system such as a PC cluster. The grid assembly workload is based on the static load balancing tied to flow solver. A goal of this work is a development of parallelized grid assembly that is suited for handling multiple moving body problems with large grid size.
PDF

도커 기반의 실시간 데이터 연계 및 처리 환경을 고려한 빅데이터 관리 플랫폼 개발 (Development of Big-data Management Platform Considering Docker Based Real Time Data Connecting and Processing Environments)

김동길;박용순;정태윤
- 대한임베디드공학회논문지
- /
- 제16권4호
- /
- pp.153-161
- /
- 2021
Real-time access is required to handle continuous and unstructured data and should be flexible in management under dynamic state. Platform can be built to allow data collection, storage, and processing from local-server or multi-server. Although the former centralize method is easy to control, it creates an overload problem because it proceeds all the processing in one unit, and the latter distributed method performs parallel processing, so it is fast to respond and can easily scale system capacity, but the design is complex. This paper provides data collection and processing on one platform to derive significant insights from various data held by an enterprise or agency in the latter manner, which is intuitively available on dashboards and utilizes Spark to improve distributed processing performance. All service utilize dockers to distribute and management. The data used in this study was 100% collected from Kafka, showing that when the file size is 4.4 gigabytes, the data processing speed in spark cluster mode is 2 minute 15 seconds, about 3 minutes 19 seconds faster than the local mode.
https://doi.org/10.14372/IEMEK.2021.16.4.153 인용 PDF KSCI

고성능 병렬 처리를 위한 수평적인 프로토콜 처리 구조 (Horizontal Protocol Processing Architecture for High Performance Parallel Processing)

김평중;박치항
- 한국정보처리학회논문지
- /
- 제3권6호
- /
- pp.1386-1396
- /
- 1996
분산 멀티미디어 응용은 다양한 전송 품질을 요구하지만, 가장 중요한 특성은 높 은 성능과 적은 전송 지연이다. 고속 통신망의 전송 능력은 Gbps 수준을 제공하고 있 지만 통신 구조상의 허리 부분 병목 현상 때문에 멀티미디어 응용까지 효율적으로 제 공되지 못하고 있다. 이러한 문제점을 해결하기 위하여 통신 구조상 허리 부분을 수 평 구조화, 병렬화 함으로써 고속화 하였다. 불행하게도 OSI 프로토콜 스택은 계층 단위의 병렬화를 가로 막는 순서상 제약 조건을 갖고 있다. 우리 모델은 고정 패킷을 사용함으로써 망 계층에서 부터 표현 계층까지 동시에 수행시킬 수 있었다. 프로토타 입 구현에 의하면, 우리 모델은 기존의 OSI 계층 구조 모델에 비해 약 61%의 성능 향 샹을 보여 주었다.
PDF

병렬 분산 처리를 이용한 영상 기반 실내 위치인식 시스템의 프레임워크 구현 (Framework Implementation of Image-Based Indoor Localization System Using Parallel Distributed Computing)

권범;전동현;김종유;김정환;김도영;송혜원;이상훈
- 한국통신학회논문지
- /
- 제41권11호
- /
- pp.1490-1501
- /
- 2016
본 논문에서는 인메모리(In-memory) 병렬 분산 처리 시스템 Apache Spark(이하 Spark)를 활용하여 사용자에게 실시간 측위 정보를 제공할 수 있는 영상 기반 실내 위치인식 시스템을 제안한다. 제안하는 시스템에서는 사용자에게 실시간 측위 정보를 제공하기 위해서, Spark를 이용한 영상 특징점 추출 알고리즘의 병렬 분산화를 통해 알고리즘 연산 시간을 단축시킨다. 하지만 기존의 Spark 플랫폼에서는 영상 처리를 위한 인터페이스가 존재하지 않아, 영상 처리와 관련된 연산을 수행하는 것이 불가능하였다. 이에 본 논문에서는 Spark 영상 입출력 인터페이스를 구현하여 측위 연산을 위한 영상 처리를 Spark에서 수행 가능하게 하였다. 또한 무손실 압축(lossless compression)기법을 이용하여 특징점 기술자(descriptor)를 압축된 형태로 데이터베이스에 저장하여, 대용량의 실내 지도 데이터를 효율적으로 저장 및 관리하는 방법을 소개한다. 측위 실험은 실제 실내 환경에서 수행하였으며, 싱글 코어(Single-core) 시스템과의 성능 비교를 통해 제안하는 시스템이 최대 약 3.6배 단축된 시간으로 사용자에게 측위 정보를 제공 할 수 있다는 것을 입증하였다.
https://doi.org/10.7840/kics.2016.41.11.1490 인용 PDF KSCI

직관에 관한 연구 역사와 수학교육적 의미 고찰 (A Study on the History of Intuition Research and its Mathematics Educational Implication)

이대현
- 한국학교수학회논문집
- /
- 제11권3호
- /
- pp.363-376
- /
- 2008
본 논문의 목적은 창의적 능력의 한 요소로 간주되어 온 직관에 관한 이해와 관심을 새롭게 하고, 수학 교수 학습에서 직관의 가치를 제고하기 위한 것이다. 이를 위하여 문헌 고찰을 통해 직관의 본질과 직관에 관한 연구의 역사, 사고의 발현 과정을 선형적인 측면에서 몇 개의 단계로 나누어 분석하는 정보치리 접근 방법에 의한 직관 연구를 살펴보았다. 오래 전부터 직관은 신비스러운 속성을 지닌 대상으로 간주되었고, 따라서 직관을 탐구하기 위한 논의 자제가 어려됐다. 그렇지만 20세기에 들어와 심리학 관점에서 직관에 대한 논의가 활발히 이루어지고 있다. 직관에 대한 연구는 역사정보처리 관점에 의한 직관 연구가 주를 이루었으나, 최근에는 병렬분산처리 모델 관점에 의한 직관 연구도 이루어지고 있다. 그렇지만 직관에 관한 연구들은 직관의 속성을 완벽하게 규명하기는 어렵다는 것을 말해 준다. 한편 수학교육 분야에서 직관에 관한 연구는 몇 및 학자에 의해 수행되었지만, 수학 교수 학습 상황과 관련하여 실천적이고 체계적인 연구는 미약한 상황이다. 따라서 직관 탐구의 역사에 대한 시사점을 바탕으로 수학교육에서 직관 탐구의 의미와 직관을 중심으로 한 수학 교수 학습에 대한 시사점을 제시하였다.
PDF

비동기 알고리즘을 이용한 분산 메모리 시스템에서의 초대형 선형 시스템 해법의 성능 향상 (Improving Performance of Large Sparse Linear System Solvers On Distributed Memory Systems By Asynchronous Algorithms)

박필성;신순철
- 정보처리학회논문지A
- /
- 제8A권4호
- /
- pp.439-446
- /
- 2001
현재 대부분의 병렬 알고리즘은 동기 알고리즘으로 올바른 계산을 위해서는 프로세서들의 동기화와 부하균형이 필수적이다. 만일 부하균형이 불가능하거나 이질적 클러스터처럼 각 프로세서의 성능이 다른 경우, 연산은 가장 느린 프로세서의 성능에 의해 결정된다. 비동기 반복법은 이런 문제를 해결하는 하나의 방안으로 각광받고 있으나, 현재까지의 연구는 비교적 구현이 쉬운 공유 메모리 시스템을 사용한 것이었다. 본 논문에서는 분산 메모리 환경에서 초대형 선형 시스템 문제를 풀기 위해, 빠른 프로세서의 유휴 시간을 최대한 줄임으로써 전체적으로 성능을 향상시키는 비동기 병렬 알고리즘을 제안하고 이를 클러스터에 구현하였다.
PDF

빅 데이터 분석을 위한 지지벡터기계 (Support vector machines for big data analysis)

최호식;박혜원;박창이
- Journal of the Korean Data and Information Science Society
- /
- 제24권5호
- /
- pp.989-998
- /
- 2013
최근 산/학계에서 주목받고 있는 빅 데이터는 정의상 한꺼번에 자료를 메모리에 올려 분석할 수 없기 때문에 기존의 데이터마이닝 시대에 개발된 일괄처리 (batch processing) 방식의 알고리즘을 적용할 수 없게 된다. 따라서 가장 시급히 해결해야 하는 문제는 기존의 여러 가지 기계학습방법을 빅 데이터에 적용할 수 있도록 분산처리 (distributed processing)를 수행하는 적절한 알고리즘을 개발하는 것이라 볼 수 있다. 본 논문에서는 분류문제에서 각광받는 지지벡터기계 (support vector machines)의 여러 알고리즘을 살펴보고자 한다. 특히 빅 데이터 분류문제에 유용할 것으로 예상되는 온라인 타입 알고리즘과 병렬처리 알고리즘에 대하여 소개하고, 이러한 알고리즘들의 성능 및 장단점을 선형분류에 대한 모의실험을 통해서 살펴본다.
https://doi.org/10.7465/jkdi.2013.24.5.989 인용 PDF KSCI

검색결과 257건 처리시간 0.026초

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

자세히 찾기

이미지 검색 (β)