Search | Korea Science

Data Replication Technique for Improving Data Locality of MapReduce (맵리듀스의 데이터 로컬리티 향상을 위한 데이터 복제기법)

Lee, Jung-Ha;Yu, Heon-Chang;Lee, Eun-Young
- Proceedings of the Korean Information Science Society Conference
- /
- 2012.06a
- /
- pp.218-220
- /
- 2012
인터넷 활용과 웹 어플리케이션의 개발이 증가함에 따라 처리해야하는 데이터의 양도 또한 증가하고 있다. 대량의 데이터를 효과적으로 처리하기 위한 방법 중 하나로 병렬처리 프로그래밍 모델인 맵리듀스가 있다. 하둡은 맵리듀스의 오픈소스 구현으로 대량의 데이터를 병렬로 처리하는 무료 자바 소프트웨어 프레임워크이다. 분산 파일 시스템을 사용하는 하둡에서는 처리하는 데이터가 다른 노드에 위치하는 데이터 로컬리티 문제가 전체 작업 수행시간의 증가를 야기하는 문제가 있다. 본 논문에서는 하둡에서의 데이터 로컬리티 문제를 해결하기 위한 데이터 복제기법을 제안한다. 제안하는 데이터 복제기법에서는 1) 라그랑지 보간법을 사용하여 과거 접근수를 이용한 미래 접근수를 예측하고, 2) 예측된 값을 Threshold값으로 설정하고, 3) 데이터 로컬리티 문제가 발생하였을 때, 복제사본을 생성할 것인지 캐시를 생성할 것인지를 결정하여 복제 사본의 수를 최적화 한다. 실험을 통해 단순히 복제사본 수를 증가시킴으로써 데이터 로컬리티를 향상을 이루어도 작업 완료시간이 감소하는 것이 아니라는 결과를 볼 수 있었고, 오버 런치로 인한 작업 완료시간 증가를 줄이기 위해 데이터 복제사본 수 최적화의 필요성을 확인할 수 있었다.

Automatic Text Classification by Learning from Unlabeled Data (레이블이 없는 데이터로부터의 학습에 의한 자동 문서 분류)

박성배;김유환;장병탁
- Proceedings of the Korean Information Science Society Conference
- /
- 2001.04b
- /
- pp.265-267
- /
- 2001
본 논문에서는 레이블이 없는 데이터를 이용하는 새로운 자동 문서 분류 방법을 제시한다. 제시된 방법은 적은 수의 레이블이 있는 데이터로부터 학습된 후 많은 수의 레이블이 없는 데이터로 보강되는 일련의 분류기(classifier)에 기반한다. 레이블이 없는 데이터를 활용하기 때문에, 필요한 레이블이 있는 데이터의 수가 줄어들고, 분류 정확도가 향상된다. 두 개의 표준 데이터 집합에 대한 실험 결과, 레이블이 없는 데이터를 사용함으로써 분류 정확도가 증가함을 보였다. 분류 정확도는 전체 데이터의 2/3만 사용하고도 NIPS 2000 워크숍 데이터 집합에 대해서는 약 7.9% 정도, WebKB 데이터 집합에 대해서는 9.2% 증가하였다.
PDF

Learning model management platform based on hash function considering for integration from different timeseries data (서로 다른 시계열 데이터들간 통합 활용을 고려한 해시 함수 기반 학습 모델 관리 플랫폼)

Yu, Miseon;Moon, Jaewon
- Proceedings of the Korean Society of Computer Information Conference
- /
- 2022.01a
- /
- pp.45-48
- /
- 2022
IoT 기술의 발전 및 확산으로 다양한 도메인에서 서로 다른 특성의 시계열 데이터가 수집되고 있다. 이에 따라 단일 목적으로 수집된 시계열 데이터만 아니라, 다른 목적으로 수집된 시계열 데이터들 또한 통합하여 분석활용하려는 수요 또한 높아지고 있다. 본 논문은 파편화된 시계열 데이터들을 선택하여 통합한 후 딥러닝 모델을 생성하고 활용할 수 있는 해시함수 기반 학습 모델 관리 플랫폼을 설계하고 구현하였다. 특정되지 않은 데이터들을 기반하여 모델을 학습하고 활용할 경우 생성 모델이 개별적으로 어떤 데이터로 어떻게 생성되었는지 기술되어야 향후 활용에 용이하다. 특히 시계열 데이터의 경우 학습 데이터의 시간 정보에 의존적일 수밖에 없으므로 해당 정보의 관리도 필요하다. 본 논문에서는 이러한 문제를 해결하기 위해 해시 함수를 이용해서 생성된 모델을 계층적으로 저장하여 원하는 모델을 쉽게 검색하고 활용할 수 있도록 하였다.
PDF

New Data Buffering Scheme for News On Demand (NOD 데이터를 위한 새로운 버퍼링 기법)

박용운;백건효;서원일;김영주;정기동
- Proceedings of the Korean Society of Broadcast Engineers Conference
- /
- 1997.11a
- /
- pp.173-179
- /
- 1997
본 연구에서는 실시간 데이터와 비 실시간 데이터가 복합적으로 존재하는 뉴스 데이터에 적합하도록 버퍼 캐쉬를 실시간 데이터와 비 실시간 데이터 영역으로 분할 한 후, 로그 데이터를 이용하여 접근 가능성이 높은 실시간 뉴스데이터를 프리팻칭하여 둠으로써 실시간 뉴스 데이터의 운영을 효과적으로 할 수 있는 새로운 버퍼 캐쉬 알고리즘을 제안한다. 이 방식을 이용함으로써 전체 뉴스 요청 건수 중 30% 이상의 요청 건수들이 디스크를 접근하지 않고 버퍼의 데이터를 접근함으로써 버퍼링 기법을 사용하지 않은 경우보다 실시간 지원에 필요한 디스크 접근 수를 줄일 수 있다.
PDF

Efficient Data Integrity Verification Scheme to Support Public Auditability and Data Dynamics in Cloud Computing (클라우드 컴퓨팅 환경에서 공개적 검증과 동적 연산이 가능한 효율적인 데이터 무결성 검증기법)

Son, Junggab;Hussain, Rasheed;Oh, Heekuck
- Proceedings of the Korea Information Processing Society Conference
- /
- 2012.11a
- /
- pp.1032-1035
- /
- 2012
클라우드 컴퓨팅을 제공하기 위해 서비스 제공자는 대용량의 중앙집중형 데이터 센터를 구축하고, 클라이언트는 어플리케이션 소프트웨어와 데이터베이스를 이러한 데이터 센터에 저장한다. 클라우드 컴퓨팅을 사용하면 컴퓨팅 자원을 구축하는 비용을 절감할 수 있다는 장점이 있다. 문제는 클라이언트가 데이터 센터와 서비스제공자를 완전히 신뢰할 수 없다는 것이다. 예를 들어, 클라우드에 저장된 파일이 손실되었을 때 서비스 제공자는 서비스의 신뢰도가 떨어지는 것을 막기 위해 이를 숨길 수 있다. 이때, 데이터가 저장 후에 손실되었다는 것을 증명하지 못하면, 그 피해는 클라이언트에게 돌아오게 된다. 따라서, 클라이언트의 데이터를 보호하기 위하여 무결성을 검증할 수 있는 적절한 기법을 적용하여야 한다. 대부분의 기존 연구에서는 public aditability와 dynamic data update를 동시에 지원하지 못하며, 이를 동시에 지원한다 하더라도 효율성이 떨어지는 문제가 있다. 본 논문에서는 클라우드 컴퓨팅에서 데이터 스토리지의 무결성을 검증하기 위한 기법을 제안한다. 제안하는 기법은 효율성, 동적 데이터 환경, public auditability를 설계목표로 한다. 블록 마다 서명을 생성해야 하는 이전 기법과 달리, 제안하는 기법은 한번의 서명으로 검증값을 생성하므로 데이터의 크기에 영향을 적게 받는다. 또한, 삽입, 삭제, 수정 등의 연산이 발생하는 동적 데이터 환경에서도 효과적으로 저장된 데이터의 무결성을 검증할 수 있게 설계하였다. 마지막으로 파일에 접근할 수 있는 클라이언트는 누구나 데이터의 무결성을 확인할 수 있으므로 public auditability를 제공한다.
https://doi.org/10.3745/PKIPS.y2012m11a.1032 인용 PDF

A Loglet Analysis of Voice and Data Service Diffusion Pattern (Loglet 분석을 이용한 음성 및 데이터 서비스의 수요 확산 패턴 차이)

김문수
- Proceedings of the Korean Operations and Management Science Society Conference
- /
- 2000.04a
- /
- pp.69-73
- /
- 2000
정보통신기술의 역사는 다른 산업 기술에 비해 매우 일천하다. 그러나 현재 가장 빠르게 진보하고 있는 기술이며, 기업활동과 개인의 일상 생활에 커다란 영향 요소로 대두되고 있다. 특히 인터넷의 영향은 지대하다. 인터넷을 이용하여 기업의 생산성을 증대하거나 전자 상거래와 같은 새로운 형태의 사업 기회 제공의 장이 되고 있다. 또한 개인은 매우 다양하고 방대한 정보를 획득, 이용함으로써 자신의 효용을 극대화할 수 있다. 이는 사회, 경제의 새로운 패러다임의 출현으로까지 표현되고 있다. 따라서 과거의 음성통신 서비스 수요와 현재 및 미래의 데이터 통신 수요의 패턴에는 많은 차이가 존재할 수 있다. 본 논문은 대표적 음성 서비스인 전화 서비스 그리고 데이터 서비스라 할 수 있는 인터넷 서비스를 대상으로 수요 속성별 즉, 업무용과 가정용 수요의 확산 패턴을 Logier 분석을 이용하여 고찰하였다. 분석 결과 전체적으로 음성보다는 데이터 수요 확산 속도가 컸으며, 수요 속성별로는 데이터 서비스에서 업무용보다 가정용확산이 음성의 경우보다 훨씬 빠르게 이루어지고 있었다. 그리고 인터넷 가입에 대한 여러 결과를 얻었으며, 이는 정보통신관련 기업과 정책 당국자에게 매우 중요한 자료로 활용할 수 있을 것으로 기대된다.
PDF

A Case Study on Standardization of Data Integration Management in National and International (국내외 데이터 통합관리 표준화 사례 연구)

KIM, Dong-Young;CHAE, Hyo-Sok;HWANG, Eui-Ho;LEE, Jeong-Ju
- Proceedings of the Korea Water Resources Association Conference
- /
- 2015.05a
- /
- pp.631-631
- /
- 2015
최근 데이터가 전략적 의사결정의 핵심요소로 대두됨에 따라 데이터 통합 및 데이터 품질에 대한 관심이 증대되고 있다. 특히, 데이터 품질을 확보하기 위해 데이터 표준화가 필수적으로 수반되어야 한다. 그러나 데이터 활용에 있어 (1)데이터의 중복 및 불일치 발생, (2)데이터에 대한 의미 파악 지연으로 정보 제공의 적시성 결여, (3)데이터 통합의 어려움, (4)정보시스템 변경 및 유지 보수 곤란 등과 같은 현실적인 문제점들이 정확한 정보를 적시에 사용자에게 전달하는데 장애 요인으로 발생하고 있는 실정이다. 따라서 본 연구에서는 '국토관측센서 기반 수문 및 수재해 정보포털시스템 개발'에 앞서 보다 정확한 데이터 통합관리 및 제공서비스가 가능하도록 국내외 사례연구를 통한 기반을 마련하고자 한다. 데이터 표준화는 시스템별로 산재해 있는 데이터 정보요소에 대한 명칭, 정의, 형식, 규칙에 대한 원칙을 수립하여 이를 전사적으로 적용하는 것을 의미하며, 이러한 데이터 표준화 작업은 데이터의 정확한 의미 파악뿐만 아니라 데이터에 대한 상반된 시각을 조정하는 역할을 수행한다. 기본적으로 데이터 모델 및 데이터베이스에서 정의할 수 있는 모든 오브젝트를 대상으로 하는 것이 이상적이나, 주로 관리해야 될 필요성이 있는 오브젝트만을 대상으로 데이터 표준화를 하는 것이 더욱 효율적으로 작용한다. 본 연구는 국내외 데이터 통합관리 표준화 동향을 제시하였으며, 현업 사용자로부터 데이터 표준과 관련된 요구사항을 수요조사를 통하여 조사함으로써 데이터 표준 대상 후보를 식별하고 개선점을 도출하는데 사용할 기반을 마련하였다. 데이터 표준화가 수행되면 현업 사용자는 정확한 데이터를 사용할 수 있고, 올바른 의사결정을 내릴 수 있을 것으로 판단된다. 앞으로 데이터 표준, 데이터 표준 준수 체크, 데이터 표준 조회 및 활용 등 데이터 표준 관리에서 수작업으로 인해 발생하는 애로사항을 배제하기 위해 자동화에 관한 연구가 지속적으로 추진되어야 할 것으로 사료된다.
PDF

Design of Web-based Phylogentic Tree Inference System Using DataBase (데이터 베이스를 이용한 웹 기반 계통수 추론 시스템 설계)

Kim, Shin-Suck;Hwang, Bu-Hyun
- Proceedings of the Korea Information Processing Society Conference
- /
- 2001.10a
- /
- pp.121-124
- /
- 2001
계통수는 특정 객체의 분류 즉 특정 객체로부터 추출한 염기서열을 이용하여 그 객체의 소속 분류 집단을 결정하기 위해서 사용될 수 있다. 만약 특정지역에서 획득한 토끼의 종을 구분하기 위해서 이미 분류된 토끼의 염기서열들을 가지고 염기서열들과의 관계를 표현하는 계통수를 제작함으로써, 객체를 분류 할 수 있다. 계통수 제작은 기존의 계통수 제작 도구들(MEGA등)이 사용되지만, 이러한 계통수 제작 도구는 객체의 어떤 특성에 의해서 종이 나뉘어지는 가는 예측 할 수 없다. 계통수 제작에 이용되는 염기서열 데이터는 기존의 염기서열 데이터 베이스들(EMBL, GenBank, DDBJ)에서 인터넷을 이용하여 찾을 수 있지만, 계통생물학을 위해 누적된 데이터가 아니므로, 계통수 제작을 위해서는 사용이 제한적이다. 또 계통수 제작 도구을 사용하기 위해서는 자신이 관련 염기서열 데이터를 수집하여야 한다. 본 논문은 웹기반 계통수 추론 시스템을 제시한다. 본 시스템은 염기서열 데이터를 검색하여, 계통 분류 즉 계통수 제작을 위한 데이터로 저장하고, 이를 이용하여 계통수를 그릴 수 있다. 또한 이렇게 저장된 데이터는 데이터 마이닝 분류 기법을 사용하여, 각 객체 분류 집단을 모델링하며, 분류 속성을 예측할 수 있다.
PDF

확장 관계형 DBMS

Korea Database Promotion Center
- Digital Contents
- /
- no.3 s.58
- /
- pp.24-31
- /
- 1998
객체/관계형 데이터베이스 시장이 전개되면서 객체 데이터가 기존 관계형 데이터에 새로운 데이터를 추가할 수 있는 복합 데이터 지원 여부에 관심이 모아지고 있다. 주요 데이터베이스 업체인 인포믹스, IBM, 오라클은 각각 데이터블레이드, 릴레이셔널 익스텐더, 카트리지란 확장 가능한 데이터 타입을 구성할 수 있는 도구를 제시, 기존 BLOB를 대체할 수 있는 확장관계형 데이터베이스 시장에 도전장을 냈다.
PDF

A Study on Automation of Big Data Quality Diagnosis Using Machine Learning (머신러닝을 이용한 빅데이터 품질진단 자동화에 관한 연구)

Lee, Jin-Hyoung
- The Journal of Bigdata
- /
- v.2 no.2
- /
- pp.75-86
- /
- 2017
In this study, I propose a method to automate the method to diagnose the quality of big data. The reason for automating the quality diagnosis of Big Data is that as the Fourth Industrial Revolution becomes a issue, there is a growing demand for more volumes of data to be generated and utilized. Data is growing rapidly. However, if it takes a lot of time to diagnose the quality of the data, it can take a long time to utilize the data or the quality of the data may be lowered. If you make decisions or predictions from these low-quality data, then the results will also give you the wrong direction. To solve this problem, I have developed a model that can automate diagnosis for improving the quality of Big Data using machine learning which can quickly diagnose and improve the data. Machine learning is used to automate domain classification tasks to prevent errors that may occur during domain classification and reduce work time. Based on the results of the research, I can contribute to the improvement of data quality to utilize big data by continuing research on the importance of data conversion, learning methods for unlearned data, and development of classification models for each domain.
PDF

Search Result 40,014, Processing Time 0.057 seconds

이메일무단수집거부

이용약관

제 1 장 총칙

제 2 장 이용계약의 체결

제 3 장 계약 당사자의 의무

제 4 장 서비스의 이용

제 5 장 계약 해지 및 이용 제한

제 6 장 손해배상 및 기타사항

Detail Search

Image Search (β)