• 제목/요약/키워드: 청킹

검색결과 12건 처리시간 0.022초

슬라이싱과 청킹 개념을 도입한 확장 가능한 경로 테스팅 방안 (Scalable Path Testing Method Adopting Slicing and Chunking Concept)

  • 최은만;최희성
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.164-166
    • /
    • 2012
  • 화이트 박스 테스팅을 위하여 주로 사용하는 경로 테스팅 방법은 테스트 대상 프로그램의 규모에 크게 영향을 받는다. 이런 단점을 해소하기 위하여 이 논문에서는 슬라이싱과 청킹 개념을 도입하였다. 청킹은 논리 흐름의 덩어리를 프레임화 하여 필요에 따라 펼치거나 추상화할 수 있게 한다. 또한 슬라이싱은 프로그램 동작의 부분 집합을 추출하여 복잡도를 줄이고 특정 변수에 집중하게 한다. 본 논문에서는 이런 두 가지 개념을 도입하여 확장 가능한 경로 테스팅 방법을 제안하여 화이트 박스 테스팅의 실용성을 높일 수 있음을 보였다.

구조화된 번역 메모리 기반 영한 메신저 자동 번역 시스템에 관한 연구 (A Study on English-Korean Messenger MT System based on Structured Translation Memory)

  • 최승권;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 춘계학술발표대회
    • /
    • pp.361-364
    • /
    • 2011
  • 본 논문의 목표는 크게 두 가지이다. 하나는 2010년에 개발한 메신저 자동번역 시스템을 소개하는 것이고, 다른 하나는 메신저 대화체 문장을 더욱 고품질로 번역하기 위한 구조화된 번역 메모리(Structured Translation Memory)를 소개하는 것이다. 구조화된 번역 메모리는 기존의 문자열 기반의 번역 메모리와 자동 번역 시스템의 경계를 허무는 개념으로 구조를 표현하는 계층적 번역 메모리들로 구성된다. 구조화된 번역 메모리는 문자열 번역 메모리, 원형 어휘로 구성된 번역 메모리, 고유명사가 청킹된 번역 메모리, 날짜/숫자가 청킹된 번역 메모리, 기본명사구가 청킹된 번역 메모리, 문장 패턴 번역 메모리로 단계적으로 구성된다. 구조화된 번역 메모리를 적용하기 전의 2010년의 영한 메신저 자동 번역 시스템의 번역률이 81.67%였던 반면에, 구조화된 번역 메모리를 적용하려는 2011년의 영한 메신저 자동 번역 시스템의 시물레이션 번역률은 85.25%인 것으로 평가되었다. 따라서 구조화된 번역 메모리를 적용하였을 때는 기존의 번역률보다 3.58% 향상할 것으로 예측된다.

SSD 기반 서버급 스토리지를 위한 지역성 기반 청킹 정책을 이용한 데이터 중복 제거 기법 (Data Deduplication Method using Locality-based Chunking policy for SSD-based Server Storages)

  • 이승규;김주경;김덕환
    • 전자공학회논문지
    • /
    • 제50권2호
    • /
    • pp.143-151
    • /
    • 2013
  • 낸드 플래시 기반 SSD(Solid State Drive)는 빠른 입출력 성능, 저전력 등의 장점을 가지고 있어, 타블릿, 데스크탑 PC, 스마트폰, 서버 등의 저장장치로 널리 사용되고 있다. 하지만 SSD는 쓰기 횟수에 따라서 마모도가 증가하는 단점이 있다. SSD의 수명을 향상시키기 위해 다양한 데이터 중복제거 기법이 도입되었으나, 일반적인 고정 크기 분할방식은 데이터의 지역성을 고려하지 않고 청크크기를 할당함으로써, 불필요한 청킹 및 해시값 생성을 수행하는 문제점이 있으며, 가변 크기 분할방식은 중복제거를 위해 바이트 단위로 비교하여 과도한 연산량을 유발한다. 본 논문에서는 SSD 기반 서버급 스토리지에서 쓰기 요청된 데이터의 지역성에 기반한 적응형 청킹 정책을 제안한다. 제안한 방법은 중복데이터가 가지는 응용프로그램 및 파일 이름 기반 지역성에 따라 청크 크기를 4KB 또는 64KB로 적응적으로 분할하여, 청킹 및 해시값 생성에 따른 오버헤드를 감소시키고, 중복 쓰기를 방지한다. 실험결과, 제안하는 기법이 기존의 가변 크기 분할 및 4KB의 고정 크기 분할을 이용한 중복제거기법보다 SSD의 쓰기 성능이 향상되고 전력 소모 및 연산시간을 감소시킬 수 있음을 보여준다.

효율적인 데이터 중복제거를 위한 GPGPU 병렬 라빈 핑거프린팅 (Parallel Rabin Fingerprinting on GPGPU for Efficient Data Deduplication)

  • 마정현;박세진;박찬익
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.611-616
    • /
    • 2014
  • 데이터 중복 제거를 수행하기 위한 여러 단계 중 청킹에 사용되는 라빈 핑거프린트 값을 구하는 단계가 가장 큰 오버헤드를 차지한다. 따라서, 본 논문에서는 효율적인 데이터 중복 제거를 위한 병렬라빈 핑거프린트 방법을 제안한다. 또한 효율적인 라빈 핑거프린팅의 병렬화를 위해 네 가지 이슈를 고려한다. 첫 번째로 병렬처리를 위해 입력 데이터 스트림을 일정한 크기의 데이터 섹션으로 분할할 때, 데이터 섹션의 경계선에 있는 데이터들에 대해서도 라빈 핑거프린팅을 수행하기 위한 고려, 두 번째로 라빈 핑거프린팅 연산 특징을 효율적으로 이용하기 위한 고려, 세 번째로 순차 방식으로 청크 경계선을 구했을 때와 비교하여 병렬 방식으로 청크 경계선을 구했을 때, 변경 될 수 있는 청크 경계선에 대한 고려를 한다. 마지막으로 최적의 GPGPU 메모리 접근을 위한 고려를 한다. GPGPU를 이용한 병렬 라빈 핑거프린트 방식은 CPU를 이용한 순차 라빈 핑거프린트 방식에 비해 약 16배 성능향상을 보였고, CPU를 이용한 병렬 라빈 핑거프린트 방식에 비해서도 약 5.3배 성능향상을 보였다. 이러한 라빈 핑거프린팅 연산 처리량의 증가는 데이터 중복 제거 기법의 전체적인 성능향상을 가져올 수 있다.

파일 유형과 크기에 따른 적응형 중복 제거 알고리즘 설계 (Design of Adaptive Deduplication Algorithm Based on File Type and Size)

  • 황인철;권오영
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.149-157
    • /
    • 2020
  • 오늘날 사용자의 데이터 증가에 따른 데이터 중복으로 인해 다양한 중복 제거 연구가 이루어졌다. 그러나 상대적으로 개인 스토리지에 대한 연구는 미진하다. 개인 스토리지는 고성능 컴퓨터와는 다르게 CPU와 메모리의 자원 사용을 줄이면서 중복 제거를 수행할 필요가 있다. 본 논문에서는 개인 스토리지에서 중복 제거율을 적절히 유지하며 부하를 낮추기 위해 파일의 타입과 크기에 따라 FSC(Fixed Size Chunking)와 WFH(Whole File Chunking)를 선택적으로 적용하는 적응형 알고리즘을 제안한다. 제안한 파일 시스템은 LessFS에 비해 최초 파일 Write 시에는 Write 소요 시간은 1.3배 이상 높았으나 메모리의 사용은 3배 이상 감소하였고, Rewrite 시는 LessFS에 비하여 Write 소요시간이 2.5배 이상 빨라지는 것을 실험을 통하여 확인하였다.

CPU-GPGPU 를 기반으로 멀티스레드 파일청킹 시스템 (A CPU-GPGPU Based Multithread File Chunking System)

  • 단지;원유집
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(B)
    • /
    • pp.336-337
    • /
    • 2011
  • The popularity of general purpose GPU(GPGPU)makes the CPU-GPGPU heterogeneous architecture normal. Therefore, tradeoff the usage of CPU and GPGPU becomes a way to improve performance of programs. In this work, we exploit the properties of the CPU-GPGPU heterogeneous architecture and use them to accelerate the content based chunking operation of deduplication. We built a prototype system which is able to coordinate CPU and GPGPU to chunk file and has been proven to have a better performance compared to using either CPU or GPGPU alone.

항공관제 전문가와 훈련관제사의 시각정보처리 차이 (Expert-novice differences in visual information processing in air traffic control)

  • 권혁진;함성수;김혜정;한정원;손영우
    • 한국항공운항학회지
    • /
    • 제18권1호
    • /
    • pp.72-82
    • /
    • 2010
  • This study investigated how air traffic controllers (ATCs) perceive the visual information on radar screen and examined quantitative and qualitative differences as a function of expertise. Little research has shown that how much information is processed by ATC visually and perceptually, how ATCs represent the information, and what difference exists between experts and novices. Participants were asked to draw representing visual information on the blank sector map after a 5-second exposure. Data were analyzed by a superimposing method to identify correctly represented information. Results showed that the expert group had much larger size of chunking and their pattern was wider and more accurate than the novice group. The practical application and methodological implications are also discussed for further research.

온톨로지 인스턴스 생성을 위한 상호참조 해결 연구 (Reference Resolution for Ontology Population)

  • 최미란;이창기;왕지현;장명길
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.140-144
    • /
    • 2007
  • 시맨틱 웹 기술의 주축을 이루는 온톨로지의 구축시에 인스턴스를 생성하기 위하여 대상 문서를 구성하는 자연어 문장을 텍스트 마이닝 기술을 이용하여 트리플을 추출한다. 인스턴스를 생성할 때 보다 많은 정보를 추출하기 위해서 문장에 나타나는 상호참조 해결이 필요하다. 본 연구에서는 문서에서 많이 나타나는 명사구로 이루어진 대용어를 해석하기 위하여 언어 분석된 다양한 결과 정보를 이용한다. 본 연구에서는 계층적인 의미구조와 청킹을 이용한 규칙기반의 상호참조 해결 방법을 제안하고 실험을 통해 알고리즘의 정확도를 제시한다.

  • PDF

문장으로부터 여러 단어로 구성된 여러 유형의 요소 추출 (Extracting Multi-type Elements Consisting of Multi-words from Sentences)

  • 양선;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.73-77
    • /
    • 2014
  • 문장을 대상으로 특정 응용 분야에 필요한 요소를 자동으로 추출하는 정보 추출(information extraction) 과제는 자연어 처리 및 텍스트 마이닝의 중요한 과제 중 하나이다. 특히 추출해야할 요소가 한 단어가 아닌 여러 단어로 구성된 경우 추출 과정에서 고려되어야할 부분이 크게 증가한다. 또한 추출 대상이 되는 요소의 유형 또한 여러 가지인데, 감정 분석 분야를 예로 들면 화자, 객체, 속성 등 여러 유형의 요소에 대한 분석이 필요하며, 비교 마이닝 분야를 예로 들면 비교 주체, 비교 상대, 비교 술어 등의 요소에 대한 분석이 필요하다. 본 논문에서는 각각 여러 단어로 구성될 수 있는 여러 유형의 요소를 동시에 추출하는 방법을 제안한다. 제안 방법은 구현이 매우 간단하다는 장점을 가지는데, 필요한 과정은 형태소 부착과 변환 기반 학습(transformation-based learning) 두 가지이며, 파싱 혹은 청킹 같은 별도의 전처리 과정도 거치지 않는다. 평가를 위해 제안 방법을 적용하여 비교 마이닝을 수행하였는데, 비교 문장으로부터 각자 여러 단어로 구성될 수 있는 세 가지 유형의 비교 요소를 자동 추출하였으며, 실험 결과 정확도 84.33%의 우수한 성능을 산출하였다.

  • PDF

대화 패턴 기반 대화 의도 반자동 부착 방법 (Semi-Automatic Dialog Act Annotation based on Dialog Patterns)

  • 최승권;정상근;김영길
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1298-1301
    • /
    • 2013
  • 대화 시스템에서 올바른 대화를 진행하기 위해서는 화자의 대화 의도를 파악하는 것이 중요하다. 특히 영어를 교육하기 위한 영어 교육용 대화 시스템에서는 학습자의 대화 의도 파악 오류가 발생할 경우 영어 교육에 문제가 발생하기 때문에 학습자의 대화 의도를 더욱 정확하게 분석 및 파악하는 것이 중요하다. 대화 패턴이란 시스템 발화에 대응되는 사용자 발화의 규칙적인 연쇄라고 할 수 있다. 대화 패턴 기반 대화 의도 부착 방법은 1) 대화 코퍼스 구축 2) 대화 시나리오에 있는 발화를 대상으로 기본 명사구 청킹(Base NP Chunking)을 하고 중심어(Head Word), 토픽 추적(Topic Tracking)에 의한 대화 패턴을 자동으로 추출한 후, 3) 대화 패턴 수동 검수이다. 대화 패턴 기반 대화 의도 부착 방법은 기본 명사구에 대한 지식만 가지고 있으면 대량으로 구축할 수 있다는 장점이 있다. 99 개의 대화 시나리오를 학습코퍼스로 하고 1 개의 대화 시나리오에 대해 대화턴 성공률을 시물레이션 한 결과 63.64%가 나왔다.