• 제목/요약/키워드: Data Parsing Algorithm

검색결과 19건 처리시간 0.021초

품사 정보와 템플릿을 이용한 문장 축소 방법 (A Sentence Reduction Method using Part-of-Speech Information and Templates)

  • 이승수;염기원;박지형;조성배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권5호
    • /
    • pp.313-324
    • /
    • 2008
  • 문장 축소란 원본 문장의 기본적인 의미를 유지하면서 불필요한 단어나 구를 제거하는 일련의 정보 압축 과정을 의미한다. 기존의 문장 축소에 관한 연구들은 학습 과정에서 대량의 어휘나 구문적 자원을 필요로 하였으며, 복잡한 파싱 과정을 통해서 불필요한 문장의 구성원(예를 들어, 단어나 구, 절 등)들을 제거하여 문장을 요약하였다. 그러나 학습 데이타로부터 얻을 수 있는 어휘적 자원은 매우 한정적이며, 문장의 모호성과 예외적인 표현들 때문에 구문 분석 결과가 명료하게 제공되지 않은 언어에서는 문장 요약이 용이하지 않다. 이에 본 논문에서는 구문 분석을 대체하기 위한 방법으로 템플릿과 품사 정보를 이용한 문장 축소 방법을 제안한다. 제안하는 방법은 요약문의 구조적 형태를 결정하기 위한 문장 축소 템플릿(Sentence Reduction Templates)과 문법적으로 타당한 문장 구조를 구성하는 품사기반 축소규칙(Grammatical POS-based Reduction Rules)을 이용하여 요약 대상 문장의 구성을 분석하고 요약한다. 더불어, 문장 축소 템플릿 적용 시 발생하는 연산량 증가 문제를 은닉 마르코프 모델(HMM: Hidden Markov Model)의 비터비 알고리즘(Viterbi Algorithm)을 이용하여 효과적으로 처리한다. 마지막으로, 본 논문에서 제안한 문장 축소 방법의 결과와 기존 논문의 연구 결과를 비교 및 평가함으로써 제안하는 문장 축소 방법의 유용성을 확인한다.

XQuery2SQL 변환기 위한 알고리즘 구현 (Algorithm Embodiment for XQuery2SQL Converter)

  • 서현호;김영국;김덕만
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2004년도 춘계 종합학술대회 논문집
    • /
    • pp.335-341
    • /
    • 2004
  • 웹 기술의 급속한 발전으로 인한 인터넷의 사용과 정보의 양이 급증하는 요즘 표현 중심적인 언어인 HTML에서는 웹의 정보를 이용하는데 한계를 가져왔으며 이로 인한 대안으로 웹상에서 자유로운 문서 전송 및 교환을 위한 표준이며 W3C에서 데이터 자체의 의미나 상관관계를 표현하는 n이 등장하였다. 이러한 XML문서를 RDBMS에서 저장해서 사용하기 위한 많은 노력이 있으나 구조적으로 XML문서는 트리구조이어서 관계형 DB에 자료를 질의하기 위한 언어인 SQL과 완벽한 호환을 이루지 못한다. 그래서 W3C의 XML 표준 질의인 XQuery가 등장하게 되었다. 이 논문에서는 XML 문서를 파싱하고 DOM 트리과정을 거쳐 RDBMS에 저장된 XML 정보들을 Xeuery2SQL이라는 변환기를 통해서 SQL질의로 변환한 후 RDBMS에 있는 정보를 추출하는 XQuery2SQL 변환 알고리즘을 구현하고자 한다.

  • PDF

A Distance Approach for Open Information Extraction Based on Word Vector

  • Liu, Peiqian;Wang, Xiaojie
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제12권6호
    • /
    • pp.2470-2491
    • /
    • 2018
  • Web-scale open information extraction (Open IE) plays an important role in NLP tasks like acquiring common-sense knowledge, learning selectional preferences and automatic text understanding. A large number of Open IE approaches have been proposed in the last decade, and the majority of these approaches are based on supervised learning or dependency parsing. In this paper, we present a novel method for web scale open information extraction, which employs cosine distance based on Google word vector as the confidence score of the extraction. The proposed method is a purely unsupervised learning algorithm without requiring any hand-labeled training data or dependency parse features. We also present the mathematically rigorous proof for the new method with Bayes Inference and Artificial Neural Network theory. It turns out that the proposed algorithm is equivalent to Maximum Likelihood Estimation of the joint probability distribution over the elements of the candidate extraction. The proof itself also theoretically suggests a typical usage of word vector for other NLP tasks. Experiments show that the distance-based method leads to further improvements over the newly presented Open IE systems on three benchmark datasets, in terms of effectiveness and efficiency.

Object Detection and Localization on Map using Multiple Camera and Lidar Point Cloud

  • Pansipansi, Leonardo John;Jang, Minseok;Lee, Yonsik
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 추계학술대회
    • /
    • pp.422-424
    • /
    • 2021
  • In this paper, it leads the approach of fusing multiple RGB cameras for visual objects recognition based on deep learning with convolution neural network and 3D Light Detection and Ranging (LiDAR) to observe the environment and match into a 3D world in estimating the distance and position in a form of point cloud map. The goal of perception in multiple cameras are to extract the crucial static and dynamic objects around the autonomous vehicle, especially the blind spot which assists the AV to navigate according to the goal. Numerous cameras with object detection might tend slow-going the computer process in real-time. The computer vision convolution neural network algorithm to use for eradicating this problem use must suitable also to the capacity of the hardware. The localization of classified detected objects comes from the bases of a 3D point cloud environment. But first, the LiDAR point cloud data undergo parsing, and the used algorithm is based on the 3D Euclidean clustering method which gives an accurate on localizing the objects. We evaluated the method using our dataset that comes from VLP-16 and multiple cameras and the results show the completion of the method and multi-sensor fusion strategy.

  • PDF

특이값 분해와 점증적 클러스터링을 이용한 뉴스 비디오 샷 경계 탐지 (News Video Shot Boundary Detection using Singular Value Decomposition and Incremental Clustering)

  • 이한성;임영희;박대희;이성환
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제36권2호
    • /
    • pp.169-177
    • /
    • 2009
  • 본 논문에서는 뉴스 기사 분할 관점에서, 뉴스 비디오 샷 경계 탐지 알고리즘의 특성을 고려한 다음과 같은 설계 기준을 제시하고, 이를 모두 만족하는 새로운 샷 경계 탐지 알고리즘을 제안하고자 한다. 1) 뉴스 비디오 샷 경계 탐지의 재현율을 높임으로써, 앵커 샷 탐지 단계에서 입력으로 사용될 데이타의 오류를 최소화한다; 2) 급격한 장면 변환과 점증적 장면 변환을 하나의 알고리즘으로 탐지함으로써 한번의 데이타 탐색으로 샷 분할을 수행한다; 3) 분할된 샷들을 정적 샷과 동적 샷으로 분류함으로써 앵커샷 탐지 단계의 탐색 공간을 축소한다. 제안된 뉴스 비디오 샷 경계 탐지 알고리즘은 특이간 분해를 기반으로 점증적 클러스터링 알고리즘과 머서 커널을 결합한 구조로서, 위에서 제시한 기준을 모두 만족하도록 설계되었다. 제안된 방법론은 특이간 분해를 통해 특징 벡터의 차원축소 뿐만 아니라, 뉴스 비디오를 구성하는 연속적인 프레임에서의 잡음과 아주 작은 변화를 제거함으로써 분류 성능을 높일 수 있다. 또한 머서 커널의 도입은 쉽게 분류되지 않는 데이타를 고차원 공간으로 매핑함으로써 구분하기 어려운 샷 경계의 탐지 가능성을 높여준다. 실험을 통하여 제안된 방법론이 매우 높은 재현율을 보이며, 앵커 샷 탐지를 위한 탐색 공간 축소를 효과적으로 수행함을 보인다.

룰 기반 웹 IDS 시스템을 위한 효율적인 웹 로그 전처리 기법 설계 및 구현 (Design and Implementation of Advanced Web Log Preprocess Algorithm for Rule based Web IDS)

  • 이형우
    • 인터넷정보학회논문지
    • /
    • 제9권5호
    • /
    • pp.23-34
    • /
    • 2008
  • 웹 기반 서비스가 다양한 형태로 제공되면서 웹 서비스 사용자 수는 꾸준히 증가하고 있다. 그러나 웹 서버에 대한 SQL Injection, Parameter Injection 및 DoS 등의 공격 등의 취약점이 발견되고 있다. 이와 같은 형태의 웹 공격에 능동적으로 대응하기 위해 현재 웹 IDS 시스템을 구축하여 룰 기반 대응 시스템을 구축하고 있으나, 웹 서버에서 생성되는 로그 정보에 대한 전처리 과정 없이 룰 기반 IDS 시스템이 구동되기 때문에 효율적인 웹 공격 대응체계가 구축되지 못하고 있다. 이에 본 연구에서는 웹 로그 정보를 웹 IDS 기반 공격 탐지 시스템의 룰 비교 특성에 적합한 형태로 전처리하는 알고리즘을 제시하고 이를 구현하였다. 제안한 알고리즘은 웹 로그 정보에 대한 필드 단위 파싱 및 중복 문자열 처리 과정을 고속으로 수행하여 대용량의 로그 처리시 성능을 향상시켜 개선된 웹 IDS 시스템 구축이 가능하다.

  • PDF

비행시험 발사통제 시스템의 신호처리 알고리즘 (The signal processing algorithm of the Missile Flight Test Launch Control System)

  • 오진오
    • 한국정보통신학회논문지
    • /
    • 제19권8호
    • /
    • pp.1965-1972
    • /
    • 2015
  • 비행시험 발사통제 시스템은 유도무기 비행시험 시 사격통제 시스템과 연동하여 동작하고, 유도무기의 종류 및 시험 목적에 따라 시험의 통제 및 상황 감시를 하는 시스템이다. 사격통제 시스템과 비행시험 발사통제 시스템이 연동하기 위한 메시지 구조, 통신 프로토콜, 데이터 타입 등은 발사통제 ICD(Interface Control Document)에 정의되어 있고, ICD는 유도무기 체계별, 시험 목적별로 모두 다르게 구성되어 있다. 기존에는 사격통제 시스템과 연동하기 위해 별도의 연동 소프트웨어를 개발하였으나, 이는 다양한 문제점을 가지고 있었다. 따라서 다양한 발사통제 ICD를 수용할 수 있도록 새로운 파싱 알고리즘을 개발하였고, 사격통제 시스템과 연동하여 다양한 메시지들이 송ㆍ수신되는 것을 확인하여 알고리즘이 정상적으로 동작하는 것을 검증하였다.

SQLite 데이터베이스 파일에 대한 데이터 은닉 및 탐지 기법 연구 (The Research on Data Concealing and Detection of SQLite Database)

  • 이재형;조재형;홍기원;김종성
    • 정보보호학회논문지
    • /
    • 제27권6호
    • /
    • pp.1347-1359
    • /
    • 2017
  • SQLite는 트랜잭션을 제공하는 파일 기반의 DBMS(Database Management System)이며 경량 플랫폼에 적절하기 때문에 요즘에는 스마트폰에 주로 적재된다. 따라서 스마트폰의 사용량이 증가함에 따라 SQLite와 관련된 범죄가 발생할 가능성이 있다. 본 논문에서는 SQLite 데이터베이스 파일에 대한 새로운 은닉 기법과 이에 대한 탐지 방법을 제안한다. 은닉 실험 결과, 데이터베이스 파일 헤더의 영역 중 70바이트에 고의적으로 데이터를 은닉하는 행위가 가능하였다. 또한 데이터베이스 파일의 페이지 영역을 추가하여 기존의 페이지를 은닉할 수 있었다. 그러나 SQLite 구조를 기반으로 헤더의 70바이트를 파싱하거나 레코드 및 인덱스의 개수를 이용하여 제안하는 은닉을 탐지하는 방법이 가능하였다. 이후, SQLite 은닉된 데이터에 대한 탐지 알고리즘을 제시하였다.

IoT 보안을 위한 SHA-256 해시 프로세서의 면적 효율적인 설계 (An Area-efficient Design of SHA-256 Hash Processor for IoT Security)

  • 이상현;신경욱
    • 한국정보통신학회논문지
    • /
    • 제22권1호
    • /
    • pp.109-116
    • /
    • 2018
  • 전자서명, 인증 코드, 키 생성 알고리듬 등의 보안 프로토콜에 사용되는 SHA-256 해시 함수를 면적 효율적으로 설계하였다. 설계된 SHA-256 해시 프로세서는 입력 메시지에 대한 패딩 및 파싱 기능을 수행하는 패더 블록을 포함하여 프리프로세싱을 위한 소프트웨어 없이 동작하도록 구현하였다. 라운드 연산을 16-비트 데이터 패스로 구현하여 64 라운드 연산이 128 클록 주기에 처리되도록 하였으며, 이를 통해 저면적 구현과 함께 성능 대비 하드웨어 복잡도 (area per throughput; APT)를 최적화 하였다. 설계된 SHA-256 해시 프로세서는 Virtex5 FPGA로 구현하여 정상 동작함을 확인하였으며, 최대 116 MHz 클록 주파수로 동작하여 337 Mbps의 성능을 갖는 것으로 평가되었다. ASIC 구현을 위해 $0.18-{\mu}m$ CMOS 셀 라이브러리로 합성한 결과, 13,251 GE로 구현되었으며, 최대 동작주파수는 200 MHz로 예측되었다.