• 제목/요약/키워드: 정규표현식

검색결과 85건 처리시간 0.025초

웹에서 정규경로 표현식을 포함한 XML 질의의 캐쉬를 이용한 처리 (Cache-Answerability of XML Queries in Regular Path Expressions on the Web)

  • 박정기;강현철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.58-60
    • /
    • 2004
  • 웹의 확산과 더불어 웹 페이지 검색의 성능 즉, 빠른 응답시간과 확장성(scalability)은 각 웹 사이트의 절대적 평가 기준이 되었다. 웹 옹용은 일반적으로 불특정 다수를 대상으로 하기 때문에 확장성 또한 주요 성능의 척도가 된다. 이와 같은 웹 사이트 성능을 담보하기 위한 대표적 요소기술이 웹 캐슁이다. 본 논문은 웹 상에서 XML 데이터베이스 기반의 웹 응용(XML database-backed web application)을 위한 응용서버의 XML 캐쉬를 이용하여 주어진 XML 질의를 변환, 처리하는 기법과 구현에 관한 것으로 XPath의 경로표현식 중 가장 중요한 세 가지 기능인 조건을 명시하는 필터 연산자, 부모-자식 관계를 나타내는 경로 연산자(/), 그리고 조상-후손 관계를 나타내는 경로 연산자(//)를 연구 범위로 하였다. [2]에서는 조상-후손 관계를 나타내는 경로 연산자(//)가 없는 경우에 경로표현식으로 주어진 XML 질의를 캐쉬를 이용하여 변환, 처리하는 알고리즘을 제시하였는데 본 논문에서는 [2]의 알고리즘을 확장하여 경로 연간자(//)가 지원되도록 하였다. 조상-후손 경로 연산자(//)로는 정규경로 표현식(regular path expression)을 나타낼 수 있는데 이는 스키마가 불확실한 반구조적 데이터인 XML 데이터에 대한 질의 표현에 유용하다. 제시된 알고리즘에서는 DTD를 이용하여 경로 정보를 얻어 처리함으로써 주어진 질의를 캐쉬와 하부 XML 소스에 대한 질의로 변환하였다. 이 알고리즘을 바탕으로 관계 DBMS를 이용하여 구현된 시스템으로 실제 웹 상에서 성능 실험을 수행하였다. 성능 실험 결과 정규 경로 표현식을 포함하는 XML 질의에 대해서도 웹에서 캐쉬를 이용한 처리가 효율적임을 확인하였다.키는데 목적이 있다.RED에 비해 향상된 성능을 보여주었다.웍스 네트워크상의 다양한 디바이스들간의 네트워크 다양화와 분산화 기능을 얻을 수 있었고, 기존의 고가의 해외 솔루션인 Echelon사의 LonMaker 소프트웨어를 사용하지 않고도 국내의 순수 솔루션인 리눅스 기반의 LonWare 3.0 다중 바인딩 기능을 통해 저 비용으로 홈 네트워크 구성 관리 서버 시스템 개발에 대한 비용을 줄일 수 있다. 기대된다.e 함량이 대체로 높게 나타났다. 점미가 수가용성분에서 goucose대비 용출함량이 고르게 나타나는 경향을 보였고 흑미는 알칼리가용분에서 glucose가 상당량(0.68%) 포함되고 있음을 보여주었고 arabinose(0.68%), xylose(0.05%)도 다른 종류에 비해서 다량 함유한 것으로 나타났다. 흑미는 총식이섬유 함량이 높고 pectic substances, hemicellulose, uronic acid 함량이 높아서 콜레스테롤 저하 등의 효과가 기대되며 고섬유식품으로서 조리 특성 연구가 필요한 것으로 사료된다.리하였다. 얻어진 소견(所見)은 다음과 같았다. 1. 모년령(母年齡), 임신회수(姙娠回數), 임신기간(姙娠其間), 출산시체중등(出産時體重等)의 제요인(諸要因)은 주산기사망(周産基死亡)에 대(對)하여 통계적(統計的)으로 유의(有意)한 영향을 미치고 있어 $25{\sim}29$세(歲)의 연령군에서, 2번째 임신과 2번째의 출산에서 그리고 만삭의 임신 기간에, 출산시체중(出産時體重) $3.50{\sim}3.99kg$사이의 아이에서 그 주산기사망률(周産基死亡率)이 각각 가장 낮았다. 2. 사산(死産)과 초생아사망(初生兒死亡)을 구분(區分)하여 고려해 볼때 사산(死産)은 모성(母性)의 임신력(

  • PDF

비공유 병렬구조를 이용한 선형적 재귀규칙의 병렬평가 (Parallel Evaluation of Linearly Recursive Rules using a Shared-Nothing Paralled Architecture)

  • 조우현;김항준
    • 한국정보처리학회논문지
    • /
    • 제4권12호
    • /
    • pp.3069-3077
    • /
    • 1997
  • 이 논문에서는 비공유 병렬구조에서 이행적 종속성을 갖는 선형적 재귀규칙의 병렬평가에 대한 패러다임을 제안한다. 병렬평가를 위해 우리는 모든 노드가 메시지 교환을 위해 연결망만을 공유하는 비공유 병렬구조를 고려한다. 여기서 정규화된 규칙의 평가는 그 규칙의 중명-이론적 의미의 계산이다. 이행적 종속성올 갖는 정규 화된 선형적 재귀규칙을 정의하고, 그 규칙이 등가의 표현식으로 변환될 수 있음을 보이고, 등가의 표현식을 근거로 결합, 분할, 이행성폐포 연산을 이용하여 정규화된 규칙에 대한 병렬평가를 위한 패러다임을 제안하고 시간 복잡도를 분석하였다.

  • PDF

시그니처 기반 블록 탐색을 통한 XML 질의 최적화 기법 (An XML Query Optimization Technique by Signature based Block Traversing)

  • 박상원;박동주;정태선;김형주
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제29권1호
    • /
    • pp.79-88
    • /
    • 2002
  • 인터넷에서 사용되는 많은 데이터들이 XML로 표현되고 있는 추세이다. 이러한 XML 데이터는 트리 형태로 표현되므로 이것을 저장하고 질의하는 시스템으로 그 모델링 능력 때문에 객체 저장소가 적합하다. 객체 저장소에서 XML의 각 노드는 객체로 저장된다. XML 질의의 특징은 정규 경로식으로 표현되는 것이며 이것은 XML 트리의 각 객체를 탐색하면서 처리된다. 정규 경로식을 지원하기 위하여 여러 인덱스들이 제안되었지만 이러한 인덱스들은 디스크 공간이라는 제약 때문에 모든 가능한 경로에 대한 인덱스를 제공하지는 못한다. 이러한 상태에서 정규 경로식을 잘 지원하기 위해서 블록 탐색과 시그니처 방법을 이용하여 질의를 효과적으로 처리하는 최적 객체 탐색 기법을 제안하였다. 시그니처는 트리의 각 노드에 시그니처를 첨가하여 탐색 범위를 줄이는 것이다. 블록 탐색은 한 페이지 내에 있는 접근 가능한 객체들을 미리 처리함으로써 디스크 I/O를 줄이는 것이다. 이와 같은 두가지 방법을 같이 이용하면 일반적인 질의 처리보다 월등히 나은 성능을 보인다는 것을 실험을 통하여 보였다.

An Accurate Log Object Recognition Technique

  • Jiho, Ju;Byungchul, Tak
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권2호
    • /
    • pp.89-97
    • /
    • 2023
  • 본 논문에서는 로그 분석을 어렵게 하는 요인을 제안하고 이후 분석에 도움을 주는 로그 내 다양한 객체 인식 기법을 설계한다. 오늘날의 IT 시스템에서 로그는 다수의 고급 AI 분석 기술의 핵심적인 원천 데이터이다. 로그에는 유용한 정보가 많이 포함되어 있지만 로그는 본질적으로 반구조화되어 있기 때문에 로그 내 유용 정보에 기술을 직접적으로 적용시키기 어렵다. 로그 분석을 방해하는 요소는 file path, identifier, json 등 다양한 객체이다. 이러한 객체에 대한 BERT기반의 패턴 인식 알고리즘을 설계하고 객체 인식을 수행한다. 본 실험에서 정의한 패턴 인식 알고리즘은 객체의 정의, GROK 패턴, 그리고 정규 표현식에 기반한다. 기존에 알려진 패턴과 정규 표현식을 기반으로 한 간단한 패턴 매칭이 효과적이지 않다는 것을 확인할 수 있었다. 그 결과 기존 패턴과 정규 표현식만을 사용하는 것보다 훨씬 나은 정확도를 보여준다. 또한, BERT 모델의 경우 인식 객체 이외의 객체를 분류하는 정확도가 99%에 달하는 것을 확인할 수 있다.

텍스트에서 IS-A 관계의 자동 추출 및 순위화 (Automatic Acquisition of Ranked IS-A Relation from Unstructured Text)

  • 류법모;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2007년도 제19회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.150-157
    • /
    • 2007
  • 본 논문에서는 의존 구조 매칭과 약한 지도식 학습 방법을 적용하여 텍스트에서 IS-A 관계를 자동으로 추출하고 순위화하는 방법을 제안한다. 텍스트에서 잠재적인 IS-A 관계를 표현하는 [관계 표현, 하위어, 상위어]의 삼진관계 리스트를 추출하고, 관계 표현과 IS-A 관계 인스턴스, IS-A 관계 후보, 사이의 상호 관련성을 이용하여 각각의 점수를 반복적으로 정제한다. 제안한 방법의 대표적인 특징은 다음과 같다. 1) 의존 구조에 기반한 패턴 매칭 방법을 적용하여 정규 표현에 기반한 방법보다 다양한 형태의 삼진관계를 추출할 수 있고, 2) 도메인 코퍼스에서 통계적으로 추출한 어휘 사이의 관련성 정보를 이용하여 도메인에 적합한 IS-A 관계 인스턴스의 순위를 높일 수 있으며, 3) 관계 표현과 관계 인스턴스의 점수를 상호 관련성에 기반한 방법으로 반복적으로 점수화하여 IS-A 관계 인스턴스 사이의 변별력을 높일 수 있다. 실험에서 순위화된 관계 인스턴스는 전문가의 판단과 66%이상 일치함을 보였고, 의존 구조를 이용한 유연한 패턴 매칭 방법은 정규표현을 이용한 방법보다 43.6%의 추가적인 삼진관계를 추출하였다.

  • PDF

공공데이터의 도메인 자동 판별 정확도 향상을 위한 정규표현식 및 접미사 적용 방법 (Application Method of Regular Expressions and Suffixes to improve the Accuracy of Automatic Domain Identification of Public Data)

  • 김석균;이관우
    • 한국인터넷방송통신학회논문지
    • /
    • 제22권4호
    • /
    • pp.81-86
    • /
    • 2022
  • 본 연구에서 csv포맷으로 구조화된 파일 데이터의 컬럼의 도메인을 자동 판별하는 방법을 제안한다. 데이터와 데이터 간 융합을 통해 새로운 데이터를 생성할 수 있고, 이들 새로운 데이터가 중요한 자원이 되기 위해서는 조인 되는 컬럼의 일관성이 유지되어야 한다. 데이터 품질을 측정하기 위한 방법 중의 하나가 도메인 기반 품질 진단 방법이다. 도멘인이란 각 컬럼의 성격을 규정하는 가장 광범위한 지표이므로 이를 자동으로 판별하는 방법이 필요하다. 기존의 연구에서는 관계형 데이터베이스의 도메인 자동 판별이 주로 연구 되었지만 본 연구는 파일데이터의 특성을 이용하여 도메인을 자동화 할 수 있는 모델을 개발하였다. 파일데이터의 도메인 판별을 특화하기 위하여 정규표현식을 이용하여 데이터를 단순화 하고 이를 패턴화 하였고, 컬럼명에 해당하는 데이터 헤더의 내용을 분석하여 사용된 접미사를 분석하여 파생변수로 사용하였다. 정규표현식과 접미사의 파생변수를 추가하였을 때 기존 방법인 87%의 정확도 보다 큰 95%의 정확도로 도메인을 자동 판별하는 결과를 도출하였다. 본 연구는 공공데이터 품질진단에 자동화 방법론을 제시하여 품질 측정 기간 및 인원을 줄일 수 있을 것으로 기대된다.

XML 정규 경로식을 위한 유연한 질의 처리 시스템 (A Flexible Query Processing System for XML Regular Path Expressions)

  • 김대일;김기창;김유성
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제30권6호
    • /
    • pp.641-650
    • /
    • 2003
  • 반 구조적(semi-structured)이며 표현의 유연성이 높은 XML(extensible Markup Language)은 인터넷에서의 정보 교환의 표준으로 자리잡았다. 많은 문서들이 XML로 작성되고 있으며 이러한 문서들에 대한 효율적인 저장과 검색에 대한 요구가 증가하고 있다. XML 문서들을 저장하는 백엔드(back-end)로서 대량의 정보처리가 가능하고 회복, 동시성 제어 등의 성숙된 기술들을 가지고 있는 관계형 데이타베이스를 이용하는 많은 연구들이 있다. 기존의 관계형 데이타베이스를 이용한 질의 처리 방법들에서는 다양한 질의에 대해 동일한 구조 정보와 기본 연산을 적용하여 질의 처리를 하기 때문에 특정한 질의 형태만을 효율적으로 처리할 수 있다. 본 논문에서는 질의를 분석하여 질의에 적합한 구조 정보와 기본 연산을 적용하는 유연한 질의 처리 시스템을 제안한다. 제안된 질의 처리 시스템은 정규 경로식 XML 질의를 분석하여 부모-자식 관계 파악에는 동등(equi)-조인을 사용하고 부모-자식 관계가 아닌 조상-자손 관계에는 $\theta$-조인을 사용하여 다양한 정규 경로식 질의를 효율적으로 처리한다. 제안된 XML 질의 처리 시스템과 기존의 관계형 데이타베이스를 이용하는 질의 처리 시스템을 비교 실험한 결과 다양한 정규 경로식 질의 처리의 성능 향상을 보였다.

콘텐트 중심 네트워크에서 정규표현식을 활용한 캐시친화적인 적응형 스트리밍 프레임워크 (Cache-Friendly Adaptive Video Streaming Framework Exploiting Regular Expression in Content Centric Networks)

  • 손동현;최대진;최낙중;송정환;권태경
    • 한국통신학회논문지
    • /
    • 제40권9호
    • /
    • pp.1776-1785
    • /
    • 2015
  • 인터넷을 이용하는 사용자의 관점이 호스트 중심에서 콘텐트 중심으로 변화하면서 콘텐트 중심 네트워크 (Content Centric Network, 이하 CCN)라는 새로운 패러다임이 소개되었다. 한편, 최근 비디오 스트리밍에 대한 수요가 급증하고 있으며 더 높은 사용자의 만족도를 위한 적응형 스트리밍이 소개되면서 많은 연구가 진행 중에 있다. 따라서 CCN에서도 사용자의 수요에 따라 적응형 스트리밍을 고려할 필요성이 있다. 하지만 CCN에서 기존의 네트워크 구조에서와 동일한 방식으로 적응형 비디오 스트리밍 서비스를 할 경우 CCN 라우터 내 캐시를 (CS) 충분히 활용하지 못한다는 한계점이 있으며 또한 단말의 달라지는 요구 사항을 캐시 활용에 반영할 수 없는 문제점도 있다. 따라서 본 논문에서는 정규표현식을 활용한 콘텐트 네이밍 방식을 적용하여 기존 적응형 스트리밍 비트레이트 선택 알고리즘의 캐시활용도를 높이면서도 CCN의 기본 프로토콜에 적합한 프레임워크를 제시하고, 단말의 상태에 따라 동적인 표현식 기술 전략 및 선택 알고리즘을 통하여 비디오 스트리밍 품질을 개선하고자 한다.

퍼지페트리네트와 신경망을 이용한 의식.무의식 통합 시스템 (The combined system of consciousness and unconsciousness using Fuzzy Petri net and Neural Network)

  • 박경숙;박민용
    • 한국인지과학회:학술대회논문집
    • /
    • 한국인지과학회 2000년도 춘계 학술대회
    • /
    • pp.311-321
    • /
    • 2000
  • 본 논문에서는 정신분석과 두 종류의 정서이론, 인공지능과 신경회로망 그리고 퍼지 페트리 네트 등을 사용하여 사람의 인지과정을 모방한 인지모형시스템을 개발하였다. 먼저 프로이트의 정신분석을 사용하여 정신의 구조를 그래프로 표현한 후 이것을 '마음의 지도'라 명명하였다. 인지모형시스템을 구현하기 위한 첫 번째 작업으로 동적인 추론을 할 수 있는 지능 모델인 KNBN(Kohonen Network based Belief Network)을 제안하였다. KNBN으로 표현한 마음의 약도 내에서 연결강도 값으로 사용할 상대적 데이터를 만들기 위한 근거로서는 '정서'를 사용하였는데, 플라칙의 진화론에 근거한 정서이론과 오토니의 인지적 정서이론을 결합하여 데이터로 만든후 이 수치를 연결강도로 사용하였다. 이 두 개의 정서이론을 결합하는 알고리즘을 만들기 위해 페트리네트를 변형한 퍼지 페트리네트를 제안하였다. 또한 오토니가 주장하는 정서의 인지구조를 사람들이 그대로 이해하는지 여부를 알기 위해 대학생 100명을 대상으로 설문지를 사용해 정서의 인지구조에 대해 조사하였고 그 결과 값에 근거하여 두 개의 정서이론 결합 알고리즘을 만들었다. 이것으로 정서 발화에 대한 상대적인 수치가 산출되었고, 이것을 KNBN으로 표현한 마음의 약도에 결합하기 위해 0과 1사이의 수치로 정규화 하였다. 이렇게 정규화된 데이터를 이용해 인지 모형 시스템을 개발하였다.

  • PDF

두꺼운 꼬리를 갖는 연속 확률분포들의 꼬리 확률에 관하여 (On Tail Probabilities of Continuous Probability Distributions with Heavy Tails)

  • 윤석훈
    • 응용통계연구
    • /
    • 제26권5호
    • /
    • pp.759-766
    • /
    • 2013
  • 본 논문에서는 두꺼운 꼬리를 갖는 확률분포들의 여러 부류에 대해서 살펴본다. 주어진 하나의 확률분포가 이들 중 어떤 부류에 속하는 지를 알려면 해당 분포의 꼬리 확률에 대한 (점근) 표현식을 알아야만 한다. 그러나 대다수의 절대 연속 확률분포들은 분포함수가 아닌 확률밀도함수로 명시되기 때문에 통상적으로 이들의 꼬리 확률에 대한 표현식을 얻는 작업은 그리 쉬운 일이 아니다. 본 논문에서는 이러한 경우 확률밀도함수만을 이용하여 꼬리 확률에 대한 점근 표현식을 쉽게 얻을 수 있는 하나의 방법을 제안한다. 또한 제안한 방법을 설명하기 위하여 몇가지 예를 첨부한다.