• 제목/요약/키워드: 태그 경로 분석

검색결과 33건 처리시간 0.119초

태그 경로 및 텍스트 출현 빈도를 이용한 HTML 본문 추출 (HTML Text Extraction Using Tag Path and Text Appearance Frequency)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제25권12호
    • /
    • pp.1709-1715
    • /
    • 2021
  • 웹 페이지에서 필요한 텍스트를 정확하게 추출하기 위해 본문이 존재하는 곳의 태그와 스타일 속성을 웹 크롤러에 명시하는 방법은 웹 페이지 구성이 변경될 때마다 본문을 추출하는 로직을 수정해야 하는 문제가 있다. 이러한 문제점을 해결하기 위해 이전 연구에서 제안한 텍스트의 출현 빈도를 분석하여 본문을 추출하는 방법은 웹 페이지의 수집 채널에 따라 성능 편차가 크다는 한계점이 있었다. 따라서 본 논문에서는 텍스트의 출현 빈도뿐만 아니라 웹 페이지의 DOM 트리로부터 추출된 텍스트 노드의 부모 태그 경로를 분석하여 다양한 수집 채널에서 높은 정확도로 본문을 추출하는 방법을 제안하였다.

태그 스위칭 기술 성능 분석 (Performance Evaluation of Tag Switching)

  • 오경희;이수경;손홍세;송주석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 1999년도 가을 학술발표논문집 Vol.26 No.2 (3)
    • /
    • pp.560-562
    • /
    • 1999
  • 인터넷의 등장과 네트워킹 기술의 빠른 발전은 다양한 응용의 등장 및 사용자의 증가에 의한 대역폭 요구량 증가 등의 변화를 가져왔다. 이러한 변화와 기존 라우터의 한계점으로 인해 스위칭과 라우팅 장비의 고성능화, 확장된 라우팅 기능의 제공 등이 필요하게 되었고, 이를 위하여 IETF는 현재 MPLS라는 Label switching 방식을 표준화 중이다. 이 표준화 작업에 기반이 된 기술 중의 하나가 태그 스위칭 기술이며, 본 논문에서는 이 기술에 대한 성능을 분석하였다. 표준 및 스위치 개발이 연구중인 현 시점에서, 태그 스위칭 기술의 성능 평가 결과는 특히, ATM의 스위칭 능력과 IP계층 능력의 효율적인 활용의 기반 자료가 될 것이다. 본 논문은 라우터와 태그 스위치를 포함하는 망을 구성하고 NLANR에서 제공하는 인터넷 트래픽을 입력 트래픽 소스로 하여 성능 평가를 수행하였으며, 태그 스위칭의 구조 및 ATM testbed에서의 구현 시, 이 기술이 갖는 스위칭의 기능성 및 성능을 분석하였다.

  • PDF

WCTT: HTML 문서 정형화 기반 웹 크롤링 시스템 (WCTT: Web Crawling System based on HTML Document Formalization)

  • 김진환;김은경
    • 한국정보통신학회논문지
    • /
    • 제26권4호
    • /
    • pp.495-502
    • /
    • 2022
  • 오늘날 웹상의 본문 수집에 주로 이용되는 웹 크롤러는 연구자가 직접 HTML 문서의 태그와 스타일을 분석한 후 수집 채널마다 다른 수집 로직을 구현해야 하므로 유지 관리 및 확장이 어렵다. 이러한 문제점을 해결하려면 웹 크롤러는 구조가 서로 다른 HTML 문서를 동일한 구조로 정형화하여 본문을 수집할 수 있어야 한다. 따라서 본 논문에서는 태그 경로 및 텍스트 출현 빈도를 기반으로 HTML 문서를 정형화하여 하나의 수집 로직으로 본문을 수집하는 웹크롤링 시스템인 WCTT(Web Crawling system based on Tag path and Text appearance frequency)를 설계 및 구현하였다. WCTT는 모든 수집 채널에서 동일한 로직으로 본문을 수집하므로 유지 관리 및 수집 채널의 확장이 용이하다. 또한, 키워드 네트워크 분석 등을 위해 불용어를 제거하고 명사만 추출하는 전처리 기능도 제공한다.

RFID 시스템에서 태그 충돌 중재를 위한 하이브리드 기법 (A Hybrid Approach to Arbitrate Tag Collisions in RFID systems)

  • 류지호;이호진;석용호;권태경;최양희
    • 한국정보과학회논문지:정보통신
    • /
    • 제34권6호
    • /
    • pp.483-492
    • /
    • 2007
  • 본 논문에서는 RFID 시스템에서 쿼리 트리 기반의 태그 충돌 중재를 위한 새로운 프로토콜을 제안한다. 제안한 하이브리드 쿼리 트리(Hybrid Query Tree) 기법은 이진 쿼리 트리 대신에 4-ary 쿼리 트리를 이용하여 태그 충돌 수를 줄였으며 추가적으로 발생하는 유휴 시간을 줄이기 위해 slotted 백오프 기법을 활용하였다. 실험결과 및 수학적 분석은 제안한 하이브리드 쿼리 트리 프로토콜이 기존에 제시된 기법보다 우수한 성능을 보임을 입증한다.

유비쿼터스 물류환경을 위한 컨테이너 위치 확인 시스템 설계 및 구현 (A Design and Implementation of Container Localization for Ubiquitous Logistics Environment)

  • 정동호;정연수;김정효;백윤주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.205-207
    • /
    • 2005
  • 유비쿼터스 컴퓨팅 응용으로 위치 추적 서비스, 산업용 제어 핀 관리 시스템, 홈 자동화 시스템 등 다양한 서비스들이 이미 사용되고 있거나 개발되고 있다. 물류 환경에서의 화물 컨테이너 관리 시스템은 선적하는 컨테이너의 안전을 보장하고 선적 경로와 현재의 위치 등을 제공하여 수출입업자에게 경제적인 이점을 제공할 수 있다. 본 논문에서는 유비쿼터스 물류환경에서 화물 컨테이너의 현재 위치를 확인할 수 있는 시스템을 설계하고 구현하였다. 컨테이너 위치 확인 시스템은 DV-hop 기법을 바탕으로 리더와 태그간의 홉 수를 계산하고 이를 이용하여 컨테이너의 정확한 위치를 결정한다. 시뮬레이션은 TOSSIM을 이용하여 리더와 태그의 정보 수집을 하였고, 서버 프로그램의 정보 분석 과정을 거쳐 태그의 위치를 계산하였다.

  • PDF

랜덤화된 트리워킹 알고리즘에서의 RFID 태그 보안을 위한 백워드 채널 보호 방식 (Backward Channel Protection Method For RFID Tag Security in the Randomized Tree Walking Algorithm)

  • 최원준;노병희;유승화;오영철
    • 한국통신학회논문지
    • /
    • 제30권5C호
    • /
    • pp.415-421
    • /
    • 2005
  • 수동형 RFID 태그는 스스로 전력을 갖고 있지 않기 때문에 연산 능력이 매우 미약하고, 통신 신호는 크기가 약하고, 도달 거리가 짧다. 이런 특성을 이용하여, 대부분의 태그 보안 방법은 태그로부터 리더로 전달되는 무선경로인 백워드(Backward) 채널은 도청의 가능성이 거의 없다는 가정하에 리더로부터 태그로 정보를 전달하는 포워드(Forward) 채널을 보호하는데 초점을 맞추고 있다. 그러나, 실제로 태그와 가까이에 있는 불법적인 리더는 정보를 불법적으로 수집할 수 있다. 본 논문에서는 이러한 근접거리에서 백워드 채널을 보호할 수 있는 방법을 제안한다. 제안방법은 태그정보의 충돌방지를 위하여 제안된 트리워킹 방식의 도청가능성을 제거하기 위하여 제안된 랜덤화된 트리워킹과 같은 기존 방식들에서 문제점을 해결하여 준다. 제안 방법의 효율성은 분석 모델을 사용하여 보였으며, 표준 코드시스템인 EPCglobal, ISO, uCode의 경우 도청가능성을 거의 '0'에 근접시킴을 보였다.

RFID 기술을 이용한 실내 위치 추적 (Indoor Positioning Using RFID Technique)

  • 윤창선;김태인;김현진;홍연찬
    • 한국정보통신학회논문지
    • /
    • 제20권1호
    • /
    • pp.207-214
    • /
    • 2016
  • RFID 기술은 리더와 태그( Tag)라는 장치를 이용하여 정보를 인식하는 기술로 현재 대중교통 및 고속도로 하이패스 등에 사용되고 있다. 본 논문에서는 RFID 기술을 응용해 실내에서 물체의 위치를 추적하는 시스템을 설계하고자 한다. 대표적인 위치추적 시스템인 GPS는 비가 오거나 실내 공간 또는 지하에서는 효율이 좋지 않고 오차가 커지는 단점이 있다. 제안된 RFID 실험은 실내에서 배치된 물체의 이동에 따른 신호의 변화를 시뮬레이션 하고 실제 실험과 비교하여 위치추적에 필요한 데이터를 산출한 후 그 데이터를 근거로 이동경로와 오차를 분석하여 향후 추적시스템에 필요한 자료를 제공한다. 위치 추적에 필요한 시뮬레이션은 실제 물체의 이동 경로를 분석하여 수행하였고 실제 실험에서는 RFID 기술을 이용하여 실내 곳곳에 리더를 설치한 환경에서 위치를 알고자 하는 물체에 태그를 장착시키고 이동시킨 후 실험 장비에서 얻어낸 데이터를 분석하였다. 본 논문에서는 획득한 데이터를 분석하여 향후 실내 위치 추적이 필요한 시스템에 활용될 수 있도록 관련 분석값을 제시하였다. RFID를 통한 위치 파악 데이터는 위치에 따른 태그 판별 결과를 보여주며 분석된 데이터는 추후 실내 위치 파악 연구에 활용될 것으로 기대된다.

구문 의존 경로에 기반한 단백질의 세포 내 위치 인식 (Detection of Protein Subcellular Localization based on Syntactic Dependency Paths)

  • 김미영
    • 정보처리학회논문지B
    • /
    • 제15B권4호
    • /
    • pp.375-382
    • /
    • 2008
  • 단백질의 세포 내 위치를 인식하는 것은 생물학 현상의 기술에 있어서 필수적이다. 생물학 문서의 양이 늘어남에 따라, 단백질의 세포 내 위치 정보를 문서 내용으로부터 얻기 위한 연구들이 많이 이루어졌다. 기존의 논문들은 문장의 구문 정보를 이용하여 정보를 얻고자 하였으며, 언어학적 정보가 단백질의 세포 내 위치를 인식하는 데 유용하다고 주장하고 있다. 그러나, 이전의 시스템들은 구문 정보를 얻기 위해 부분 구문분석기만을 사용하였고 재현율이 좋지 못했다. 그러므로 단백질의 세포 내 위치 정보를 얻기 위해 전체 구문분석기를 사용할 필요가 있다. 또한, 더 많은 언어학적 정보를 위해 의미 정보 또한 사용이 가능하다. 단백질의 세포 내 위치 정보를 인식하는 성능을 향상시키기 위하여, 본 논문은 전체 구문분석기와 어휘망(WordNet)을 기반으로 한 방법을 제안한다. 첫 번째 단계에서, 각 단백질 단어로부터 그 단백질의 위치후보에까지 이르는 구문 의존 경로를 구축한다. 두 번째 단계에서, 구문의존 경로의 루트 정보를 추출한다. 마지막으로, 단백질 부분트리와 위치 부분트리의 구문-의미 패턴을 추출한다. 구문 의존 경로의 루트와 부분트리로부터 구문태그와 구문방향을 구문 정보로서 추출하고, 각 노드 단어의 의미태그를 의미 정보로서 추출한다. 의미태그로는 어휘망의 동의어 집합(synset)을 사용한다. 학습데이터에서 추출한 루트 정보와 부분트리의 구문-의미 패턴에 따라서, 실험데이터에서 (단백질, 위치) 쌍들을 추출했다. 어떤 생물학적 지식 없이, 본 논문의 방법은 메드라인(Medline) 요약 데이터를 사용한 실험 결과에서 학습데이터에 대해 74.53%의 조화평균(F-measure), 실험데이터에 대해서는 58.90%의 조화평균을 보였다. 이 실험은 기존의 방법들보다 12-25%의 성능향상을 보였다.

RFID 미들웨어 환경에서 센서 노드의 생존성 향상과 효율적인 프로토콜 설계를 위한 연구 (A study on improve survivability of sensor node and design of protocol in RFID Middleware environment)

  • 최용식;전영준;박상현;한수;신승호
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (D)
    • /
    • pp.68-73
    • /
    • 2006
  • 센서 노드의 송수신 상태를 분석하여 노드의 생존성 향상과 효율적인 프로토콜 설계를 하려고 한다. 센서 노드의 분석을 위한 실험 환경은 다음과 같다. 센서 노드의 생존성-가용 배터리, 센서 노드의 출력-검색 가능 영역, 센서 노드의 통신 경로-라우팅 테이블 생성, 센서 노드의 대역폭-송신 데이터의 크기이다. RFID 태그와 리더를 통한 관리 시스템과 재해방지를 위한 다양한 센서를 통한 정보 수집 시스템과 의사결정 시스템에 적용 될 수 있다. 그리고 다양한 센서 데이터로부터 수신된 데이터의 자료수집, 센서분류, 수신율 조절 시스템을 위한 프로토콜 설계 자료로 활용 가능하다.

  • PDF

코퍼스로부터 형태소 분석을 위한 사전 구성 (A Dictionay Composition for Morphological Analyzer from Corpus)

  • 정민수;정규철;조원홍
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1998년도 제10회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.316-320
    • /
    • 1998
  • 한국어나 일본어처럼 문법형태소의 기능에 의해 단어의 통사적, 의미적 역할이 결정되는 교착어에서는 형태소 분석이 통사 분석과 의미 분석에 미치는 영향이 크기 때문에 한국어의 분석에 있어서 형태소 분석은 아주 중요하다. 관형적 표현이 많은 한글은 문법 규칙만으론 분석하기가 쉽지 않고, 분기가 많이 생성되므로 오류가 발생할 확률도 높다. 이러한 문제점을 해결하기 위해 본 논문에선 사전을 중심으로 해결하고자 한다. 그러기 위해선 방대한 용량의 사전이 필요로 하게 되고 이를 구축하기 위한 시간과 노력이 요구되므로 이미 구성된 코퍼스를 이용해 사전을 구성하여 많은 시간과 노력을 줄일 수 있도록 한다. 그리고 생성되는 많은 분기 가운데 올바른 경로를 찾아 가기 위해 코퍼스내의 각 태그 결합정보를 추출하고 추출한 결합정보의 통계정보-코퍼스내에서 사용된 빈도수-포함하여 우선순위를 정하도록 한다.

  • PDF