• 제목/요약/키워드: HTML 파싱

검색결과 19건 처리시간 0.041초

미국 특허 서지정보 추출 방법에 대한 연구: HTML 파싱 기법의 활용을 중심으로 (An Extraction Method of Bibliographic Information from the US Patents: Using an HTML Parsing Technique)

  • 한유진;오승우
    • 정보관리학회지
    • /
    • 제27권2호
    • /
    • pp.7-20
    • /
    • 2010
  • 본 연구는 미국 특허 문서에서 가장 최신의 정보를 추출할 수 있는 방법을 제시하였다. 이를 위해 미국특허청 웹페이지에 직접 접속하여, HTML 문서를 파싱하는 방법을 제시하였다. 먼저 관심 있는 키워드로 검색을 한 후 50개로 이루어진 리스트가 출력되면, HTML 파싱 기법을 이용하여 여기서 직접 특허번호, 출원인, 미국 특허 클래스와 같은 주요 서지정보를 추출할 수 있는 알고리즘을 제안하였다. 또한 미국 특허문서에서 특수하게 제공되는 선.후행 특허간의 관계를 활용해 본 특허와 후행 특허의 미국 특허 클래스를 동시에 추출 할 수 있는 알고리즘도 보여주었다. 본 연구에서 제시한 방법은 몇 가지 한계를 가지지만, 적시성.포괄성 측면에서 이미 존재하는 데이터베이스를 보완할 수 있을 것이다.

리치 인터넷 어플리케이션 응용을 위한 웹 표준 확장 기술 (Web Standard Extensible Technical for Rich Internet Application)

  • 김상우;김우생
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2010년도 추계학술발표대회
    • /
    • pp.833-836
    • /
    • 2010
  • RIA(Rich Internet Application)는 기존의 웹 애플리케이션 기술이 가진 평면적인 표현과 순차적인 프로세스를 다이나믹한 사용자 인터페이스와 데이터베이스의 연동을 통해 저렴한 비용으로 하나의 인터페이스에서 모든 프로세스가 처리 가능하도록 해주는 기술을 의미한다. 본 논문에서는 웹 표준(HTML/CSS)을 RIA로 확장한 문법을 해석 할 수 있는 RIA Generator를 제안한다. RIA Generator는 크게 두 부분으로 나뉘는데, 한 부분은 기존 HTML 및 CSS 소스와 확장된 RIA 문법을 파싱하는 부분이고, 나머지 한 부분은 파싱한 것을 의미에 따라 화면에 적절히 출력하는 부분이다.

무선 인터넷을 위한 프레임 지원 HTML 변환기의 설계 및 구현 (Design and Implementation of an HTML Converter Supporting frame for the Wireless Internet)

  • 한진섭;차호정;박병준
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (C)
    • /
    • pp.499-501
    • /
    • 2003
  • 본 논문은 무선 인터넷 환경에서 사용자의 편의와 상호 운용성을 고려해서 유선상의 HTML 프레임 콘텐츠를 변환시키는 프레임 지원 HTML 변환기의 설계 및 구현에 대해 기술한다. 구현된 HTML 변환기는 일반 텍스트 콘텐츠의 경우, 일대일 태그 매핑을 통해 WML 콘텐츠로 변환이 된다. 프레임으로 구성된 콘텐츠는 프레임 콘텐츠 재구성 모듈에서 일련의 재구성 과정을 거친 후에 대부분의 프레임 콘텐츠가 여러 메뉴에 대해서 보여지는 타겟 프레임은 하나로 고정되어 있는 것을 고려해서 무선 단말기의 화면에 1행 2열의 테이블 형태의 WML 콘텐츠로 변환이 된다. 즉 좌측열에는 여러 메뉴 콘텐츠를 우측열에는 타겟 프레임에 보여지게 되는 콘텐츠를 위치 시킴으로해서 프레임 콘텐츠의 변환을 수행한다. 추가적으로 이미지 맵이 포함된 콘텐츠의 변환은 이미지 맵 관련 태그를 파싱한 후, 링크되어 있는 HTML 문서의 이름을 추출해서 WML 콘텐츠 데이터로 대체하고, 해당 콘텐츠로 링크시킴으로써 변환이 가능하게 한다.

  • PDF

JFlex와 BYacc/J를 이용한 JX-PullParSer의 구현 및 성능 평가 (Implementation and Performance Evaluation of JX-PullParser using JFlex and BYacc/J)

  • 장주현;노희영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.862-864
    • /
    • 2004
  • 현재 XML은 HTML의 대체 마크업 언어로써 그 사용이 확대되어 지고, 또한 XML 데이터를 위한 파서 모델과 파서 구현방식에 대한 연구가 진행되고 있다. 그 연구의 결과로 벤치마킹에서 PULL모델이 빠른 파싱 속도를 나타내었고, 파서의 구현 방식에 있어서는 PULL 모델 파서인 piccolo에서 사용한 parser generator tool인 JFlex와 BYacc/J를 사용하는 방법이 기존 파서 구현 방식에서 사용하던 Hand-write 방식보다 파싱이 빠른결과 [1]를 내 놓았다. 또한 이 두 방법을 이용하여 기존의 파서 보다 파싱을 위한 시스템 설계를 제안하였다[2]. 본 논문에서는 JX-PullParser 시스템을 구현하였고, xml 파서 속도 비교 도구인 saxbench 속도 비교 도구를 사용하여 기존 파서보다 빠른 파싱 속도를 보이는 것을 입증하였다.

  • PDF

무선 인터넷을 위한 프레임 지원 HTML 변환기의 설계 및 구현 (Design and Implementation of an HTML Converter Supporting Frame for the Wireless Internet)

  • 한진섭;박병준
    • 전자공학회논문지CI
    • /
    • 제42권6호
    • /
    • pp.1-10
    • /
    • 2005
  • 본 논문은 무선 응용 프로토콜 환경에서 무선 인터넷 액세스를 위한 HTML 변환기의 설계 및 구현에 대해 기술한다. 구현된 HTML 변환기는 콘텐츠 변환, 변환 규칙 집합, WML 파일 생성, 프레임 콘텐츠 재구성 모듈로 구성된다. 일반 텍스트 콘텐츠의 경우, 변한 규칙 집합을 참조하여 콘텐츠 변환 모듈에서 일대일 태그 매핑을 통해 WML 콘텐츠로 변환이 되며, 프레임으로 구성된 콘텐츠는 프레임 콘텐츠 재구성 모듈에서 최초에 받은 프레임 셋 소스를 파싱하여, 포함되어 있는 모든 파일 이름들을 가지고 요구 메시지를 구성하여, 파일 개수만큼 다시 서버에 연결해서 각각의 문서들을 받아 처음에 받은 HTML 문서에 연결시키고, 일련의 재구성 과정을 거친 후, 테이블 형태의 WML 콘텐츠로 변환이 된다. 이미지 맵이 포함된 콘텐츠는 이미지 맵 관련 태그를 파싱한 후, 링크되어 있는 HTML 문서의 이름을 추출해서 WML 콘텐츠 데이터로 대체하고, 해당 콘텐츠로 링크시킴으로써 변환이 가능하게 한다. 제안한 프레임 콘텐츠 변환 방법은 기존 상용 변환기와는 달리 사용자의 편의와 상호 운용성이 고려된 변환 방법이며, 이미지 맵의 경우 상용 변환기에서는 지원되지 않는 부분이다.

iOS 애플리케이션에서의 다중연결 처리에 대한 연구 (Study on Multiple Connection Process in iOS Applications)

  • 이정국;김종대;박찬영;송혜정;김유섭
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2011년도 한국컴퓨터종합학술대회논문집 Vol.38 No.1(D)
    • /
    • pp.32-35
    • /
    • 2011
  • 스마트 폰 애플리케이션에서 웹 문서의 정보를 가져와 정보를 제공하려면, 웹 문서를 파싱하여 알맞게 가공하는 것이 필요하다. API를 공개해 주는 웹 문서라면 간단하게 가공하여 서비스를 제공할 수 있지만, 많은 웹 문서들은 API를 제공해 주지 않기 때문에 HTML을 자체적으로 파싱하는 것이 불가피하다. 스마트 폰은 그 특성상 디스플레이의 크기가 작기 때문에 하나의 뷰에서 여러 개의 웹 문서를 파싱하여 정보를 한꺼번에 제공해야 하는 다중 연결문제를 가지고 있다. 또한 동시에 스마트 폰은 처리속도가 늦기 때문에 비동기적으로 스레딩 처리를 하는 과정에서 다중 연결의 순차적 과정은 동기식으로 처리해야하는 문제가 발생한다. 본 연구에서는 이와 같은 문제에 대한 해결책을 제시한다.

객체모델링 기법을 이용한 XSLT 처리기의 설계 및 구현 (Design and Implement of an XSLT Processor Using Object-Oriented Modeling Method)

  • 인경숙;하얀;이경환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.508-510
    • /
    • 2001
  • 본 XSLT 처리기는 객체모델링 기법인 UML을 기반으로 설계하였고 핵심적인 부분은 XSL 스타일 시트를 HTML 패스/스타일로부터 구성해 내는 것이다 즉 문서 작성자는 XML문서를 작성하고 파싱하여 패스 테이블을 형성하고 이 패스 테이블에 작성자는 HTML패스/스타일을 추가한다. 이를 통해 XSL의 복잡한 스타일에 대한 고려없이 문서구조와 정보에 집중하여 견고한 문서를 만들 수 있다. 즉 구조 문서인 XML과 콘텐츠 타인의 대중적인 문서형인 HTML을 이용함으로써 적은 비용으로 다양한 문서 스타일을 구성할 수 있게 하여 XML 기술을 쉽게 보급시키며 컴포넌트 제작을 통해 다른 산업영역 문서교환에서 활용할 수 있다.

  • PDF

XML을 이용한 웹 문서 수집기 설계 및 구현 (Design and implementation of web-robot using XML)

  • 이새벽;임희석
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2008년도 추계학술발표논문집
    • /
    • pp.49-52
    • /
    • 2008
  • 웹2.0, RIA(Rich Internet Application)의 발전으로 웹 기반 서비스가 다양해지고 기존의 응용프로그램 역시 웹 기반 인터페이스로 제공되면서 사용자 또한 단순 사용자가 아닌 서비스를 제공하는 컨슈머(Consumer)의 형태가 되었다. 따라서 웹 문서는 더욱 방대해 지고 검색, 분류, 색인 등을 위해서 웹문서의 수집이 새로운 형태로 필요하게 되었다. 그러나 기존의 데이터베이스 사용 방법이나, 문서의 전문을 파일형식으로 저장하는 방법은 웹문서를 이용하여 다양한 컨텐츠를 제공하기에 적합하지 않다. 그러므로 본 연구는 웹 문서를 파싱(Parsing)하여 필요한 부분을 XML파일 형태로 저장하여, 재사용성을 높이는데 초점을 맞추어 HTML을 파싱하고 자동으로 임의의 파일을 수집하는 문서수집기를 구현하게 되었다.

  • PDF

모바일 장치를 위한 XML 파서의 설계 (Desing of XML Parser for Mobile device)

  • 장주현;노희영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (A)
    • /
    • pp.826-828
    • /
    • 2004
  • XML은 기존의 HTML과 SGML의 단정을 보안한 마크업 언어로써, 큰 대역폭, 많은 메모리 양, 높은 CPU속도를 가지는 유선 환경에서부터 저 대역폭, 적은 메모리 양, 낮은 CPU속도를 가지는 모바일 장치까지 사용이 확대되어 지고 있다. 현재 모바일에서 사용되는 XML 파서중에서는 PULL 모델 기반 Kxml파서[1]만이 모바일 장치를 고려한 파서이다. 모바일 장치에서 XML의 많은 사용을 위해서는 저메모리를 사용하여 빠른 파서에 대한 연구가 필요하다. 본 논문에서는 piccolo 파서에서 사용한 Parser generator tool 인 JFlex를 사용하고, 파싱 모델 중 가장 빠르고 저 메모리를 사용하는 Pull 모델을 적용함으로써, 빠른 Token 추출과 이벤트 형 정의를 통해 좀더 빠른 XML 파서를 제안하고자 한다.

  • PDF

인터넷 웹페이지의 음성합성을 위한 엔진 및 플러그-인 설계 및 구현 (Design and Implementation of a Speech Synthesis Engine and a Plug-in for Internet Web Page)

  • 이희만;김지영
    • 한국정보처리학회논문지
    • /
    • 제7권2호
    • /
    • pp.461-469
    • /
    • 2000
  • 본 논문은 인터넷 웹페이지의 텍스트 정보를 추출하여 이를 음성으로 합성하기 위한 음성합성 엔진 및 넷스케이프 플러그인의 설계 및 구현에 관한 것이다. 인터넷 웹페이지를 음성으로 합성하는 방법은 audio/x-esp MIME 타입을 임베딩한 웹페이지가 발견되면서 이에 상응하는 플러그-인이 작되며 해당 플러그인은 URL로 지정된 HTML 문서를 네트워크에서 가져와 컴맨더 모브젝트에 보내교, 컴맨더 오브젝트는 HTML 문서를 파싱하여 합성엔진 제어용 TAG를 추출한다. 제어용 TAG에는 음성합성 데이터베이스 변경 및 합성음의 길이 또는 피치조절 파라미터 등의 정보를 갖고 있어 동적으로 합성음을 제어할 수 있다. 또한 컴맨더 오브젝트는 HTML 문서 내부의 특정 태그로 지정된 문장을 추출하여 전처리 과정을 수행한 후 합성엔진을 위한 컴맨드 스트림을 발생한다. 음성합성엔진은 컴맨드 스트림을 훼치(Fetch)하여 명령어를 해석하고 해당 명령어를 상응하는 멤버함수를 실행하여 음성을 합성한다. 컴맨더 오브젝트와 음성합성엔진은 각각 독립적인 객체로 설계하여 이식성과 유연성을 높인다.

  • PDF