• 제목/요약/키워드: 문서구조추출

검색결과 334건 처리시간 0.029초

MPEG-7 기술자를 이용한 TV 골프 프로그램의 이벤트검출 및 요약 (Semantic Event Detection and Summary for TV Golf Program Using MPEG-7 Descriptors)

  • 김천석;이희경;남제호;강경옥;노용만
    • 방송공학회논문지
    • /
    • 제7권2호
    • /
    • pp.96-106
    • /
    • 2002
  • 본 논문에서는 최근 증가하는 TV 골프 경기의 하이라이트 부분을 요약하기 위해 시청자가 관심을 갖는 주요 이벤트를 시각 특징정보들을 이용하여 자동 추출할 수 있는 알고리즘을 제시하였다. 본 알고리즘은 4단계로 구성된다. 첫 번째 단계에서는 입력된 비디오의 샷 (Shot) 및 키 프레임 (Key Frame)을 구하여 데이터베이스화하는 구조를 분석하고, 두 번째 단계에서는 이들 정보를 이용하여 하위 레벨의 특징정보를 추출한다. 세 번째 단계에서는 특징 전보들을 통합하여 샷의 의미를 부여하여, 이벤트 구성 요소들과 정합시킨다. 네 번째 단계에서는 사전에 정의된 추론 규칙과 시간 정보를 이용하여 구성 요소들을 통합하여 이벤트를 결정한다. 본 연구에서는 하위 레벨의 특징 정보를 상호 호환성과 재사용성이 가능하도록 MPEG-7 비주얼 특징 정보를 사용하였다 TV-Anytime의 하이라이트/이벤트 스키마(schema)를 이용하여 검출된 이벤트들로 구성된 요약문을 XML 문서로 작성하였다. 제안 알고리즘의 성능을 검사하기 위해 비디오 자동 요약 시스템과 브라우징을 제작하여 실험하였으며 평균 80%의 검색 율과 정확도를 얻었다.

다중 비주얼 특징을 이용한 어학 교육 비디오의 자동 요약 방법 (Automatic Summary Method of Linguistic Educational Video Using Multiple Visual Features)

  • 한희준;김천석;추진호;노용만
    • 한국멀티미디어학회논문지
    • /
    • 제7권10호
    • /
    • pp.1452-1463
    • /
    • 2004
  • 양방향 방송 서비스로의 전환을 맞아 다양한 사용자 요구 및 기호에 적합한 컨텐츠를 제공하고, 증가하는 방송 컨텐츠를 효율적으로 관리, 이용하기 위해 비디오의 자동 에 대한 요구가 증가하고 있다. 본 논문에서는 내용 구성이 잘 갖추어진 어학 교육 비디오의 자동 에 대한 방법을 제안한다. 내용 기반을 자동으로 생성하기 위해 먼저 디지털 비디오로부터 샷 경계를 검출한 후, 각 샷을 대표하는 키프레임으로부터 비주얼 특징들을 추출한다. 그리고 추출된 다중 비주얼 특징을 이용해 어학 교육 비디오의 세분화된 내용 정보를 결정한다. 마지막으로, 결정된 내용 정보를 기술하는 요약문을 MPEG-7 MDS(Multimedia Description cheme)에 정의된 계층적 (Hierarchical Summary) 구조에 맞추어 XML 문서로 생성한다. 외국어 회화 비디오에 대해 실험하여 제안한 자동 방법의 효율성을 검증하였으며, 제안한 방법이 교육 방송용 컨텐츠의 다양한 서비스 제공 및 관리를 위한 비디오 요약 시스템에 효율적으로 적용 가능함을 확인하였다.

  • PDF

기술로드맵핑을 위한 특허정보의 SAO기반 텍스트 마이닝 접근 방법 (An SAO-based Text Mining Approach for Technology Roadmapping Using Patent Information)

  • 최성철;김홍빈;윤장혁
    • 기술혁신연구
    • /
    • 제20권1호
    • /
    • pp.199-234
    • /
    • 2012
  • 기술로드맵 (Technology RoadMap: TRM)은 전략적 기술기획 및 관리를 위한 필수적인 도구이다. 최근 급속한 기술변화와 시장경쟁의 심화로 인해 TRM은 점차 중요시되고 있는데, 이는 TRM이 기업의 전략적 목적과 기술을 연계함으로써 장기적으로 필요한 기술들을 확보하기 위한 일종의 지도 역할을 하기 때문이다. 그러나 TRM을 개발하고 유지하기 위해서는 기술 전문가의 정성적 노력에 따른 많은 비용과 시간이 수반됨으로 인해, 기술문서의 자동화된 분석을 통해 TRM 개발 생산성을 높이는 방법에 대한 연구가 기업과 정부기관들의 최근 주요 관심사 중의 하나이다. 비록 TRM 개발을 위해 키워드 기반의 접근방법 (Keyword-based Patent Analysis)이 제시된 바 있으나, 이 방법은 미리 정의된 키워드의 출현정보에만 기반하므로 기술요소들간의 명시적 연관관계를 담지 못한다. 즉, 키워드 기반의 접근은 기술의 목적, 구성, 효과 (Objective, Structure, Effect: OSE)에 대한 정보를 제공하지 못하기 때문에 기술로드맵핑 시 기술정보의 활용성 측면에서 한계점을 지닌다. 이에, 본 연구는 기능 (Function) 기반의 접근법을 활용한 기술로드맵핑 방법을 제시한다. 기능이란 기술의 OSE 정보를 담고 있으며 Subject-Action-Object (SAO) 구조로 표현될 수 있기 때문에, 본 연구에서 제시되는 방법은 기술문서의 자연어처리분석을 통해 기술의 OSE 정보를 추출하여 TRM을 개발할 수 있도록 한다. 본 연구의 방법을 연구개발 기획단계에 적용함으로써, TRM 개발에 따른 비용과 시간의 절감이 가능하며, 제품이나 기술 OSE에 대한 연구개발 기획전문가의 시야를 넓혀 보다 효과적인 의사결정이 가능할 것으로 기대된다.

  • PDF

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

n-gram/2L: 공간 및 시간 효율적인 2단계 n-gram 역색인 구조 (n-Gram/2L: A Space and Time Efficient Two-Level n-Gram Inverted Index Structure)

  • 김민수;황규영;이재길;이민재
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제33권1호
    • /
    • pp.12-31
    • /
    • 2006
  • n-gram 기반 역색인 구조는 언어 중립적이고 에러 허용적인 장점들로 인해 일부 아시아권 언어에 대한 정보 검색이나 단백질과 DNA의 sequence의 근사 문자열 매칭에 유용하게 사용되고 있다. 그러나, n-gram 기반의 역색인 구조는 색인의 크기가 크고 질의 처리 시간이 오래 걸린다는 단점들을 가지고 있다. 이에 본 논문에서는 n-gram 기반 역색인의 장점을 그대로 유지하면서 색인의 크기를 줄이고 질의 처리 성능을 향상시킨 2단계 n-gram 역색인(간단히 n-gram/2L 역색인이라 부른다)을 제안한다. n-gram/2L 역색인은 n-gram 기반 역색인에 존재하던 위치 정보의 중복을 제거한다. 이를 위해 문서로부터 길이 m의 m-subsequence들을 추출하고, 그 m-subsequence들로부터 n-gram을 추출하여 2단계로 역색인을 구성한다. 이러한 2단계 구성 방법은 이론적으로 의미 있는 다치 종속성이 존재하는 릴레이션을 정규화하여 중복을 제거하는 것과 동일하며, 이를 본문에서 정형적으로 증명한다. n-gram/2L 역색인은 데이타의 크기가 커질 수록 n-gram 역색인에 비해 색인 크기가 줄어들며 질의 처리 성능이 향상되고, 질의 문자열의 길이가 길어져도 질의 처리 시간이 거의 증가하지 않는 좋은 특성을 가진다. 1GByte 크기의 데이타에 대한 실험을 통하여, n-gram/2L 역색인은 n-gram 기반 역색인에 비해 최대 1.9${\~}$2.7배 더 작은 크기를 가지면서, 동시에 질의 처리 성능은 3${\~}$18 범위의 길이를 가지는 질의들에 대해 최대 13.1배 향상됨을 보였다.

미세 단위 소프트웨어 객체를 위한 연산 기반 버전 및 일관성 관리 모델 (An Operation-Based Model of Version Storage and Consistency Management for Fine-Grained Software Objects)

  • 노정규;우치수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권7호
    • /
    • pp.691-701
    • /
    • 2000
  • 소프트웨어 문서는 수많은 논리적인 객체와 객체간의 관계로 이루어진 구조를 가지고 있으며 그 구조가 빈번하게 변경될 수 있다. 본 논문에서는 소프트웨어 편집 과정에서 적용되는 연산에 기반한 미세 단위 소프트웨어 객체의 버전 및 일관성 관리 모델을 제안하였다. 모든 소프트웨어 객체는 연산으로 구성된 인터페이스를 가지고 객체의 편집은 연산을 통해서 이루어진다. 편집기를 통하여 객체에 적용된 연산은 연산 히스토리에 기록되고 버전 관리와 소프트웨어 구성 요소간의 일관성 관리에 이용된다. 객체의 버전은 연산 히스토리를 이용한 델타를 이용하여 저장되고 검색되므로 델타 추출을 위한 비교 과정이 필요 없으며 버전간의 변경 내용을 쉽게 파악하여 버전 전파 여부를 결정지을 수 있다는 장점이 있다. 일관성은 객체간의 종속성과 객체에 적용된 연산의 종류에 의해 관리되므로 불필요한 변경 전파를 피할 수 있다. 본 논문에서는 객체에 적용된 연산을 기반으로 하여 버전 검색 및 미세 단위 일관성에 대한 정형적인 모델을 제시하였다.

  • PDF

웹 프리젠테이션 레이어 생성을 위한 XSLT 스타일쉬트 설계 (XSLT Stylesheet Design for Building Web Presentation Layer)

  • 채정화;유철중;장옥배
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권3호
    • /
    • pp.255-266
    • /
    • 2004
  • 웹 기반 정보 시스템의 데이타 구조 및 프리젠테이션 로직으로부터 비즈니스 프로세스 정보를 분리하는 것은 여러 가지 이점을 가져온다. 그러나 웹 애플리케이션에서 비즈니스 프로세스 로직과 프리젠테이션 로직을 분리하는 것은 쉽지 않다. 심지어는 프리젠테이션 로직으로부터 데이타가 분리되지 않는 경우도 있다. 그러므로 비즈니스 프로세스에 대한 추상적인 모델을 정의하고, 프로세스 로직, 데이타 구조 및 프리젠테이션 로직을 분리하는 전략을 이용하여 그것을 동적인 사용자 인터페이스에 매핑 시키는 작업이 요구된다. 본 논문에서는 데이타 구조 및 프리젠테이션 로직으로부터 비즈니스 프로세스 정보를 분리하고자 XSLT(Extensible Stylesheet Language Transformations)를 확장하여 프로세스를 인식하는 스타일 쉬트를 제안한다. 이를 위하여 비즈니스 프로세스의 추상적인 명세를 제공하고, 비즈니스 모델을 프로세스 관점에서 살펴보고자 페트리네트 표기법을 이용하여 비즈니스 모델 요소 및 상호작용 활동을 추출한다. 이것은 웹 애플리케이션의 프로세스 구조로부터 상호작용 웹 문서의 동적인 부분, 즉 비즈니스 프로세스에서 사용자와 상호 작용하는 부분을 분리하기 위한 시도이다. 본 연구에서 제안하는 아키텍처의 핵심은 XSLT 컨트롤러로서 이것은 워크플로 엔진과 웹 브라우저간의 인터페이스 역할을 한다. XSLT 컨트롤러는 XSLT 템플릿을 활성화시키는 인터프리터로서 프로세스 상태를 프리젠테이션 레이어에 매핑 시킨다. 이렇게 각 부분을 모듈화 하는 것은 사용자 인터페이스를 변경하여도 프로세스나 데이타의 논리적인 표현에 영향을 미치지 않도록 하며, 레이아웃 변형 명세서와 독립적으로 프로세스 로직을 변경할 수 있도록 한다. 즉, 웹 애플리케이션을 독립적인 방법으로 개발할 수 있어 개발을 보다 용이하게 하고 유지보수가 용이해진다.

Algorithm-Aided BIM 기반 원전 3차원 설계기준 관리시스템 개발 (Development of AAB (Algorithm-Aided BIM) Based 3D Design Bases Management System in Nuclear Power Plant)

  • 신재섭
    • 한국건설관리학회논문집
    • /
    • 제20권2호
    • /
    • pp.28-36
    • /
    • 2019
  • 국내 신형원전 APR1400 (Advanced Power Reactor 1400MW)은 총 사업비 8조 6천억원, 사업기간 10년 이상이 소요되는 대형 국가기반시설이며, 60년 이상 운영되어 국가경제 및 국민의 안전에 밀접한 영향을 끼친다. 또한 총 사업부지 217만$m^2$내 20개 이상의건물 및 구조물로 구성되어 있으며, 건설에 필요한 전체도면은 약 6만5천장에 이른다. 이러한 대형시설의 설계를 위해서는 설계의도를 명확히 규정하여 일관성 있게 설계가 진행될 수 있는 일종의 가이드라인 역할을 하는 설계기준이 필수적이다. 이를 위해 설계기준(Design Bases)을 반영한 설계기준문서(Design Bases Document 또는 Drawing, DBD)를 작성하여, 설계 일관성 및 도면간의 일치성을 유지하고 있다. 하지만 설계기준은 원전 전체 설계에 큰 틀이 되는 중요한 개념임에도 불구하고 각 분야 전문가들에 의해 문서기반(2차원) 및 파편적으로 관리되다보니 후속설계에 정확히 반영되는데 한계가 있었다. 따라서 본 연구에서 시설정보 활용성을 높이기 위해 3차원 정보모델인 BIM (Building Information Model)과 Algorithm-aided BIM을 활용하여, 원전의 최소단위 공간인 실(Room)을 기반으로 한 3차원 설계기준 관리하는 시스템을 개발하였다. 이를 위해 설계기준정보층(DBIL)개념을 도입하였으며, 시뮬레이션을 통해 각 DBIL별 설계기준 속성 및 설계요소 데이터가 연동됨을 확인하였으며, DBIL에 연계되는 벽, 바닥, 문, 관통부 등을 정상적으로 추출하였다.

전자파 잔향실 및 야외시험장의 복사 방출 측정결과의 상관성 추출

  • 이중근
    • 한국전자파학회지:전자파기술
    • /
    • 제13권1호
    • /
    • pp.31-37
    • /
    • 2002
  • 전자파 잔향실(Reverberating Shielded Enclosure)의 개념은 전자파 차폐실(Shielded Enclosure)에서 얻어진 측정결과를 개선하기 위하여 1968년도에 제안되었다. 이후 Reverberating 또는 Mode-Stirred Chamber는 EM Immunity 측정뿐만 아니라 EMI측정에서도 많이 적용되어 왔지만, 국제 표준 방식으로 적용되어 오지 못하다가 최근 EMI 복사 전력 측정 및 EM Immunity 측정시설로 유용하게 사용될 수 있다는 점이 부각되어 국제 표준 방식으로 적용하자는 분위기가 무르익어 이에 대한 활발한 논의가 계속되어 오고 있다. 이러한 전자파 잔향실을 이용하여 EMI 및 EMS 시험을 실시할 수 있는 방법을 규격화시키자는 제안이 '96년 프랑스 Mandelieu 국제 전자파 장해 특별위원회(CISPR:International Special Committee on Radio Interference)회의에서 검토된 후 '97년 일본 Yokosuka CISPR 회의에서 정식의제로 채택되었다. 이 안건에 대하여 대부분의 국가들이 제안 취지에 찬성하여 NWIP(New Work Item Proposal) 문서가 각국에서 회람되었다. 초기 전자파 잔향실은 전자파 장해 및 복사 내성 측정을 위한 대용시험 시설로서 1968년 미국 Mendes에 의해 전자파 차폐실 구조에 Stirrer를 이용하여 필드의 균일도를 확보할 수 있다는 전자파 잔향실 개념이 처음으로 제안되었다. 이후 이 분야의 연구는 미국 표준 기술 연구소(NIST: National Institute of Standard and Technology)등에서 연구가 활발히 진행되고 있으며, 국제 표준화 기구인 CISPR에서 전자파 장해 및 내성 시험을 위한 대용시험 시설로서 활용하기 위하여 규격 작업이 진행중에 있다. 또한 최근 전자파 장해 방지를 위한 규제 주파수가 1∼18㎓ 까지 확장됨에 따라 이 주파수 대역에서 시험장으로 활용할 수 있는 전자파 잔향실이 새롭게 부각되고 있다. 전자파 잔향실은 기본적으로 공진 모드를 활용하기 때문에 일정한 크기의 잔향실 내부에서 전자파 균일성을 확보할 수 있는 모드 수에 의해 하한 주파수가 결정되며 충분한 모드 분포상태에서 Stirrer를 사용하여 필드 경계를 이동시킴으로서 확률적으로 균일한 필드분포를 확보하게 된다. 주파수가 증가함에 따라 모드수는 증가하기 때문에 하한 주파수 이상의 대역에 대한 시험시설로 활용할 수 있으며, 특히 ㎓ 대역에서 사용하기에 적합한 대용시험시설이라고 볼 수 있다.

여권 없이도 외국 여행이 가능한 생체 측정 인증 기술 (The biometric authentication technology, which makes overseas trip possible without passports)

  • 심현보
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.88-95
    • /
    • 2012
  • 여권은 외국을 여행하는 사람의 신분이나 국적을 증명하고 상대국에 그 보호를 의뢰하는 문서이다. 해외여행이 자유로워져 출, 입국 인구가 증가하면서 여권의 위, 변조가 증가하고 있다. 위, 변조 여권은 국제범죄조직들이 수사 당국의 감시망을 피하거나 출입국이 규제된 범법자의 신분을 은폐하기 위해 주로 사용한다. 생체측정인증기술이란 각 개인마다 다른 지문, 홍채, 땀샘구조, 혈관, 장문, 정맥 분포, 음성 등 개인의 독특한 생체정보를 추출하여 분석한 후에, 기존에 저장된 데이터와 비교해서 본인임을 확인하고 인증하는 기술을 말한다. 여권에 생체인식기술을 도입하여 여권 없이도 외국여행이 가능한 생체측정 인증기술에 대해 조사하고, 이 기술을 이용한 현황과 여러 종류의 생체인식 중에 어느 것을 이용하는 것이 가장 바람직한지 등에 대해 조사, 분석하였다.

  • PDF