• 제목/요약/키워드: document structure extraction

검색결과 31건 처리시간 0.013초

건조사양서 요구사항의 추적을 위한 온톨로지 모델과 제품구조 통합 기초 연구 (Integration of Ontology Model and Product Structure for the Requirement Management of Building Specification)

  • 김승현;이장현;한은정
    • 대한조선학회논문집
    • /
    • 제48권3호
    • /
    • pp.207-214
    • /
    • 2011
  • Ship design requirements described in the building specification should be reflected in the design process. This paper identifies the configuration of requirements mentioned in the building specification using Ontology Representation Language (OWL). Ontology-based semantic search system specifies the requirement items. Through this extraction, building specifications mentioned for each entry are configured to the tree. Tracking requirements for ship design and a set of procedures to instruct is also used for the V model of systems engineering. The semantic search engine of robot agent and ontology can search the requirements specification document and extract the design information. Thereafter, design requirements for the tracking model that proposes the relationship between the associated BOM(bill of material) and product structure.

클러스터의 히스토그램을 이용한 XML 문서의 점진적 클러스터링 기법 (An Incremental Clustering Technique of XML Documents using Cluster Histograms)

  • 황정희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권3호
    • /
    • pp.261-269
    • /
    • 2007
  • 이 논문에서는 XML 문서에 대한 효율적인 검색과 통합을 위한 기초연구로써 XML 문서들에 대한 구조 중심의 클러스터링 기법을 제안한다. 기존 연구에서 문서간의 구조적 유사도를 기반으로 클러스터를 형성해 가는 것과는 다르게 많은 데이타를 빠르게 처리할 수 있는 트랜잭션 데이타를 취급하는 알고리즘을 변형하여 적용한다. 각 클러스터에 포함되어 있는 항목들에 대한 누적 분포를 나타내는 히스토그램을 이용하여 전체적인 클러스터링의 응집도를 고려하는 클러스터링을 수행한다. 기존 연구와의 실험을 통해 클러스터링 처리 시간의 향상과 양질의 클러스터를 생성하는 것을 알 수 있었다.

HTML 논리적 구조분석을 통한 본문추출 알고리즘 (Text Extraction Algorithm using the HTML Logical Structure Analysis)

  • 전현지;고찬
    • 디지털콘텐츠학회 논문지
    • /
    • 제16권3호
    • /
    • pp.445-455
    • /
    • 2015
  • 인터넷과 컴퓨터 기술이 발전함에 따라 정보의 양이 폭발적으로 증가하였으며, 이로 인해 다양한 웹 저작 도구 및 새로운 웹 표준의 출현과 웹에 대한 접근성이 보다 편리해지면서 매우 다양한 종류의 웹 콘텐츠들이 아주 빠르게 생산되고 있다. 하지만 웹 문서는 여러 블록으로 나누어 다양한 주제를 담아내고 있으며, 각각의 블록들이 서로 연관성이 없는 주제를 다루는 경우가 많을 뿐만 아니라 네비게이션, 단순한 장식물, 광고, 저작권 정보 등과 같이 콘텐츠로 볼 수 없는 블록들도 존재한다. 이러한 문제를 해결하기 위해 HTML 웹 문서의 정확한 본문영역만을 추출하여 사용자 요구조건을 충족하고 효과적으로 정보를 학습할 수 있도록 하며, 추후에는 문서를 체계적으로 관리할 수 있게 최적화된 웹 검색 시스템으로서의 재구성 방법을 제안하고자 한다.

Knowledge Domain and Emerging Trends of Intelligent Green Building and Smart City - A Visual Analysis Using CiteSpace

  • Li, Hongyang;Dai, Mingjie
    • 국제학술발표논문집
    • /
    • The 7th International Conference on Construction Engineering and Project Management Summit Forum on Sustainable Construction and Management
    • /
    • pp.24-31
    • /
    • 2017
  • As the concept of sustainability becomes more and more popular, a large amount of literature have been recorded recently on intelligent green building and smart city (IGB&SC). It is therefore needed to systematically analyse the existing knowledge structure as well as the future new development of this domain through the identification of the thematic trends, landmark articles, typical keywords together with co-operative researchers. In this paper, Citespace software package is applied to analyse the citation networks and other relevant data of the past eleven years (from 2006 to 2016) collected from Web of Science (WOS). Through this, a series of professional document analysis are conducted, including the production of core authors, the influence made by the most cited authors, keywords extraction and timezone analysis, hot topics of research, highly cited papers and trends with regard to co-citation analysis, etc. As a result, the development track of the IGB&SC domains is revealed and visualized and the following results reached: (i) in the research area of IGB&SC, the most productive researcher is Winters JV and Caragliu A is most influential on the other hand; (ii) different focuses of IGB&SC research have been emerged continually from 2006 to 2016 e.g. smart growth, sustainability, smart city, big data, etc.; (iii) Hollands's work is identified with the most citations and the emerging trends, as revealed from the bursts analysis in document co-citations, can be concluded as smart growth, the assessment of intelligent green building and smart city.

  • PDF

단락 자동 구분을 이용한 문서 요약 시스템 (Korean Summarization System using Automatic Paragraphing)

  • 김계성;이현주;이상조
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제30권7_8호
    • /
    • pp.681-686
    • /
    • 2003
  • 본 논문은 단락의 자동 구분을 통해 중요한 문장을 추출하는 요약 시스템을 제안한다. 먼저 어휘의 재출현 여부를 파악하여 어휘의 일치도와 어휘의 역할 변화와 같은 재출현 어휘의 양상 정보를 수집하고, 이를 통하여 문장 간의 긴밀도를 정량적으로 계산한다. 다음으로 측정된 문장간 긴밀도를 이용하여 사용자의 추출 범위에 따라 단락을 구분하고, 각 단락의 대표 문장을 선정하여 최종 요약문을 추출한다. 제안한 방법은 문서 제목, 문장의 위치, 수사 구조 등의 정보를 이용하지 않기 때문에 수사 구조가 자주 발견되지 않는 문서에도 적용이 가능하다.

Condition assessment of fire affected reinforced concrete shear wall building - A case study

  • Mistri, Abhijit;Pa, Robin Davis;Sarkar, Pradip
    • Advances in concrete construction
    • /
    • 제4권2호
    • /
    • pp.89-105
    • /
    • 2016
  • The post - fire investigation is conducted on a fire-affected reinforced concrete shear wall building to ascertain the level of its strength degradation due to the fire incident. Fire incident took place in a three-storey building made of reinforced concrete shear wall and roof with operating floors made of steel beams and chequered plates. The usage of the building is to handle explosives. Elevated temperature during the fire is estimated to be $350^{\circ}C$ based on visual inspection. Destructive (core extraction) and non-destructive (rebound hammer and ultrasonic pulse velocity) tests are conducted to evaluate the concrete strength. X-ray diffraction (XRD) and Field Emission Scanning Electron Microscopy (FESEM) are used for analyzing micro structural changes of the concrete due to fire. Tests are conducted for concrete walls and roof slab on both burnt and unburnt locations. The analysis of test results reveals no significant degradation of the building after the fire which signifies that the structure can be used with full expectancy of performance for the remaining service life. This document can be used as a reference for future forensic investigations of similar fire affected concrete structures.

학회 웹사이트의 토픽 정보추출을 이용한 주제에 따른 학회 자동분류 기법 (Academic Conference Categorization According to Subjects Using Topical Information Extraction from Conference Websites)

  • 이수경;김관호
    • 한국전자거래학회지
    • /
    • 제22권2호
    • /
    • pp.61-77
    • /
    • 2017
  • 최근 온라인상에 게시된 학회정보가 급증함으로써 주제에 따른 학회정보의 자동분류는 연구자들에게 효율적인 관련 학회 탐색을 가능하게 한다. 그러나 대부분의 학회 목록 제공 서비스에서는 학회명칭, 날짜, 위치, URL 등의 정보만 제공하기 때문에 학회 주제를 파악할 수 있는 정보는 학회명칭에 국한된다. 따라서 본 연구에서는 URL을 통한 학회 웹사이트의 토픽정보를 추출함으로써 학회정보량의 부족문제를 해결하고, 동시에 양질의 정보로 학습의 성능을 향상시키는 기법을 제안한다. 구체적으로는 웹사이트 URL을 통해 수집한 HTML 문서로부터 주요 콘텐츠를 추출하고, 학회명칭과 유사한 토픽 키워드 정보를 선정하여 추가 가중치를 부여한다. 실 데이터를 활용한 실험 결과, 제안된 방법인 추가적인 웹 콘텐츠 정보의 사용은 주제에 따른 학회 분류의 성능을 성공적으로 향상시킬 수 있음을 확인하였다. 추후 연구에서는 웹 사이트의 구조를 고려한 토픽 정보추출을 통해 분류의 정확성을 더욱 향상시킬 계획이다.

의존 구문 분석을 이용한 질의 기반 정답 추출 (Query-based Answer Extraction using Korean Dependency Parsing)

  • 이도경;김민태;김우주
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.161-177
    • /
    • 2019
  • 질의응답 시스템은 크게 사용자의 질의를 분석하는 방법인 질의 분석과 문서 내에서 적합한 정답을 추출하는 방법인 정답 추출로 이루어지며, 두 방법에 대한 다양한 연구들이 진행되고 있다. 본 연구에서는 문장의 의존 구문 분석 결과를 이용하여 질의응답 시스템 내 정답 추출의 성능 향상을 위한 연구를 진행한다. 정답 추출의 성능을 높이기 위해서는 문장의 문법적인 정보를 정확하게 반영할 필요가 있다. 한국어의 경우 어순 구조가 자유롭고 문장의 구성 성분 생략이 빈번하기 때문에 의존 문법에 기반한 의존 구문 분석이 적합하다. 기존에 의존 구문 분석을 질의응답 시스템에 반영했던 연구들은 구문 관계 정보나 구문 형식의 유사도를 정의하는 메트릭을 사전에 정의해야 한다는 한계점이 있었다. 또 문장의 의존 구문 분석 결과를 트리 형태로 표현한 후 트리 편집 거리를 계산하여 문장의 유사도를 계산한 연구도 있었는데 이는 알고리즘의 연산량이 크다는 한계점이 존재한다. 본 연구에서는 구문 패턴에 대한 정보를 사전에 정의하지 않고 정답 후보 문장을 그래프로 나타낸 후 그래프 정보를 효과적으로 반영할 수 있는 Graph2Vec을 활용하여 입력 자질을 생성하였고, 이를 정답 추출모델의 입력에 추가하여 정답 추출 성능 개선을 시도하였다. 의존 그래프를 생성하는 단계에서 의존 관계의 방향성 고려 여부와 노드 간 최대 경로의 길이를 다양하게 설정하며 자질을 생성하였고, 각각의 경우에 따른 정답추출 성능을 비교하였다. 본 연구에서는 정답 후보 문장들의 신뢰성을 위하여 웹 검색 소스를 한국어 위키백과, 네이버 지식백과, 네이버 뉴스로 제한하여 해당 문서에서 기존의 정답 추출 모델보다 성능이 향상함을 입증하였다. 본 연구의 실험을 통하여 의존 구문 분석 결과로 생성한 자질이 정답 추출 시스템 성능 향상에 기여한다는 것을 확인하였고 해당 자질을 정답 추출 시스템뿐만 아니라 감성 분석이나 개체명 인식과 같은 다양한 자연어 처리 분야에 활용 될 수 있을 것으로 기대한다.

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.