• 제목/요약/키워드: structured document

검색결과 170건 처리시간 0.021초

X-tree Diff: 트리 기반 데이터를 위한 효율적인 변화 탐지 알고리즘 (X-tree Diff: An Efficient Change Detection Algorithm for Tree-structured Data)

  • 이석균;김동아
    • 정보처리학회논문지C
    • /
    • 제10C권6호
    • /
    • pp.683-694
    • /
    • 2003
  • 인터넷 사용이 급속도로 증가함에 따라 XML/HTML 문서와 같이 트리 구조로 표현되는 데이터의 변화 탐지가 중요한 연구 분야로 등장하고 있다. 본 논문에서는 효율적인 변화 탐지를 위한 데이터 구조로 X-tree와 이에 기초한 휴리스틱 변화 탐지 알고리즘 X-tree Diff 를 제안한다. X-tree Diff 는 X-tree 의 변화 내용에 대한 최소 비용 편집 스크립트를 찾는 알고리즘과는 달리 휴리스틱 트리 대응 알고리즘을 통해 병화 내용을 확인하는 알고리즘으로, X-tree 에 속한 모든 노드에 대해 각각의 노드를 루트로 하는 서브트리의 구조와 서브트리속에 속한 노드들의 데이터들을 128비트 해시값으로 표현한 값인 트리 MD를 각 노드에 저장하고, 이를 변화 탐지 과정에서 활용하여 신-구 버전의 X-tree들에 속한 서브트리들의 비교을 효율적으로 처리한다. X-tree Diff 는 4단계로 구성되며 1)신-구버넌의 X-tree노드들에 대해, 우선 1:1 대응이 가능한 모든 동등한 서브트리 쌍을 찾고, 2) 이들 서브트리 쌍의 루트로부터 신-구 버전의 X-tree의 루트까지의 경로 상에 존재하는 노드들에 대한 대응관계를 결정한다. 3) 그 후 신-구 버전의 X-tree의 루트들로부터 깊이 우선 탐색으로 노드를 방문하며 대응이 결정되지 않은 노드들에 대한 대응여부를 결정해 나간다. 4) 마지막까지 대응여부가 결정되지 않은 도드들은 삭제나 삽입된 것으로 간주한다. X-tree Diff XML 문서들에 대한 버저닝(Versioning) 을 목적으로 설계된 BUILD Diff 알고리즘과 달리 XML/HTML 에 공통적으로 사용할 수 있을 뿐 아니라, 알고리즘이 명확하고 간결하여 다양한 형태의 확장이 가능하다. 알고리즘의 성능도 개선되어 신-구 X-tree의 노드의 수를 n이라 할 때, O(n)의 시간 복잡도를 갖는다. 제안된 알고리즘은 현재 보안 관련 상용 시스템인 WIDS(Web-Document Instrusion Detection System) 에서 사용되고 있으며, 본 논문에서는 WIDS를 이용하여 20여개 신문-방송 사이트에서 변화가 탐지된 11,000 개 페이지에 대한 성능평가를 보이고 있다.

텍스트 분석을 통한 이종 매체 카테고리 다중 매핑 방법론 (Mapping Categories of Heterogeneous Sources Using Text Analytics)

  • 김다솜;김남규
    • 지능정보연구
    • /
    • 제22권4호
    • /
    • pp.193-215
    • /
    • 2016
  • 최근 다양한 소셜 네트워크 서비스의 증가로 인해 사용자들은 각자의 목적 및 취향에 따라 여러 매체를 동시에 이용하는 경향을 보이고 있다. 또한 특정 주제에 대한 정보를 수집할 때에도 소셜 네트워크 서비스, 인터넷 뉴스, 블로그 등 여러 매체를 동시에 활용하는 것이 일반적이다. 하지만 다양한 매체를 통해 유통되는 문서들은 서로 유사한 주제, 심지어는 동일한 내용을 다루더라도 각 매체 별 정책 및 기준에 따라 각기 다른 카테고리로 관리되고 있으며, 이는 이종 매체를 아우르는 범위에서 특정 카테고리에 대한 탐색을 수행하고자 하는 시도에 걸림돌로 작용하고 있다. 이러한 제약을 극복하기 위해, 본 연구에서는 기존 매체 고유의 카테고리 체계는 그대로 유지하면서 이종 매체 간 카테고리 매핑을 수행하는 방법을 제시한다. 즉, 개별 문서를 다양한 매체의 관점에서 재분류하고 이러한 결과를 문서에 2차원 레이블로 저장함으로써, 이종 매체에 속한 다양한 문서들을 마치한 매체에 속한 것과 같이 동일한 카테고리 기준으로 탐색할 수 있는 논리적 장치를 제안한다. 본 논문에서는 국내 인터넷 뉴스 포털 사이트 두 곳의 뉴스 기사 6,000건에 대해 제안 방법론을 적용한 실험을 통해 각 기사에 매체와 카테고리 정보로 구성된 2차원 레이블을 부여하였으며, 매체 간, 지도 학습과 준지도 학습 간, 동질 학습 데이터와 이질학습 데이터 간의 정확도 비교 실험을 수행하였다. 특히 매우 흥미롭게도, 일부 카테고리에서 이질 학습 데이터를 사용한 준지도 학습의 분류 정확도가 지도 학습 및 동질 학습 데이터를 사용한 준지도 학습의 분류 정확도보다 높게 나타나는 현상을 발견하였다.

확장형 규칙 표식 언어(eXtensible Rule Markup Language) : 설계 원리 및 응용 (eXtensible Rule Markup Language (XRML): Design Principles and Application)

  • 이재규;손미애;강주영
    • 지능정보연구
    • /
    • 제8권1호
    • /
    • pp.141-157
    • /
    • 2002
  • XML(eXtensible Markup Language, XML)은 인터넷에서의 자료 교환을 위해 고안된 언어이다. 본 논문에서는 XML의 개념을 발전시킨 확장형 규칙 표식 언어(eXtensible Rule Markup Language, XRML)를 제안하고 있다. XRML은 웹 페이지에 내재된 암묵적 규칙의 식별, 구조적인 규칙으로의 변환, 사람과 소프트웨어 에이전트간의 지식 공유를 가능하게 하며, 이를 통해 지식기반시스템(Knowledge Based System)과 지식관리시스템(Knowledge Management System)의 통합을 실현할 수 있는 새로운 언어가 될 것이다. 본고에서는 XRML이 이상과 같은 능력을 갖기 위해 반드시 갖춰야 할 6가지 설계 기준과, 이들 기준을 반영한 XRML 구성 요소로서 RIML(Rule Identification Markup Language), RSML(Rule Structure Markup Language)과 RTML(Rule Triggering Markup Language)을 설계하였으며, 개별 요소들의 기능 및 특성과 함께 태그와 DTD(Document Type Definition)도 식별하였다. 나아가 전술한 구조를 기반으로 하여 XRML을 워크플로우 시스템상의 폼처리에 적용한 Form/XRML이라는 프로토타입 시스템을 설계하고 구현하였다. 본 프로토타입의 개발을 통해, 지식기반시스템의 지식을 활용하는 RTML이 폼을 비롯한 다양한 응용시스템에 내재될 수 있으며, 웹 페이지의 암묵적 규칙과 지식기반시스템의 규칙이 일관성 있게 유지될 수 있음을 보여 주었다. 요컨대 본 연구는 XRML이 지능형 웹으로 발전하기 위한 새로운 도구이며, KBS와 KMS의 통합을 위한 중요한 도구임을 입증하였다는 점에서 큰 의의를 갖는다고 하겠다.

  • PDF

지식 간 내용적 연관성을 표현하는 키워드 기반 네트워크형 지식지도 개발 (Keyword-based networked knowledge map expressing content relevance between knowledge)

  • 유기동
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.119-134
    • /
    • 2018
  • 저장 및 관리하는 지식의 분류체계로서의 의미를 갖는 지식지도는, 문제해결을 위하여 지식을 조회 및 선택하는 사용자의 활동을 지원하고 보완할 수 있는 구조를 갖추어야 한다. 계층형 구조를 갖는 기존의 지식지도는, 관리하는 지식을 체계적으로 정리하는 데에는 이점이 있으나, 지식 사용자가 갖는 인지 및 활용의 논리를 반영하지 못할 뿐만 아니라 지식을 조회 및 추출하는 사용자의 활동을 지원하지 못한다. 본 연구는, 내용적 관련성을 갖는 연관지식을 연쇄적으로 조회 및 추출하는 사용자의 지식활용 패턴을 반영하는, 키워드 기반 네트워크형 지식지도를 구축하는 방법론을 제시한다. 즉, 지식 간 내용적 연관성을 파악하기 위하여 키워드를 추출하고 공통된 키워드를 갖는 지식 간 링크를 해당 키워드를 이용하여 정의한다. 키워드는 해당 지식의 내용을 대변하므로, 키워드를 기반으로 정의된 링크는 내용적으로 관련성이 있는 지식 간에 형성되며, 이를 종합하면 내용적 연관성을 지식 간의 네트워크, 즉 네트워크형 지식지도가 완성된다. 제시된 방법론의 적용 타당성을 검토하기 위해 50개의 연구논문을 이용하여 이들 간의 내용적 연관성을 표현하는 네트워크형 지식지도를 구현하였으며, 검토 결과 만족할만한 수준의 정밀도와 재현율을 보였다.

체인 정합과 확장된 그룹핑 방법을 사용한 곡선형 텍스트 라인 추출 (Extracting curved text lines using the chain composition and the expanded grouping method)

  • ;윤진선;송영준;김남;김용기
    • 정보처리학회논문지B
    • /
    • 제14B권6호
    • /
    • pp.453-460
    • /
    • 2007
  • 본 논문은 정형화되지 않은 텍스트 라인들을 추출하기 위한 방법을 보여주고 있다. 텍스트 라인들은 각기 다른 각도로 구성되고, 심하게 굴곡이 있는 모양, 그리고 텍스트 라인내의 약간의 단어 사이의 공간이 생기게 된다. 그러한 텍스트 라인들은 포스터, 주소, 그리고 예술 문서 등에서 발견된다. 제안하는 방법은 기존의 직관적인 그룹핑 방법에 기반을 두고 있지만, 하나의 라인에서 발생하는 불충분한 특징점들과 모호한 회전 등을 극복하기 위한 방법을 개발하였다. 본 논문에서 텍스트 라인들은 몇 개의 연결된 성분들로 구성되고, 이 성분들은 하나의 문자 또는 연결된 문자들의 검은색 화소들의 집합이라고 가정하였다. 제안하는 방법은 반복적으로 증가되는 임계값과 가까운 성분들은 하나의 체인으로 병합하게 되고 확장되어 길어진 체인들은 라인의 원시 체인으로서 인지된다. 그때 원시 체인들은 텍스트 라인의 부분적 회전에 따라 좌우로 확장되어 진다. 텍스트 라인의 부분적인 회전은 원시 체인이 확장될 때, 체인들의 각 면에서 재구성될 것이다. 이러한 과정을 통해서 모든 텍스트 라인들이 구성되어 진다. 제안 방법은 로고와 슬로건에서 사용된 곡면으로 쓰여진 텍스트 라인들에 대해서 실험한 결과 직선 텍스트 라인은 98%, 곡선 텍스트 라인은 94%로서 높은 추출율을 보여주고 있다.

AI를 활용한 비정형 문서정보의 공간정보화 (Spatialization of Unstructured Document Information Using AI)

  • 윤상원;박정우;남광우
    • 한국지리정보학회지
    • /
    • 제26권3호
    • /
    • pp.37-51
    • /
    • 2023
  • 도시현상의 해석을 위해 공간정보는 필수적이다. 위치정보가 부족한 도시정보를 공간정보로 변환하기 위한 공간정보화 방법론이 꾸준히 개발되어왔다. 정형화된 주소정보나 지명 등을 이용한 Geocoding이나 이미 위치정보가 있는 공간정보와의 공간결합, 참조데이터를 활용한 수작업 형태 등이 대표적이다. 그러나 아직도 행정기관에서 작성되는 수많은 문서정보들은 비정형화된 문서형태로 인해 공간정보화의 수요가 있음에도 그동안 깊이 있게 다루어지지 못하였다. 본 연구는 자연어 처리 모델인 BERT를 활용하여 도시계획과 관련된 공개문서의 공간정보화를 진행한다. 주소가 포함된 문장 요소를 문서로부터 추출하고, 이를 정형화된 데이터로 변환하는 과정을 중점적으로 다룬다. 18년 동안의 도시계획 고시공고문을 학습 데이터로 사용하여 BERT 모델을 학습시켰으며, 모델의 하이퍼파라미터를 직접 조정하여 성능을 향상시켰다. 모델 학습 후의 테스트 결과, 도시계획시설의 유형을 분류하는 모델은 96.6%, 주소 인식 모델은 98.5%, 주소 정제 모델은 93.1%의 정확도를 보였다. 결과 데이터를 GIS 상에 맵핑하였을 때, 특정 지점의 도시계획시설에 관한 변경 이력을 효과적으로 표출할 수 있었다. 본 연구로 도시계획 문서의 공간적 맥락에 대한 깊은 이해를 제공하며, 이를 통해 이해관계자들이 더욱 효과적인 의사결정을 할 수 있게 지원하기를 기대한다.

구조화 문서 검색을 위한 다단계 역색인 기법 (A Multi-level Inverted Index Technique for Structural Document Search)

  • 김종익
    • 정보처리학회논문지B
    • /
    • 제15B권4호
    • /
    • pp.355-364
    • /
    • 2008
  • XML로 대표되는 구조화된 문서의 검색을 위해서는 구조 조인 기법이 많이 사용되며 구조 조인 기법을 사용하기 위해서는 구조 조인에 참여하는 엘리먼트들을 추출하는 과정이 선행되어야 한다. 이 과정을 위해서 일반적으로 동일한 태그 값을 가지는 엘리먼트들을 리스트 형태로 추출해 주는 역색인을 사용한다. 하지만 이러한 기존의 기법은 경로 질의 내의 부모-자식 관계나 조상-후손 관계를 비교적 비용이 비싼 구조 조인으로 모두 처리해야 하기 때문에 경로의 길이가 길어질수록 질의 처리 비용이 크게 증가하는 단점을 가지고 있다. 본 논문에서는 기존의 역색인과는 달리 엘리먼트 추출과정에서 부모-자식 관계에 있는 엘리먼트들을 처리할 수 있는 단계별 역색인을 제안한다. 본 논문에서 제안하는 단계별 역색인은 경로 질의 내의 부모-자식 관계를 가지는 엘리먼트 쌍(pair)들의 리스트를 추출해 준다. 또한 단계별 역색인으로부터 추출된 엘리먼트 쌍들의 리스트를 처리하기 위해 기존의 구조 조인과는 다른 변형된 구조 조인 기법을 제안하며 실험을 통해 제안된 기법이 기존의 기법보다 2배에서 4배 가량의 성능향상이 있는 것을 확인하였다.

방향성 스키마 그래프 매핑 규칙을 이용한 GML 문서의 공간 데이터베이스 변환 기법 (The Conversion Scheme of GML Document into Spatial Database using the Directed Schema Graph Mapping Rules)

  • 정원일;박순영;배해영
    • 한국공간정보시스템학회 논문지
    • /
    • 제7권1호
    • /
    • pp.39-52
    • /
    • 2005
  • XML을 기반으로 지리 정보의 저장 및 전송을 위한 인코딩 표준으로 제안된 GML은 점차 그 활용도가 증가하고 있다. 이에 웹 환경에서 지리 정보의 상호 운용성을 제공하기 위해 다양한 모델링, 저장 및 질의에 관한 연구가 수행되어 왔으며, 특히 구조적인 특성을 갖는 GML 문서를 효율적으로 저장하는 연구는 필수적이다. 따라서, 본 논문에서는 GML 스키마를 기반으로 작성된 GML 문서를 공간 데이터베이스로 저장하기 위한 GML 문서 변환 기법을 제안한다. 제안 기법에서는 GML 스키마를 방향성을 갖는 그래프 구조로 변환하고 이를 기반으로 공간 스키마로의 매핑에 대해 기술한다. 그리고 GML 문서를 공간 데이터베이스로 변환할 때 발생하는 의미적 손실을 보상하기 위해 GML 스키마에 존재하는 제약 조건을 변환된 공간 스키마에서 유지하기 위한 규칙을 제안한다. 또한 제안 기법은 공간 데이터베이스를 GML 문서의 저장소로 활용할 수 있도록 함으로써 이질적인 지리 정보의 상호 운용성 제공뿐 아니라 대량의 GML 문서에 대해 효과적인 저장과 관리가 가능하게 한다.

  • PDF

건강보험정책심의위원회 가입자 단체의 의사결정 참여에 영향을 미치는 요인 (Factors Affecting the Insured Organizations Participation in Decision Making Process in Health Insurance Policy Committee)

  • 한주성;김창엽
    • 보건행정학회지
    • /
    • 제27권4호
    • /
    • pp.336-346
    • /
    • 2017
  • Background: Due to the asymmetry of information and knowledge and the power of bureaucrats and medical professionals, it is not easy for citizens to participate in health care policy making. This study analyzes the case of the insured organization participating in the Health Insurance Policy Committee (HIPC) and provides a basis for discussing methods and conditions for better public participation. Methods: Qualitative analysis was conducted using the in-depth interviews with the participants and document data such as materials for HIPC meetings. Semi-structured interviews were conducted with purposively sampled six participants from organizations representing the insured in HIPC. The meanings related to the factors affecting participation were found and categorized into major categories. Results: The main factors affecting participating in the decision making process were trust and cooperation among the participants, structure and procedure of governance, representation and expertise of participants, and contents of issues. Due to limited cooperation, participants lacked influence in important decisions. There was an imbalance in power due to unreasonable procedures and criteria for governance. As the materials for meetings were provided inappropriate manner, it was difficult for participants to understand the contents and comments on the meeting. Due to weak accountability structure, opinions from external stakeholders have not been well received. The participation was made depending on the expertise of individual members. The degree of influence was different depending on the contents of the issues. Conclusion: In order to meet the values of democracy and realize the participation that the insured can demonstrate influence, it is necessary to have a fair and reasonable procedure and a sufficient learning environment. More deliberative structure which reflects citizen's public perspective is required, rather than current negotiating structure of HIPC.

교수 실제를 통한 초임 과학교사의 PCK 분석 (An Analysis of Beginning Science Teachers' Pedagogical Content Knowledge through the Teaching Practice)

  • 민희정;박철용;백성혜
    • 한국과학교육학회지
    • /
    • 제30권4호
    • /
    • pp.437-451
    • /
    • 2010
  • 이 연구의 목적은 초임 과학교사의 PCK를 분석하는 것이다. 이 연구를 위하여 공립중학교에 근무하는 두 명의 초임 과학교사를 선정하였다. 연구의 자료는 수업 촬영, 반구조화된 면담, 기타 문서자료 등이 질적 연구방법을 통해 수집되었다. 자료 분석은 반복적 비교 분석법에 의하여 이루어졌다. 연구결과, 교육과정에 대한 지식과 평가에 대한 지식은 약간 차이가 있지만 그 수준은 부족한 편이었으며, 교수전략과 교수 지향은 교사에 따라 매우 상이했다. 교사들은 학습자의 다양한 수준을 인식하였지만, 학습자에 대한 올바른 이해가 부족해 두 초임과학교사의 수업은 공통적으로 과학교과서의 내용전달에 초점이 있었다. 결론적으로 두 초임교사의 PCK는 예비교사의 PCK와 비슷했다. 초임교사의 PCK 발달을 위해 예비교사 프로그램의 패러다임전환과 현직교사 연수 및 지원 프로그램의 확충이 필요하다.