• 제목/요약/키워드: 주제 중심 문서 수집

검색결과 16건 처리시간 0.023초

온톨로지 인스턴스 구축을 위한 주제 중심 웹문서 수집에 관한 연구 (A Study on Focused Crawling of Web Document for Building of Ontology Instances)

  • 장문수
    • 한국지능시스템학회논문지
    • /
    • 제18권1호
    • /
    • pp.86-93
    • /
    • 2008
  • 복잡한 의미관계를 정의하는 온톨로지를 구축하는 일은 매우 정밀하고 전문적인 작업이다. 잘 구축된 온톨로지를 응용 시스템에 활용하기 위해서는 온톨로지 클래스에 대한 많은 인스턴스 정보를 구축해야 한다. 본 논문은 온톨로지 인스턴스 정보 추출을 위하여 방대한 양의 웹 문서로부터 주어진 주제에 적합한 문서만을 추출하는 주제 중심 웹 문서 수집 알고리즘을 제안하고, 이 알고리즘을 바탕으로 문서 수집 시스템을 개발한다. 제안하는 문서 수집 알고리즘은 URL의 패턴을 이용하여 주제에 적합한 링크만을 추출함으로써 빠른 속도의 문서 수집을 가능하게 한다. 또한 링크 블록 텍스트에 대한 퍼지집합으로 표현된 주제 적합도는 문서의 주제 관련성을 지능적으로 판단하여 주제 중심 문서 수집의 정확도를 향상시킨다.

주변정보 분할을 이용한 주제 중심 웹 문서 수집기 (A Focused Crawler by Segmentation of Context Information)

  • 조창희;이남용;강진범;양재영;최중민
    • 정보처리학회논문지B
    • /
    • 제12B권6호
    • /
    • pp.697-702
    • /
    • 2005
  • 주제 중심 웹 문서 수집기는 검색엔진에서 최신의 웹 문서 색인을 유지하는 대안방안으로 부상하고 있다. 그러나 주제 중심 웹 문서 수집기는 비 관심문서에서 연결된 관심문서들을 수집할 수 없는 문제점을 가지고 있다. 이러한 문제점은 문서의 구조적 특징을 고려하지 않아서 발생한다. 특히 문서분석 방법인 문서의 발생 횟수 및 역문헌 발생빈도는 이러한 문제를 야기하는 주요 원인이 된다 주제 중심 웹 문서 수집기의 성능을 향상하기 위해서 본 논문에서는 국소 정보기반의 문서 분할법을 제안한다. 본 논문에서는 문서를 하이퍼링크 주변의 문맥을 고려한 특징 정보들을 사용하여 여러 소각의 문서로 나눈다. 본 논문에서 제안하는 주제 중심 웹 문서 수집기는 나누어진 문서들을 이용하여 하이퍼링크가 관심문서를 가리키는 것인지를 판단하여 문서를 수집할 것인지를 판단한다.

웹 문서 수집을 위한 효율적인 문서 분류 (Efficient Document Classification for Web Document Collection)

  • 이정훈;전서현;김선희
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.397-401
    • /
    • 2006
  • 최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

  • PDF

주제어 문장거리를 이용한 뉴스 편향성 분석 그래프 학습 (Graph Learning System for Analyzing Bias among News Using Keyword Distance Model)

  • 조찬우;조찬형
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.533-538
    • /
    • 2023
  • 문서에서 저자의 의도와 주제, 그 안에 포함된 감성을 분석하는 것은 자연어 연구의 핵심적인 주제이다. 이와 유사하게 특정 글에 포함된 정치적 문화적 편향을 분석하는 것 역시 매우 의미 있는 연구주제이다. 우리는 최근 발생한 한 사건에 대하여 여러 신문사와 해당 신문사에서 생산한 기사를 중심으로 해당 글의 정치적 편향을 정량화 하는 방법을 제시한다. 그 방법은 선택된 주제어들의 문장 공간에서의 거리를 중심으로 그래프를 생성하고, 생성된 그래프의 기계학습을 통하여 편향과 특징을 분석하였다. 그리고 그 그래프들의 시간적 변화를 추적하여 특정 신문사에서 특정 사건에 대한 입장이 시간적으로 어떻게 변화하였는지를 동적으로 보여주는 그래프 애니메이션 시스템을 개발하였다. 실험을 위하여 최근 이슈에 대하여 12개의 신문사에서 약 2000여 개의 기사를 수집하였다. 그 결과, 약 82%의 정확도로 일반적으로 알려진 정치적 편향을 예측할 수 있었다. 또한, 학습 데이터에 쓰이지 않은 신문기사를 활용하여도 같은 정도의 정확도를 보임을 알 수 있었다. 우리는 이를 통하여 신문기사에서의 정치적 편향은 작성자나 신문사의 특성이 아니라 주제어들의 문장 공간에서의 거리 관계로 특성화할 수 있음을 보였다. 할 수 있다.

  • PDF

주제 중심 수집기를 이용한 RSS 채널 추천 시스템 (RSS Channel Recommendation System using Focused Crawler)

  • 이영석;조정원;김준일;최병욱
    • 전자공학회논문지CI
    • /
    • 제43권6호
    • /
    • pp.52-59
    • /
    • 2006
  • 최근 빠른 주기로 많은 양의 새로운 정보가 생성되기 때문에, 개인별 관심 분야의 전문화와 블로그의 보급을 위해 RSS라는 신디케이션 기술이 제공되고 있다. 사용자는 RSS 수집기에 RSS 채널의 주소를 등록함으로써, 새롭게 갱신된 콘텐츠를 자동으로 전달받을 수 있어서 신규 정보를 찾기 위해 사이트에 지속적으로 접근하지 않아도 된다. 본 논문에서는 사용자가 웹상에 존재하는 RSS 문서를 효과적으로 이용할 수 있도록 RSS 채널의 주소를 수집하는 주제 중심의 수집가와 사용자 질의에 따른 RSS 채널의 순위 부여 방안을 제안한다. 제안된 RSS 수집기를 이용하면 사용자는 원하는 RSS 채널 주소를 효과적으로 검색 할 수 있어서 자료 검색의 효율성을 증진시킬 수 있다.

뉴노멀(New Normal) 시대 언어네트워크 분석에 의한 예술정책 방향 연구 (A Study on the Direction of Art Policy through Semantic Network Analysis in New Normal Era)

  • 김미연;권병웅
    • 예술경영연구
    • /
    • 제58호
    • /
    • pp.153-177
    • /
    • 2021
  • 본 연구는 코로나19로 촉발된 뉴노멀 시대의 예술정책에 관한 이론과 국내외 정책 동향을 바탕으로 언어네트워크 분석을 시도하였다. 이를 위해 2020년 3월부터 9월까지의 '코로나'와 '예술'의 키워드가 들어간 자료를 구글(Google)뉴스와 웹(web)문서에서 수집하여 227개의 정제된 주제어를 추출하였고, 추출된 주제어를 넷마이너 프로그램을 통해 주제어 빈도분석과 중심성을 지표로 분석하였다. 또한 각 주제어 간의 관계 분석을 위해 언어네트워크의 시각화 분석을 시도하였다. 분석결과 가장 많은 빈도수를 드러낸 주제어는 '코로나'였고, '문화예술', '예술', '공연', '온라인', '지원'이 최다 빈도수를 기록한 그룹에 포함되었다. 중심성 분석에서는 '코로나'가 가장 빈도가 높았고, '시대', '이후', '포스트', '예술', '문화예술' 순으로 나타나 빈도수가 높은 '코로나'와 '예술', '문화예술'은 대부분의 중심성에서도 우위를 차지했다. 특히, 주제어 빈도수와 중심성 분석에서 공통으로 상위를 차지하는 주제어는 '온라인'과 '지원' '정책'이다. 이는 코로나19로 인해 사회적 거리두기의 일상화에 따라 비대면·온라인콘텐츠의 급부상과 예술계에 대한 지원정책이 필요함을 나타내고 있다고 볼 수 있다.

다문화 가족 시부모들에 대한 연구 -해석학적 근거이론 방법 접근- (The Qualitative study about parent's in law of multiculture family - Hermeneutical grounded theory methology -)

  • 김영숙;이근무
    • 사회복지연구
    • /
    • 제42권2호
    • /
    • pp.41-70
    • /
    • 2011
  • 본 연구는 다문화 가족의 시부모들에 대한 연구로 시부모들의 구술자료를 토대로 시부모들과 외국출신 며느리들과의 상호작용 내용과 과정을 살펴보고자 했다. 연구는 해석학적 근거이론 방법으로 접근했으며 6명의 다문화 가족 시부모들이 참여했으며 자료는 심층 면담과 문서기록 수집을 통해 구성했다. 자료분석 결과 83개의 의미단위 22개의 범주 그리고 9개의 해석학적 주제를 구성했으며 해석학적 주제를 중심으로 연구 참여자들의 상호작용 내용과 과정을 살펴보았다. 연구자들은 해석학적 주제와 연구내용을 근거로 하여 다문화 가정 시부모들과 며느리들의 문화접변 과정을 ① 자기의 영역 고수하기 → ② 전략적 수용 → ③ 상호이해에 기초한 공존의 그늘 만들기 → ④ 자기의 해체와 재구성으로 기술했다. 그리고 다문화 가족의 가족 안정성과 관계의 질을 제고하기 위한 사회복지적 개입방안으로 「문화 유능성 강화를 위한 시부모·며느리 연계 프로그램」을 제언했다.

혁명시기 중국공산당의 문서당안관리 (Chinese Communist Party's Management of Records & Archives during the Chinese Revolution Period)

  • 이원규
    • 기록학연구
    • /
    • 제22호
    • /
    • pp.157-199
    • /
    • 2009
  • 중국공산당의 창당과 함께 문서와 당안 관리 조직이 출현한 것은 아니었다. 1926년 중앙 비서처가 설립된 이후 문서과와 그 소속 문건열람처, 문건보관처 등이 설립됨으로써 본격화되었던 것이다. 1930년대 초 비서조직의 업무개선이 집중적으로 논의되었는데, 비판의 핵심은 정치적 역할을 자각하지 못한 채 단순히 "기능적 조직"으로 전락하고 말았다는 것이었고, 이의 해결 방안은 곧 "비서처 업무의 정치화"였다. 나아가 1940년대에는 "정풍운동"의 영향으로 문서만이 아니라 각종 주요 정보자료를 수집하여 정리, 제공하는 재료과의 임무가 강조되었다. 한편, 문서의 작성에 있어서 인물이나 기관의 명칭을 다르게 표기한다든가 약물을 사용하여 문서를 작성하는 등 보안의 유지가 줄곧 강조되었으며, 또한 업무활동과 지역의 상황에 대한 정기보고를 통해 중앙과 지방간의 소통이 강조되었다. 비서장은 중요 공문의 초안을 작성하는 것은 물론, 모든 문건의 열람과 심사를 담당하여 문서처리의 중심적 역할을 수행하였다. 문서의 처리가 끝나면 당안이라고 불리우며 보관되었는데, 중앙 비서처 문서과의 "문건보관처"가 이러한 역할을 담당하였다. "중앙문고"라고 불리기도 한 문건보관처는 1930년대 초부터 더 이상 당안을 이관받을 수 없었지만, 1940년대에는 재료과가 문서와 간행재료를 보존하고 제공하는 역할을 강화해갔다. 특히 조사연구를 위한 재료의 수집이 실행되었고, 일본의 통치 아래에 있던 지역을 회복하면서 대량의 당안과 문헌 자료를 수집하기도 하였다. 1931년 당안의 분류방법과 목록작성방법이 규정된 이후 특히 1940년대에 본격적으로 제도화되었는데, 기본적으로는 주제분류법이 유지되었고 기초적인 목록표기법이 채택되었다. "중요성"과 "기밀성"을 관리의 기준으로 삼는 원칙은 비교적 초기부터 나타났지만, 문서의 보존과 폐기를 구분하는 평가의 개념이나 절차는 명확치 않았다. 비밀의 보안관리와 접근제한의 제도를 실행하는 한편, "보존과 이용의 통일"이라는 구호에서도 알 수 있듯이 당안재료의 이용제공에 대한 문제의식은 매우 강렬하였다. 혁명운동과 전쟁의 와중에서도 중국공산당은 문서당안의 관리와 보존을 강화해가는 노력을 지속했다. 그 성과가 항상 바람직한 것도 아니었고, 그 경험을 안정적으로 발전시켜갈 수 있었던 것도 아니었다. 그것은 필경 중국공산당이 처해 있던 역사적 여건에서는 불가피한 일이었을 것이다. 이 과정에서 두드러지게 나타난 특성은 단지 기능적인 수준에서 문서당안관리의 효율화를 추진했던 것이 아니라 것이 아니라, 오히려 중국공산당의 혁명운동에 미치는 정치적 의의에 대한 자각을 강화해가며, 혁명 정책 연구의 실증적 근거이자 또한 중국공산당 역사의 증거로서 당안재료가 갖는 가치에 주목하였던 것에서 찾을 수 있을 것이다.

기록관리 분야 국가연구개발사업 현황 분석 (An Analysis of the Status of National Research and Development Projects in Records Management)

  • 정회명;김순희
    • 한국기록관리학회지
    • /
    • 제23권4호
    • /
    • pp.137-157
    • /
    • 2023
  • 기술혁신을 통한 국가경쟁력 강화를 목적으로 연구개발 투자 규모가 증가하고 있으며, 투자 효율성에 대한 관심이 높아지고 있다. 기록관리 분야에서는 국가기록원이 2008년부터 국가연구개발사업을 주도하고 있다. 이에 본 연구는 2008년부터 2022년까지의 국가기록원 용역 연구과제 111건을 대상으로 수행주체, 성과, 주제 등의 측면에서 기록관리 분야 연구개발사업을 분석하였다. 분석 결과, 연구 수행주체는 중소기업, 연구성과는 학술발표가 가장 많았으며, 연구보고서의 성과와 실제 성과 간 일부 차이가 있었다. 연구 주제 측면에서 기록물 형태는 종이문서, 국가기록원 업무 중에서는 전자적 관리체계 구축, 기록관리 업무 과정과 연구과제별 중심단어 빈도 기준으로는 보존에 대한 연구가 주로 수행된 것으로 나타났다. 디지털 전환 관련 빅데이터 활용과 지능형 기술 개발의 측면에서는 111개 과제 중 9%인 10건이 해당하는 것으로 나타났다. 따라서 연구 사업 종료 후에도 성과에 대한 사후 관리를 통해 연구개발사업의 효과성을 높여야 할 것이며, 연구 주제에 있어서는 보존 이외의 이관, 분류, 평가, 생산, 수집 등에 대한 연구와 디지털 전환에 대응하는 연구의 필요성을 확인하였다.

예비수학교사교육에서의 공학적 도구 활용 사례연구 - 7${\~}$9단계 수학수업과 연계된 교수$\cdot$학습보조자료 개발을 중심으로 - (The Case Study of Using Technology in Education of Pre-service Mathematics Teachers. - Developing Materials Assisting Teaching-Learning for 7th-9th Grade Mathematics Classroom -)

  • 김남희
    • 대한수학교육학회지:학교수학
    • /
    • 제7권4호
    • /
    • pp.337-352
    • /
    • 2005
  • 본 연구에서는 학교수학수업에의 공학적 도구 활용을 논의의 주제로 설정하고 예비수학교사교육에서 사례연구를 실시하였다. 예비관찰을 통해 사례로 선정된 사범대학 재학생들을 대상으로 수학교육프로그램을 활용하여 7${\~}$9단계 수학 학습에 적용할 수 있는 교수-학습 자료를 개발하는 수업활동을 시행하였다. NCTM과 제7차 교육과정의 교수-학습방법 제안을 배경으로 하여 본 연구에서는 공학적 도구를 활용하여 수학학습의 효과를 높일 수 있다는 명제를 개념적 틀로 설정하였다. 그리고 이를 연구의 방향과 자료분석의 토대로 삼았다. 연구과정에서 수집된 관찰자료, 면담자료, 문서자료 등을 토대로 연구의 초기에 설정된 세 가지 연구문제에 대한 결과를 분석하였다. 아울러 학교현장의 수학수업에 활용할 수 있는 공학적 도구 활용교수${\cdot}$학습 보조자료를(단계별 수학디자인 산출물) 개발하여 제시하였다.

  • PDF