• 제목/요약/키워드: 주제와 연관성

검색결과 247건 처리시간 0.028초

문서 요약 및 비교분석을 위한 주제어 네트워크 가시화 (Keyword Network Visualization for Text Summarization and Comparative Analysis)

  • 김경림;이다영;조환규
    • 정보과학회 논문지
    • /
    • 제44권2호
    • /
    • pp.139-147
    • /
    • 2017
  • 문자 정보는 인터넷 공간에 통용되는 정보의 대다수를 차지하고 있다. 따라서 대용량의 문서의 의미를 빠르게 특히 자동적으로 파악하는 일은 빅 데이터 시대의 중요한 연구 주제중 하나이다. 이 분야의 대표적인 연구 중 하나는 문서의 의미를 요약해주는 주요 주제어의 자동 추출 및 분석이다. 그러나 단순히 추출된 개별 주제어들의 집합만으로 문서의 의미구조를 나타내기에는 부족함이 있다. 본 논문에서는 추출된 주제어들의 연관관계를 그래프로 표현하여 대상 문서의 의미구조를 보다 다양하게 표시하고 추상화할 수 있는 주제어 가시화 방법을 개발하였다. 먼저 각 주제어들 간의 연관관계를 추출하기 위해 주제어별 지배구간 모델과 단어거리 모델을 제안하였다. 이렇게 추출한 주제어 연결성과 그를 형상화한 그래프는 문서의 의미구조를 보다 함축적으로 담고 있으므로 문서의 빠른 내용파악과 요약이 가능하며 이 가시화 그래프를 비교함으로서 문서의 의미적 유사도 비교도 가능하다. 실험을 통하여 문서의 의미파악과 비교에 본 주제어 가시화 그래프는 일반적인 요약문이나 단순 주제어 리스트보다 더 유용함을 보였다.

독후감 텍스트의 토픽모델링 적용에 관한 탐색적 연구 (A Study on the Application of Topic Modeling for the Book Report Text)

  • 이수상
    • 한국도서관정보학회지
    • /
    • 제47권4호
    • /
    • pp.1-18
    • /
    • 2016
  • 이 연구는 독후감 텍스트의 주제분석에 토픽모델링의 활용방안을 탐색하는 것을 목적으로 하고 있다. 텍스트의 주제분석 방안으로서 토픽모델링 분석방법을 이해하고, R에서 제공하는 "topicmodels" 패키지의 LDA 함수를 사용하여 23건의 사례 독후감 텍스트들을 대상으로 실제의 분석작업을 수행하였다 토픽모델링 분석결과 16개의 토픽들을 추출하였고 토픽과 구성 단어들의 관계에서 토픽 네트워크 사례 독후감과 토픽들의 관계에서 독후감 네트워크를 구성하였다. 이후 토픽 네트워크와 독후감 네트워크를 대상으로 중심성 분석을 수행하였으며 분석결과는 다음과 같다. 첫째 16개의 토픽들이 1개의 컴포넌트를 가지는 네트워크로 나타났다. 이것은 16개 토픽들이 상호 연관되어 있다는 것을 의미한다. 둘째, 독후감 네트워크에서는 연결정도 중심성이 높은 독후감들과 낮은 독후감들로 구분이 되었다. 전자의 독후감들은 다른 독후감들과 주제적으로 유사성을 가지며 후자의 독후감들은 다른 독후감들과 주제적으로 상이성을 가지는 것으로 해석하였다. 토픽모델링의 결과를 네트워크 분석과 결합함으로써 독후감의 주제파악에 유용한 결과들을 얻게 되었다.

대학 공업수학 학습자료 개발 및 효과 (Investigation of the Effect of a Learning Program for University Engineering Mathematics)

  • 정수연;송영무
    • 한국수학교육학회지시리즈E:수학교육논문집
    • /
    • 제25권2호
    • /
    • pp.361-379
    • /
    • 2011
  • 본 연구는 대학의 전자공학과 학생들을 대상으로 수학 교과 내용과 전공 교과 내용의 연관성 및 수학교과 내의 선수 학습 내용과의 연관성을 이용한 공업수학 학습자료를 개발하고 이를 활용한 수학학습의 효과를 알아보는데 목적이 있다. 이러한 목적을 위해 먼저 전자공학과 전공 학습을 위해 필요한 공업수학 내용의 목록을 작성하고 이를 바탕으로 선수학습 내용 및 전공교과 내용과의 연관성을 조사한 후 연관성이 있는 내용을 학습자료의 주제로 선정하여 학습자료를 개발하였다. 그리고 개발된 학습자료를 이용하여 학습하게 한 후 학습자료에 대한 반응을 조사하고, 학습 태도에 대한 효과를 분석하였다. 그 결과, 학습자료의 도입부에 기술된 전공내용은 학생들에게 공업수학 학습에 대한 동기 부여에 도움을 주었으며, 공업수학 학습 내용 전에 기술된 선수학습 내용은 학생들에게 공업수학 학습내용의 학습에 집중하는데 도움을 주었다. 또한 개발된 학습자료는 학생들의 수학 학습 태도 중 수학 학습에 대한 자신감을 향상시키는데 효과가 있는 것으로 나타났다.

문서 분류를 위한 문장 응집도와 주어 주도의 주제어 추출 (Sentence Cohesion & Subject driving Keywords Extraction for Document Classification)

  • 안희국;노희영
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.463-465
    • /
    • 2005
  • 문서분류 시 문서의 내용을 표현하기 위한 자질로서 사용되는 단어의 출현빈도정보는 해당 문서의 주제어를 표현하기에 취약한 점을 갖고 있다. 즉, 키워드가 문장에서 어떠한 목적(의미)으로 사용되었는지에 대한 정보를 표현할 수가 없고, 문장 간의 응집도가 강한 문장에서 추출되었는지 아닌지에 대한 정보를 표현할 수가 없다. 따라서, 이 정보로부터 문서분류를 하는 것은 그 정확도에 있어서 한계를 갖게 된다. 본 논문에서는 이러한 문서표현의 문제를 해결하기위해, 키워드를 선택할 때, 자질로서 문장의 역할(주어)정보를 추출하여 가중치 부여방식을 통하여 주어주도정보량을 추출하였다. 또한, 자질로서 문장 내 키워드들의 동시출현빈도 정보를 추출하여 문장 간 키워드들의 연관성정도를 시소러스에 담아내었다. 그리고, 이로부터 응집도 정보를 추출하였다. 이 두 정보의 통합으로부터 문서 주제어를 결정함으로서, 문서분류를 위한 주제어 추출 시 불필요한 키워드의 삽입을 줄이고, 동시 출현하는 키워드들에 대한 선택 기준을 제공하고자 하였다. 실험을 통해 한번 출현한 키워드라도, 문장을 주도하는 주어로서 사용될 경우와 응집도 가중치가 높을 경우에 주제어로서의 선택될 가능성이 향상되고, 문서분류를 위해 좀 더 세분화된 키워드 점수화가 가능함을 확인하였다. 따라서, 선택된 주제어가 문서분류의 정확도에 있어서 향상을 가져올 수 있을 것으로 기대한다.

  • PDF

효율적인 문서 처리 작업을 위한 문서집합 나열 (Sequencing Document Clusters to Support Human Annotation Efforts)

  • 나종열;문일철;최기선
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2008년도 제20회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.75-78
    • /
    • 2008
  • 온톨로지 어노테이션(Annotation)과정은 수동에 의해 대부분의 문서 처리 작업이 진행되고 있다. 그러므로 계획적이지 않은 문서 처리는 자칫 일관성이나 효율성을 떨어뜨릴 수가 있다. 예를 들어, 처리되는 문서들의 도메인이 자주 바뀌면, 수동 어노테이션을 하는 작업자는 객관성을 잃을 가능성이 높다. 따라서, 본 연구에서는 처리되는 문서집합의 도메인이 최대한 연관성이 유지되도록 처리 문서를 집합하여 나열하는 알고리즘을 소개한다. 첫번째로, 문서들을 유사한 주제 집합으로 형성한다. 두번째로, 두개 이상의 집합에 겹치는 문서들을 계산한다. 마지막으로, 이러한 겹침이 최대화 되도록 문서들의 처리 순서를 나열한다. 본 알고리즘을 IT관련 위키피디아 문서집합을 이용하여 평가를 시행했다. 평가 결과 우리의 알고리즘을 이용하면 처리되는 문서들의 도메인 이동이 무작위로 처리하는 것 보다 연속적이었음을 수치상으로 계산할 수 있었다.

  • PDF

RDF 데이터에서 접미사 배열을 이용한 ρ-intersect 연산의 처리 (Processing of ρ-intersect Operation on RDF Data Using Suffix Array)

  • 김성완;김연희
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권7호
    • /
    • pp.95-103
    • /
    • 2011
  • 보다 신속하고 정확한 정보 검색에 대한 지능적이고 자동화 된 서비스 제공을 지향하는 시맨틱웹 기술의 실제적 활용이 점점 구체화 되고 있다. 이에 시맨틱 웹상에서 존재하는 방대한 양의 데이터를 관리하기 위한 표준 포맷 중 하나로 널리 사용되는 RDF로 표현된 데이터에 대한 효율적인 질의 처리는 계속적인 중요한 연구 주제가 되고 있다. RDF 데이터에 대한 전형적인 질의 처리유형은 임의의 리소스로부터 특정한 관계성을 갖는 리소스들을 검색하는 것으로 이에 대한 많은 연구들이 진행되어 왔다. 그러나, 기존의 연구들에서는 리소스간의 복잡한 관계성들의 발견(discovery) 즉, 질의 처리의 결과로 리소스간의 연관성을 반환하는 유형의 질의 처리에 대해서는 충분히 고려하지 않고 있다. 본 논문에서는 시맨틱 연관성 검색 유형의 하나인 ${\rho}$-intersect 연산의 처리를 위한 인덱싱 및 질의 처리 방안을 소개한다. 이를 위해 접미사 배열을 이용한 인덱싱과 ${\rho}$-intersect 연산의 특징을 고려한 최적화 처리 방안을 제안한다. 실험적 성능 평가는 기존 기법에 비해 제안 기법의 평균 실행 시간이 3~7배의 빠른 질의 처리 성능을 보인다.

대학도서관의 효율적인 정보서비스를 위한 주제화모형 개발에 관한 연구 (A Study on the Development of Subject-Divisional Plan Model for the Efficient Reference Service of University Library)

  • 정재영
    • 정보관리학회지
    • /
    • 제22권3호
    • /
    • pp.327-350
    • /
    • 2005
  • 본 연구는 보다 효율적인 정보서비스를 위한 주제화 모형을 개발하고자 하였다. 연구의 결과 및 제시한 주제화 모형의 구성과 특징을 요약하면 다음과 같다. 첫째, 대학도서관의 운영 패러다임은 논리성보다는 실용성이 강조되고 있다. 따라서, 대학도서관의 효율적인 공간 활용, 장서 구분 및 서비스를 위해서는 '주제화'가 가장 바람직하다. 둘째, 주제화 적용을 위한 가장 필수적인 요건은 주제담당사서의 확보와 충분한 공간인 것으로 분석되었다. 따라서, 주제화를 적용하기 위해서는 이에 대한 해결이 선행되어야 한다. 셋째, 대학도서관의 효율적인 정보서비스를 위한 주제화 모형으로는 '광역형 주제화 모형'을 제시할 수 있다. 1) 광역형 주제화의 공간모형은 중앙도서관의 경우 대학생을 위한 '학부전용도서관'으로 운영하고, 각각의 주제도서관은 연구를 위주로 하는 교수와 대학원생을 위한 '연구도서관'으로 운영하는 방안이다. 2) 광역형 주제화의 장서 모형은 중앙도서관(학부전용도서관)의 경우 학부생들의 과제 및 학습관련 자료를 제공하고, 각각의 주제도서관은 연구를 위한 서지 및 정보제공에 치중하는 방안이다. 3) 광역형 주제화의 인적자원 모형은 중앙도서관(학부전용도서관)의 경우 참고사서와 이용자교육담당사서 그리고 기능적 업무담당사서를 배치하고, 주제도서관은 주제담당사서와 기능적 업무담당사서 그리고 주제와 연관이 있는 학과의 대학원생을 조교나 보조학생으로 확보해 서비스를 주제별과 이용자별로 차별화하는 방안이다.

토픽모델링을 이용한 국내 방사선 학술연구 트렌드 분석 (A Trend Analysis of Radiological Research in Korea using Topic Modeling)

  • 홍동희
    • 한국방사선학회논문지
    • /
    • 제16권3호
    • /
    • pp.343-349
    • /
    • 2022
  • 토픽 모델링을 활용하여 1989년부터 2022년까지 출판된 방사선을 주제로 한 논문을 파악하고 주제들 간의 관련성과 비중을 분석하고자 한다. 본 연구는 방사선 분야의 연구 활성화에 기여하기 위하여 2022년 최근까지 출판된 논문 717편을 대상으로 국문제목에서 도출된 토픽들을 분석하였다. 텍스트마이닝을 통해 연구의 주제 분포에 대한 전반적 연구 동향을 분석하였으며, 토픽모델링을 통해 5가지 주제를 도출해냈다. 첫째, 분석 대상 논문 중 키워드 중심으로 총 논문 717편의 연구에서 핵심어를 전처리 과정을 거쳐 최종적으로 선정된 단어는 총 1675개의 단어를 빈도 분석하였다. 둘째, 5개 토픽에 대하여 구성단어의 연관성을 중심으로 토픽을 분석한 결과 방사선, 영상, CT 임상분야에서 영상의 화질을 떨어뜨리지 않는 범위에서 선량을 최소화 하는데 연구가 주를 이루고 있음을 알 수 있었다. 또한, MRI 분야는 다양한 연구가 주를 이루었고 초음파는 다양한 부위의 질환 분석이 연구가 활발하게 시도되고 있음을 알 수 있었다.

텍스트 마이닝을 이용한 국가 물관리 정책 변화 시점별 수문조사사업의 방향 분석 (How National Water Management Plans lead Hydrological Survey Projects?)

  • 김찬우;김민국;고정환;한승원;최인재;현동호;박석근
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2023년도 학술발표회
    • /
    • pp.429-429
    • /
    • 2023
  • 우리나라의 물 관련 정책 방향이 환경 중심의 수자원 관리에서 친수공간 및 정보의 확보와 같은 안전한 물관리로 확대되면서 정책추진에 기초가 될 수 있는 신뢰도 높은 수문자료의 생산이 보다 중요시되고 있다. 국가 수문조사사업은 이러한 정책기조에 맞춰 제도적인 뒷받침과 함께 조사의 범위와 기술, 품질관리 등의 영역을 넓히며 그 기능을 활발히 하고 있으나, 물관리 정책의 경향에 따른 수문조사사업의 방향성과 특징을 구조적으로 살펴본 연구는 부족한 것으로 파악된다. 따라서 본 연구는 친수·친환경적 물관리가 강조된 시기('97~현재)를 중점으로 하여 물관리 정책과 관련 계획의 변화가 수문조사사업에 어떠한 영향을 주는지 고찰하였다. 이를 위해 물관리 여건의 변화에 따라 달라진 관련 정책별 주제어의 분포와 수문조사사업과 연관된 주요어의 출현빈도 및 경향을 살펴보고, 주요 연관어와 연계한 사업의 방향과 구조를 분석하였다. 분석자료로는 물관리 관련 법령 등의 제도와 언론기사자료, 정책별 추진방향을 활용하였다. 정책의 추진방향은 1) 수자원의 종합적 개발에서 친환경적 측면과 지속가능성이 강조된 수자원장기종합계획(3-1차~4-3차)과 2) 사람과 자연이 함께 고려된 맑고 안전한 물, 통합물관리 등의 전략이 수록된 국가물관리기본계획(1차), 3) 정책의 기조에 따라 수립 및 보완된 수문조사 기본계획(1~2차)을 바탕으로 하였다. R프로그램을 통한 텍스트 마이닝을 활용하여 각 자료에서의 주제어 분포와 출현빈도를 분석하고, 정책별 추진방향과 수문조사사업의 연계성을 나타내었다. 연구의 함의를 담은 결과로서 물관리 여건이 변화된 시점별 주요연관어를 중심으로 한 정책동향과 수문조사사업의 특징 및 방향을 요약·비교하여 제시하였으며, 이는 물관리 분야에서의 국정운영 목표와 연계하여 국가 수문조사사업의 사업성을 고찰하는 연구의 기반이 될 수 있으리라 생각된다.

  • PDF

블로그 검색 성능 향상을 위한 주제-랭크 기법 (The Topic-Rank Technique for Enhancing the Performance of Blog Retrieval)

  • 신현일;윤은일;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제16권1호
    • /
    • pp.19-29
    • /
    • 2011
  • 1인 미디어인 블로그에 대한 관심이 증가함에 따라, 블로그 검색과 관련된 다양한 랭킹 알고리즘들이 제안되었다. 이러한 알고리즘들은 블로그가 웹 페이지와 다르게 갖는 구조적 특징에 맞게 변형되었으며, 각 블로그간의 연결이나, 댓글, 트랙백들을 통해 이루어진 상호소통 속에서 나타난 결과들을 바탕으로 블로그의 평판이나 인기도를 수치화하여 검색 시스템에 반영한다. 하지만 실제 블로그 검색에서는 블로그 자체의 랭크뿐만 아니라 검색어와 블로그 글과의 적합성과시간등의요소를복합적으로사용하게된다. 그런데기존에알려진요소만으로는검색결과의품질이낮을수 있다. 본 논문에서는 블로그의 주제와 관련도가 가장 높은 블로그를 찾아 낼 수 있는 주제-랭크 기법을 제안한다. 이 기법은 블로그와 블로그 글의 색인어뿐만 아니라, 블로그 글을 대표하는 주제와의 관계까지 랭킹을 매기는 방법이다. 제안된 기법을 통해 블로그 검색에서 검색어와 블로그의 연관성에 따라 랭킹을 효과적으로 부여할 수 있다. 본 논문 제안하는 주제-랭크 기법을 적용한 블로그 검색 시스템의 정확률과 적용률을 국내의 다른 블로그 검색 시스템들과 비교해 본 결과, 주제-랭크 기법을 사용한 블로그 검색 시스템의 성능이 타 시스템에 비해 더 우수함을 알 수 있었다.