• 제목/요약/키워드: Research trends of library and information science

검색결과 254건 처리시간 0.021초

LDA와 BERTopic을 이용한 토픽모델링의 증강과 확장 기법 연구 (Topic Model Augmentation and Extension Method using LDA and BERTopic)

  • 김선욱;양기덕
    • 정보관리학회지
    • /
    • 제39권3호
    • /
    • pp.99-132
    • /
    • 2022
  • 본 연구의 목적은 LDA 토픽모델링 결과와 BERTopic 토픽모델링 결과를 합성하는 방법론인 Augmented and Extended Topics(AET)를 제안하고, 이를 사용해 문헌정보학 분야의 연구주제를 분석하는 데 있다. AET의 실제 적용결과를 확인하기 위해 2001년 1월부터 2021년 10월까지의 Web of Science 내 문헌정보학 학술지 85종에 게재된 학술논문 서지 데이터 55,442건을 분석하였다. AET는 서로 다른 토픽모델링 결과의 관계를 WORD2VEC 기반 코사인 유사도 매트릭스로 구축하고, 매트릭스 내 의미적 관계가 유효한 범위 내에서 매트릭스 재정렬 및 분할 과정을 반복해 증강토픽(Augmented Topics, 이하 AT)을 추출한 뒤, 나머지 영역에서 코사인 유사도 평균값 순위와 BERTopic 토픽 규모 순위에 대한 조화평균을 통해 확장토픽(Extended Topics, 이하 ET)을 결정한다. 최적 표준으로 도출된 LDA 토픽모델링 결과와 AET 결과를 비교한 결과, AT는 LDA 토픽모델링 토픽을 한층 더 구체화하고 세분화하였으며 ET는 유효한 토픽을 발견하였다. AT(Augmented Topics)의 성능은 LDA 이상이었으며 ET(Extended Topics)는 일부 경우를 제외하고 대부분 LDA와 유사한 수준의 성능을 나타내었다.

텍스트 마이닝 기법을 이용한 환경 분야의 ICT 활용 연구 동향 분석 (A Study on Environmental research Trends by Information and Communications Technologies using Text-mining Technology)

  • 박보영;오관영;이정호;윤정호;이승국;이명진
    • 대한원격탐사학회지
    • /
    • 제33권2호
    • /
    • pp.189-199
    • /
    • 2017
  • 본 연구는 텍스트 마이닝 기법을 활용하여 환경 분야에서 ICT의 활용 연구동향을 정량적으로 분석하였다. 이를 위해 환경 분야 키워드 38개, ICT 관련 키워드 16개를 바탕으로 국가과학기술정보센터(NDSL)에서 최근 20년(1996년-2015년)의 논문 359편을 수집하였다. 해당 논문을 대상으로 환경 분야 및 ICT 관련 자연어를 처리하여 말뭉치(Corpus)단위로 분류체계를 재구성하였다. 전술된 분류체계의 키워드를 바탕으로 텍스트 마이닝 분석 기법인 빈도 분석, 키워드 분석, 키워드 간 연관규칙을 확인하였다. 그 결과 '환경 일반' 및 '기후' 분야의 키워드 출현 빈도가 전체의 77 %, ICT는 '공공융합서비스' 및 '산업융합서비스'가 약 30 %의 비율을 차지하였다. 시계열 분석을 통해 환경 분야에서의 ICT 활용 연구는 최근 5년(2011년-2015년)사이에 급증하여 과거(1996년-2010년)과 비교하여 약 2배 이상 관련 연구가 증가된 것으로 나타났다. 키워드 간 연관 규칙을 생성하여 환경 분야를 기준으로 나타내었을 때, '환경 일반'은 16개, '기후'는 '14'개의 ICT 기반 기술을 주로 활용하고 있는 것으로 확인하였다.

온톨로지와 토픽모델링 기반 다차원 연계 지식맵 서비스 연구 (A Study on Ontology and Topic Modeling-based Multi-dimensional Knowledge Map Services)

  • 정한조
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.79-92
    • /
    • 2015
  • 미래 핵심 가치 기술 발굴 및 탐색을 위해서는 범국가적인 국가R&D정보와 과학기술정보의 연계 융합이 필요하다. 본 논문에서는 국가R&D정보와 과학기술정보를 온톨로지와 토픽모델링을 사용하여 연계 융합하여 지식베이스를 구축한 방법론을 소개하고, 이를 기반으로 한 다차원 연계 지식맵 서비스를 소개한다. 국가R&D정보는 국가R&D과제와 참여인력, 해당 과제에 대한 성과 정보, 논문, 특허, 연구보고서 정보들을 포함한다. 과학기술정보는 논문, 특허, 동향 등의 과학기술연구에 대한 기술 문서를 일컫는다. 본 논문에서는 지식베이스에서의 지식 처리 및 관리의 효율성을 높이기 위해 Lightweight 온톨로지를 사용한다. Lightweight 온톨로지는 국가R&D과제 참여자와 성과정보, 과학기술정보를 과제-성과 관계, 문서-저자 관계, 저자-소속기관 관계 등의 단순한 연관관계를 이용하여 국가R&D정보와 과학기술정보를 융합한다. 이러한 단순한 연관관계만을 이용함으로써 지식 처리의 효율성을 높이고 온톨로지 구축 과정을 자동화한다. 보다 구체적인 Concept 레벨에서의 온톨로지 구축을 위해 토픽모델링을 활용한다. 토픽모델링을 활용하여 국가R&D정보와 과학기술정보 문서들의 토픽 주제어를 추출하고 각 문서 간 연관관계를 추출한다. 일반적인 Concept 레벨에서의 Fully-Specified 온톨로지를 구축하기 위해서는 거의 100% 수동으로 해야 하기 때문에, 많은 시간과 비용이 소모된다. 본 연구에서는 이러한 수동적인 온톨로지 구축이 아닌 자동화된 온톨로지 구축을 위해 토픽모델링을 활용한다. 토픽모델링을 활용하여 온톨로지 구축에 필요한 문서와 토픽 키워드 간의 관계, 문서 간 의미 상 연관관계를 자동으로 추출한다. 마지막으로, 이와 같이 구축된 지식베이스의 트리플(Triple) 정보를 활용하여, 연구자들의 공동저자관계, 문서간의 공통주제어관계 등을 연구자, 주제어, 기관, 저널 등의 다차원 연관관계를 방사형 네트워크 형식을 이용하여 시각화한 지식맵 서비스들을 소개한다.

기록관리학의 발전을 위한 교육과정연구 -준하태(駿河台)(스루가다이)대학(大學)의 경우를 중심(中心)으로- (A Study on the Curriculum for Record Management Science Education - with focus on the Faculty of Cultural Information Resources, Surugadai University; Evolving Program, New Connections)

  • 김용원
    • 한국기록관리학회지
    • /
    • 제1권1호
    • /
    • pp.69-94
    • /
    • 2001
  • 본 논문의 목적은 일본에서의 기록관리학 교육의 현황을 개관하고, 몇 가지 중요한 이슈와 문제점을 언급하면서 이 분야의 급속한 성장의 영향을 살펴보는 것이다. 기록관리학 교육의 목적은 정보서비스의 질을 향상시키고 정보전문가의 적절한 공급을 보장하는 것이다. 기록관리학프로그램은 학생들에게 전문직업 교육을 하는 것이므로 교육과정에는 교육과 실무 훈련이 모두 포함되어야 한다. 이점은 흔히 이론과 실제의 대비로 표현된다. 학습이 이루어지는 환경의 사회적, 경제적 및 기술적 현실의 합류점이 양자에게 모두 영향을 준다. 본 논문은 일본에서의 기록관리학 교육의 역사적 배경과 현황을 검토한다. 또한 교육기관들의 다양한 형태의 교과과정과 교수진을 분석하되 일본 최초의 종합적인 대학 수준 프로그램인 스루가다이대학교의 학부프로그램에 초점을 둔다. 스루가다이대학교 문화정보학부는 정보학 분야를 통합한 새로운 학부로서 다양한 문화정보자원관리의 이론과 실제를 연구하기 위해 1994년도에 설립되었다. 그 목적은 archival science, records management, 박물관 학예직 및 사서직 분야에서 전문적 훈련을 제공함으로써 정보학 분야의 연구를 촉진하고 장려하는 것이다. 학부에는 두 개의 학과가 있고 각각에는 두 개의 코스가 있다; 문화정보학과. - 영상정보코스, - 관광정보코스 지식정보학과: 지식커뮤니케이션코스, 레코드 아카이브스코스 전체 교과과정의 구조는 역시 기본과목 교육부터 단계적으로 조직된다. 학생이 대학교에 입학하면 바로 수강하는 오리엔테이션과목들은 전문교육의 입문이 되며, 대학에서의 기본적인 학습 연구방법을 배운다. 1학년과 2학년 동안 학생들은 전문화를 위한 필수단계로서 기초과목과 기간과목들을 수강한다. 이를 위해 광범위한 주제의 과목들이 개설된다. 개설코스수는 약 150개에 이른다.3학년부터는 자신의 주전공이 해당하는 특정 코스를 시작하며 세미나와 실습을 통해 습득한 지식을 실제에 적용하게 된다. 각 학과에 속한 코스들은 2학년을 시작하는 학생들에게 개설된다. 그러나 두 학과 간에 넘을 수 없는 장벽은 없으며 졸업필요요건에 약간의 차이만 있을 뿐이다. 학생들은 자신이 속한 학과에 관계없이 3 4학년 세미나를 선택할 수 있다. 문헌정보학 학사학위를 받으려면 기초과목군(예: 문헌정보사회사, 문화인류학, 과학사, 행동과학, 커뮤니케이션 등)에서 34학점, 외국어에서 16학점(영어 10학점 포함), 정보처리에서 14학점(이론과 실습 포함), 그리고 자신의 전공코스에서 60학점을 취득해야 한다. 마지막으로 일본 기록관리학교육이 당면하고 있는 몇 가지 과제와 문제점을 아래와 같이 간단히 요약한다. - 관련 분야 및 유사 프로그램과의 결합 및 조화, - 교과과정 개선, - 교과서 부족, - 유능한 교수의 부족, - 졸업생의 취업문제 정보서비스가 점점 더 복합, 통합, 멀티미디어어화 되어감에 따라 정보전문직들은 다른 분야의 전문가들과 더욱 긴밀하게 협력할 필요가 있을 것이다. 아키비스트, 레코드메니저 및 박물관 큐레이터와 함께 일하는 것이 정보전문직으로서의 사서직의 생존에 필수적이 될 것이다. 더욱 정보화되는 사회에서 변화를 견뎌내려면 문화기관 내 모든 사람들의 강력한 연대가 요구된다. 미래의 동료들이 경쟁력을 갖게 하기 위해서는 정보전문직 간에 그리고 국경을 넘어서 파트너쉽을 구축하고 강화할 필요가 있을 것이다.