• 제목/요약/키워드: 문헌 군집화

검색결과 50건 처리시간 0.022초

신경망 GHSOM을 이용한 의료 문헌 정보의 군집화 (Medical Document Clustering using the Growing Hierarchical SOM)

  • 허진석;김인철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 춘계학술발표논문집 (상)
    • /
    • pp.519-522
    • /
    • 2002
  • 일반적으로 PubMed와 같은 인터넷을 이용한 대규모 의료 문헌정보 검색시스템에서 포괄적인 주제어나 간결한 주제어를 이용한 검색을 시도할 경우, 종종 매우 다양한 세부주제의 문헌리스트들이 다량으로 검색된다. 이러한 경우 이용자는 실제로 본인이 원했던 세부주제에 부합되는 문헌들을 찾기 위해서는 검색결과로 주어진 긴 문헌리스트상의 문헌 하나하나에 대해 다시 문헌제목이나 혹은 요약 등의 내용을 직접 읽어보고 내용을 확인하여야 한다. 이러한 작업은 매우 번거럽고 시간과 노력을 많이 필요로 한다. 따라서 본 논문에서는 이러한 노력을 줄이기 위한 한 가지 방안으로, PubMed 시스템의 주제어 검색결과로 주어진 문헌들에 대해 내용의 유사성과 차별성에 따라 자동으로 몇 개의 그룹으로 나누어주는 군집화시스템 MedCluster의 설계와 구현에 대해 소개한다. MedCluster의 큰 특징은 기존의 문서 군집화 방법과는 다른 신경망 GHSOM을 이용한 군집화 방법을 사용하는 점이다. GHSOM은 미리 문서 그룹의 개수를 정해줄 필요가 없고 다양한 레벨의 문서 그룹들을 얻을 수 있는 계층적 군집화를 이루어낸다는 장점을 가지고 있다. 본 논문에서는 신경망 GHSOM의 구조와 특성에 대해 간략히 살펴보고, GHSOM을 채용한 의료문헌 군집화시스템 MedCluster의 설계와 구현에 대해 설명한다.

  • PDF

군집 중심 기반 문헌 검색 결과의 시각화 (Visualization Method of Document Retrieval Result based on Centers of Clusters)

  • 지태창;이현진;이일병
    • 한국콘텐츠학회논문지
    • /
    • 제7권5호
    • /
    • pp.16-26
    • /
    • 2007
  • 기존의 문헌검색시스템은 검색 결과를 시각화하기 어렵기 때문에 문헌 제목과 검색어가 존재하는 부분에 대한 요약문을 보여주는 형태가 대부분이다. 이러한 방식은 문헌 검색 결과가 많은 경우 한 번에 문헌들을 살펴보는데 어려움이 있고, 문헌들간의 연관성을 알아보기 어렵다. 따라서, 본 논문에서는 웹 환경에 적합하도록 실시간으로 문헌 검색 결과를 시각화하는 방법을 제안하였다. 이를 위하여, 군집의 중심을 다차원 척도에 의해 저 차원 평면에 투사하는 단계와 오비탈 모형에 기반하여 개별 문헌들을 군집 중심을 기준으로 저 차원 평면에 표현하는 2단계 시각화 알고리즘을 제안하여, 문헌 군집의 관계를 쉽게 알아보고 개별 문헌들 사이의 유사성을 쉽게 확인할 수 있도록 하였다. 벤치마크 데이터와 실 데이터에 적용하여 실험하였으며, 실시간으로 검색 결과를 시각화 할 수 있다는 것을 실험을 통해 확인할 수 있었다.

DDC 주류구분법에 관한 연구 (A Study on the Main Classes of DDC)

  • 남태우
    • 한국문헌정보학회지
    • /
    • 제43권1호
    • /
    • pp.27-56
    • /
    • 2009
  • 이 논문은 DDC의 주류설정에 대한 논리성을 규명하는데 목적이 있다. 어떤 분류법이든 군집화와 순차화가 선행된다. 주류설정은 군집화과정이다. 군집화 과정속에서 2차적으로 순차화가 고려되는 것이다. 따라서 분류법에서 군집화는 분류표를 구성하는데 가장 중요한 요소이다. 그렇기 때문에 주류설정에서 논리성이 강하게 요구되는데 DDC에서 각 주류는 특수도서관 개념에서 출발하였기 때문에 논리성은 약하다. 그러나 역사적 사실을 통해 주류설정의 논리성을 규명하고자 하였다.

이용자 관련 연구논문에 대한 주제어 분석 (A Keyword analysis on the 'user' related research papers : In Library and Information Science)

  • 박선미;오경묵
    • 한국정보관리학회:학술대회논문집
    • /
    • 한국정보관리학회 2013년도 제20회 학술대회 논문집
    • /
    • pp.43-46
    • /
    • 2013
  • 본 연구에서는 국내 문헌정보학 분야의 연구 논문 중 이용자 관련 연구 논문 125편을 대상으로 논문에 부여된 주제어간의 연결 관계를 분석 하였다. 사전 작업을 통하여 정리된 226개의 주제어에 대한 연결 관계를 네트워크 분석을 통하여 분석하고 시각화 하였다. 그래프를 통하여 주제어간 연결 강도를 확인하였고, 다른 주제어와 연결성이 높은 상위 20개의 주제어를 제시하였다. 주제어간 근접성이 높은 주제어를 군집화한 결과 14개의 군집으로 정리되었다. 다른 주제어와 연결이 없이 고립된 군집이 8개, 연결된 군집이 6개였다.

  • PDF

계층적 군집화를 통한 이스트(Yeast) 단백질의 고차 상호작용 추출 (Extraction of higher yeast protein-protein interaction with hierarchical clustering from textual data)

  • 엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 가을 학술발표논문집 Vol.29 No.2 (2)
    • /
    • pp.364-366
    • /
    • 2002
  • 본 논문에서는 텍스트 형태로 구성된 특정 생물에 대한 문헌 데이터에서 해당 생물의 주요 단백질간의 이진(binary) 관계를 추출하여 이들을 특징별로 계층적으로 군집화 함으로써 특정 현상을 나타내는 단백질간의 주요 관계를 추출하는 방법을 제시한다. 텍스트 데이터에서 단백질간의 이진관계는 기본적인 데이터마이닝 기법을 사용하여 연관규칙(association rule)의 형태로 추출하게 된다. 본 논문에서는 실험을 위해 PUBMED에서 추출한 Yeast의 주요 단백질간의 관계를 포함하고 있는 논문 데이터인 MEDLINE Abstract와 몇몇 공개 데이터베이스를 사용하였다. 실험 결과 SH3와 같이 기존에 알려진 단백질간의 단일 관계를 추출하는 것 이외에 이러한 관계들을 이용하여 클러스터링을 행한 결과 공통 현상에 작용하는 주요 단백질간의 관계들이 서로 군집화 됨을 확인 할 수 있었다. 또한 단순 이진관계가 아닌 클러스터링을 이용한 보다 상위 단계에서 단순 규칙들 간의 관계를 살펴봄으로써 단백질간의 이진관계를 추출하기 위한 데이터로 사용한 문헌 데이터에 나타나 있지 않은 1차 이상의 관계를 고찰 해 볼 수 있었다. 논문에서는 규칙 추출의 전체 과정과 함께 사용된 추출 시스템의 각 부와 데이터에 대한 설명을 다룬다.

  • PDF

문헌분류법에서의 주류설정의 원리 (A Study on Principle and Theory of Main Classes in the Library Classification)

  • 남태우
    • 한국문헌정보학회지
    • /
    • 제40권4호
    • /
    • pp.333-366
    • /
    • 2006
  • 지식분류는 개념을 설정하고 정의를 내린 후 학문명칭을 부여한다. 문헌분류법은 지식기반 원칙이므로 학문명칭을 실용성 우선으로 하여 주류명을 설정하는 단궤로부터 시작된다 어떤 분류법도 지식의 최초의 구분은 주류(main classes)를 창출하는 일이다. 주류는 일반적으로 전통적 학문분류와 등가이다. 그러나 주류의 설정은 지식구분과 동일한 순차는 존재할 수 없다. 그래서 주류를 구성하는 일은 다양할 수밖에 없다. 어느 분류법이든 두 가지 관념이 기본이 되는데 군집화와 순차화이다. 그렇다면 군집화는 주류명을 부여하는 단계라면, 순차화는 주류순을 결정하는 단계라고 할 수 있다. 문헌분류법에서 각각의 주류를 열거하고 있으나, 이에 대한 명확한 기준이나 철학이나 이론적 근거를 규명할 수는 없다. 그렇지만 이러한 주류설정의 원칙이나 이론 등은 전혀 연구된바가 없다. 따라서 본 연구에서는 분류표의 총체적인 구조의 근거가 되는 주류의 설정원칙과 그 논리를 연구하고자 함이 목적이다.

한글 저자명 군집화를 위한 계층적 기법 비교 (Exploration of Hierarchical Techniques for Clustering Korean Author Names)

  • 강인수
    • 정보관리연구
    • /
    • 제40권2호
    • /
    • pp.95-115
    • /
    • 2009
  • 저자식별은 학술문헌에 출현한 동명저자명들을 실세계의 서로 다른 사람들로 대응시키는 것이다. 이를 위해 임의의 동명저자명쌍의 유사도를 계산하고 이를 바탕으로 동명저자명 개체들을 군집화하는 단계를 거친다. 저자명의 군집화 기법으로 주로 계층적 군집법이 사용되었으나 다양한 계층적 군집법에 대한 비교 평가는 미흡했다. 이 연구는 다이스계수, 코사인유사도, 유클리디안 거리, 자카드계수, 피어슨 상관계수 등의 다양한 개체거리/유사도수식과 계층적 군집법들의 상관관계와 계층적 군집기법들의 한글 저자식별 성능에 대한 비교/분석을 다룬다.

독서문화진흥 정책에 기반한 공공도서관의 독서 프로그램 개선 방안 연구 (A Study on the Reading Program Improvement Plan of a Public Library Based on the Reading Culture Promotion Policy)

  • 조미아;곽승진
    • 한국문헌정보학회지
    • /
    • 제57권3호
    • /
    • pp.191-210
    • /
    • 2023
  • 본 연구의 목적은 도서관 프로그램의 국내외 우수 사례조사 조사를 통해 시사점을 도출하고, 미래형 도서관의 역할 변화에 부합하는 제3차 독서문화진흥 기본계획에 기반한 분석으로 공공도서관 독서 프로그램 개선 방안을 제시하는 데 있다. 이를 위하여 먼저 선행연구를 다각도로 분석하여 도서관 프로그램의 군집화 기준을 도출하였다. 이를 바탕으로 국내외 다양한 관종 도서관의 프로그램을 군집화 기준에 의거하여 분석하였다. 그리고 도서관 프로그램의 군집화 기준 및 제3차 독서문화진흥 기본계획의 4대 전략 하의 13대 중점과제에 근거하여 특정 공공도서관 독서 프로그램 현황을 분석하였다. 이를 통해 4차 산업혁명 시대 이용자의 수요를 고려하여 참여형 독서진흥 프로그램을 확대하고 포스트 코로나 시대에 대응하여 대면 도서관 서비스를 넘어 비대면, 비접촉 도서관 서비스의 제공도 함께 고려하여 공공도서관 독서 프로그램에 대한 발전 방안을 제시하였다. 이러한 분석과 적용의 시도는 궁극적으로는 단위 도서관을 넘어서 우리나라 공공도서관 서비스가 이용자의 삶에 밀착한 도서관 프로그램으로 개선되는 데 기여할 수 있을 것이라 기대한다.

과학기술용어 간 관계 도출을 위한 토픽 분석 연구 (Research of Topic Analysis for Extracting the Relationship between Science Data)

  • 김무철
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.119-129
    • /
    • 2016
  • 웹의 발달과 함께 많은 정보들이 쏟아지기 시작했다. 그에 따라서 사회 이슈들을 소셜 데이터로부터 추출하고, 이에 대한 해결 방법을 모색하는 연구에 대한 관심이 많아지고 있다. 이에 본 연구에서는 과학기술문헌들을 수집하고, 분석해서 이슈 토픽 별로 군집화 하는 연구를 수행한다. 이를 위해서 보건분야의 주요 용어들을 중심으로 수집하고, 효과적인 분석을 위한 데이터 처리 및 토픽들을 중심으로 군집화 연구를 수행한다. 그 결과, 연구 이슈들을 도출하고 사회 현상에 대한 해결 방안을 마련할 수 있는 토대를 구축하고자 한다.

우리나라 기록관리학 분야의 연구영역 분석 - 논문제목의 구문 및 의미 구조를 중심으로 - (A Study on Intellectual Structure of Records Management and Archives in Korea: Based on Syntactic and Semantic Structure of Article Titles)

  • 김규환;장보성;이현정
    • 한국문헌정보학회지
    • /
    • 제43권3호
    • /
    • pp.417-439
    • /
    • 2009
  • 본 연구는 논문제목의 구문 및 의미구조를 기반으로 국내 기록관리학 분야의 연구영역의 특성을 분석하였다. 이를 위해 1999년부터 2008년까지 국내 기록관리학 분야 전문 학술지 3종으로부터 핵심 연구논문 344개를 선정하였다. 해당 연구논문의 제목을 대상으로 구문 및 의미 구조를 분석하여 논문제목에 포함된 키워드들의 역할개념으로 '연구도메인', '연구대상', '연구초점'을 추출하였다. 추출된 3개의 역할개념별로 키워드들을 배정하여 군집화 하였다. 군집화 결과를 통해 최종적으로 국내 기록관리학 분야에서 어떤 연구대상이 핵심 연구대상이며 핵심 연구대상은 어느 연구도메인에서 어떤 연구초점에 관심을 두고 있는지를 분석하였다.