• 제목/요약/키워드: 주제어 추출

검색결과 149건 처리시간 0.028초

국내 학술지 논문의 주제어를 통한 학술연구분야 관계분석 (Relation Analysis Among Academic Research Areas Using Subject Terms of Domestic Journal Papers)

  • 이혜영;곽승진
    • 한국비블리아학회지
    • /
    • 제22권3호
    • /
    • pp.353-371
    • /
    • 2011
  • 본 연구의 목적은 국내 연구자들의 연구 성과물인 학술지 논문에 나타난 학문분야의 상호관계성과 연관성에 대한 연구로 연구동향에 대한 시사점을 제시하는 것이다. 학술논문을 이용한 계량적 연구는 주로 논문의 초록, 자동추출 키워드, 논문의 풀텍스트를 활용하는 것이 일반적이나 본 연구는 실험대상 학술논문의 저자가 제시한 주제어에 초점을 두었다. 실험대상 자료는 2009년도 한국연구재단 등재학술지 80종으로 학술논문 7,616건, 주제어 58,143건이다. 자료 분석결과 공학, 농수해양, 복합학, 사회, 예술체육, 의약학, 인문, 자연과학 등의 8개 각 연구분야는 주제어 사용에서 차이점을 보였다. 특히 공학분야의 주제어가 다른 연구 분야에서도 주제어로 많이 사용되고 있었다. 또한 주제어 네트워크를 통해 연구분야를 클러스터링 한 결과, 3개 클러스터를 얻을 수 있었다. 클러스터A는 '공학', '자연과학', '사회', '복합학', '인문', 클러스터B는 '의약학', '예술체육', 클러스터C는 '농수해양'이었다.

백과사전 영역에서 중심어주도패턴에 기반한 문장주제 할당 기법 (A Sentence Theme Allocation Scheme based on Head Driven Patterns in Encyclopedia Domain)

  • 강보영;맹성현
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제32권5호
    • /
    • pp.396-405
    • /
    • 2005
  • 기존의 주제 관련 연구들은 문서에 자주 등장하는 용어를 주제로 간주하는 등 문서에서 다루는 주제에 대한 정의가 모호하다. 또한 문서를 구성하는 기본 단위인 문장의 주제가 문서 요약 및 정보 추출 등의 연구 분야에 중요하게 활용될 수 있음에도 불구하고, 이에 대한 고려 없이 문서 전체의 주제를 추출하고 할당하는 연구가 대부분이다. 따라서 본 논문에서는 문장 단위의 주제 처리에 대한 기본 연구로서, 백과사전 영역에서 효과적인 중심어주도패턴에 기반한 문장주제 할당 기법을 제안하였다. 두산동아 백과사전 인물분야 2,381문서를 대상으로 성능을 분석해본 결과, 제안된 기법이 비교기준보다 향상된 성능을 보였으며, 특히 제안된 네 가지 중심어주도 패턴 중 술어를 기반으로 구성된 중심어주도패턴 유형 4가 학습집합에 대하여 평균 $98.96\%$, 실험집합에 대하여 $88.57\%$의 성능(F-score)으로 주제할당에 가장 효과적임을 알 수 있었다.

조사 유형 및 복합명사 인식에 의한 용어 가중치 부여 기법 (Term Weighting Method by Postposition and Compound Noun Recognition)

  • 강승식;이하규;손소현;홍기채;문병주
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (2)
    • /
    • pp.196-198
    • /
    • 2001
  • 문서의 내용을 대표하는 용어를 추출하기 위해 일반적으로 영어에서는 명사구를 색인하는 기법을 사용하지만 주제어 추출의 관점에서 영어의 명사구가 한국어의 복합명사에 해당하기 때문에 한국어에서는 복합명사 색인 기법을 중요시하고 있다. 본 논문에서는 한글 문서에서 추출된 용어의 가중치를 결정하기 위하여 경험적인 방법에 따라 가중치를 계산하는 방법을 제안한다. 구체적인 가중치 계산 방법으로 용어 자체의 특성에 의한 가중치를 부여한 후에, 복합명사의 경계를 인식하여 띄어쓴 복합명사의 가중치를 조절하고, 다시 용어의 조사 유형에 따라 가중치를 재계산하는 방법을 제안한다. 신문기사에 대한 실험결과에 의하면 제안한 방법이 단순 출현빈도에 의한 주제어 추출 기법보다 정확도가 더 높았다.

  • PDF

주제어 가중치 기법에 의한 효율적인 블로그 검색 시스템 (Efficient Blog Retrieval System by Topic-based Weighting)

  • 신현일;윤은일;류근호
    • 한국컴퓨터정보학회논문지
    • /
    • 제15권4호
    • /
    • pp.1-9
    • /
    • 2010
  • Web 2.0으로 불리는 새로운 세대의 웹에서, 블로그를 통하여 누구나 손쉽게 정보나 의견을 세상에 알릴 수 있게 되었고 이러한 블로그를 효과적으로 검색하기 위해서 블로그의 특성을 고려한 검색 알고리즘들이 새롭게 제안이 되고 있다. 그러나 실제 블로그 검색 시스템에 적용된 키워드 기반 검색이나 블로그간의 링크 분석을 통한 랭킹만으로는 사용자가 기대하는 성능을 발휘하지 못한다. 본 논문에서는 검색 결과를 향상시키기 위해 블로그 글과 검색어와의 연관성을 고려한 주제어 가중치 기반의 블로그검색 시스템을 제안한다. 제안된 시스템은 블로그 글 마다 주제어(Topic)를 추출하여 색인어보다 더 높은 가중치를 부여한다. 기존 시스템과의 비교에서 제안된 방법이 실제 검색 결과에서 재현율이 향상됨을 알 수 있었다.

한국어 정보검색 시스템의 성능 향상을 위한 용언 색인 (Predicates Indexing for efficiency improvement in Korean Information Retrieval System)

  • 박진희;박대원;박민식;남현숙;김광영;권혁철
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 가을 학술발표논문집 Vol.27 No.2 (2)
    • /
    • pp.164-166
    • /
    • 2000
  • 지금까지 대부분의 정보검색 시스템은 명사만을 색인어로 추출하여 사용하였다. 명사는 문서를 대표할 수 있는 어휘 요소이다. 그러나 명사 색인어만 가지고는 문서의 주제를 정확하게 나타낼 수 없다. 본 논문은 명사 색인어와 함께 용언도 색인어로 추출하여 사용하는 한국어 정보 검색시스템을 제시한다. 또한, 용역 색인어와 명사 색인어의 상대적 가중치를 검색에 이용하여 사용자의 질의에 적합한 문서를 검색할 수 있도록 한다. 이러한 과정에서 발견된 문제점은 향후 연구 과제로 계속 향상시켜나갈 것이다.

  • PDF

뉴노멀(New Normal) 시대 언어네트워크 분석에 의한 예술정책 방향 연구 (A Study on the Direction of Art Policy through Semantic Network Analysis in New Normal Era)

  • 김미연;권병웅
    • 예술경영연구
    • /
    • 제58호
    • /
    • pp.153-177
    • /
    • 2021
  • 본 연구는 코로나19로 촉발된 뉴노멀 시대의 예술정책에 관한 이론과 국내외 정책 동향을 바탕으로 언어네트워크 분석을 시도하였다. 이를 위해 2020년 3월부터 9월까지의 '코로나'와 '예술'의 키워드가 들어간 자료를 구글(Google)뉴스와 웹(web)문서에서 수집하여 227개의 정제된 주제어를 추출하였고, 추출된 주제어를 넷마이너 프로그램을 통해 주제어 빈도분석과 중심성을 지표로 분석하였다. 또한 각 주제어 간의 관계 분석을 위해 언어네트워크의 시각화 분석을 시도하였다. 분석결과 가장 많은 빈도수를 드러낸 주제어는 '코로나'였고, '문화예술', '예술', '공연', '온라인', '지원'이 최다 빈도수를 기록한 그룹에 포함되었다. 중심성 분석에서는 '코로나'가 가장 빈도가 높았고, '시대', '이후', '포스트', '예술', '문화예술' 순으로 나타나 빈도수가 높은 '코로나'와 '예술', '문화예술'은 대부분의 중심성에서도 우위를 차지했다. 특히, 주제어 빈도수와 중심성 분석에서 공통으로 상위를 차지하는 주제어는 '온라인'과 '지원' '정책'이다. 이는 코로나19로 인해 사회적 거리두기의 일상화에 따라 비대면·온라인콘텐츠의 급부상과 예술계에 대한 지원정책이 필요함을 나타내고 있다고 볼 수 있다.

색인어 선정을 위한 어휘결집력에 관한 연구 (Study on the Vocabulary Synthesis for Index Term Selection)

  • 김철;정준민
    • 정보관리학회지
    • /
    • 제13권1호
    • /
    • pp.205-226
    • /
    • 1996
  • 본 연구는 정보결집력을 응용한 자동 색인어 선정 기법에 관한 연구로 한 문장내에 나타난 임의의 어휘가 그 문장을 표현하기 위한 의미있는 집합이라는 가설 하에 어휘쌍 그래프를 통하여 색인어를 추출하였다. 특히, 그래프에 나타난 어휘 관계에서 각 어휘의 전체 어휘쌍 그래프에 대한 결집력을 분석하여 그 결집력을 색인어 선정의 우선 순위로 제안하였다. 가설을 검증하기 위하여 먼저 논문의 제목 및 초록에서 두 문장 이상에 동시 출현한 어휘쌍을 추출하였다. 다음으로 추출한 어휘쌍과 저자가 제시한 색인어 또는 주제명과 비교하였으며 그 결과 어휘쌍 그래프에 나타난 어휘가 대부분 색인어 또는 주제명에 사용되고 있음을 분석하였다. 그 중에서도 특히, 어휘쌍 그래프에서 어휘결집력이 높은 어휘일수록 그 논문의 내용을 전달하는 의미있는 색인어로 채택될 가능성이 높음을 보여 주었다.

  • PDF

MeSH를 이용한 개념 기반 검색 엔진 시스템 (Concept-based Search Engine System Using MeSH)

  • 고삼일;박사준;황수철;김기태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.383-385
    • /
    • 2003
  • 본 논문에서는 개념 기반 검색엔진 시스템(Concept-based Search Engine System)의 검색 정확도를 향상시키기 위한 방법으로 MeSH를 이용하였다. MeSH는 Medical Subject Headings의 약자로서 MEDLINE 논문의 원활한 검색을 위하여 주제어를 코드화한 것으로 이를 개념 그래프의 시소러스로 사용하여 개념 그래프의 가장 중요한 부분인 개념 추출의 정확성을 보장하도록 하였다. 본 논문은 2003년 MeSH의 Descriptor Data의 Term 항목을 사용하여 개념과 관련이 있는 유의어를 추출했다. 추출된 유의어로 개념 그래프를 구성한 것과 문서 내에서의 단어 빈도수에 의하여 개념 그래프를 구성한 것의 검색 결과를 비교한 결과 MeSH 를 시소러스로 사용하여 개념 그래프를 구성한 것이 훨씬 더 정확한 결과를 내는 것을 확인할 수 있었다.

  • PDF

자동요약의 주제어 추출을 위한 의미사전의 동적 확장 (Dynamic Expansion of Semantic Dictionary for Topic Extraction in Automatic Summarization)

  • 추교남;우요섭
    • 전기전자학회논문지
    • /
    • 제13권2호
    • /
    • pp.241-247
    • /
    • 2009
  • 본 논문에서는 자동문서요약 시스템에서 정확하고 실용적인 주제어 추출을 위하여 한국어의 의미론적 특성을 고려한 의미사전의 확장 방법론에 대하여 논하고자 한다. 첫째로 동의어 사전을 통하여 의미표지 분석의 정확도를 높이고자 한다. 둘째로 하위범주화사전에 가중치를 부여하여 구문과 의미 분석에서 가장 올바른 분석 결과를 결정하는 참조 정보로 활용하고자 한다. 셋째로 미등록 용언의 하위범주화패턴 예측을 통하여 한국어에서 접사 파생되는 용언에 대하여 원활한 의미 분석을 수행할 수 있도록 한다.

  • PDF

시맨틱 웹 응용 서비스에서의 텍스트 처리 기술 적용 (Use of Text Processing Technologies in a Semantic Web Application)

  • 정한민;강인수;구희관;이승우;김평;성원경
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2006년도 제18회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.189-196
    • /
    • 2006
  • 본 논문은 시맨틱 웹 응용 서비스를 구현함에 있어 필수적으로 요구되는 온톨로지 인스턴스 구축을 효율적으로 처리하는 데 있어 텍스트 처리 기술이 어떤 역할을 수행할 수 있는 가를 $OntoFrame-K^{(R)}$라는 시맨틱 웹 기반 정보 유통 체계에의 적용 사례를 통해 살펴본다. 본 논문에서 소개하는 텍스트 처리 기술은 개체 확인물 통한 개념 사례화, 주제 분야 할당을 통한 메타데이터 확장에, 그리고 인용 정보 추출 및 인용 관계 구축을 통한 객체 관계속성 구축에 적용된다. 개체 확인에서는 메타데이터 비교 잊 병합을 사용하였으며 이를 기반으로 한 수작업 구축을 통해 8,543명의 인력 URI를 확보하였다. 주제 및 분야 할당에서는 색인어와 분야분류명이 매핑된 시소러스 개념어의 매칭을 통해 색인어 별 TF (Term Frequency), 색인어와 매칭된 개념어 별 TF, 색인어와 매칭된 개념어 별 시소러스에서의 깊이, 색인어와 매칭된 개념어 별 개념 패싯, 색인어와 매칭된 각 개념어에 부착된 분야분류명 목록 등 할당을 위한 다양한 자질을 확보 적용하였다. 인용 정보 추출과 인용 관계 구축에서는 객체 URI와 인력 URI를 기반으로 하여 자동 추출된 인용 정보를 반영하는 방식으로 7,237개 문헌으로부터 총 135개의 인용 네트워크 그룹을 자동으로 확보하였다. 본 연구를 통해 제시된 텍스트 처리 기술의 활용 방안이 향후 시맨틱 웹 응용 서비스 및 인프라 구현에서 다각적으로 활용될 수 있기를 기대한다.

  • PDF