• 제목/요약/키워드: 주제어 추출

검색결과 149건 처리시간 0.029초

용어 자동분류를 사용한 검색어 범주화의 분석적 고찰 (An Analytic Study on the Categorization of Query through Automatic Term Classification)

  • 이태석;정도헌;문영수;박민수;현미환
    • 정보처리학회논문지D
    • /
    • 제19D권2호
    • /
    • pp.133-138
    • /
    • 2012
  • 검색 창을 통해 입력된 검색어는 정보이용자가 의미 있는 자료를 찾아내는 적극적인 활동의 산물이다. 따라서 검색로그는 정보이용자의 관심사항을 알 수 있는 중요한 분석 데이터이다. 본 연구의 목적은 입력한 검색어의 범주화 결과와 엑세스한 문서의 범주가 어느 정도 유사한 상관관계를 가지는지 분석적으로 고찰해보는 것이다. KISTI(한국과학기술정보연구원)의 NDSL(과학기술정보센터) 사이트의 2009년 검색로그의 검색세션을 식별하고 검색세션단위로 검색어와 이용 자료를 추출한 후, 검색어에 대해 어떤 주제 분류에 속하는 용어인지 자동분류기로 식별한 결과가 실제 이용한 자료의 주제 분야와 잘 맞는지 비교하였다. 그 결과 상위 100개 검색어 분류에 대한 유사도 평균이 58.8%로 파악되었다. 결국 전체적인 유사도는 58.8%이하이며, 관련 연구에서 수행한 자료의 자동분류 검색성능 전문가 평가 결과인 76.8%에 비해 낮다. 이것은 검색어로 쓰인 용어가 다른 연구 분야의 관심 용어로 새롭게 주목 받고 있기 때문이라는 사실을 알 수 있었다.

베이지안 추론망 기반 색인어의 심층 분석 방법 (Deep Analysis on Index Terms Using Baysian Inference Network)

  • 송사광;이승우;정한민
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2012년도 제24회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.84-87
    • /
    • 2012
  • 대분분의 검색 엔진에서 색인어의 추출 및 가중치의 부여방법은 매우 중요한 연구주제로, 검색 엔진의 성능에 큰 영항을 미친다. 일반적으로, 불용어 리스트를 통해 성능에 긍정적인 영향을 미치지 않는 색인어를 제거하거나, 핵심어 또는 전문용어 등 상대적으로 중요한 색인어를 강조하는 방식을 사용하여 검색엔진의 성능을 향상시킨다. 하지만, 어절 분리, 형태소 분석, 불용어 처리 등 검색엔진의 단계열 처리 과정에서, 개별적인 색인어가 검색엔진에 미치는 영향을 분석하고 이를 반영한 검색 엔진 성능 향상 기법은 제시되지 않고 있다. 따라서 본 연구에서는 각 단계별 처리 과정에서 생성된 색인어가 미치는 영항을 계랑화하여 긍정적/부정적 색인어를 분류하는 방법론을 소개하고, 이를 기반으로 색인어 가중치를 조절함으로써 검색 엔진의 성능 또한 향상 가능한 방법을 소개한다.

  • PDF

주제 유사성 기반 클러스터링을 이용한 블로그 검색기법 연구 (Study for Blog Clustering Method Based on Similarity of Titles)

  • 이기준;이명진;김우주
    • 지능정보연구
    • /
    • 제15권2호
    • /
    • pp.61-74
    • /
    • 2009
  • 웹 2.0에 기반한 정보화 사회에 있어 참여를 통한 자료의 축적 속도는 더욱 더 가속화 되어가고 있다. 이러한 현상속에서, 웹 2.0으로 인해 정보의 저장 및 공유 형태 역시 단순 웹 페이지에서 블로그로 나아가 포드캐스팅, 비디오 등의 다양한 모습으로 분화되어가고 있는 실정인데, 이는 웹 상의 정보에 대한 통합적이고 효율적인 접근을 오히려 방해할 수 있는 요소이기에 보다 효과적인 정보 검색 방법을 요구하게 된다. 본 연구에서는 특히 블로그 검색에 초점을 맞추어 기존 웹 검색 방식의 문제점을 도출, 해결하고자 한다. 논문에서 제안하고자 바는 특정 검색어에 대해 블로그 검색을 수행한 후, 검색 결과에서 주요 주제들을 효과적으로 추출하고, 주제별로 결과물들을 클러스터링하여 순위별로 제공하고자 하는 것이다. 이를 통해 블로그 검색에의 정보 추출에서 사용자에게 특정 검색어에 대해 보다 동적인 추가 주제 카탈로그를 제시함으로써 대량의 의미 없는 정보들을 단순 브라이징하는 방식을 벗어날 수 있으며, 빠르게 검색 의도에 유의한 자료들에 접근할 수 있도록 할 수 있다.

  • PDF

텍스트마이닝을 이용한 국내 만성질환자 대상 모바일 헬스 중재연구 동향 분석 (Analysis of research trends on mobile health intervention for Korean patients with chronic disease using text mining)

  • 손연정;이수경
    • 디지털융복합연구
    • /
    • 제17권4호
    • /
    • pp.211-217
    • /
    • 2019
  • 국내 만성질환 관리에서 모바일 헬스 적용이 임상적으로 유용하다는 보고가 증가됨에 따라, 본 연구는 텍스트 마이닝 기법을 적용하여 국내 외 학술지에 게재된 국내 만성질환자 대상 모바일 헬스 중재연구의 특성 및 중심 키워드의 변화를 파악하고자 시도된 이차분석연구이다. 분석대상 논문은 2005년부터 2018년까지 학술지에 게재된 최종 20편으로, 추출한 텍스트는 Microsoft Excel을 활용하여 논문별 분석을 실시하였고, Text Analyzer를 사용하여 주제어를 추출하였다. 연구결과, 모바일 헬스 중재 연구는 고혈압, 당뇨병, 뇌졸중 관상동맥질환자에 주로 적용되었다. 가장 많이 사용된 중재 유형은 애플리케이션 개발이었으며, 최근 연구에서는 주로 '유용성', '모바일 헬스', '결과측정' 등의 단어들이 가장 많이 출현하였다. 추후 만성질환자 대상 모바일 헬스 중재에 관한 국내 외 연구 모두를 포함하여 주제어 간의 연관성을 확인할 수 있는 사회연결망 분석방법을 적용하여 그 효용성을 확인해볼 것을 제안한다.

구문 . 통계적 기법을 이용한 한국어 자동색인에 관한 연구 (An experiment in automatic indexing with korean texts : a comparison of syntactico-statistical and manual methods)

  • 서은경
    • 정보관리학회지
    • /
    • 제10권1호
    • /
    • pp.97-124
    • /
    • 1993
  • 본 논문은 자연어 형태의 한국어 텍스트 부터 주제를 대표할 수 있는 색인어를 자동으로 추출하는 실험적인 구문 . 통계적 자동색인 시스템을 구현하였다. 구문 . 통계적 자동색인 시스템은 형태소 분석과 단어 가증 기법을 이용하여 단일어와 명사구를 동시에 선택하는 자동색인 시스템을 말한다. 시스템의 성능을 측정하기 위하여, 300개의 우리말 학술 및 학위논문 초록에서 선택된 단일 . 복합어 색인어를 수작업 색인과 비교하였다. 이와 같은 실험 결과를 가지고 아직 미흡한 연구상태인 우리말 자동색인 개발에 있어서 필요한 기초자료를 제시하였다.

  • PDF

한국어 뉴스 분석 성능 향상을 위한 번역 전처리 기법 (Translation Pre-processing Technique for Improving Analysis Performance of Korean News)

  • 이지민;정다운;구영현;유성준
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송∙미디어공학회 2020년도 하계학술대회
    • /
    • pp.619-623
    • /
    • 2020
  • 한국어는 교착어로 1개 이상의 형태소가 단어를 이루고 있기 때문에 텍스트 분석 시 형태소를 분리하는 작업이 필요하다. 자연어를 처리하는 대부분의 알고리즘은 영미권에서 만들어졌고 영어는 굴절어로 특정 경우를 제외하고 일반적으로 하나의 형태소가 단어를 구성하는 구조이다. 그리고 영문은 주로 띄어쓰기 위주로 토큰화가 진행되기 때문에 텍스트 분석이 한국어에 비해 복잡함이 떨어지는 편이다. 이러한 이유들로 인해 한국어 텍스트 분석은 영문 텍스트 분석에 비해 한계점이 있다고 알려져 있다. 한국어 텍스트 분석의 성능 향상을 위해 본 논문에서는 번역 전처리 기법을 제안한다. 번역 전처리 기법이란 원본인 한국어 텍스트를 영문으로 번역하고 전처리를 거친 뒤 분석된 결과를 재번역하는 것이다. 본 논문에서는 한국어 뉴스 기사 데이터와 번역 전처리 기법이 적용된 영문 뉴스 텍스트 데이터를 사용했다. 그리고 주제어 역할을 하는 키워드를 단어 간의 유사도를 계산하는 알고리즘인 Word2Vec(Word to Vector)을 통해 유사 단어를 추출했다. 이렇게 도출된 유사 단어를 텍스트 분석 전문가 대상으로 성능 비교 투표를 진행했을 때, 한국어 뉴스보다 번역 전처리 기법이 적용된 영문 뉴스가 약 3배의 득표 차이로 의미있는 결과를 도출했다.

  • PDF

정보조직 지식구조에 대한 연구 - 2000년~2011년 학술논문을 중심으로 - (Knowledge Structures in Knowledge Organization Research: 2000-2011)

  • 박옥남
    • 한국비블리아학회지
    • /
    • 제22권3호
    • /
    • pp.247-267
    • /
    • 2011
  • 본 연구는 내용분석과 네트워크 분석을 사용하여 국내 정보조직분야 지식구조를 조사하고자 하였다. 이를 위해 2000년부터 최근까지 정보조직분야 논문을 바탕으로 저자키워드, 초록, 저자, 저자소속기관을 추출하여 용어의 빈도를 측정하는 것은 물론 용어 간 연관관계를 분석하였다. 이를 위해 네트워크상에서 각 노드의 연결중심성, 근접중심성, 위세중심성을 산출하였다. 그 결과 정보조직 연구주제어는 좁고 복잡한 네트워크를 형성하고 있으며 주제어 사이에 직접적인 연결이 많이 이루어지고 있음을 알 수 있다. 목록과 분류는 여전히 정보조직의 중심축을 담당하고 있는 반면, 메타데이터, 온톨로지가 새로운 연구 분야로 부상하였다. 반면에 저자소속기관 및 저자는 넓은 네트워크를 형성하고 있었으며 협력이 활발하지 않았다.

텍스트 영역에 대한 단어 단위 분할 시스템 (A System for the Decomposition of Text Block into Words)

  • 정창부;곽희규;정선화;김수형
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2000년도 추계학술발표논문집 (상)
    • /
    • pp.293-296
    • /
    • 2000
  • 본 논문에서는 주제어 인식에 기반한 문서영상의 검색 및 색인 시스템에 적용하기 위한 단어 단위 분한 시스템을 제안한다. 제안 시스템은 영상 전처리, 문서 구조 분석을 통해 추출된 텍스트 영역을 입력으로 단어 단위 분할을 수행하는데, 텍스트 영역에 대해 텍스트 라인을 분할하고 분할된 텍스트 라인을 단어 단위로 분할하는 계층적 접근 방법을 사용한다. 텍스트라인 분할은 수평 방향 투영 프로파일을 적용하여 분할 지점을 구한다. 그리고 단어 분할은 연결요소들을 추출한 후 연결요소간의 gap 정보를 구하고, gap 군집화 기법을 사용하여 단어 단위 분한 지점을 구한다. 이때 단어 단위 분할의 성능을 저하시키는 특수기호에 대해서는 휴리스틱 정보를 이용하여 검출한다. 제안 시스템의 성능 평가는 50개의 텍스트 영역에 적용하여 99.83%의 정확도를 얻을 수 있었다.

  • PDF

아동의 작업 연구주제어의 사회연결망 분석 (Social Network Analysis on Research Keywords of Child-Occupation Studies)

  • 하성규;박강현
    • 재활치료과학
    • /
    • 제12권4호
    • /
    • pp.39-51
    • /
    • 2023
  • 목적 : 본 연구는 국내 학술지를 대상으로 아동의 작업과 관련된 연구주제어의 사회연결망 분석을 통해 아동의 작업과 관련된 연구들의 지적 구조를 규명하고자 한다. 연구방법 : 2003년 8월부터 2023년 8월까지 한국학술지인용색인(Korean Citation Index)에 "아동 and 작업" 키워드를 가진 270편의 연구에서 3,364개의 키워드를 추출하여 분석하였다. 분석도구는 넷마이너(NetMiner) 프로그램을 활용하였다. 결과 : 연구 시기별 아동의 작업 관련 연구주제어의 변화는 없었으며 다만 과거 10년에는 97편의 연구가 있었고 최근 10년에는 173편의 연구가 게재되어 양적 변화가 있었다. 아동의 작업 관련 주제어에서 가장 높은 연결 중심성(degree centrality)을 가진 단어는 Task (0.055), Group therapy (0.040), Working memory (0.037), Intervention (0.033), Performance (0.030), Language (0.026), Ability (0.026), Skill (0.024), Program (0.023) 순이었다. 단어동시 발생 네트워크(Word network)에서 가장 가중치가 높은 단어는 Evaluation-Tool (30), School-Student (15), Activity-Participation (15)이었고, topic modeling에서 각 주제들의 첫 번째 키워드는 Activity (0.295), Disability (0.604), Education (0.356), Skill (0.478), School (0.317), Function (0.462), Disorder (0.324), Language (0.310), Comprehension (0.412), Training (0.511)으로 나타났다. 결론 : 본 연구는 국내 아동의 작업 관련 연구 분야의 경향을 설명했다. 따라서 국외와 국내 연구 흐름을 비교하는 후속 연구가 뒤따라야 할 것이며, 이러한 노력은 국내 연구와 국외 연구의 격차를 해명함으로써 국내 아동의 작업관련 연구 분야에 대한 귀중한 통찰력을 제공할 것이다.

자연어 처리, 통계적 기법, 적합성 검증을 이용한 자동색인 시스템에 관한 연구 (A Study on Automatic Indexing System Using natural language Processing, Statistical Technique, Relevance Verification)

  • 유춘식;우선미;유철중;이종득;권오봉;김용성
    • 한국정보처리학회논문지
    • /
    • 제5권6호
    • /
    • pp.1552-1562
    • /
    • 1998
  • 형태소 분석(Morphological Analysis)과 같은 언어학적 처리에 의존하는 기존의 한국어 문헌에 대한 자동색인 기법들은 품사의 애매모호함이나 복합명사의 처리 등으로 부담(overhead)이 크다. 또한 불용어 처리에 사용되는 불용어 리스트가 대상 문헌의 주제 분야별로 따로 구축되어야 하며 그 크기가 방대하다는 문제점이 있다. 이러한 문제점들을 해결하기 위해, 본 논문에서는 각 문헌의 텍스트에 대해 복합명사 처리나 애매모호함에 대한 엄격한 분석을 수행하지 않는 간단한 형태의 형태소 분석을 수행하여 단순명사들을 추출한다. 그런 후 이들 단순명사들을 이용하여 유한 오토마타(Finite Automata)를 구성하고, 구성된 유한 오토마타와 각 명사의 단어빈도(Term Frequency)에 의해 각 색인어 후보들의 중요도를 계산하는 자동색인 기법을 제안한다. 그 결과 품사의 애매모호함에 대한 처리나 복합명사의 처리에따른 부담을 줄일 수 있었으며, 선정된 색인어들과 수작업으로 선정한 색인어들의 비교 실험에 의해 제안한 자동색인 기법의 성능을 검증하였다.

  • PDF