• 제목/요약/키워드: Search Keyword Extraction

검색결과 43건 처리시간 0.023초

LDA 토픽모델링을 활용한 인공지능 관련 국가R&D 연구동향 분석 (A Study on Analysis of national R&D research trends for Artificial Intelligence using LDA topic modeling)

  • 양명석;이성희;박근희;최광남;김태현
    • 인터넷정보학회논문지
    • /
    • 제22권5호
    • /
    • pp.47-55
    • /
    • 2021
  • 특정 주제분야에 대한 연구동향 분석은 대부분 논문, 특허 등 문헌정보를 대상으로 한 키워드 추출을 통해 토픽모델링 기법을 적용하여 주요 연구주제와 연도별 추이 등을 살펴보는 방식을 활용하고 있다. 본 논문에서는 국가과학기술지식정보서비스(NTIS)에서 제공하는 인공지능 관련 국가연구개발사업 과제정보를 대상으로 LDA(Latent Dirichlet Allocation) 토픽모델링 기법을 활용하여 연구주제와 관련된 토픽들을 추출·분석하여 국가연구개발사업에 대한 연구주제와 투자방향에 대하여 분석하고자 한다. NTIS는 국가연구개발사업·과제정보를 비롯하여, 논문, 특허, 보고서 등 연구를 통해 생성된 주요 연구개발성과에 이르기까지 방대한 양의 국가R&D 정보를 제공하고 있다. 본 논문에서는 NTIS 통합검색에서 인공지능 키워드와 관련된 분류 검색을 수행하여 검색결과를 확인하고, 최근 3개년 과제정보를 다운로드 받아 기초데이터를 구축하였다. 파이썬에서 제공하는 LDA 토픽모델링 라이브러리를 활용하여 기초데이터 (연구목표, 연구내용, 기대효과, 키워드 등)를 대상으로 관련 토픽과 주제어를 추출하고 분석하여 연구투자방향에 대한 인사이트를 도출하였다.

허밍 질의 처리 시스템의 성능 향상을 위한 효율적인 빈번 멜로디 인덱싱 방법 (An Efficient Frequent Melody Indexing Method to Improve Performance of Query-By-Humming System)

  • 유진희;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권4호
    • /
    • pp.283-303
    • /
    • 2007
  • 최근 방대한 양의 음악데이타를 효율적으로 저장하고 검색하기 위한 방법의 필요성이 증대되고 있다. 현재 음악 데이타 검색에서 가장 일반적으로 쓰이는 방법은 텍스트 기반의 검색 방법이다. 그러나 이러한 방법은 사용자가 키워드를 기억하지 못할 경우 검색이 어려울 뿐만 아니라 키워드와 정확하게 일치하는 정보만 검색해 주기 때문에 유사한 내용을 가진 정보를 검색하기에 부적절하다. 이러한 문제점을 해결하기 위해 본 논문에서는 내용 기반 인덱싱 방법(Content-Based Indexing Method)을 사용하여 사용자가 부정확한 멜로디(Humming)로 질의하였을 경우라도 원하는 음악을 효율적으로 찾아주는 허밍 질의처리 시스템(Query-By-Humming System)을 설계한다. 이를 위해 방대한 음악 데이타베이스에서 한 음악을 대표하는 의미 있는 멜로디를 추출하여 인덱싱하는 방법을 제안한다. 본 논문에서는 이러한 의미 있는 멜로디를 사용자가 자주 질의할 가능성이 높은 멜로디로서 하나의 음악에서 여러 번 나타나는 반면 멜로디와 긴 쉼표 후에 시작되는 쉼표 단위 멜로디로 정의한다. 실험을 통해 사용자들이 이들 멜로디를 자주 질의한다는 가정을 증명하였다. 본 논문은 성능 향상을 위한 3가지 방법을 제안한다. 첫 번째는 검색속도를 높이기 위해 인덱스에 저장할 멜로디를 문자열 형태로 변환한다. 이때 사용되는 문자 변환 방법은 허밍에 포함된 에러를 허용한 방법으로써 검색 결과의 정확도를 높일 수 있다. 두 번째는 사용자가 자주 질의할 가능성이 높은 의미 있는 멜로디를 인덱싱 하여 검색 속도를 높이고자 한다. 이를 위해 신뢰도가 높은 의미 있는 멜로디를 생성하는 빈번 멜로디 추출 알고리즘과 쉼표 단위 멜로디 추출 방법을 제안한다. 세 번째로는 정확도를 향상시키기 위한 3단계 검색 방법을 제안한다. 이는 데이타베이스 접근을 최소화하여 정확한 검색 결과를 얻기 위하여 제안되었다. 또한 기존 허밍 질의 처리 시스템의 대표적인 인덱싱 방법으로 제안되었던 N-gram 방법과의 성능 비교를 통해 본 논문이 제안하는 방법의 성능이 보다 더 향상되었음을 검증하였다.

주경로 분석과 연관어 네트워크 분석을 통한 '구전(WoM)' 관련 연구동향 분석 (Analysis of Research Trends of 'Word of Mouth (WoM)' through Main Path and Word Co-occurrence Network)

  • 신현보;김혜진
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.179-200
    • /
    • 2019
  • 구전(Word-of-Mouth) 활동은 오래 전부터 기업의 마케팅 과정에서 중요성을 인식하고 특히 마케팅 분야에서 많은 주목을 받아왔다. 최근에는 인터넷의 발달에 따라 온라인 뉴스, 온라인 커뮤니티 등에서 사람들이 지식과 정보를 주고 받는 방식이 다양해지면서 구전은 후기, 평점, 좋아요 등으로 입소문의 양상이 다각화되고 있다. 이러한 현상에 따라 구전에 관한 다양한 연구들이 선행되어왔으나, 이들을 종합적으로 분석한 메타 분석 연구는 부재하다. 본 연구는 학술 빅데이터를 활용해 구전 관련 연구동향을 알아내기 위해서 텍스트 마이닝 기법을 적용하여 주요 연구들을 추출하고 시기별로 연구들의 주요 쟁점을 파악하는 기법을 제안하였다. 이를 위해서 1941년부터 2018년까지 인용 데이터베이스인 Scopus에서 'Word-of-Mouth'라는 키워드로 검색되는 총 4389건의 문헌을 수집하였고, 영어 형태소 분석과 불용어 제거 등 전처리 과정을 통해 데이터를 정제하였다. 본 연구는 학문 분야의 발전 궤적을 추적하는 데 활용되는 주경로 분석기법을 적용해 구전과 관련된 핵심 연구들을 추출하여 연구동향을 거시적 관점에서 제시하였고, 단어동시출현 정보를 추출하여 키워드 간 네트워크를 구축하여 시기별로 구전과 관련된 연관어들이 어떻게 변화되었는지 살펴봄으로써 연구동향을 미시적 관점에서 제시하였다. 수집된 문헌 데이터를 기반으로 인용 네트워크를 구축하고 SPC 가중치를 적용하여 키루트 주경로를 추출한 결과 30개의 문헌으로 구성된 주경로가 추출되었고, 연관어 네트워크 분석을 통해서는 시기별로 온라인 시대, 관광 산업 등 다양한 산업군 등 산업 변화가 반영돼 시대적 변화와 더불어 발전하고 있는 학술적 영역의 변화를 확인할 수 있었다.