• 제목/요약/키워드: keyword-based analysis

검색결과 632건 처리시간 0.024초

비핵심어 모델의 가중치 기반 핵심어 검출 성능 향상에 관한 연구 (A Study of Keyword Spotting System Based on the Weight of Non-Keyword Model)

  • 김학진;김순협
    • 정보처리학회논문지B
    • /
    • 제10B권4호
    • /
    • pp.381-388
    • /
    • 2003
  • 본 논문에서는 핵심어 검출기의 성능 향상을 위해 가베지 클라스 클러스터링과 함께 필러 모델에 가중치론 부여하는 방안 및 태스크 도메인 이용자들의 발화 음성의 성향 분석을 통해 핵심어 천이 확률을 계산하여 핵심어 검출기반 대화 음성처리 시스템의 처리 시간 단축 방안을 제안한다. 제안한 방법은 음성학적으로 유사한 음소끼리 묶어서 사용함으로써 하나의 음소는 잘 표현하지 못하지만 비슷한 음소 그룹의 표현에는 유용한 방법으로 본 논문에서는 한국어 형태론과 태스크 도메인으로 선정한 증권거래 대화음성처리 시스템에서 활용되는 발화 문장을 분석하여 5 음소군을 제시한다. 또한 이들 음소군에 태스크 종속적인 필러 모델 가중치를 부여하며, 두 번째로는 시스템의 처리시간 단축을 위해 연속 발화 문장 속에 포함되어 있는 핵심어 천이 확률을 계산하여 시스템에 적용 실험한다. 제안한 시스템의 성능 평가를 위해 태스크 도메인에 활용되는 4,970 문장의 코퍼스를 구축하고, 이용자 중 20대∼30대 5명이 발성하게 하여 실험한 결과, 제안한 5 음소군에 가중치를 부여한 방법의 FOM은 87.5%로 Yapanel[1]의 7음소군 85.5%보다 우수한 성능을 보였으나, LVCSR의 89.8%보다는 약간 뒤지는 성능을 확인하였다. 계산시간에 있어서도 0.70초로 7음소군의 0.72초보다 우수한 성능을 보였다. 핵심어 천이 확률 분석을 통한 인식 시간 단축 실험에서는 천이 확률을 적용했을 때 약 0.04초∼0.07초의 처리 시간을 단축하는 것을 확인하였다.

독후감 텍스트의 언어 네트워크 분석에 관한 기초연구 (A Preliminary Study on the Semantic Network Analysis of Book Report Text)

  • 이수상
    • 한국도서관정보학회지
    • /
    • 제47권3호
    • /
    • pp.95-114
    • /
    • 2016
  • 이 연구의 목적은 특정한 독후감 사례들을 수집하고, 독후감 텍스트를 구성하는 키워드들을 대상으로 언어 네트워크를 구성하여, 독후감에 담겨있는 의미적 특성을 파악하는데 있다. 분석대상의 독후감은 전체 23편이며, 중등부 6편, 고등부 9편, 일반부 8편으로 구성된다. 3집단과 전체, 그리고 특정한 개별 독후감을 대상으로 키워드들을 선정하고, 동시출현관계를 바탕으로 하는 5가지 키워드 네트워크들을 구성하고 분석하였다. 분석결과는 다음과 같다. 첫째, 각 집단 및 개별 독후감의 키워드 네트워크들은 서로 다른 구조적인 특성을 나타내었다. 둘째, 3가지 중심성(연결정도 중심성, 근접 중심성, 매개 중심성)의 분석 결과 각 네트워크마다 중심성이 높은 키워드들이 다르게 나타났다. 이러한 특성은 독후감의 키워드 네트워크 분석이 개별 독후감뿐만 아니라 집단별 독후감들의 특성을 파악하는데 유용하다는 의미가 된다.

키워드 네트워크를 이용한 항공관련 글로벌 연구동향 분석: 스코퍼스(Scopus)게재 논문을 중심으로 (Study on Research Trends in Airline Industry using Keyword Network Analysis: Focused on the Journal Articles in Scopus)

  • 이주양;장필식
    • 한국융합학회논문지
    • /
    • 제8권5호
    • /
    • pp.169-178
    • /
    • 2017
  • 다양한 연구 분야에서, 광범위한 텍스트 분석을 이용한 연구 동향파악과 관련 패턴의 도출은 중요한 의미를 가진다. 본 연구에서는 키워드 네트워크 분석을 통해, 1997년부터 2016년까지의 항공관련 글로벌 연구 동향을 조사하였다. 이를 위해 스코퍼스 등재 학술지 논문 25,959편을 대상으로 키워드 네트워크 모델을 설정하고 중심성(연결, 매개) 분석을 수행하였다. 연구 결과는 항공관련 연구동향이 키워드 네트워크 분석을 통해 계량적으로 설명될 수 있음을 보여준다. 최근 20년간 항공관련 연구가 가장 활발히 이루어진 분야는 공학 분야와 사회과학 분야인 것으로 확인되었으며, 연결중심성이 높은 키워드들이 매개중심성 또한 높은 것으로 나타났다. 본 연구의 결과는 항공과 관련된 정책 수립 및 새로운 연구개발 주제를 탐색하는 자료로 활용될 수 있을 것으로 기대된다.

텍스트마이닝을 활용한 농업 R&D 키워드 분석 (A Study on the Analysis of Agricultural R&D Keywords Using Textmining Method)

  • 김지훈;김성섭
    • 한국산학기술학회논문지
    • /
    • 제22권2호
    • /
    • pp.721-732
    • /
    • 2021
  • 본 연구는 농업 R&D의 추세를 살펴보고자 텍스트마이닝 기법을 활용하여 농업 R&D에 해당하는 키워드를 분석하였다. 분석자료는 NTIS의 국가연구개발사업 과제정보를 활용하였으며, 2003년부터 2018년까지의 농업 R&D의 주요 키워드를 연도별 및 연구개발단계별로 구분하였다. 텍스트마이닝을 위해 키워드의 TF-IDF를 계산하여 점수별로 순위를 매기었으며, 유사한 키워드별로 그룹화하여 해석하였다. 주요 분석 결과는 다음과 같다. 첫 번째, 신기술의 도입과 외부 환경에 변화에 따른 농업 R&D 트렌드가 변화해가고 있다. 시간이 흐를수록 새로운 키워드가 대두되고 있으며, 기초연구 단계에서는 '기후변화'가, 응용연구 단계에서는 'ICT'와 '스마트팜'이, 개발연구 단계에서는 '수출' 키워드가 주되게 등장하고 있다. 두 번째, 연구개발 단계에서 시차를 가지고 키워드 변화가 나타나고 있다. 기초연구-응용연구-개발연구 순으로 주요 키워드가 변화하고 있으며, 대표적으로 '기후변화'와 '신품종' 키워드가 연구개발단계별로 연계되어 있었다. 세번째, 농업 R&D의 대표적인 키워드는 '벼' 키워드로 나타났다. 그러나 '녹색 및 기후변화 대응'과 '가공 및 유통기술' 같이 국내외 농업 환경 변화에 따라 연구의 방향성과 목적이 변화하고 있었다.

키워드 출현 빈도 분석과 CONCOR 기법을 이용한 ICT 교육 동향 분석 (Analysis of ICT Education Trends using Keyword Occurrence Frequency Analysis and CONCOR Technique)

  • 이영석
    • 산업융합연구
    • /
    • 제21권1호
    • /
    • pp.187-192
    • /
    • 2023
  • 본 연구는 기계학습의 키워드 출현 빈도 분석과 CONCOR(CONvergence of iteration CORrealtion) 기법을 통한 ICT 교육에 대한 흐름을 탐색한다. 2018년부터 현재까지의 등재지 이상의 논문을 'ICT 교육'의 키워드로 구글 스칼라에서 304개 검색하였고, 체계적 문헌 리뷰 절차에 따라 ICT 교육과 관련이 높은 60편의 논문을 선정하면서, 논문의 제목과 요약을 중심으로 키워드를 추출하였다. 단어 빈도 및 지표 데이터는 자연어 처리의 TF-IDF를 통한 빈도 분석, 동시 출현 빈도의 단어를 분석하여 출현 빈도가 높은 49개의 중심어를 추출하였다. 관계의 정도는 단어 간의 연결 구조와 연결 정도 중심성을 분석하여 검증하였고, CONCOR 분석을 통해 유사성을 가진 단어들로 구성된 군집을 도출하였다. 분석 결과 첫째, '교육', '연구', '결과', '활용', '분석'이 주요 키워드로 분석되었다. 둘째, 교육을 키워드로 N-GRAM 네트워크 그래프를 진행한 결과 '교육과정', '활용'이 가장 높은 단어의 관계로 나타났다. 셋째, 교육을 키워드로 군집분석을 한 결과, '교육과정', '프로그래밍', '학생', '향상', '정보'의 5개 군이 형성되었다. 이러한 연구 결과를 바탕으로 ICT 교육 동향의 분석 및 트렌드 파악을 토대로 ICT 교육에 필요한 실질적인 연구를 수행할 수 있을 것이다.

토픽모델링과 동시출현단어 분석을 이용한 기업가정신에 대한 연구동향 분석: 2002~2021 (Current Research Trends in Entrepreneurship Based on Topic Modeling and Keyword Co-occurrence Analysis: 2002~2021)

  • 장성희
    • 벤처창업연구
    • /
    • 제17권3호
    • /
    • pp.245-256
    • /
    • 2022
  • 본 연구는 토픽모델링과 동시출현단어 분석을 이용하여 기업가정신에 대한 연구 동향을 제공하는 것이 목적이다. 이를 위해 Web of Science 데이터베이스에서 'entrepreneurship'을 기본검색어로 설정하고, 2002년부터 2021년까지 발표한 14,953편의 기업가정신 논문의 데이터를 확보하였다. 본 연구에서는 VOSviewer 프로그램을 이용하여 동시출현단어 분석을 하였고, R 프로그램을 이용하여 토픽모델링 분석을 하였다. 본 연구의 분석결과는 다음과 같다. 첫째, 동시출현단어 분석 결과, 기업가정신과 혁신 클러스터, 기업가정신 교육 클러스터, 사회적 기업가정신과 지속가능성 클러스터, 기업성과 클러스터, 그리고 지식 및 기술이전 클러스터 등 5개의 클러스터로 구분되었다. 둘째, 토픽모델링 분석 결과, 창업환경 및 경제발전, 국제 기업가정신, 다양한 기업가정신, 벤처기업과 자본조달, 정부정책 및 지원, 사회적 기업가정신, 경영관련 이슈, 지역도시계획 및 개발, 기업가정신 교육, 기업가의 혁신과 성과, 기업가정신 연구, 기업가의 창업의도 등 12개의 토픽으로 분석되었다. 마지막으로, 시기별 토픽변화 추이 분석결과, 벤처기업과 자본조달과 기업가의 창업의도에 대한 토픽은 상승토픽으로 나타났고, 국제 기업가정신은 하강토픽으로 나타났다. 본 연구의 결과는 기업가정신 연구에 대한 전반적인 연구동향을 파악할 뿐만 아니라, 기업가정신 연구에 대한 통찰력을 제공하는데 유용할 것으로 기대된다.

트위터에서 형태소 분석과 PageRank 기반 화제단어 추출 방법 제안 (Proposal of keyword extraction method based on morphological analysis and PageRank in Tweeter)

  • 이원형;조성일;김동회
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.157-163
    • /
    • 2018
  • SNS를 이용하는 사람들은 매일 자신의 다양한 생각을 SNS에 게시한다. SNS에 게시된 데이터는 수많은 사람들의 생각과 의견이 담겨있다고 할 수 있다. 특히 트위터에서 서비스되는 인기 화제어는 사용자가 올린 글에서 자주 등장한 단어의 횟수를 집계해 순위를 결정한다. 하지만 이와 같은 방법은 단순히 중복된 단어가 나열된 불필요한 데이터에 민감하다. 제안하는 방법은 단어간의 관계도를 이용한 단어의 화제성을 기반으로 순위를 결정하므로 불필요한 데이터의 영향을 적게 받고 주요단어를 안정적으로 추출할 수 있다. 성능 비교를 위하여 내림차순 화제어 순위와 상위 20개중에서 의미 없는 화제어의 비율 측면에서 형태소 분석과 PageRank 기반의 제안 방식과 단순 등장 횟수 기반의 기존 방식을 비교한다. 제안하는 방안과 기존 방안은 상위 20개중에서 무의미한 화제어를 각각 55%과 70%를 순위권에 포함시켰으며 제안한 방법이 기존 방법과 비교할 때 15% 정도 향상된다.

유비쿼터스도시종합계획과 유비쿼터스도시계획 비교 연구 -U-서비스 계획을 중심으로- (A Comparative Study between Ubiquitous City Comprehensive Plan and Ubiquitous City Plan - Focusing on U-Service Plan)

  • 유지송;정다운;이미숙;민경주
    • Spatial Information Research
    • /
    • 제23권2호
    • /
    • pp.83-93
    • /
    • 2015
  • 최근 U-City 계획을 수립한 지자체의 U-서비스는 시설 및 도시 관리 위주의 서비스로 구현되고 있으며, 시민 맞춤형 U-서비스는 계획에만 그치고 있는 실정이다. 이에 본 연구는 U-City 종합계획과 U-City 계획의 U-서비스 내용을 네트워크 텍스트 분석과 단어 빈도 분석을 통해 비교 검토하여 향후 시민 맞춤형 U-서비스 제공을 위한 시사점을 제시하였다. 제1, 2차 U-City 종합계획과 4개 지방자치단체의 U-City 계획 중 U-서비스 계획 내용을 추출하여 주요 단어들을 산출하였고, 도출된 단어를 통해 네트워크 텍스트 분석과 단어 빈도 분석을 실시하였다. 분석 결과를 바탕으로 향후 U-City 종합계획에서는 지자체의 특색에 따른 서비스 추가와 정책 재정 지원 및 시민의 필요사항을 반영하여 다양한 분야의 시민 맞춤형 U-서비스 개발과 같은 시사점을 도출하였으며, 이를 통해 U-City에 대한 시민들의 인식 또한 증가될 것으로 기대할 수 있다.

멀티 온톨로지 기반의 키워드 연관성을 이용한 전문가 검색 시스템 (The Expert Search System using keyword association based on Multi-Ontology)

  • 정계동;황치곤;최영근
    • 한국정보통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.183-190
    • /
    • 2012
  • 본 연구는 연구논문 및 저자 프로파일을 기반으로 상호 협력이 가능한 전문가 검색 시스템을 구축한다. 제안한 방법론은 다음과 같다. 첫째, 입력 키워드와 가장 연관성 높은 키워드를 검색하기 위한 가중치 부여 기법을 제안하고, 둘째, 이 기법을 통해 전문가를 효율적으로 검색하는 방안을 제안한다. 우선적으로 논문에서 키워드와 저자 프로파일을 추출하고, 이를 통하여 전문가를 검색할 수 있도록 한다. 이것은 소셜 네트워크의 여러 분야에서 활용할 수 있다. 이러한 정보는 여러 시스템에 분산되어 있다. 이렇게 분산된 데이터를 통합하기 위한 기술로 멀티 온토롤지를 이용하는 기법을 제안한다. 멀티 온톨로지는 메타 온톨로지, 인스턴스 온톨로지, 로케이션 온톨로지와 연관관계 온톨로지로 구성되고, 연관관계 온톨로지는 동적으로 키워드 연관관계 분석을 통해 구축된다. 이 멀티 온톨로지를 이용하여 전문가 망을 제공하고, 이것은 키워드의 연관관계 추적을 통한 전문가 검색이 가능하도록 한다. 이를 통하여 전문가들의 연구물을 확인할 수 있도록 제공함으로써 세부 전문분야를 확인할 수 한다.

추천을 위한 키워드 가중치를 이용한 멀티모달 미디어 콘텐츠 분류 (Multimodal Media Content Classification using Keyword Weighting for Recommendation)

  • 강지수;백지원;정경용
    • 융합정보논문지
    • /
    • 제9권5호
    • /
    • pp.1-6
    • /
    • 2019
  • 모바일 시장의 확장과 함께 멀티모달 미디어 콘텐츠의 제공을 위한 플랫폼이 다양해지고 있다. 멀티모달 미디어 콘텐츠에는 이종데이터들이 복합적으로 포함되어 있어 사용자들이 선호 콘텐츠를 선택하기 위해 시간과 노력이 요구된다. 따라서 본 논문에서는 추천을 위한 키워드 가중치를 이용한 멀티모달 미디어 콘텐츠 분류를 제안한다. 제안하는 방법은 멀티모달 미디어 콘텐츠의 텍스트 데이터에서 키워드 가중치를 통해 콘텐츠를 가장 잘 나타내는 키워드를 추출한다. 추출된 키워드를 기반으로 서브클래스를 갖는 장르 클래스를 생성하고 이에 적절한 멀티모달 미디어 콘텐츠를 분류한다. 또한 개인화된 추천을 위해 사용자의 선호도 평가를 진행하여 사용자의 콘텐츠 선호도 분석 결과를 기반으로 멀티모달 콘텐츠를 추천한다. 성능평가는 추천 결과의 정확도와 만족도를 통해 우수함을 검증한다. 이는 사용자가 선호하는 장르와 키워드를 모두 고려하여 추천하기 때문에 정확도는 74.62%, 만족도는 69.1%로 높게 나타난다.