• 제목/요약/키워드: 빈도 기반 텍스트 분석

검색결과 106건 처리시간 0.024초

토픽 모델링을 활용한 한국의 창업생태계 트렌드 변화 분석 (Analysis on Dynamics of Korea Startup Ecosystems Based on Topic Modeling)

  • 손희영;이명종;변영조
    • 지식경영연구
    • /
    • 제23권4호
    • /
    • pp.315-338
    • /
    • 2022
  • 1986년, 한국은 국가발전의 주축인 중소기업 창업지원을 위한 법 제도를 마련하였다. 이를 기반으로 지난 30여년간 창업정책의 수립 및 발전을 거듭하여 매년 100만 개가 넘는 신규 창업기업이 설립되는 역동적인 창업생태계를 구축하였다. 국가의 정책 방향과 사회, 경제, 문화 등의 외부환경 영향, 그리고 창업지원의 역사를 주요 이슈별로 분석하여 도출된 핵심문장 또는 키워드는 시대별 지원의 특징과 국가지원의 중심내용 등을 확인하는 데 매우 유용하다. 본 연구는 한국의 창업생태계 트렌드 변화를 분석하기 위해 1991년부터 2020년 12월까지 30년간의 언론기사에서 '창업', '벤처', '스타트업' 키워드가 포함된 118만여 건을 추출하고 네트워크 분석과 토픽 모델링을 활용하였다. 분석결과, 한국의 창업생태계 트렌드는 기업 및 산업육성, 확산 그리고 규제 완화, 활황 등, 정부 중심으로 스타트업 생태계의 변화와 발전이 이루어졌음을 파악할 수 있었으며, 다빈도 키워드 분석결과, 생태계 구성요인 간의 연계 활동을 통하여 기업가적인 생산성이 창출되었다. 생산성 창출의 주요 요인으로 한국은 대기업의 휴대폰 산업 발전과 이와 관련된 콘텐츠 스타트업의 성장, 인터넷과 쇼핑몰 중심의 플랫폼 기업의 발전, 그리고 청년창업과 글로벌 진출, 모바일과 인터넷 인프라 중심의 창업기업육성 노력 등으로 파악할 수 있었다. 본 연구는 30년간의 언론기사를 텍스트마이닝과 토픽 모델링을 활용하여 트렌드를 도출하였다. 이는 선행연구가 기존 정부와 정책의 변경 시기를 기준으로 트렌드 변화를 분석한 것과 달리, 언론기사의 키워드와 토픽 변화를 기준으로 창업생태계의 트렌드 변화를 분석하였다는 점에서 학술적 의의뿐만 아니라, 30년 간의 창업생태계 변화 및 주요이슈를 조명해 봄으로써 향후 창업지원의 방향성을 예측할 수 있는 실무적 시사점을 제공하였다.

양자 간 대화 상황에서의 화자인식을 위한 문장 시퀀싱 방법을 통한 자동 말투 인식 (Automatic Speech Style Recognition Through Sentence Sequencing for Speaker Recognition in Bilateral Dialogue Situations)

  • 강가람;권오병
    • 지능정보연구
    • /
    • 제27권2호
    • /
    • pp.17-32
    • /
    • 2021
  • 화자인식은 자동 음성시스템에서 중요한 기능을 담당하며, 최근 휴대용 기기의 발전 및 음성 기술, 오디오 콘텐츠 분야 등이 계속해서 확장됨에 따라 화자인식 기술의 중요성은 더구나 부각 되고 있다. 이전의 화자인식 연구는 음성 파일을 기반으로 화자가 누구인지 자동으로 판정 및 정확도 향상을 위한 목표를 가지고 진행되었다. 한편 말투는 중요한 사회언어학적 소재로 사용자의 사회적 환경과 밀접하게 관련되어 있다. 추가로 화자의 말투에 사용되는 종결어미는 문장의 유형을 결정하거나 화자의 의도, 심리적 태도 또는 청자에 대한 관계 등의 기능과 정보를 가지고 있다. 이처럼 종결어미의 활용형태는 화자의 특성에 따라 다양한 개연성이 있어 특정 미확인 화자의 종결어미의 종류와 분포는 해당 화자를 인식하는 것에 도움이 될 것으로 보인다. 기존 텍스트 기반의 화자인식에서 말투를 고려한 연구가 적었으며 음성 신호를 기반으로 한 화자인식 기법에 말투 정보를 추가한다면 화자인식의 정확도를 더욱 높일 수 있을 것이다. 따라서 본 연구의 목적은 한국어 화자인식의 정확도를 개선하기 위해 종결어미로 표현되는 말투(speech style) 정보를 활용한 방법을 제안하는 것이다. 이를 위해 특정인의 발화 내용에서 등장하는 종결어미의 종류와 빈도를 활용하여 벡터값을 생성하는 문장 시퀀싱이라는 방법을 제안한다. 본 연구에서 제안한 방법의 우수성을 평가하기 위해 드라마 대본으로 학습 및 성능평가를 수행하였다. 본 연구에서 제안한 방법은 향후 실존하는 한국어 음성인식 서비스의 성능 향상을 위한 수단으로 사용될 수 있으며 지능형 대화 시스템 및 각종 음성 기반 서비스에 활용될 것을 기대한다.

잠재 토픽 기반의 제품 평판 마이닝 (Latent topics-based product reputation mining)

  • 박상민;온병원
    • 지능정보연구
    • /
    • 제23권2호
    • /
    • pp.39-70
    • /
    • 2017
  • 최근 여론조사 분야에서 데이터에 기반을 둔 분석 기법이 널리 활용되고 있다. 기업에서는 최근 출시된 제품에 대한 선호도를 조사하기 위해 기존의 설문조사나 전문가의 의견을 단순 취합하는 것이 아니라, 온라인상에 존재하는 다양한 종류의 데이터를 수집하고 분석하여 제품에 대한 대중의 기호를 정확히 파악할 수 있는 방안을 필요로 한다. 기존의 주요 방안에서는 먼저 해당 분야에 대한 감성사전을 구축한다. 전문가들은 수집된 텍스트 문서들로부터 빈도가 높은 단어들을 정리하여 긍정, 부정, 중립을 판단한다. 특정 제품의 선호를 판별하기 위해, 제품에 대한 사용 후기 글을 수집하여 문장을 추출하고, 감성사전을 이용하여 문장들의 긍정, 부정, 중립을 판단하여 최종적으로 긍정과 부정인 문장의 개수를 통해 제품에 대한 선호도를 측정한다. 그리고 제품에 대한 긍 부정 내용을 자동으로 요약하여 제공한다. 이것은 문장들의 감성점수를 산출하여, 긍정과 부정점수가 높은 문장들을 추출한다. 본 연구에서는 일반 대중이 생산한 문서 속에 숨겨져 있는 토픽을 추출하여 주어진 제품의 선호도를 조사하고, 토픽의 긍 부정 내용을 요약하여 보여주는 제품 평판 마이닝 알고리즘을 제안한다. 기존 방식과 다르게, 토픽을 활용하여 쉽고 빠르게 감성사전을 구축할 수 있으며 추출된 토픽을 정제하여 제품의 선호도와 요약 결과의 정확도를 높인다. 실험을 통해, K5, SM5, 아반떼 등의 국내에서 생산된 자동차의 수많은 후기 글들을 수집하였고, 실험 자동차의 긍 부정 비율, 긍 부정 내용 요약, 통계 검정을 실시하여 제안방안의 효용성을 입증하였다.

빅데이터를 활용한 도시공원 이용행태 특성의 시계열 분석 (A Time Series Analysis of Urban Park Behavior Using Big Data)

  • 우경숙;서주환
    • 한국조경학회지
    • /
    • 제48권1호
    • /
    • pp.35-45
    • /
    • 2020
  • 본 연구는 현대사회에서 도시민의 행태를 지원하는 공간으로 공원에 주목하였다. 현대의 도시공원은 특정한 역할을 하는 공간으로 국한되지 않으며, 공공의 성격을 가지고 있어 이용자의 이용행태에 따라 그 기능·의미가 변화할 수 있다. 또한, 현재 온라인상의 데이터는 방문할 공원의 선택 혹은 공원 이용행태의 결정을 지원하는 단계로 접어들었다. 이에 본 연구는 빅데이터의 자료 기반의 특징인 시계열 분석이 가능하도록 데이터를 수집할 수 있는 최초 년도인 2000년부터 2018년까지 여의도공원·여의도 한강공원과 양재 시민의 숲의 행태 변화를 빅데이터 기법인 텍스트마이닝(Text Mining)과 소셜 네트워크(Social Network;사회연결망)분석을 활용하여 분석하였다. 연구결과의 요약은 다음과 같다. 먼저 시간의 흐름에 따라 주요 이용행태와 행태에 영향을 미치는 요소에 변화가 있었다. 여의도공원·여의도 한강공원의 이용행태는 제 I시기는 '타다'(동적행태), 제 II시기는 '찍다'(정보통신서비스 행태), 제 III시기는 '걷다'(동적행태), 제 IV시기는 '먹다'(에너지원 행태)로 시간의 흐름에 따라 주요 행태가 다양하게 변화하는 모습이고, 양재 시민의 숲은 제 I시기는 '걷다'(동적행태), 제 II시기는 '걷다'(동적행태), 제 III시기는 '걷다'(동적행태), 제 IV시기는 '놀다'(동적행태)로 주로 동적행태 위주의 행태가 나타나는 것으로 나타났다. 주요 행태에 영향을 미치는 요소로 여의도공원·여의도 한강공원은 스포츠 및 레저, 문화·예술, 여가와 관련된 요소가 도출되었고, 양재 시민의 숲은 자연자원 요소가 도출되어 주요 이용행태에 영향을 미치는 요소에 차이가 있었다. 다음으로 대상지의 행태는 시기별로 특정 행태에 집중화되어 있으며, 차후 발생하는 행태를 선택하거나 제약하는 역할을 하는 것으로 나타났다. 이러한 결과는 대상지에 다양한 행태가 일어나지 않을 뿐만 아니라, 공간, 시설 등이 골고루 활용되지 않고 있다는 것을 알 수 있다. 연구결과의 흥미로운 점은 두 공원에서 공통적으로 눈에 띄게 급증한 행태는 에너지원 행태(먹다, 마시다)와 소비행태(사다, 대여하다)이다. 에너지원 행태는 두 공원에서 모두 제 III시기에서 제 IV시기 사이에 10배 이상으로 치솟았으며, 다른 행태와 빈도에서 큰 차이를 보이며 월등히 높았다. 또한, 공원에 방문하는 시민들은 식음료비, 자전거 등의 대여비, 이밖에 행사 참여 등과 관련된 소비의사가 있으며, 공원이 도심 내 휴식공간에서 지역경제 활성화라는 측면에서 본다면 긍정적으로 평가할 수 있을 것이다. 본 연구는 데이터 기법을 활용하여 도시공원 이용행태를 분석하였다는 점과 오늘날 도시공원은 휴식, 산책 등의 역할을 넘어서 시대적인 트렌드를 반영하며, 소비 성향이 나타나는 놀이공간으로 성향이 변화하였다는 결과를 도출하였다는 점에서 큰 의의가 있다. 현대 도시공원에서 일어나는 행태는 양과 내용이 과거와 다르게 변화하고 있다. 그러므로 빅데이터를 통해 수집되는 대규모 집단의 행태를 유형화하고, 이러한 결과를 바탕으로 이루어지는 다학제적인 논의를 통해 오늘날 도시공원을 시민들이 어떻게 이용하고 있는지를 보다 명확하게 이해할 수 있을 것이다.

한국과 캐나다 대학생들의 콩가공식품에 대한 수응도 및 소비실태 비교 연구 (A Comparative Study on the Acceptability and the Consumption Attitude for Soy Foods between Korean and Canadian University Students)

  • 안태현
    • 한국작물학회지
    • /
    • 제51권5호
    • /
    • pp.466-476
    • /
    • 2006
  • 한국과 캐나다의 젊은 소비계층인 대학생들을 중심으로 콩에 대한 일반적 인지도, 콩가공식품에 대한 구매 및 소비행태, 수응도 등을 설문문항을 통하여 비교해 보았고, 콩가공식품의 소비시 지적되는 문제점을 알아보았다. 한국 대학생들이 캐나다 대학생들에 비해 콩식품에 대하여 더욱 긍정적인 생각과 올바른 지식을 가지고 있었고, 콩식품에 대한 정보를 얻는 방법으로는 한국 대학생들의 경우 주로 상업적 매체를 통하는 것으로 나타났던 반면, 캐나다 대학생들의 경우는 주로 가족이나 친구 등 인맥을 통하는 비율이 높게 나타났다. 소비행태에 있어서는, 한국의 경우 조사대상자 전체가 구매경험이 있는 것으로 조사되었으나 캐나다의 경우는 조사대상자의 55.4%만이 콩가공식품 구매경험이 있었으며, 친숙하게 느껴지는 콩가공식품, 구매경험이 있는 콩가공식품 그리고 구매빈도가 높은 콩가공식품 등에 대해서는 한국과 캐나다 모두 매우 유사한 경향을 보였는데 두유에 대한 인지도가 가장 높았으며 소비량도 많은 것으로 나타났고 다음으로 콩음료, 마가린 등의 순서로 나타났다. 본 연구결과, 콩가공식품을 포함한 콩식품은 단순한 동양의 전통식품만이 아니라 동서양의 식생활에 일반적인 식품으로 자리매김하고 있는 것으로 나타났다. 단지 콩 유입의 역사가 짧고 낙농업 위주의 식생활이 주를 이루고있는 캐나다에서는 콩식품에 대한 관심이 한국보다 적어 소비경험이 전혀 없는 대학생들이 많았고(44.6%)우유식품을 선호하는 학생들이 많았다. 반면, 한국의 경우는 다양한 콩 가공식품이 일반화되지 않아 두유나 콩음료 등 특정 콩가공식품에 대한 소비율만 높은 것으로 나타났다. 그러나 앞으로 캐나다의 콩가공식품의 소비는 더욱 늘어날 것으로 전망되며, 우리나라 또한 젊은 소비자들의 콩식품 소비 활성화를 위하여 다양한 기호와 욕구를 충족시킬 수 있는 제품개발이 지속적으로 이루어진다면 전통적인 콩식품 및 콩가공식품 소비는 더욱 늘어날 것으로 전망되어 진다.능력이 있었다. 그러므로 $(PPAR{\gamma})$의 활성에 있어 RXR heterodimer가 사람의 백혈병세포에 대한 조절 경로로서 존재하며, PTEN의 upregulation을 통해 백혈병을 조절하기 때문에 백혈병의 예방 및 치료 접근에 $(PPAR{\gamma})$와 RXR ligands가 중요한 역할을 할 것이다.제안 객체 모델에서는 객체의 상태에 따라 사용 가능한 행위가 결정되는 가상 환경을 위해 새로운 인터페이스로 컨텍스트 메뉴(context menu) 인터페이스와 동작 생성 모델을 제시한다. 정의하였다. 객체 모델에서 객체의 상태 정보와 행위 정보를 분석해 아바타가 할 수 있는 행위를 컨텍스트 메뉴로 제공하기 때문에 사용자는 가상 환경의 상태에 상관 없이 직관적으로 명령을 줄 수 있다. 또한 사용자는 기존의 2D 혹은 텍스트기반 스크립트 작성기법을 벗어나 사용자는 제안된 3D 인터페이스 기법을 통하여 실시간으로 아바타의 행위 스크립트를 작성 및 재생 할 수 있다. 본 논문에서 제시한 시스템은 기존의 아바타 중심적인 제어를 객체에 분산함으로써 효율적이고 직관적인 명령을 내릴 수 있고 또한 손쉬운 시나리오 생성을 가능하게 하였다. 본 연구에서는 제안 기법의 활용을 위해 프리젠테이션 도메인 환경의 시스템을 구축하고 아바타-객체 행위제어 및 스크립트 생성 기법을 적용하였다.S는 스크립트 언어를 사용하는 전문가 시스템[7]으로 선언적 룰(Declarative Rule)을 이용하여 지식을 표현 하고 추론을 수행하는 추론 엔진의 한 종류이다. JESS의 지식 표현 방식은 튜닝 원칙을 쉽게 표현하고 수용할 수 있는 구조를 가지고 있으며 작은 크기와 빠른 추론 성능을 가지기 때문에 실시간으로 처리 되는 어플리케이션 튜닝에 적합하다. 지식 기반 모률의 가장 큰 역할은 주어진 데이터베이스 시스템의 모델을 통하여 필요한 새로운 지식을 생성하고 저장하는 것이다.

도메인 특수성이 도메인 특화 사전학습 언어모델의 성능에 미치는 영향 (The Effect of Domain Specificity on the Performance of Domain-Specific Pre-Trained Language Models)

  • 한민아;김윤하;김남규
    • 지능정보연구
    • /
    • 제28권4호
    • /
    • pp.251-273
    • /
    • 2022
  • 최근 텍스트 분석을 딥러닝에 적용한 연구가 꾸준히 이어지고 있으며, 특히 대용량의 데이터 셋을 학습한 사전학습 언어모델을 통해 단어의 의미를 파악하여 요약, 감정 분류 등의 태스크를 수행하려는 연구가 활발히 이루어지고 있다. 하지만 기존 사전학습 언어모델이 특정 도메인을 잘 이해하지 못한다는 한계를 나타냄에 따라, 최근 특정 도메인에 특화된 언어모델을 만들고자 하는 방향으로 연구의 흐름이 옮겨가고 있는 추세이다. 도메인 특화 추가 사전학습 언어모델은 특정 도메인의 지식을 모델이 더 잘 이해할 수 있게 하여, 해당 분야의 다양한 태스크에서 성능 향상을 가져왔다. 하지만 도메인 특화 추가 사전학습은 해당 도메인의 말뭉치 데이터를 확보하기 위해 많은 비용이 소요될 뿐 아니라, 고성능 컴퓨팅 자원과 개발 인력 등의 측면에서도 많은 비용과 시간이 투입되어야 한다는 부담이 있다. 아울러 일부 도메인에서 추가 사전학습 후의 성능 개선이 미미하다는 사례가 보고됨에 따라, 성능 개선 여부가 확실하지 않은 상태에서 도메인 특화 추가 사전학습 모델의 개발에 막대한 비용을 투입해야 하는지 여부에 대해 판단이 어려운 상황이다. 이러한 상황에도 불구하고 최근 각 도메인의 성능 개선 자체에 초점을 둔 추가 사전학습 연구는 다양한 분야에서 수행되고 있지만, 추가 사전학습을 통한 성능 개선에 영향을 미치는 도메인의 특성을 규명하기 위한 연구는 거의 이루어지지 않고 있다. 본 논문에서는 이러한 한계를 극복하기 위해, 실제로 추가 사전학습을 수행하기 전에 추가 사전학습을 통한 해당 도메인의 성능 개선 정도를 선제적으로 확인할 수 있는 방안을 제시한다. 구체적으로 3개의 도메인을 분석 대상 도메인으로 선정한 후, 각 도메인에서의 추가 사전학습을 통한 분류 정확도 상승 폭을 측정한다. 또한 각 도메인에서 사용된 주요 단어들의 정규화된 빈도를 기반으로 해당 도메인의 특수성을 측정하는 지표를 새롭게 개발하여 제시한다. 사전학습 언어모델과 3개 도메인의 도메인 특화 사전학습 언어모델을 사용한 분류 태스크 실험을 통해, 도메인 특수성 지표가 높을수록 추가 사전학습을 통한 성능 개선 폭이 높음을 확인하였다.