• 제목/요약/키워드: keyword extraction

검색결과 189건 처리시간 0.024초

토픽 모델링을 활용한 상담 성과 연구동향 분석 - 「상담학연구」 학술지를 중심으로 (Counseling Outcomes Research Trend Analysis Using Topic Modeling - Focus on 「Korean Journal of Counseling」)

  • 박귀화;이은영;윤소정
    • 디지털융복합연구
    • /
    • 제19권11호
    • /
    • pp.517-523
    • /
    • 2021
  • 상담의 성과는 상담자와 연구자 모두에게 중요하다. 지금까지 진행되어온 상담의 성과에 대한 연구의 동향을 분석하는 것은 상담의 성과를 종합적으로 구조화하는데 도움을 준다. 본 연구의 목적은 2011~2021년에 국내 상담분야의 저명 학회지 중 하나인 「상담학연구」에 게재된 상담 성과 관련 연구를 중심으로 연구 동향을 분석하여, 국내 상담성과 연구의 지식 구조를 탐색하고 향후 연구방향을 모색하는 것이다. 텍스트 마이닝 기법 중 중심성분석과 토픽 모델링을 활용하였다. 분석에 활용된 연구는 197개로 노드 추출 과정을 거쳐 최종 339개의 키워드가 분석에 활용되었다. LDA 알고리즘을 활용하여 잠재 토픽을 추출한 결과 '상담 성과의 측정과 평가', '대인관계에 영향을 주는 정서와 매개요인', '진로에 대한 스트레스와 대처'가 주요 토픽으로 나타났다. 상담학 연구에 게재된 상담성과 연구의 동향 분석을 통해 주요 토픽을 밝힌 것은 상담성과 연구를 보다 구조화하는 데 기여하였으며, 이후에도 이러한 주제들에 대한 심층적 연구가 지속되어야 할 필요가 있다.

Head-Tail 토큰화 기법을 이용한 한국어 품사 태깅 (Korean Part-Of-Speech Tagging by using Head-Tail Tokenization)

  • 서현재;김정민;강승식
    • 스마트미디어저널
    • /
    • 제11권5호
    • /
    • pp.17-25
    • /
    • 2022
  • 기존의 한국어 품사 태깅 방식은 복합어를 단위 형태소들로 분해하여 품사를 부착하므로 형태소 태그가 세분화되어 있어서 태거의 활용 목적에 따라 불필요하게 복잡하고 다양한 어절 유형들이 생성되는 단점이 있다. 딥러닝 언어처리에서는 키워드 추출 목적으로 품사 태거를 사용할 때 복합조사, 복합어미 등 문법 형태소들을 단위 형태소로 분할하지 않는 토큰화 방식이 효율적이다. 본 연구에서는 어절을 형태소 단위로 토큰화할 때 어휘형태소 부분과 문법형태소 부분 두 가지 유형의 토큰으로만 분할하는 Head-Tail 토큰화 기법을 사용하여 품사 태깅 문제를 단순화함으로써 어절이 과도하게 분해되는 문제점을 보완하였다. Head-Tail 토큰화된 데이터에 대해 통계적 기법과 딥러닝 모델로 품사 태깅을 시도하여 각 모델의 품사 태깅 정확도를 실험하였다. 통계 기반 품사 태거인 TnT 태거와 딥러닝 기반 품사 태거인 Bi-LSTM 태거를 사용하여 Head-Tail 토큰화된 데이터셋에 대한 품사 태깅을 수행하였다. TnT 태거와 Bi-LSTM 태거를 Head-Tail 토큰화된 데이터셋에 대해 학습하여 품사 태깅 정확도를 측정하였다. 그 결과로, TnT 태거는 97.00%인데 비해 Bi-LSTM 태거는 99.52%의 높은 정확도로 품사 태깅을 수행할 수 있음을 확인하였다.

<인생나눔교실> 사업의 효과 검증을 위한 추적 조사 방법론 연구 - 2017~2018년도 영상추적조사를 중심으로 - (A Study on Follow-up Survey Methodology to Verify the Effectiveness of )

  • 이동은
    • 예술경영연구
    • /
    • 제53호
    • /
    • pp.207-247
    • /
    • 2020
  • <인생나눔교실>은 인문학적 소양을 갖춘 은퇴세대가 멘토가 되어 후속 세대인 멘티에게 삶의 지혜와 방향을 제시하고 소통의 장을 만들어가는 사업이다. 이와 같은 사업의 평가들은 사업이 진행되는 단기간을 기준으로 하여 정량적, 정성적 평가를 수행하는 것이 일반적이다. 그러나 단기간의 평가는 실제 의미있는 효과를 예측하고 판단하기 어렵다는 한계를 가지고 있다. 이에 <인생나눔교실>에서는 2017년과 2018년 영상추적조사를 통해 본 사업의 핵심 참여자의 질적 변화 추이를 살펴보고자 했다. 이를 위해 연구주제에 적합한 조사방법으로 인터뷰 영상 촬영, 촬영 현장 관찰, 가치부호화를 통한 질적연구방법론을 채택하였다. 결과 분석을 위해서는 인터뷰 내용에서 키워드를 추출, 가치부호화 작업을 진행한다. 이후 인문정신가치를 매칭시켜 변화양상을 확인하고 그 의미를 도출하는 이론적 방법을 활용하였다. 실질적으로 본 연구에서 진행한 연구가 추적조사임에도 불구하고 2년이라는 다소 짧은 시간 동안 변화된 양상을 분석했다는 점이 여전히 한계로 남는다. 하지만 국내외 문화예술교육 사업 분야의 추적조사를 위한 모형을 거의 찾아볼 수 없는 현 시점에 추적조사를 위해서 연구자들이 진행해야하는 방법론을 체계화하고 구체적인 적용 사례를 함께 제시했다는 점에서 유의미성을 찾을 수 있다.

빅데이터 분석을 통한 인터넷 뉴스 포털에서의 탈세 논란이 기업 가치에 미치는 영향 연구 (A study on the effect of tax evasion controversy on corporate values in internet news portals through big data analysis)

  • 이상민;박명호;김병준;박대근
    • 인터넷정보학회논문지
    • /
    • 제22권6호
    • /
    • pp.51-57
    • /
    • 2021
  • 기업의 세금을 절약 혹은 회피하는 행동은 과세관청에 의해 합법적 절세가 아닌 탈세로 판단될 경우 기업은 조세적 비용뿐 아니라 일련의 탈세관련 보도 기사로 인해 기업이미지 손상 및 주가하락과 같은 비조세적 비용까지 부담하게 된다. 이에 본 연구는 인터넷 뉴스 포털에 나타난 탈세 논란 키워드들의 출현빈도를 해당 사건의 심각성을 측정하는 요인으로 정하고 이러한 출현빈도가 기업가치에 미치는 영향을 분석한다. 우리나라 유가증권시장에서 시가총액기준 상위 업체들을 대상으로 탈세 논란 키워드들을 활용하여 인터넷 뉴스 포털로부터 관련 기사를 크롤링하고, 기업별로 탈세 논란 키워드들의 출현빈도에 대한 시계열을 생성하여 출현빈도가 장부가 대비 시가총액에 미치는 영향을 분석한다. 패널회귀분석과 충격반응분석을 통해 분석한 결과 출현빈도는 기업가치에 부정적인 영향을 미치며 12개월까지 점진적으로 효과가 감소되는 것으로 분석된다. 이 연구는 한국기업들을 대상으로 탈세 논란 사안이 기업가치에 영향을 미치는지를 실증적으로 분석한 연구로서, 경영자는 절세전략을 수립 시 이러한 영향력을 고려하는 것이 필요하다는 것을 시사한다.

온톨로지 시각화를 활용한 사용자 리뷰 분석 기반 영화 추천 시스템 (Movie Recommended System base on Analysis for the User Review utilizing Ontology Visualization)

  • 문성민;김기남;최경철;이경원
    • 디자인융복합연구
    • /
    • 제15권2호
    • /
    • pp.347-368
    • /
    • 2016
  • 최근 소비자 구전정보에 대한 연구들은 소비자가 제품 구매 과정에서 다른 소비자의 구전에 의한 정보를 활용한다는 연구 결과를 시사하고 있다. 본 연구는 제품에 대한 소비자의 의견을 파악하고 활용할 수 있도록 오피니언 마이닝과 시각화를 통해 도움을 줄 수 있는 방법을 제안하고자 한다. 이를 위해 최근 들어 관람할 영화를 선택할 때 인터넷 상의 영화리뷰를 참고 하는 상황이 증가함을 고려하여 "영화" 도메인의 온톨로지를 구축하고 오피니언 마이닝을 수행하여 시각화 한 후 그 결과에 대해 논하고자 한다. 온톨로지를 구축하는 과정에서 평가요소에 대한 속성 분류뿐만 아니라 평가요소에 대한 서술어 사전을 구성하였다는 점에서 기존의 연구와 차별성이 있으며 분석 결과를 통해 이러한 방법이 오피니언 마이닝에 유효함을 증명하고자 한다. 연구를 통해 도출한 결과는 크게 세 가지로 나누어 볼 수 있다. 첫째, 본 연구에서는 기존에 구축된 온톨로지를 활용하지 않고 키워드 추출과 토픽모델링을 활용하여 영화 도메인에 대한 온톨로지를 구축하는 방법에 대해 서술하였다. 둘째, 개별 영화에 대한 시각화 분석을 시행하여 영화에 대한 관객의 종합적인 의견을 한눈에 파악할 수 있도록 하였다. 셋째, 제품에 대한 평가 결과에 따라 유사한 평가를 받은 제품끼리 군집화 되는 것을 발견하였으며 본 연구의 분석에 사용된 130개의 영화는 크게 3개의 집단으로 군집화 됨을 보였다.

텍스트 기반 생성형 인공지능의 이해와 과학교육에서의 활용에 대한 논의 (Understanding of Generative Artificial Intelligence Based on Textual Data and Discussion for Its Application in Science Education)

  • 조헌국
    • 한국과학교육학회지
    • /
    • 제43권3호
    • /
    • pp.307-319
    • /
    • 2023
  • 본 연구는 최근 주목받고 있는 텍스트 기반 생성형 인공지능에 대해 관심과 활용이 증가함에 따라 과학교육적 측면에서의 활용을 위해 생성형 인공지능의 주요 개념과 원리를 설명하고, 이를 효과적으로 활용할 수 있는 방안과 그 한계를 지적하며 이를 토대로 과학교육의 실행과 연구의 측면에서 시사점을 제공하는 것을 목적으로 한다. 최근 들어 증가하고 있는 생성형 인공지능은 대체로 인코더와 디코더로 이뤄진 트랜스포머 모델을 기반으로 하고 있으며, 인간의 피드백을 활용한 강화학습과 보상 모델에 대한 최적화, 문맥에 대한 이해 등을 통해 놀라운 발전을 이루고 있다. 특히, 다양한 사용자의 질문이나 의도를 이해하는 능력과 이를 바탕으로 한 글쓰기, 요약, 제시어 추출, 평가와 피드백 등 다양한 기능을 수행할 수 있다. 또한 교수자가 제시하는 예를 토대로 주어진 응답을 평가하거나 질문과 적절한 답변을 생성하는 등 학습자에 대한 진단과 실질적 교육내용의 구성 등 많은 유용성을 가지고 있다. 그러나 생성형 인공지능이 가지고 있는 한계로 인해 정확한 사실이나 지식에 대한 잘못된 전달, 과도한 확신으로 인한 편향, 사용자의 태도나 감정 등에 미칠 영향의 불확실성 등에 대한 문제 등에 대해 해가 없는지 검토가 필요하다. 특히, 생성형 인공지능이 제공하는 응답은 많은 사람들의 응답 데이터를 기반으로 한 확률적 접근이므로 매우 거리가 멀거나 새로운 관점을 제시하는 통찰적 사고나 혁신적 사고를 제한할 우려도 있다. 이에 따라 본 연구는 과학교수학습을 위해 인공지능의 긍정적 활용을 위한 여러 실천적 제언을 제시하였다.

토픽 모델링을 이용한 트위터 이슈 트래킹 시스템 (Twitter Issue Tracking System by Topic Modeling Techniques)

  • 배정환;한남기;송민
    • 지능정보연구
    • /
    • 제20권2호
    • /
    • pp.109-122
    • /
    • 2014
  • 현재 우리는 소셜 네트워크 서비스(Social Network Service, 이하 SNS) 상에서 수많은 데이터를 만들어 내고 있다. 특히, 모바일 기기와 SNS의 결합은 과거와는 비교할 수 없는 대량의 데이터를 생성하면서 사회적으로도 큰 영향을 미치고 있다. 이렇게 방대한 SNS 데이터 안에서 사람들이 많이 이야기하는 이슈를 찾아낼 수 있다면 이 정보는 사회 전반에 걸쳐 새로운 가치 창출을 위한 중요한 원천으로 활용될 수 있다. 본 연구는 이러한 SNS 빅데이터 분석에 대한 요구에 부응하기 위해, 트위터 데이터를 활용하여 트위터 상에서 어떤 이슈가 있었는지 추출하고 이를 웹 상에서 시각화 하는 트위터이슈 트래킹 시스템 TITS(Twitter Issue Tracking System)를 설계하고 구축 하였다. TITS는 1) 일별 순위에 따른 토픽 키워드 집합 제공 2) 토픽의 한달 간 일별 시계열 그래프 시각화 3) 토픽으로서의 중요도를 점수와 빈도수에 따라 Treemap으로 제공 4) 키워드 검색을 통한 키워드의 한달 간 일별 시계열 그래프 시각화의 기능을 갖는다. 본 연구는 SNS 상에서 실시간으로 발생하는 빅데이터를 Open Source인 Hadoop과 MongoDB를 활용하여 분석하였고, 이는 빅데이터의 실시간 처리가 점점 중요해지고 있는 현재 매우 주요한 방법론을 제시한다. 둘째, 문헌정보학 분야뿐만 아니라 다양한 연구 영역에서 사용하고 있는 토픽 모델링 기법을 실제 트위터 데이터에 적용하여 스토리텔링과 시계열 분석 측면에서 유용성을 확인할 수 있었다. 셋째, 연구 실험을 바탕으로 시각화와 웹 시스템 구축을 통해 실제 사용 가능한 시스템으로 구현하였다. 이를 통해 소셜미디어에서 생성되는 사회적 트렌드를 마이닝하여 데이터 분석을 통한 의미 있는 정보를 제공하는 실제적인 방법을 제시할 수 있었다는 점에서 주요한 의의를 갖는다. 본 연구는 JSON(JavaScript Object Notation) 파일 포맷의 1억 5천만개 가량의 2013년 3월 한국어 트위터 데이터를 실험 대상으로 한다.

미얀마의 패션 고등교육 현황과 수요에 대한 탐색적 연구 (An Exploratory Study on the Status of and Demand for Higher Education Programs in Fashion in Myanmar)

  • 강민경;진병호;조아라;이효정;이재일;이윤정
    • 한국가정과교육학회지
    • /
    • 제34권3호
    • /
    • pp.1-23
    • /
    • 2022
  • 본 연구의 목적은 미얀마의 섬유 및 패션산업에 대한 교수 및 대학생들의 인식을 살펴보고 패션 관련 고등교육 프로그램의 현황과 수요를 파악하는 것이다. 이를 위해 미얀마 대학생들과 양곤공과대학교 섬유공학과 교수들을 대상으로 인터뷰 및 설문조사를 실시하였다. 한 명의 한국인 교수를 제외하고 교수들은 이메일을 통해 폐쇄형 및 개방형 질문이 포함된 설문지에 응답하였다. 학생 데이터는 온라인 그룹 인터뷰 또는 이메일을 통해 수집되었다. 응답은 키워드 추출 및 분류를 통해 분석되었으며, 미얀마의 고등교육에 대한 일반적인 의견에 대한 폐쇄형 질문에 대해 기술통계분석이 실시되었다. 일반적으로 교수들은 고등교육이 매우 중요하며, 미얀마의 고등교육이 개선될 필요가 있다고 하였으며, 예체능 교육이 매우 중요하고, 예술과 패션을 포함한 문화산업은 미얀마의 사회경제적 발전에 중요하며, 패션산업이 미얀마 경제에 기여하는 바를 고려할 때 패션교육은 중요하다고 답하였다. 미얀마의 패션 산업에 대한 관심은 특히 학생들 사이에서 매우 높았지만 섬유공학 분야 학위 취득에 대한 관심은 제한적이었다. 의류업계의 낮은 임금, 관심이 아닌 학점으로 전공이 결정되는 것, 미얀마의 고등교육 및 패션스쿨 패션학과의 부재 등을 이유로 들었다. 일부에서는 미얀마 대학생들의 교육적 요구에 맞는 패션 학위가 제공되면 이러한 인식이 개선될 것이라고 믿었다. 패션상품개발, 패션디자인, 패턴 메이킹, 패션마케팅, 패션 브랜딩, 패션매니지먼트, 복식사사, 문화연구 분야에서 교육 프로그램에 대한 수요가 높았다. 섬유공학과 학생들은 졸업 후 섬유 및 의류공장을 주요 취업 기회로 인식하였다. 많은 학생들이 더 높은 급여를 받고 더 높은 수준의 지식과 기술을 습득할 수 있기를 기대했기 때문에 글로벌 패션 브랜드에 취직하기를 원했다. 미얀마 패션교육프로그램 개발은 패션 및 패션교육 분야에 대한 관심 증가, 교육을 받을 여력이 없는 학생들에게 학습 기회 제공, 미얀마의 국가 브랜드 개발, 미얀마 패션산업 및 전통 브랜드의 브랜드화 개선 등 다양한 긍정적인 효과가 있을 것으로 기대하였다.

토픽모델링을 활용한 COVID-19 학술 연구 기반 연구 주제 분류에 관한 연구 (A study on the classification of research topics based on COVID-19 academic research using Topic modeling)

  • 유소연;임규건
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.155-174
    • /
    • 2022
  • 2020년 1월부터 2021년 10월 현재까지 COVID-19(치명적인 호흡기 증후군인 코로나바이러스-2)와 관련된 학술 연구가 500,000편 이상 발표되었다. COVID-19와 관련된 논문의 수가 급격하게 증가함에 따라 의료 전문가와 정책 담당자들이 중요한 연구를 신속하게 찾는 것에 시간적·기술적 제약이 따르고 있다. 따라서 본 연구에서는 LDA와 Word2vec 알고리즘을 사용하여 방대한 문헌의 텍스트 자료로부터 유용한 정보를 추출하는 방안을 제시한다. COVID-19와 관련된 논문에서 검색하고자 하는 키워드와 관련된 논문을 추출하고, 이를 대상으로 세부 주제를 파악하였다. 자료는 Kaggle에 있는 CORD-19 데이터 세트를 활용하였는데, COVID-19 전염병에 대응하기 위해 주요 연구 그룹과 백악관이 준비한 무료 학술 자료로서 매주 자료가 업데이트되고 있다. 연구 방법은 크게 두 가지로 나뉜다. 먼저, 47,110편의 학술 논문의 초록을 대상으로 LDA 토픽 모델링과 Word2vec 연관어 분석을 수행한 후, 도출된 토픽 중 'vaccine'과 관련된 논문 4,555편, 'treatment'와 관련된 논문 5,791편을 추출한다. 두 번째로 추출된 논문을 대상으로 LDA, PCA 차원 축소 후 t-SNE 기법을 사용하여 비슷한 주제를 가진 논문을 군집화하고 산점도로 시각화하였다. 전체 논문을 대상으로 찾을 수 없었던 숨겨진 주제를 키워드에 따라 문헌을 분류하여 토픽 모델링을 수행한 결과 세부 주제를 찾을 수 있었다. 본 연구의 목표는 대량의 문헌에서 키워드를 입력하여 특정 정보에 대한 문헌을 분류할 수 있는 방안을 제시하는 것이다. 본 연구의 목표는 의료 전문가와 정책 담당자들의 소중한 시간과 노력을 줄이고, 신속하게 정보를 얻을 수 있는 방법을 제안하는 것이다. 학술 논문의 초록에서 COVID-19와 관련된 토픽을 발견하고, COVID-19에 대한 새로운 연구 방향을 탐구하도록 도움을 주는 기초자료로 활용될 것으로 기대한다.