• 제목/요약/키워드: 주제어 추출

검색결과 149건 처리시간 0.036초

페이스북 그룹 게시물 분석을 통한 우울증 관련 주제에 대한 고찰 (Investigating Major Topics Through the Analysis of Depression-related Facebook Group Posts)

  • 주영준;김동훈;이창호;이용정
    • 한국문헌정보학회지
    • /
    • 제53권4호
    • /
    • pp.171-187
    • /
    • 2019
  • 본 연구는 소셜 네트워크 서비스인 페이스북에서 우울증 관련 게시물을 분석하여 그 안에서 주로 논의되는 주제를 파악하고자 한다. 구체적으로, 접근 용이성, 개방성 및 익명성 등의 특징을 지니는 페이스북이라는 온라인 커뮤니티에서 사용자들이 다소 민감한 정신적 질환인 우울증에 관하여 어떤 내용을 논의하는지 살펴보고자 한다. 본 연구를 위해 페이스북 데이터 수집에서부터 주제어 추출에 이르기까지의 전반적인 과정을 포함하는 자연어 처리 기반의 데이터 분석 프레임워크를 구현하였다. 구현한 프레임워크를 이용하여, 본 연구는 우울증을 논의하는 페이스북 최대 사용자 그룹에서 최근 1년간 작성한 885개의 게시물을 수집하여 분석하였다. 주제어 추출의 완성도와 정확도를 위해 자동화된 기법과 수동적인 접근법(불용어 제거, 주제어 개수 지정)을 결합하였으며, 이를 통해 주제를 다각도에서 분석하였다. 분석 결과, 사용자들은 우울증 일반, 인간관계, 기분 및 느낌, 우울증 증상, 자살, 의료 참고, 그리고 가족 등에 대한 논의를 주로 하는 것으로 파악되었다.

TF-IDF와 소설 텍스트의 구조를 이용한 주제어 추출 연구 (Study on Extraction of Keywords Using TF-IDF and Text Structure of Novels)

  • 유은순;최건희;김승훈
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권2호
    • /
    • pp.121-129
    • /
    • 2015
  • 도서 상품에 대한 정보량이 폭증하면서 고객이 도서 선택에 어려움을 겪는 상황이 발생하고 있다. 이에 따라 고객에게 적합한 도서 정보를 제공하여 구매를 유도하는 도서 추천시스템의 중요성이 커지고 있다. 하지만 도서의 서지정보나 사용자 정보 등을 이용한 기존의 추천시스템은 추천 결과의 신뢰도에 문제를 드러내고 있기 때문에 도서 본문 텍스트의 의미적 정보를 추천시스템에 반영하는 것이 필요하다. 따라서 본 논문은 이에 대한 선행연구로 TF-IDF기법과 소설의 외형적 구조를 이용한 소설 텍스트의 주제어 추출 방법을 제안하였다. 이를 위해 100권의 소설텍스트를 수집하고 각각의 소설을 머리말, 대화문, 비대화문, 맺음말의 4개의 구조로 분리한 후 TF-IDF 가중치를 계산하였다. 실험결과 본문 텍스트만을 이용했을 때 보다 머리말과 맺음말을 포함하고 대화문에 가중치를 높게 부여하였을 때 주제어의 추출 정확도가 42.1%의 성능 향상을 보였다.

사회연결망 분석을 활용한 무역 분야 연구동향 분석 (A Study on the Research Trends in International Trade using Social Network Analysis)

  • 이지훈
    • 한국산학기술학회논문지
    • /
    • 제21권11호
    • /
    • pp.465-476
    • /
    • 2020
  • 본 연구에서는 사회연결망 분석 기법을 활용해 무역 분야 연구의 동향과 지식구조를 입체적으로 파악했다. 이를 위해 2003년부터 2019년까지 국제통상연구, 무역학회지, Journal of Korea Trade의 3개 학술지에 수록된 1797개의 논문에서 4840개의 주제어를 추출해 분석을 실시했다. 분석 결과, 무역 연구의 주제어 분포는 다른 지적 네트워크와 마찬가지로 뚜렷한 멱함수 분포를 나타냈다. 학술지에 따라 상위 주제어에 다소의 차이가 나타났는데, Total Factor Productivity, Economic Growth, Korea-US FTA는 국제통상연구에서만 상위에 랭크됐다. Global Value Chain, Trust는 2011~2019년 기간에 새롭게 연구자들의 관심을 끈 주제어로 부상한 것으로 나타났다. E-Trade, WTO, Internationalization은 관심도가 근년에 올수록 줄어들었다. 기존 무역 분야 연구동향 분석은 서술적 방법에 의한 질적 분석이 대종을 이뤘으나, 본 연구는 사회 연결망 분석 기법을 활용한 양적 분석이라는 점에 의미가 있다.

K-평균 군집화 기법을 활용한 DBLP 논문 서지정보의 연대별 출현 패턴 연구 (Finding Meaningful Chronological Pattern of Key Words in Computer Science Bibliography)

  • 허주성;임현교;김경한;한연희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2016년도 추계학술발표대회
    • /
    • pp.542-545
    • /
    • 2016
  • 컴퓨터공학 분야의 논문 정보를 다루고 있는 대표적인 사이트인 DBLP의 연구 동향을 알아보기 위해 본 논문에서는 약 300만개 이상의 논문 서지정보 가져와 분석했다. IT용어 사전을 만들고 각 논문의 제목과 초록에 포함된 주제어를 추출해 분석을 위한 고차원의 행렬을 만들고, k-평균 군집화 기법을 활용하여 1960년도부터 2010년도까지 총 60여 년간의 연대별 주제어 출현 패턴을 분석함으로써 흥미로운 결과를 도출해 냈다.

Competitive Unit을 사용한 Helmholtz Machine에 의한 문서 클러스터링 (Topical Clustering of Documents using Helmholtz Machines with Competitive Units)

  • 장정호;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 봄 학술발표논문집 Vol.28 No.1 (B)
    • /
    • pp.292-294
    • /
    • 2001
  • 문서 클러스터링은 정보검색 시스템에서 검색과정의 효율성을 향상시키기 위해서 많이 사용된다. 기존의 K-means 클러스터링과 같은 거리-기반 접근 방법은 거리에 대한 척도를 정해야 하는 문제가 있고, 또한 전체 자질 공간에서 지역적 특성에 민감하기 때문에 문서 내에 노이즈가 존재할 경우 만족스러운 결과를 내지 못할 수 있다. 그리고 기본적으로 문서 데이터는 희소성(sparseness)을 가기 때문에 정규 분포를 가정한 mixture 모델을 적용하기도 어려움이 있다. 본 논문에서는 Helmoholtz machine에 의한 문서 클러스터링 방법을 제안한다. 제안되는 방법에서는 하나의 문서를 어떤 내재적인 요인(factor)들의 다양한 결합에 의한 결과로 가정하는데, 이 때의 요인은 주제어 집합 또는 적어도 의미적으로 유사한 단어들의 집합이다. 그리고 기본적으로 Helmholtz machine은 이진 데이터를 다루는데, 텍스트 문서에 나타나는 단어들의 빈도를 고려하기 위해 수정된 Helmholtz machine을 제시한다. TREC-8 adhoe 데이터와 20 Newsgroup 문서 집합에 대한 클러스터링 실험 결과, 제안된 방법이 K-means 알고리즘에 비해 우수한 성능을 보였으며 주제어 추출을 통해 문서 집합의 전체 내용 파악을 용이하게 하는 특성이 있었다.

  • PDF

텍스트 마이닝을 이용한 암반공학분야 SCI논문의 주제어 분석 (Keyword Analysis of Two SCI Journals on Rock Engineering by using Text Mining)

  • 정용복;박의섭
    • 터널과지하공간
    • /
    • 제25권4호
    • /
    • pp.303-319
    • /
    • 2015
  • 텍스트 형태의 자료에서 유용한 정보를 추출하는 텍스트 마이닝 기법은 데이터 마이닝의 한 분야이다. 본 연구에서는 암반공학 분야의 대표적인 국제 학술지인 IJRMMS과 RMRE에 2001년 이후 게재된 논문의 제목과 주요어를 대상으로 텍스트 마이닝 기법을 적용하여 주요 연구 동향과 시계열 트렌드, 연구 분야 상관관계 등을 파악하였으며 이를 이해하기 쉽도록 가시화하였다. 분석 결과 주요 연구 분야는 두 학술지 모두 유사하였으나 연관관계 분석 결과 IJRMMS의 경우 'rock'을 기반으로 1개의 큰 그룹과 소규모 그룹이 형성된 반면 RMRE는 중규모의 그룹이 형성되고 이 그룹 간에 연결이 형성되는 구조가 나타났다. 또한 시계열 자료로 변환하여 군집 분석과 각 주제어의 기울기 자료로 분석한 결과 일부 하강 주제어들이 있었으나 양적인 측면에서 차이가 있을 뿐 대부분 논문 수가 증가하는 것으로 나타났다.

교과연계를 위한 학교도서관 단원목록 시스템의 개발에 관한 연구 - 중학교 과학과를 중심으로 - (A Study on the Development of Unit Catalog System for Curriculum Linkage in School Libraries: Focusing on Middle School Science Department)

  • 김보란;김정현
    • 한국비블리아학회지
    • /
    • 제33권4호
    • /
    • pp.27-47
    • /
    • 2022
  • 이 연구의 목적은 교육과정과 연계할 수 있는 교과 단원목록 시스템의 개발에 있다. 연구방법은 먼저 중학교 교육과정과 과학과 전 학년의 교과서 분석을 통해 단원 주제어를 추출하였다. 이를 바탕으로 교과의 단원주제와 관련된 도서를 연결하여 단원 도서목록, 단원주제어를 색인어로 정리한 색인어목록, 그리고 단원주제와 연계된 학년 및 학교급 연계목록을 하부 시스템으로 하는 단원목록 시스템을 설계하였으며, Notion 프로그램을 활용하여 중학교 과학 1단원을 표본으로 웹상에서 단원목록 시스템을 구현하였다. 시스템 평가를 위해 학생들을 대상으로 실험 및 설문 조사를 하였으며, 시스템 만족도 및 추후 활용 의향 등에서 매우 긍정적인 결과를 보였다. 한편 이 연구는 중학교 과학과를 대상으로 한정하였지만 전체 학년 및 교과로 확대 적용할 것을 제안하였다.

딥러닝 기반의 뉴스 분석을 활용한 주제별 최신 연관단어 추출 기법 (A Topic Related Word Extraction Method Using Deep Learning Based News Analysis)

  • 김성진;김건우;이동호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.873-876
    • /
    • 2017
  • 최근 정보검색의 효율성을 위해 데이터를 분석하여 해당 데이터를 가장 잘 나타내는 연관단어를 추출 및 추천하는 연구가 활발히 이루어지고 있다. 현재 관련 연구들은 출현 빈도수를 사용하는 방법이나 LDA와 같은 기계학습 기법을 활용해 데이터를 분석하여 연관단어를 생성하는 방법을 제안하고 있다. 기계학습 기법은 결과 값을 찾는데 사용되는 특징들을 전문가가 직접 설계해야 하며 좋은 결과를 내는 적절한 특징을 찾을 때까지 많은 시간이 필요하다. 또한, 파라미터들을 직접 설정해야 하므로 많은 시간과 노력을 필요로 한다는 단점을 지닌다. 이러한 기계학습 기법의 단점을 극복하기 위해 인공신경망을 다층구조로 배치하여 데이터를 분석하는 딥러닝이 최근 각광받고 있다. 본 논문에서는 기존 기계학습 기법을 사용하는 연관단어 추출연구의 한계점을 극복하기 위해 딥러닝을 활용한다. 먼저, 인공신경망 기반 단어 벡터 생성기인 Word2Vec를 사용하여 다양한 텍스트 데이터들을 학습하고 룩업 테이블을 생성한다. 그 후, 생성된 룩업 테이블을 바탕으로 인공신경망의 한 종류인 합성곱 신경망을 활용하여 사용자가 입력한 주제어와 관련된 최근 뉴스데이터를 분석한 후, 주제별 최신 연관단어를 추출하는 시스템을 제안한다. 또한 제안한 시스템을 통해 생성된 연관단어의 정확률을 측정하여 성능을 평가하였다.

언어네트워크 분석을 통한 중등교사 임용시험 관련 연구동향 분석 (Research Trend of Secondary-School Teacher's Employment Examination Using Semantic Network Analysis)

  • 권충훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.244-247
    • /
    • 2018
  • 본 연구는 우리나라 중등교사 임용시험의 형태가 개편된 2014년도 이후부터 2018년도 현재까지 진행된 중등교사 임용시험 관련 선행연구들을 언어네트워크 분석 방법론을 활용하여, 그 연구동향을 분석하였다. 본 연구에서는 2014년도 이후 5년간 진행된 중등교사 임용시험 관련 연구 55건을 대상으로 주요 핵심어 추출 및 워드클라우드 제시, 주요 핵심어의 언어네트워크 전체 분석 및 3종 중심성(연결정도, 근접, 매개) 분석, 네트워크 값을 반영한 네트워크 그림 시각화 작업 등을 진행하였다. 중등교사 임용시험 관련 선행연구의 주요 핵심어는 분석, 문항, 출제, 인식, 임용후보자, 교과교육학, 국어과, 선정경쟁시험, 개선, 예비교사, 교과내용학, 기출문항, 임용교사, 제도, 탐색 등이었다. 이들 상위 빈도 핵심어들은 나름 높은 연결정도를 가지고 다른 핵심어들간의 의미연결망을 구축하고 있음을 확인하였다, 이런 연구결과는 중등교사 임용시험 주제 연구 진행을 할 때, 연구주제 선정 및 방향 설정에 도움을 줄 것으로 기대된다.

  • PDF

마이크로블로그를 통한 그래프 기반의 토픽 추출에 관한 연구 (A Study on Graph-based Topic Extraction from Microblogs)

  • 최돈정;이성우;김재광;이지형
    • 한국지능시스템학회논문지
    • /
    • 제21권5호
    • /
    • pp.564-568
    • /
    • 2011
  • 오늘날 마이크로블로그는 스마트폰의 보급과 더불어 대중적인 정보전달 방식의 하나로 자리 잡고 있으며, 기존의 정보매체에 비해 사용자들의 관심사 변화를 보다 빠르게 반영하는 특징을 지닌다. 특히 다수 사용자의 관심을 끌고 있는 토픽의 경우, 다양한 정보 출처로부터 풍부한 정보를 제공할 수 있는 잠재력을 보유하고 있기도 하다. 그럼에도 불구하고 높은 비율로 존재하는 노이즈 등으로 인해 마이크로블로그로부터 유용한 정보를 획득하기란 쉽지 않은 문제로 남아있다. 지금까지 특정 문서로부터 주제를 효율적으로 추출, 추적하는 다양한 방법이 제안되었으나, 마이크로블로그와 같은 단문의 문서가 대량으로 생산되는 경우에 활용하기에는 미흡한점이 있었다. 본 논문에서는 특정 주제어가 주어졌을 때, 키워드 그래프를 구성함으로써 그에 대한 사용자들의 관심사가 어떻게 변화하는지를 효과적으로 파악하는 방법을 제안한다. 제안 방법은 크게 마이크로블로그 내에서의 단어 동시출현빈도를 이용하여 단어간 키워드 그래프를 생성하는 과정과, 네트워크 분할 기법을 이용하여 그래프를 적절히 분할함으로써 사용자의 관심사 별로 나누는 과정을 포함한다. 선별된 주제어에 대해 제안된 방법을 적용해 봄으로서 적은 비용으로 효과적인 주제 발견 및 분할이 가능함을 확인하였다.