• 제목/요약/키워드: Text Mining for Korean

검색결과 638건 처리시간 0.025초

국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교 - LDA와 HDP를 중심으로 - (Comparison of Topic Modeling Methods for Analyzing Research Trends of Archives Management in Korea: focused on LDA and HDP)

  • 박준형;오효정
    • 한국도서관정보학회지
    • /
    • 제48권4호
    • /
    • pp.235-258
    • /
    • 2017
  • 본 연구에서는 최근 각광을 받고 있는 텍스트마이닝 기법인 LDA 토픽모델링과 이를 변형한 HDP 토픽모델링을 적용하여 국내 기록관리학의 연구동향을 분석하고자 한다. 이를 위해 국내 기록관리학 관련 학술지 2종과 문헌정보학 관련 학술지 4종에서 1997년부터 2016년까지 발표된 기록관리학 관련 논문 1,027건을 수집하고 적절한 전처리과정을 거친 후 LDA 토픽모델링과 HDP 토픽모델링을 각각 수행하였다. 또한 토픽모델링 시각화 도구인 LDAvis를 활용하여 토픽별 거리를 가시적으로 표현하고 세부 대표 키워드를 분석하였다. 두 토픽모델링을 비교한 결과, LDA 토픽모델링은 전반적으로 해당 도메인을 대표하는 주요 키워드로 빈도수에 영향을 많이 받았으며, HDP 토픽모델링은 각 토픽별 특징을 파악할 수 있는 특수한 키워드가 많이 도출되었다. 이를 통해 LDA는 국내 기록관리학 내에 거시적으로 대표되는 주제들을, HDP는 세부 주제별 미시적인 핵심 키워드를 도출하는데 효과적임을 알 수 있었다.

바이오 분야 학술 문헌에서의 분야별 관계 추출 데이터셋 반자동 구축에 관한 연구 - 알츠하이머병 유관 유전자 간 상호 작용 중심으로 - (A Study on the Semiautomatic Construction of Domain-Specific Relation Extraction Datasets from Biomedical Abstracts - Mainly Focusing on a Genic Interaction Dataset in Alzheimer's Disease Domain -)

  • 최성필;유석종;조현양
    • 한국도서관정보학회지
    • /
    • 제47권4호
    • /
    • pp.289-307
    • /
    • 2016
  • 본 논문에서는 생의학 분야의 특정 세부 분야에 특화된 관계 추출 학습 말뭉치를 효율적으로 구축할 수 있는 시스템을 소개한다. 이 시스템은 대상 분야에 해당하는 용어집(유전자, 단백질, 질환 명칭 등)을 입력하면, 대용량 상호 작용 데이터베이스를 통해서 이들 용어 간의 연관 관계를 1차적으로 생성하고 생성된 연관 관계 집합을 다시 학술 데이터베이스에서 검색하여 최종적으로 연관 관계 포함 문장을 추출하는 형태로 수행된다. 개발된 시스템의 유용성 검증을 위해서 알츠하이머병 분야에서의 유전자 간 상호 작용 학습 말뭉치를 구축하는데 본 시스템을 적용하였고, 140개의 유전자 집합을 입력하여 이 분야에 특화된 학습 집합인 유전자 쌍 및 상호 작용 포함 문장 3,510 건을 추출하였다. 본 논문에서 제안한 시스템을 활용함으로써 기존에 완전 수작업으로 수행되던 연관 관계 추출용 학습 말뭉치 구축의 효율성을 높일 수 있고 다양한 세부 분야에 적합한 학습 말뭉치 구축에 도움을 줄 수 있다.

베이지안 이산모형을 이용한 기술예측 (Technology Forecasting using Bayesian Discrete Model)

  • 전성해
    • 한국지능시스템학회논문지
    • /
    • 제27권2호
    • /
    • pp.179-186
    • /
    • 2017
  • 기술예측은 과거부터 현재까지의 기술개발 결과를 수집, 분석하여 특정 기술의 미래 추세 및 상태를 예측하는 것이다. 일반적으로 특허는 현재까지의 기술개발 결과를 가장 잘 가지고 있다. 왜냐하면 특허에 포함된 세부 기술은 일정기간 동안 배타적 권리가 법에 의해 보장되기 때문이다. 따라서 특허 데이터의 분석을 이용한 기술예측의 다양한 연구가 진행되었다. 특허문서의 분석을 위하여 널리 사용되는 특허 키워드 데이터는 주로 기술키워드에 대한 빈도 값으로 이루어진다. 기존의 많은 특허분석에서는 회귀분석, 박스-젠킨스 모형 등 연속형 데이터분석 기법이 적용하였다. 하지만 빈도 데이터는 이산형 데이터이기 때문에 이산형 데이터분석 방법을 사용해야 한다. 본 연구에서는 이와 같은 문제점을 해결하기 위하여 베이지안 포아송 이산모형을 이용한 특허분석 방법을 제안한다. 연구방법의 성능평가를 위하여 지금까지 출원, 등록된 애플의 전체특허를 분석하여 향후 기술을 예측하는 사례분석을 수행한다.

용어 클러스터링을 이용한 단일문서 키워드 추출에 관한 연구 (A Study on Keyword Extraction From a Single Document Using Term Clustering)

  • 한승희
    • 한국문헌정보학회지
    • /
    • 제44권3호
    • /
    • pp.155-173
    • /
    • 2010
  • 이 연구에서는 용어 클러스터링을 이용하여 단일문서의 키워드를 추출하는 알고리즘을 제안하고자 한다. 단락단위로 분할한 단일문서를 대상으로 1차 유사도와 2차 분포 유사도를 산출하여 용어 클러스터링을 수행한 결과, 50단어 단락에서 2차 분포 유사도를 적용했을 때 가장 우수한 성능을 나타냈다. 이후, 용어 클러스터링결과를 이용하여 단일문서의 키워드를 추출하기 위해 단순빈도와 상대빈도의 조합을 통해 다양한 키워드 추출 공식을 도출, 적용한 결과, 단락빈도(pf)와 단어빈도$\times$역단락빈도($tf{\times}ipf$) 조건에서 가장 우수한 결과를 나타냈다. 이 결과를 통해, 본 연구에서 제안한 알고리즘은 좋은 키워드가 가져야 할 두 가지 조건인 주제성과 고른 빈도분포라는 측면에서 단일문서를 대상으로 효과적으로 키워드를 추출할 수 있음을 확인하였다.

생의학 학술 문헌의 불확실성 기반 지식 동향 분석에 관한 연구 (Knowledge Trend Analysis of Uncertainty in Biomedical Scientific Literature)

  • 허고은;송민
    • 정보관리학회지
    • /
    • 제36권2호
    • /
    • pp.175-199
    • /
    • 2019
  • 불확실성이란 정보의 합의나 현존하는 지식 부족으로 인해 명제의 지식이 불완전한 상태를 의미한다. 과학적 지식의 불확실성을 연구하는 학술문헌의 양은 시간이 흐름에 따라 기하급수적으로 증가하고 있으며, 이에 따라 새로운 지식이 발견되고 연구가 발전하고 있다. 이처럼 시간의 흐름은 지식의 불확실성의 패턴을 발견하는데 중요한 요인이 될 수 있음에도 불구하고 기존의 연구들은 불확실성 단어의 단순 출현 빈도를 기반으로 특정 학문 영역에서 불확실성의 특성을 파악해왔다. 따라서, 본 연구에서는 구축한 불확실성 단어를 생의학 영역의 불확실성 연구에 적용하여 시간의 흐름에 따른 불확실성의 변화와 패턴을 파악하고자 한다. 시간의 흐름에 따른 생의학 지식의 패턴을 분석하기 위해 대표 개체 페어, 동사 유형, 대표 개체의 패턴을 살펴보았으며 선형회귀 분석을 통해 유의성 검증을 수행했다. 개체 페어 분석에서는 17건 중 7건의 개체 페어가 유의하게 감소하는 패턴을 보였다. 10개의 대표적인 동사 유형은 모두 시간이 흐름에 따라 유의하게 감소했다. 대표 개체의 연도별 상대적 중요도 분석에서는 유의하게 상승과 하강 패턴을 보이는 개체들의 불확실성 증감을 분석했다.

QR코드에 대한 언론 보도 경향: 2008-2023년 뉴스 빅데이터 분석 (An Analysis of News Media Coverage of the QRcode: Based on 2008-2023 News Big Data)

  • 김선정;이지수
    • 정보관리학회지
    • /
    • 제41권2호
    • /
    • pp.269-294
    • /
    • 2024
  • 본 연구는 QR코드 주제 관련 뉴스의 보도 경향 분석을 위해 한국언론진흥재단의 빅카인즈에서 2008년부터 2023년까지 16년간의 뉴스 기사 데이터 13,335건을 수집하였다. 연간 및 주제별 보도량을 통해 양적 변화 추이를 살펴보고, 단어 빈도 분석을 실시하였으며, 동시 출현 단어를 활용한 네트워크 분석을 통해 시기별 주요 보도 내용을 분석하였다. 분석 결과는 다음과 같다. QR코드 관련 언론에서의 보도는 지속적으로 증가하였으며, 2020년에 보도량이 가장 많은 것으로 나타났다. 'IT·과학' 주제에서 가장 많이 보도되었으며, '스마트폰', '서비스', '애플리케이션', '결제' 등이 QR코드와 함께 주요 단어로 다뤄졌다. 연구 결과, 언론을 통해 QR코드의 정보 제공 및 전달, 정보의 인식 및 식별 기능이 부각 되었다. QR코드는 정보통신기술의 발달과 모바일 기기의 보편화에 따라 그 사용이 확대되었으며, 사회의 전반에서 대중적인 정보 매체로 활용되고 있는 것으로 나타났다.

'빅데이터' 분석 기반 한국사 연구의 현황과 가능성: 디지털 역사학의 시작 (Conditions and potentials of Korean history research based on 'big data' analysis: the beginning of 'digital history')

  • 이상국
    • 응용통계연구
    • /
    • 제29권6호
    • /
    • pp.1007-1023
    • /
    • 2016
  • 본 글은 역사학, 그 중에서 한국사 연구에서 활용 가능한 빅데이터 분석 방법론을 모색하고, 이를 활용한 '디지털 역사학'의 가능성을 검토하는 것을 목적으로 한다. 방대한 '한국사 빅데이터'를 활용한 한국사 연구를 위해서는 기존의 질적분석 방법론뿐만 아니라 양적분석 방법론이 모색되어야 한다. 이를 위해서는 다양한 학문 분야와의 학제 간 융합연구가 요청된다. 본 글에서는 '한국사 빅데이터'를 활용한 다양한 융합연구의 출현을 고대하면서, 학제 간 융합연구의 연구방법론을 제안하고, 이를 적용한 연구의 한 사례를 소개하였다. 즉, 문장의 의미를 분석하는 텍스트 분석방법으로 '한국사 빅데이터'에서 원하는 정보를 추출한다면, 양적분석 방법론의 단점으로 지적되는 '행간의 의미읽기의 부재'를 점차 보완해 갈 수 있을 것이다. 그리고 이러한 방법론으로 구축한 데이터베이스를 바탕으로 준지도 학습(Semi-Supervised Learning) 방법론을 적용할 경우, 사료가 충분하지 않은 전근대 한국사의 역사적 인물과 사건들을 분석하는데 유용하게 활용될 것으로 기대된다. 분석 결과를 직관적으로 보여주는 시각화를 통해서도 평면적 연구에서 찾아내지 못한 역사적 사실들을 밝혀낼 수 있을 것이다. 이제 '디지털 역사학'의 서막이 오른 것이다.

YouTube 동영상 의견분석을 통한 사용과 충족 이론 측정 : 트로트 가수 조명섭 동영상을 중심으로 (Analyzing Comments of YouTube Video to Measure Use and Gratification Theory Using Videos of Trot Singer, Cho Myung-sub)

  • 홍한국;임병학;김삼문
    • 한국콘텐츠학회논문지
    • /
    • 제20권9호
    • /
    • pp.29-42
    • /
    • 2020
  • 본 연구의 목적은 소셜미디어 중 하나인 YouTube 동영상 사용자들이 남긴 의견을 추출하여 분석하는 질적연구방법을 제시한다. 이를 위해서 YouTube 동영상 사용자의견을 사용하여 사용과 충족 이론의 쾌락적 충족, 사회적 충족, 그리고 실용적 충족을 빈도분석과 토픽모델링을 통해 측정하였다. 측정결과, YouTube KBS 한국방송 채널 중 트로트 가수 조명섭 동영상을 사용자들이 시청하는 이유는 첫 번째로 높은 빈도를 보이는 것이 쾌락적 충족을 위해서였다. 다음 순으로 사회적 충족과 실용적 충족으로 나타났다. 단어-문서 네트워크 분석에서 연결정도중심성은 '응원', '감사', '화이팅', '최고' 등이 높게 나타났고, 매개중심은'감사', '응원', '화이팅'등의 단어가 높게 나타나 연결정도 중심성과 유사함을 보였다. 아이겐벡터중심성은 '사랑', '마음', '감사' 등의 단어가 높게 나타나 사용자들의 의견들에 가장 영향력이 높은 단어들임을 알 수 있다. 이는 YouTube의 트로트 가수 조명섭 동영상 시청자들 중 대다수가 동영상에 대해 사랑과 감사의 마음을 보이고 있음을 알 수 있다. 위의 세 가지 중심성 분석결과는 동영상을 시청하는 동기로 사용충족 이론의 쾌락적 충족과 사회적 충족 관련 단어들이 높은 값을 보이고 있다. 본 연구는 설문조사 기반의 구조방정식 모형을 따르지 않고, 질적분석연구를 자동화한 텍스트마이닝 기법을 사용하여 YouTube동영상을 사용하는 동기를 사용 및 충족 이론에 의해 밝혀냈다는 것에서 연구 함의를 찾을 수 있다.

외국인 관광객 재방문율 향상과 소비 활성화를 위한 빅데이터 기반의 탐색적 연구 (Exploratory research based on big data for Improving the revisit rate of foreign tourists and invigorating consumption)

  • 안성현;박성택
    • 산업융합연구
    • /
    • 제18권6호
    • /
    • pp.19-25
    • /
    • 2020
  • 빅데이터 분석은 오늘날 다양한 산업 및 공공분야에서 필수적으로 활용되고 있다. 이에 본 연구에서는 빅데이터 분석을 활용하여 국내 관광 서비스 개선 방안을 LDA분석 방법을 통해 모색하고자 한다. 특히 외국인 방문객이 가장 많은 서울을 중심으로 관광객의 만족도를 높이고 이를 통해 재방문을 향상시킬 수 있고 서비스를 개선할 수 있는 탐색적 접근을 시도하였다. 본 연구에서는 서울시와 한국관광공사의 통계 자료 및 SNS 등의 인터넷 정보들을 R을 통해 수집 및 분석을 진행하였다. 그리고 LDA를 포함한 텍스트 마이닝 기법을 활용하였다. 분석 결과 외국인들의 한국을 방문하는 목적 중 하나는 식도락 관광이었다. 이에 식도락 관광을 중심으로 서비스의 질을 높이기 위한 방안을 도출하고자 한다.

교육관련 이슈 도출을 위한 국민청원 데이터 분석 연구 (A Study on Analysis of National Petition Data for Deriving Current Issues in Education)

  • 민정원;심재권
    • 창의정보문화연구
    • /
    • 제6권2호
    • /
    • pp.57-64
    • /
    • 2020
  • 정보사회가 고도화됨에 따라 의견의 다양성과 복잡성이 증대되어 이들로 부터 중요한 이슈를 도출해내고 문제 상황을 정확하게 파악하여 대응하는 일이 더욱 어려워지고 있다. 이에 따라 교육계에서는 기존의 담론과 쟁점 이외에도 변화되는 사회에 발맞추어 새롭게 등장하는 이슈를 발굴하여 대응할 필요가 있다. 본 연구는 국민청원 게시판에 작성된 육아와 교육 카테고리의 글을 분석하여 교육계의 주된 이슈를 도출해 내고자 하였다. 텍스트 마이닝 방법 가운데 하나인 토픽모델링을 활용하여 분석한 결과, 현재 교육 분야의 주요 이슈를 교육 관련법, 대학입시, 교육 관련 범죄, 교육환경, 유·초등교육, 교원처우, 교육정책, 고등교육, 중등교육 등의 9개 주제로 구분할 수 있었고, 이들을 주제 간의 관계를 시각화하여 제시하였다. 본 연구는 국민들의 여론을 수집한 후 주제별로 구분하여 중요 이슈를 도출하였다는 점에서 의의를 가진다.