• 제목/요약/키워드: LDA (Latent Dirichlet allocation)

검색결과 182건 처리시간 0.031초

잠재 디리클레 할당(LDA) 기반의 토픽모델링 분석을 통한 '초등과학교육' 학술지 연구논문의 주제 및 변화 (An Examination of the Topics and Changes in the Research Papers Published in the Journal of Korean Elementary Science Education Using Latent Dirichlet Allocation for the Topic Modeling Analysis)

  • 장진아;나지연
    • 한국초등과학교육학회지:초등과학교육
    • /
    • 제41권2호
    • /
    • pp.356-372
    • /
    • 2022
  • 본 연구에서는 한국초등과학교육학회의 지난 50년을 돌아보기 위하여, '초등과학교육'에 게재된 연구논문들이 어떤 주제로 어떻게 변화했는지 살펴보았다. 이를 위해 창간호(1983)년부터 2021년까지 '초등과학교육' 학술지에 게재된 연구논문의 총 1,065개 영문초록들에 대하여 LDA 기반 토픽모델링 분석을 실시하였다. LDA 분석 결과 총 14개의 토픽들이 추출되었으며, 핵심어 및 핵심 문서를 통해 각 토픽들에 담긴 의미를 분석하였다. 또한 시기별로 각 토픽들의 추이를 파악하기 위해, 3년을 주기로 하여 토픽들의 평균 비중값 변화를 분석하고 선형회귀 분석을 통해 통계적으로 유의미하게 증가 또는 감소한 토픽들을 분석하였다. 끝으로 본 연구의 결과를 통해, 향후 초등과학교육 연구 수행 및 지원을 위한 시사점을 논의하였다.

잠재의미분석방법을 통한 학교보건 연구동향 분석 (Trend Analysis of School Health Research using Latent Semantic Analysis)

  • 신선희;박윤주
    • 한국학교보건학회지
    • /
    • 제33권3호
    • /
    • pp.184-193
    • /
    • 2020
  • Purpose: This study was designed to investigate the trends in school health research in Korea using probabilistic latent semantic analysis. The study longitudinally analyzed the abstracts of the papers published in 「The Journal of the Korean Society of School Health」 over the recent 17 years, which is between 2004 and August 2020. By classifying all the papers according to the topics identified through the analysis, it was possible to see how the distribution of the topics has changed over years. Based on the results, implications for school health research and educational uses of latent semantic analysis were suggested. Methods: This study investigated the research trends by longitudinally analyzing journal abstracts using latent dirichlet allocation (LDA), a type of LSA. The abstracts in 「The Journal of the Korean Society of School Health」 published from 2004 to August 2020 were used for the analysis. Results: A total of 34 latent topics were identified by LDA. Six topics, which were「Adolescent depression and suicide prevention」, 「Students' knowledge, attitudes, & behaviors」, 「Effective self-esteem program through depression interventions」, 「Factors of students' stress」, 「Intervention program to prevent adolescent risky behaviors」, and 「Sex education curriculum, and teacher」were most frequently covered by the journal. Each of them was dealt with in at least 20 papers. The topics related to 「Intervention program to prevent adolescent risky behaviors」, 「Effective self-esteem program through depression interventions」, and 「Preventive vaccination and factors of effective vaccination」 appeared repeatedly over the most recent 5 years. Conclusion: This study introduced an AI-powered analysis method that enables data-centered objective text analysis without human intervention. Based on the results, implications for school health research were presented, and various uses of latent semantic analysis (LSA) in educational research were suggested.

LDA 기법을 이용한 버스 승객의 잠재적 이동패턴 분석 (Latent mobility pattern analysis of bus passengers with LDA)

  • 조아;이경희;조완섭
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권5호
    • /
    • pp.1061-1069
    • /
    • 2015
  • 최근 교통 분야에서 발생하는 교통 빅데이터 (교통카드 데이터, ATMS 데이터 등)의 분석결과를 교통 정책에 활용하는 사례가 늘어나고 있는 추세이다. 또한 교통 데이터 분석 기법을 기존의 단순 빈도 분석 기법에서 다양한 데이터 마이닝 기법으로 확장하여 교통 데이터 속에 숨어있는 의미를 파악하려는 연구도 진행되고 있다. 본 연구에서는 교통카드 데이터에 대하여 토픽모델링 기법 중의 하나인 LDA (Latent Dirichlet Allocation) 기법을 적용하여 청주시 버스 승객들의 이동패턴을 분석한다. 이를 위해 교통카드 데이터의 하차 결측치를 추정하고, LDA 기법을 적용하여 이동패턴을 추출하였다. 또한 LDA 분석으로 도출된 값을 측정값으로 하여 다차원적 분석을 함으로써 청주시 버스 승객들의 이동패턴 특징을 파악할 수 있다. 분석 결과, 청주시의 경우 크게 1) 시외지역에서 터미널을 이용해 청주시에서 유입되는 패턴, 2) 주거지역에서 상업지역으로 이동하는 패턴, 3) 청주 인근 학교에서 상업 지역 (청주 중심가)로 이동하는 패턴을 발견할 수 있었다. 이동패턴은 도시 계획, 대중교통서비스 향상, 버스 노선 신설 등 다양한 교통정책의 수립에 활용될 수 있을 것으로 기대된다.

Latent Dirichlet Allocation (LDA) 모델 기반의 인공지능(A.I.) 기술 관련 연구 활동 및 동향 분석 (Systemic Analysis of Research Activities and Trends Related to Artificial Intelligence(A.I.) Technology Based on Latent Dirichlet Allocation (LDA) Model)

  • 정명석;이주연
    • 한국산업정보학회논문지
    • /
    • 제23권3호
    • /
    • pp.87-95
    • /
    • 2018
  • 최근 인공지능(Artificial Intelligence; A.I.)의 기술 발전과 함께 이에 대한 관심이 증가하고 있으며 관련 시장도 비약적으로 확대되고 있다. 아직은 초기단계이지만 2000년 이후 현재까지 계속 확장되고 있는 인공지능 기술 분야의 연구방향과 투자 분야에 대한 불확실성을 줄이는 것이 중요한 시점이다. 이러한 기술 변화와 시대적 요구에 따라서 본 연구는 빅데이터(Big Data) 분석방법 중 텍스트 마이닝(Text Mining)과 토픽모델링(Topic Modeling)을 활용하여 기술동향을 살펴보고, 핵심기술과 성장 가능성이 있는 연구의 향후 방향성을 제시하였다. 본 연구의 결과로부터 인공지능의 기술동향에 대한 이해를 바탕으로 향후 연구 방향에 대한 새로운 시사점을 도출할 수 있으리라 기대한다.

KOSPI index prediction using topic modeling and LSTM

  • Jin-Hyeon Joo;Geun-Duk Park
    • 한국컴퓨터정보학회논문지
    • /
    • 제29권7호
    • /
    • pp.73-80
    • /
    • 2024
  • 본 연구는 토픽 모델링과 장단기 기억(LSTM) 신경망을 결합하여 한국 종합주가지수(KOSPI) 예측의 정확도를 향상하는 방법을 제안한다. 본 논문에서는 LDA(Latent Dirichlet Allocation) 기법을 이용해 금융 뉴스 데이터에서 금리 인상 및 인하와 관련된 10개의 주요 주제를 추출하고, 추출된 주제를 과거 KOSPI 지수와 함께 LSTM 모델에 입력하여 KOSPI 지수를 예측하는 모델을 제안한다. 제안된 모델은 과거 KOSPI 지수를 LSTM 모델에 입력하여 시계열 예측 방법과 뉴스 데이터를 입력하여 토픽 모델링하는 방법을 결합하여 KOSPI 지수를 예측하는 특성을 가진다. 제안된 모델의 성능을 검증하기 위해, 본 논문에서는 LSTM의 입력 데이터의 종류에 따라 4개의 모델(LSTM_K 모델, LSTM_KNS 모델, LDA_K 모델, LDA_KNS 모델)을 설계하고 각 모델의 예측 성능을 제시하였다. 예측 성능을 비교한 결과, 금융 뉴스 주제 데이터와 과거 KOSPI 지수 데이터를 입력으로 하는 LSTM 모델(LDA_K 모델)이 가장 낮은 RMSE(Root Mean Square Error)를 기록하여 가장 좋은 예측 성능을 보였다.

국내 학술논문 주제 분류 알고리즘 비교 및 분석 (Comparison and Analysis of Subject Classification for Domestic Research Data)

  • 최원준;설재욱;정희석;윤화묵
    • 한국콘텐츠학회논문지
    • /
    • 제18권8호
    • /
    • pp.178-186
    • /
    • 2018
  • 학술정보 성과물을 서비스하기 위하여 논문 단위의 주제 분류는 필수가 된다. 하지만 현재까지 저널 단위의 주제 분류가 되어 있으며 기사 단위의 주제 분류가 서비스되는 곳은 많지 않다. 국내 성과물 중에서 학술 논문의 경우 주제 분류가 있으면 좀 더 큰 영역의 서비스를 담당할 수 있고 범위를 정해서 서비스 할 수 있기 때문에 무엇보다 중요한 정보가 된다. 하지만, 분야 별 주제를 분류하는 문제는 다양한 분야의 전문가의 손이 필요하고 정확도를 높이기 위해서 다양한 방법의 검증이 필요하다. 본 논문에서는 정답이 알려져 있지 않은 상태에서의 정답을 찾는 비지도 학습 알고리즘을 활용해서 주제 분류를 시도해 보고 연관도와 복잡도를 활용해서 주제 분류 알고리즘의 결과를 비교해 보고자 한다. 비지도 학습 알고리즘은 주제 분류 방법으로 잘 알려진 Hierarchical Dirichlet Precess(HDP). Latent Dirichlet Allocation(LDA), Latent Semantic Indexing(LSI) 알고리즘을 활용하여 성능을 분석해 보았다.

비격식 문서 분류 성능 개선을 위한 LDA 단어 분포 기반의 자질 확장 (Feature Expansion based on LDA Word Distribution for Performance Improvement of Informal Document Classification)

  • 이호경;양선;고영중
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.1008-1014
    • /
    • 2016
  • 트위터, 페이스북, 온라인 고객 리뷰 등은 신문기사처럼 정제된 글이 아닌 자유롭게 기술되는 비격식(informal) 텍스트 문서에 속한다. 이러한 비격식 문서에서 일관된 규칙이나 패턴을 찾는 일은 격식(formal) 문서 경우에 비해 용이하지 않기 때문에, 비격식 문서 분석을 위해서는 성능 개선을 위한 추가적인 접근 방법 필요다고 판단된다. 본 연구에서는 대표적 비격식 문서인 트위터 데이터를 열 가지 카테고리로 분류함에 있어 LDA(Latent Dirichlet allocation) 단어 분포를 사용하여 자질(feature)을 교정하고 확장한다. 토픽별로 상위에 랭크된 단어 자질들을 기반으로 다른 단어 자질들을 분해 및 병합하는 방식으로 유용한 자질 집합을 반복적으로 확장시킨다. 이렇게 생성된 자질로 문서 분류를 수행한 결과 자질 확장 이전에 비해 마이크로 평균 F1-score 7.11%p의 성능 개선 효과를 확인할 수 있었다.

빅데이터를 활용한 젠트리피케이션 상권의 장소성 분류와 특성 분석 -서울시 14개 주요상권을 중심으로- (Classifying and Characterizing the Types of Gentrified Commercial Districts Based on Sense of Place Using Big Data: Focusing on 14 Districts in Seoul)

  • 김영재;박인권
    • 지역연구
    • /
    • 제39권1호
    • /
    • pp.3-20
    • /
    • 2023
  • 본 연구는 젠트리피케이션이 발생한 상권의 장소성을 파악하여 상권의 확장과 쇠퇴 속에서 장소성의 구체적인 모습을 유형화하고 유형별 특징을 분석하는 것을 목적으로 한다. 소셜 미디어를 통해 수집된 대용량 문서를 활용하여 위계적 군집분석을 시행하였으며, 지역별 장소성을 인지적 차원의 <경험>과 실재적 차원의 <상권특성>으로 구분하여 상권 군집별 특성을 확인하였다. 이를 위해 잠재 디리클레 할당(Latent Dirichlet Allocation: LDA) 토픽모델링 기법과 서울시 우리마을가게 상권분석서비스를 통해 수집된 상권별 매출액 통계자료를 활용하였다. 분석 결과 서울시 젠트리피케이션 상권은 고유한 특성을 가진 '연극 상권', '전통문화 상권', '여성 미용 상권', '고급음식점 및 의료서비스 상권', '트렌디 상권'으로 분류되는 것으로 나타났다. 연구의 결과를 바탕으로 보다 효율적이고 지역별 특색에 맞는 상업정책들을 시행할 수 있을 것으로 기대한다.

사고보고문서를 이용한 텍스트 기반 사고발생 유형 및 관계 분석 (Text Analytics for Classifying Types of Accident Occurrence Using Accident Report Documents)

  • 김범수;장성록;서용윤
    • 한국안전학회지
    • /
    • 제33권3호
    • /
    • pp.58-64
    • /
    • 2018
  • Recently, a lot of accident report documents have accumulated in almost all of industries, including critical information of accidents. Accordingly, text data contained in accident report documents are considered useful information for understanding accident processes. However, there has been a lack of systematic approaches to analyzing accident report documents. In this respect, this paper aims at proposing text analytics approach to extracting critical information on accident processes. To be specific, major causes of the accident occurrence are classified based on text information contained in accident report documents by using both textmining and latent Dirichlet allocation (LDA) algorithms. The textmining algorithm is used to structure the document-term matrix and the LDA algorithm is applied to extract latent topics included in a lot of accident report documents. We extract ten topics of accidents as accident types and related keywords of accidents with respect to each accident type. The cause-and-effect diagram is then depicted as a tool for navigating processes of the accident occurrence by structuring causes extracted from LDA. Further, the trends of accidents are identified to explore patterns of accident occurrence in each of types. Three patterns of increasing to decreasing, decreasing to increasing, or only increasing are presented in the case of a chemical plant. The proposed approach helps safety managers systematically supervise the causes and processes of accidents through analysis of text information contained in accident report documents.

텍스트마이닝을 활용한 도로분야 ITS 정책이슈 탐색기법 정립 (Establishment of ITS Policy Issues Investigation Method in the Road Section applied Textmining)

  • 오창석;이용택;고민수
    • 한국ITS학회 논문지
    • /
    • 제15권6호
    • /
    • pp.10-23
    • /
    • 2016
  • 본 연구는 빅데이터를 활용하여 감사 시 유의해서 살펴보아야 할 ITS 관련 정책이슈 탐색방법 개발 및 적용을 목적으로 한다. 이를 위해 본 연구에서는 William Dunn이 제안한 경계분석을 이론적 토대로 하여, 여기에 감사원 감사실무 프로세스를 접목한 감사이슈 분석 틀을 제안했다. 그리고 이 분석 틀을 전산으로 구현하기 위해 메타문제를 추정하는 개념이 경계분석과 유사한 텍스트마이닝 기법을 응용했다. 텍스트마이닝의 구체적 모형은 David Blei가 제안한 Latent Dirichlet Allocation(LDA) 모형을 기반으로 하는 비대칭-대칭 혼합 어휘소 기반 LDA를 응용했다. 사례분석 결과, 경찰청에서 운영하는 도시교통정보시스템의 교통정보 수집률 저조와 국토교통부의 첨단교통관리시스템과의 중복 문제, 디지털 운행기록계의 주행거리 조작 등이 주요 이슈로 도출됐다.