• 제목/요약/키워드: LDA기법

검색결과 210건 처리시간 0.026초

국내 기록관리학 연구동향 분석을 위한 토픽모델링 기법 비교 - LDA와 HDP를 중심으로 - (Comparison of Topic Modeling Methods for Analyzing Research Trends of Archives Management in Korea: focused on LDA and HDP)

  • 박준형;오효정
    • 한국도서관정보학회지
    • /
    • 제48권4호
    • /
    • pp.235-258
    • /
    • 2017
  • 본 연구에서는 최근 각광을 받고 있는 텍스트마이닝 기법인 LDA 토픽모델링과 이를 변형한 HDP 토픽모델링을 적용하여 국내 기록관리학의 연구동향을 분석하고자 한다. 이를 위해 국내 기록관리학 관련 학술지 2종과 문헌정보학 관련 학술지 4종에서 1997년부터 2016년까지 발표된 기록관리학 관련 논문 1,027건을 수집하고 적절한 전처리과정을 거친 후 LDA 토픽모델링과 HDP 토픽모델링을 각각 수행하였다. 또한 토픽모델링 시각화 도구인 LDAvis를 활용하여 토픽별 거리를 가시적으로 표현하고 세부 대표 키워드를 분석하였다. 두 토픽모델링을 비교한 결과, LDA 토픽모델링은 전반적으로 해당 도메인을 대표하는 주요 키워드로 빈도수에 영향을 많이 받았으며, HDP 토픽모델링은 각 토픽별 특징을 파악할 수 있는 특수한 키워드가 많이 도출되었다. 이를 통해 LDA는 국내 기록관리학 내에 거시적으로 대표되는 주제들을, HDP는 세부 주제별 미시적인 핵심 키워드를 도출하는데 효과적임을 알 수 있었다.

LDA 기법을 이용한 버스 승객의 잠재적 이동패턴 분석 (Latent mobility pattern analysis of bus passengers with LDA)

  • 조아;이경희;조완섭
    • Journal of the Korean Data and Information Science Society
    • /
    • 제26권5호
    • /
    • pp.1061-1069
    • /
    • 2015
  • 최근 교통 분야에서 발생하는 교통 빅데이터 (교통카드 데이터, ATMS 데이터 등)의 분석결과를 교통 정책에 활용하는 사례가 늘어나고 있는 추세이다. 또한 교통 데이터 분석 기법을 기존의 단순 빈도 분석 기법에서 다양한 데이터 마이닝 기법으로 확장하여 교통 데이터 속에 숨어있는 의미를 파악하려는 연구도 진행되고 있다. 본 연구에서는 교통카드 데이터에 대하여 토픽모델링 기법 중의 하나인 LDA (Latent Dirichlet Allocation) 기법을 적용하여 청주시 버스 승객들의 이동패턴을 분석한다. 이를 위해 교통카드 데이터의 하차 결측치를 추정하고, LDA 기법을 적용하여 이동패턴을 추출하였다. 또한 LDA 분석으로 도출된 값을 측정값으로 하여 다차원적 분석을 함으로써 청주시 버스 승객들의 이동패턴 특징을 파악할 수 있다. 분석 결과, 청주시의 경우 크게 1) 시외지역에서 터미널을 이용해 청주시에서 유입되는 패턴, 2) 주거지역에서 상업지역으로 이동하는 패턴, 3) 청주 인근 학교에서 상업 지역 (청주 중심가)로 이동하는 패턴을 발견할 수 있었다. 이동패턴은 도시 계획, 대중교통서비스 향상, 버스 노선 신설 등 다양한 교통정책의 수립에 활용될 수 있을 것으로 기대된다.

PCA와 LDA를 이용한 아바타 생성 기법에 관한 연구 (Study of Avatar Generation method using PCA and LDA)

  • 강채미;온승엽
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2003년도 추계학술발표논문집 (상)
    • /
    • pp.555-558
    • /
    • 2003
  • 본 논문은 PCA(Principal Component Analysis)와 LDA(Linear Discriminant Analysis)를 적용하여 입력된 사용자 얼굴 사진과 가장 유사한 아바타를 자동으로 생성하기 위한 방법을 제안한다. 입력된 사진으로부터 알려진 영상처리 기법들을 이용하여 얼굴 영역을 추출하고, 추출된 얼굴로부터 얼굴 구성요소(눈썹,눈,코,입)를 추출한다. 추출된 얼굴 구성요소와 미리 분류하여 구축한 실제 얼굴 사진에서의 얼굴 구성요소 라이브러리를 PCA와 LDA를 적용하여 유사도를 계산한다. 최종적으로 계산된 유사도 값이 가장 큰 영상의 대표 아바타가 결과영상으로 나오게 된다. 실험결과 기존의 아바타 추출방법에서 드러난 입력영상과 2진화된 아바타 영상과의 속성 차이로 인한 문제점을 보안하고 좀 더 정확하고 자동화된 방법으로 아바타를 추출 할 수 있다는 것을 보였다.

  • PDF

라그랑지 기법을 쓴 영 공간 기반 선형 판별 분석법의 변형 기법 (Transformation Technique for Null Space-Based Linear Discriminant Analysis with Lagrange Method)

  • 호우위시;민황기;송익호;최명수;박선;이성로
    • 한국통신학회논문지
    • /
    • 제38C권2호
    • /
    • pp.208-212
    • /
    • 2013
  • 부류안 분산 행렬의 특이성 때문에 선형 판별 분석은 작은 표본 크기 문제에 쓰기에 알맞지 않다. 이에 선형 판별 분석을 확장하여 작은 표본 크기 문제에서 좋은 성능을 갖는 영 공간 기반 선형 판별 분석이 제안되었다. 이 논문에서는 라그랑지 기법을 바탕으로 하여, 영 공간 기반 선형 판별 분석을 써서 특징을 추출하는 문제를 선형 방정식 문제로 바꾸는 과정을 제안하였다.

토픽모델링을 활용한 과학기술동향 및 예측에 관한 연구 (A Study on Science Technology Trend and Prediction Using Topic Modeling)

  • 박주섭;홍순구;김종원
    • 한국산업정보학회논문지
    • /
    • 제22권4호
    • /
    • pp.19-28
    • /
    • 2017
  • 기업이나 정부에서는 연구나 기술 동향을 파악하고 예측하기 위해 주로 델파이 기법이 활용하여 왔다. 이 기법은 많은 시간과 비용이 소요되는 단점이 있기에 본 논문에서는 LDA 토픽모델링 기법을 활용하여 과학기술의 동향 및 예측에 관한 연구를 실시하였다. 이를 위해 미국 특허 문서중 AI(Artificial Intelligence) 초록을 대상으로 LDA 토픽모델링 기법을 활용하여 20개의 AI 세부기술을 추출하였다. 도출된 세부기술에 대해 핵심기술을 파악하고, 연도별 비중 추이 분석을 통하여 Hot기술과 Cold기술을 분류하였다. 텍스트 탐색, 컴퓨터 관리, 프로그래밍 구문, 네트워크 관리, 멀티미디어, 무선 네트워크 기술 등이 Hot 기술로 도출되었다. 이런 기술들은 최근 AI 분야에서 활발하게 연구되는 핵심 기술들이다. 본 논문에서 제시한 방법론은 사회문제나 지역혁신, 경영 등 다양한 분야에서의 동향분석이나 정책 도출 또는 기술 수요 예측에 활용되어 질 수 있을 것이다.

일반화된 판별분석 기법을 이용한 능동소나 표적 식별 (Sonar Target Classification using Generalized Discriminant Analysis)

  • 김동욱;김태환;석종원;배건성
    • 한국정보통신학회논문지
    • /
    • 제22권1호
    • /
    • pp.125-130
    • /
    • 2018
  • 선형판별분석(LDA) 기법은 특징벡터의 차원을 줄이거나 클래스 식별에 이용되는 통계적 분석 방법이다. 그러나 선형 분리가 불가능한 데이터 집합의 경우에는 비선형 함수를 이용하여 특징벡터를 고차원의 공간으로 사상(mapping) 시켜줌으로써 선형 분리가 가능하도록 만들 수 있는데, 이러한 기법을 일반화된 판별분석(GDA) 또는 커널판별분석(KDA) 기법이라고 한다. 본 연구에서는 인터넷에 공개되어 있는 능동소나 표적신호에 LDA 및 GDA 기법을 이용하여 표적식별 실험을 수행하고, 그 결과를 비교/분석하였다. 실험 결과 104개의 테스트 데이터에 대해 LDA 기법으로는 73.08% 인식률을 얻었으나 GDA 기법으로는 95.19%로 기존의 MLP 또는 커널 기반 SVM에 비해 나은 성능을 보였다.

LDA와 Local MLP를 이용한 얼굴 인식 (Face Recognition using LDA and Local MLP)

  • 이대종;최기선;전명근
    • 한국지능시스템학회:학술대회논문집
    • /
    • 한국퍼지및지능시스템학회 2006년도 춘계학술대회 학술발표 논문집 제16권 제1호
    • /
    • pp.212-216
    • /
    • 2006
  • MLP는 뛰어난 학습능력으로 인하여 많은 분야에 성공적으로 적용되고 있다. 그러나, 학습 방법으로서 최급경사법에 근거한 오차역전파 알고리즘을 적용하기 때문에 학습시간이 오래 걸리는 단점이 있다. 또한 입력차원의 크기가 크거나 클래스간 학습데이터의 유사성이 클 경우 최적의 파라미터를 구하는데는 한계가 있다. 이러한 문제점을 해결하기 위해 본 논문에서는 LDA와 local MLP을 이용한 새로운 얼굴인식시스템을 제안하고자 한다. 제안된 방법은 우선 LDA 기법에 의해 차원이 축소된 얼굴의 특징벡터를 계산한다. 다음 단계로서 전체 학습영상을 사용하기 보다는 그룹별로 분할된 얼굴영상에 대해 MLP를 수행하므로서 그룹별로 최적인 파라미터를 결정한다. 마지막 단계로 그룹별로 수행된 local MLP를 결합함으로써 전체 얼굴인식 시스템을 구성한다. 제안된 방법의 타당성을 보이기 위해 ORL 얼굴영상을 대상으로 실험한 결과 기존 방법인 PCA나 LDA에 비해 향상된 결과를 보임을 확인할 수 있었다.

  • PDF

실시간 근전도 패턴인식을 위한 특징투영 기법에 관한 연구 (A Study on Feature Projection Methods for a Real-Time EMG Pattern Recognition)

  • 추준욱;김신기;문무성;문인혁
    • 제어로봇시스템학회논문지
    • /
    • 제12권9호
    • /
    • pp.935-944
    • /
    • 2006
  • EMG pattern recognition is essential for the control of a multifunction myoelectric hand. The main goal of this study is to develop an efficient feature projection method for EMC pattern recognition. To this end, we propose a linear supervised feature projection that utilizes linear discriminant analysis (LDA). We first perform wavelet packet transform (WPT) to extract the feature vector from four channel EMC signals. For dimensionality reduction and clustering of the WPT features, the LDA incorporates class information into the learning procedure, and finds a linear matrix to maximize the class separability for the projected features. Finally, the multilayer perceptron classifies the LDA-reduced features into nine hand motions. To evaluate the performance of LDA for the WPT features, we compare LDA with three other feature projection methods. From a visualization and quantitative comparison, we show that LDA has better performance for the class separability, and the LDA-projected features improve the classification accuracy with a short processing time. We implemented a real-time pattern recognition system for a multifunction myoelectric hand. In experiment, we show that the proposed method achieves 97.2% recognition accuracy, and that all processes, including the generation of control commands for myoelectric hand, are completed within 97 msec. These results confirm that our method is applicable to real-time EMG pattern recognition far myoelectric hand control.

텍스트마이닝을 활용한 도로분야 ITS 정책이슈 탐색기법 정립 (Establishment of ITS Policy Issues Investigation Method in the Road Section applied Textmining)

  • 오창석;이용택;고민수
    • 한국ITS학회 논문지
    • /
    • 제15권6호
    • /
    • pp.10-23
    • /
    • 2016
  • 본 연구는 빅데이터를 활용하여 감사 시 유의해서 살펴보아야 할 ITS 관련 정책이슈 탐색방법 개발 및 적용을 목적으로 한다. 이를 위해 본 연구에서는 William Dunn이 제안한 경계분석을 이론적 토대로 하여, 여기에 감사원 감사실무 프로세스를 접목한 감사이슈 분석 틀을 제안했다. 그리고 이 분석 틀을 전산으로 구현하기 위해 메타문제를 추정하는 개념이 경계분석과 유사한 텍스트마이닝 기법을 응용했다. 텍스트마이닝의 구체적 모형은 David Blei가 제안한 Latent Dirichlet Allocation(LDA) 모형을 기반으로 하는 비대칭-대칭 혼합 어휘소 기반 LDA를 응용했다. 사례분석 결과, 경찰청에서 운영하는 도시교통정보시스템의 교통정보 수집률 저조와 국토교통부의 첨단교통관리시스템과의 중복 문제, 디지털 운행기록계의 주행거리 조작 등이 주요 이슈로 도출됐다.

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.