• 제목/요약/키워드: LDA기법

검색결과 210건 처리시간 0.029초

토픽모델링을 활용한 주요국의 스마트제조 기술 동향 분석 (Analysis of global trends on smart manufacturing technology using topic modeling)

  • 오윤환;문형빈
    • 한국산업정보학회논문지
    • /
    • 제27권4호
    • /
    • pp.65-79
    • /
    • 2022
  • 본 연구는 스마트제조 관련 국내·외 특허 데이터와 토픽모델링 방법을 활용하여 스마트 제조 관련 기술의 세부 영역을 식별하고 해당 영역에서 미국, 일본, 독일, 중국, 한국 등 주요국의 기술 개발 동향을 비교하였다. 이를 위해 1991년부터 2020년 사이에 미국과 유럽에서 출원된 특허를 수집하고 특허 초록을 가공한 후, LDA 모형을 적용해 토픽을 식별하였다. 연구 결과, 스마트제조 관련 기술의 세부 영역은 크게 7개로 구분되며 글로벌 차원에서는 최근 '데이터 처리 시스템 관련 기술'과 '열·유체 관리 기술'의 기술 개발 비중이 상당히 높아지고 있는 것으로 나타났다. 주요국과 한국의 기술 개발 동향을 비교한 결과, '열·유체 관리 기술' 분야에서 상대적인 강점이 있다는 점을 고려하면 국내 주력산업인 중화학 제조업과 연계한 스마트제조 관련 연구개발 및 관련 산업의 육성 추진 전략이 효과적일 것으로 보인다. 본 연구는 기존 정성적 기술 수준 평가의 한계를 극복하고, 텍스트마이닝 기법을 적용한 기술 역량 평가 방법론을 제안하였다는 측면에서 의의가 있다.

상수도시스템 수질사고의 전개양상을 고려한 비정형정보 의미분석 (Semantic analysis of unstructured information considering the step in progress of water quality accidents in the water supply systems)

  • 홍성진;문기훈;양성훈;유도근
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.378-378
    • /
    • 2022
  • 상수도시스템의 과정 중 최종 단계인 급수단계에서 지역전반에 수질문제가 발생할 경우, 직간접적인 피해의 해결은 장기간 지속될 수 있다. 본 연구에서는 실시간 비정형정보의 빅데이터 분석을 통해 상수도시스템에서 수질사고 문제의 파급력과 2차 피해 등의 연결 관계 변화 추적을 위한 기초적 분석을 수행하였다. 과거 대규모 수질사고가 발생된 바 있는 인천광역시 유충발생 사고를 대상으로 뉴스 기사 웹크롤링 절차를 정립하고, 그 결과를 분석하였다. '인천 유충'이 최초 보도되었던 2020년 7월 13일 부터 이후 1년을 대상으로 네이버 통합검색에 의해 표출되는 뉴스기사를 웹크롤링하였으며, 프로그래밍을 통한 불용어 제거 및 관련성 검토를 통해 총 920건의 기사를 분석하였다. 수질사고의 전개양상에 따라 사고발생, 확산, 수습, 그리고 보상의 4단계로 임의 구분하여 분석하였다. 의미분석을 위한 토픽모델링 기법은 잠재 디리클레 할당(Latent Dirichlet Allocation, LDA) 방법을 적용하였으며, 긍부정 감정분석은 KNU 한국어 감성사전(KNU sentiment lexicon)을 활용하여 수행하였다. 토픽 모델링 결과, 사고 발생에서부터 확산, 수습, 보상의 단계에 맞춰 적절한 주제어의 조합에 따른 기사들이 도출되었으며, 단계별 긍부정 기사 비율역시 사고의 전개단계에 따라 적절히 나타남을 확인하였다. 제시된 수질사고 관련 비정형정보 분석 방법론과 결과는 과거 사고 사례 분석을 통한 검색 및 긍부정 키워드 확정, 키워드 발생 비율 변동(사고전과 후)에 따른 상황판단 기준설정 등에 활용이 가능하다.

  • PDF

빅데이터 분석을 통해 본 AI교육에 대한 사회적 인식: 뉴스기사와 트위터를 중심으로 (An analysis of public perception on Artificial Intelligence(AI) education using Big Data: Based on News articles and Twitter)

  • 이상숙;유인혁;김진희
    • 디지털융복합연구
    • /
    • 제18권6호
    • /
    • pp.9-16
    • /
    • 2020
  • 본 연구는 현 정부가 적극적으로 추진·지원하는 AI교육에 관한 대중의 요구를 파악하는 데 그 목적이 있다. 이를 위해 2018년 1월 1일부터 2019년 12월 31까지 AI교육에 대한 11개의 중앙지 뉴스기사와 트위터 게시글을 수집하여 단어 빈도분석과 토픽모델링분석을 실시하였다. 단어빈도 분석은 TF(Term Frequency)기법을, 토픽모델링분석은 잠재 디리클레 할당(Latent Dirichlet Allocation)기법을 사용하였다. 분석결과, 뉴스기사는 AI분야의 여성인재 육성, 대학교육과정의 변화, K-12의 소프트웨어 교육 및 교육과정 변화 등 거시적인 정책 지원에 대한 토픽이, 트위터에서는 지능형로봇과의 공존시대와 같은 보다 구체적인 미래시대에 대한 사회적 인식과 코딩교육, 인간의 고유역량개발 등과 같은 미래역량과 교육방법론 등에 대한 토픽이 도출되었다. 이러한 연구결과는 AI교육과정 구성 및 운영 방안과 미래 산업 인재 양성 정책 개발을 위한 시사점을 제공해 줄 수 있을 것으로 기대한다.

토픽 모델링을 활용한 한국콘텐츠학회 논문지 연구 동향 탐색 (An Exploratory Research Trends Analysis in Journal of the Korea Contents Association using Topic Modeling)

  • 석혜은;김수영;이연수;조현영;이수경;김경화
    • 한국콘텐츠학회논문지
    • /
    • 제21권12호
    • /
    • pp.95-106
    • /
    • 2021
  • 본 연구의 목적은 한국콘텐츠학회 논문지에 게재된 9,858건의 논문을 대상으로 토픽 모델링을 활용하여 지난 20년간 연구동향을 탐색함으로써 콘텐츠 연구개발에서의 주요 토픽을 도출하고 학술적 발전방향을 제공하는데 있다. 추출된 토픽의 신뢰성과 타당성을 확보하기 위해 양적 평가기법 뿐만 아니라 정성적 기법을 단계적으로 적용하여 연구자들이 합의한 수준의 말뭉치가 생성될 때까지 이를 반복적으로 수행하였으며 이에 따른 구체적인 분석 절차를 제시하였다. 분석 결과 8개의 핵심 토픽이 추출되었다. 이는 한국콘텐츠학회가 특정 학문 분야를 한정하지 않고 다양한 분야의 융·복합 연구 논문을 발간하고 있음을 보여준다. 또한 2012년 이전 상반기에는 공학기술 분야 토픽 비중이 상대적으로 높게 나타난 반면, 2012년 이후 하반기에는 사회과학 분야 토픽 출현 비중이 상대적으로 높게 나타났다. 구체적으로 '사회복지' 토픽은 상반기 대비 하반기에 약 4배수 증가세가 나타났다. 토픽별 추세분석을 통해 추세선의 변곡점이 나타난 특정 시점에 주목하여 해당 토픽의 연구동향에 영향을 미친 외적 변인을 탐색하였고 토픽과 외적 변인 간 관련성을 파악하였다. 본 연구결과가 국내 콘텐츠 관련 연구 개발 및 산업 분야에서 진행되고 있는 활발한 논의를 진행하는데 시사점을 제공할 수 있기를 기대한다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).

기계학습을 이용한 단일 관련자극 P300기반 숨김정보검사 (One-probe P300 based concealed information test with machine learning)

  • 김혁;김현택
    • 인지과학
    • /
    • 제35권1호
    • /
    • pp.49-95
    • /
    • 2024
  • 국내 형사소송절차에서 진술의 진위여부 확인을 위해 사용하는 도구는 폴리그래프검사, 진술타당도분석, P300 기반 숨김정보검사 등이 있고, 이 중에서 폴리그래프검사의 사용빈도가 다른 도구들에 비하여 높다. 하지만, 검사결과를 뒷받침해 줄 수 있는 근거의 부족으로 인하여 재판과정에서 증거채택 가능성이 낮다. 폴리그래프검사를 뒷받침해 줄 수 있는 방법으로, 사전연구가 풍부한 P300기반 숨김정보검사가 주목을 받아 왔지만, 기존의 검사기법은 두 가지 제한점이 있어 실제 사건에서의 활용도는 낮은 편이다. 첫째, 검사에 필요한 관련자극만 3개 또는 6개 등, 사전에 노출되지 않은 정보가 다수 필요하기 때문에 실제 사건에서 사용 가능성이 낮다. 둘째, 기존의 P300기반 숨김정보검사 프로토콜에서는 관련자극과 무관련자극에 대한 P300요소 전위값을 명확하게 구분하기 위하여 오드볼패러다임을 사용하기 때문에 무관련자극에 대한 P300요소 전위값이 과소 추정될 가능성이 있다. 본 연구에서는 검사의 사용 가능성을 높이기 위하여 사전에 노출되지 않은 정보가 단 하나만 있어도 검사가 가능한 단일 관련자극을 사용하는 수정된 P300기반 숨김정보검사 프로토콜을 탐색하였고, 오드볼패러다임 사용으로 인한 무관련자극에 대한 P300요소 전위값이 과소 추정되는 문제를 보완하기 위하여 다양한 기계학습의 분류 알고리즘을 비교하였다. 연구결과 단일 관련자극으로 여성과 남성의 얼굴자극을 사용할 경우, 자극은 400ms 지속시간으로 60회 제시하고, 절단값을 유죄집단은 90%로 무죄집단은 30%로 하여 정점-정점 방법으로 P300요소 전위값을 분석하는 것이 적합함을 확인하였다. 단어자극의 경우, 지속시간을 300ms로 60회 제시하고, P300요소 전위값 분석방법은 얼굴자극과 동일하게 시행하는 것이 적합하다는 것을 확인하였다. 또한 관련자극과 무관련자극에 대한 정점-정점 P300요소 전위값을 6가지 기계학습 분류 알고리즘을 사용하여 분석한 결과, 로지스틱 회귀(LR), 선형 판별 분석(LDA), K-최근접 이웃(KNN) 알고리즘이 관련자극과 무관련자극의 분류에 적합하다는 것을 확인하였다.

호텔 산업의 서비스 품질 향상을 위한 토픽 마이닝 기반 분석 방법 (An Analytical Approach Using Topic Mining for Improving the Service Quality of Hotels)

  • 문현실;성다윗;김재경
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.21-41
    • /
    • 2019
  • 정보 기술의 발전으로 온라인에서 활용 가능한 데이터의 양이 급속히 증대되고 있다. 이러한 빅데이터 시대에 많은 연구들이 통찰력을 발견하고 데이터의 효과를 입증하기 위해 노력하고 있다. 특히 관광 산업의 경우 정보에 민감한 사업으로 소셜 미디어의 영향력이 높고 소셜 미디어의 상품 후기에 소비자들이 영향을 많이 받아 많은 기업과 연구자들이 소셜 미디어를 분석하여 새로운 서비스 및 통찰력을 얻고자 시도하였다. 하지만 소셜 미디어의 후기는 텍스트로 이루어진 대표적인 비정형 데이터로 적절한 처리를 하지 않으면 분석에 활용할 수 없다. 또한 후기 데이터의 양이 방대함에 따라 사람이 직접 분석하기도 어려운 실정이다. 따라서, 본 연구에서는 이러한 소셜미디어 상의 온라인 후기로부터 직접 호텔의 서비스 품질 향상을 위한 통찰력을 추출할 수 있는 분석 방법을 제시하고자 한다. 이를 위해 본 연구에서는 먼저 후기 데이터에 포함되어 있는 주제어를 추출하는 토픽 마이닝 기법을 적용하였다. 토픽 마이닝은 대용량의 문서 집합으로부터 문서를 대표하는 단어 집합을 추출하는 기법을 의미하며 본 연구에서는 다양한 연구에서 활용되고 있는 LDA모형을 사용하여 토픽 마이닝을 수행하였다. 하지만, 토픽 마이닝 자체만으로는 주제어와 평점 사이의 관계를 도출할 수 없어 서비스 품질 향상을 위한 통찰력을 발견하기 어렵다. 그에 따라 본 연구에서는 토픽 마이닝의 결과값을 기반으로 의사결정나무 모형을 사용하여 주제어와 평점 사이의 관계를 도출하였다. 이러한 방법론의 유용성을 평가하기 위해 홍콩에 있는 4개 호텔의 온라인 후기를 수집하고 제안한 방법론의 분석 결과를 해석하는 실험을 진행하였다. 실험 결과 긍정 후기를 통해 각 호텔이 유지해야할 서비스 영역을 발견할 수 있었으며 부정 후기를 통해 개선해야할 서비스 영역을 도출할 수 있었다. 따라서, 본 연구에서 제안한 방법론을 사용하여 방대한 양의 후기 데이터로부터 서비스 개선 및 유지 영역을 발견할 수 있으리라 기대된다.

뇌전도 기반 마우스 제어를 위한 동작 상상 뇌 신호 분석 (Motor Imagery Brain Signal Analysis for EEG-based Mouse Control)

  • 이경연;이태훈;이상윤
    • 인지과학
    • /
    • 제21권2호
    • /
    • pp.309-338
    • /
    • 2010
  • 본 논문에서는 사지가 마비되어 신체를 움직이지 못하지만 뇌의 기능은 살아있는 장애인들을 위하여, 생각만으로 외부의 장치를 제어할 수 있도록 하는 뇌-컴퓨터 인터페이스(BCI: Brain-Computer Interface) 기술을 연구하였다. 신경생리학 분야에서의 연구 결과에 의하면, 신체를 움직이는 상상을 할 경우, 뇌의 운동/감각 피질 영역에서는 $\beta$파(14-26 Hz)와 $\mu$파(8-12 Hz)가 억제/증가되는 ERD/ERS(Event-Related Desynchronization / Synchronization) 현상이 발생한다고 알려져 있다. 본 연구에서는 이를 기반으로 혀, 발, 왼손, 오른손의 동작 상상을 자극으로 이용하여 변화하는 뇌 신호 패턴을 실시간으로 분석하여 피험자의 생각을 읽을 수 있도록 하였으며, 상 하 좌 우의 네 방향으로 이동할 수 있도록 하는 마우스 제어 인터페이스를 구현하였다. 동작 상상 시 발생하는 뇌 신경 활동의 변화를 관측하기 위해서 뇌에 손상을 주지 않으면서도 높은 시간 해상도로 측정이 가능한 비침습적 뇌전도(EEG: ElectroEncephaloGraphy)를 이용하였다. 그러나 뇌전도 신호는 특성상 신호의 크기가 미약하고, 잡음의 영향을 많아 분석이 어렵다. 따라서 이를 극복하기 위해 통계적 방법을 기반으로 한 기계학습 기법인 CSP(Common Spatial Pattern)와 선형판별 분석(Linear Discriminant Analysis)을 이용하여 서로 다른 동작 상상에 의해 발생하는 뇌 신호들 간의 분산이 최대가 되도록 신호를 변환하여 인식 성능을 높일 수 있었다. 또한 분석된 뇌 신호의 시각화를 통해, 기존에 알려진 뇌의 해부학적, 신경생리학적 지식과 일치하는 ERD/ERS 현상이 발생하는 것을 확인할 수 있었다.

  • PDF

토픽 모델링을 이용한 시뮬레이션 연구 동향 분석 (Trend Analysis using Topic Modeling for Simulation Studies)

  • 나상태;김자희;정민호;안주언
    • 한국시뮬레이션학회논문지
    • /
    • 제25권3호
    • /
    • pp.107-116
    • /
    • 2016
  • 시뮬레이션의 활용범위와 기법이 나날이 다양해지면서 시뮬레이션의 최신 연구 동향을 분석하고 이를 대학 교육과 연구에 적용하는 노력이 요구된다. 기존에는 트렌드 분석을 위해 문헌조사 또는 전문가 평가와 같은 정성적인 연구방법이 주로 사용되었으나 이런 방법들은 많은 시간과 비용이 소요될 뿐만 아니라 전문가의 주관적인 관점이 반영될 가능성이 있다. 본 연구에서는 객관적 분석을 위해 국내 학술 논문에 대하여 토픽분석을 포함한 정량적 분석을 실시하였다. 그 결과 국내에서는 시뮬레이션이 전기전자 분야에서 가장 활발하게 활용된다는 사실을 발견하였다. 또한 사회 과학에서는 교육 및 오락의 목적으로도 활용됨을 알 수 있었다. 이 연구 결과는 국내 시뮬레이션 연구와 한국 시뮬레이션 학회가 어떤 방향으로 발전할지를 예측하는 데 도움이 된다. 본 연구결과는 시뮬레이션 활용 연구 분야의 핵심 토픽을 도출하기 위하여 텍스트마이닝 기반의 트렌드분석에 대한 활용 가능성을 제시하고, 텍스트마이닝이 미래예측 키워드를 도출하는 유용한 방법임을 증명하였으며, 전문가들의 정성적인 자료를 보조하는 정량적인 자료분석 방법으로 유용할 것으로 기대된다.

스마트도시 구현을 위한 시민참여의 역할과 방향에 관한 연구 (Civic Participation in Smart City : A Role and Direction)

  • 남우민;박건철
    • 인터넷정보학회논문지
    • /
    • 제23권6호
    • /
    • pp.79-86
    • /
    • 2022
  • 본 연구는 스마트도시 구축과정에서 시민참여 활성화를 위한 연구동향을 파악하고자 한다. 이를 바탕으로 스마트도시에서 시민참여의 역할과 방향을 제시하고 시민참여를 유인할 수 있는 정책적·산업적·학술적·방향성을 제시하는데 있다. 전 세계적으로 급격하게 진행되는 도시화와 도시인구 증가로 교통, 환경, 에너지 등 각종사회 문제가 도시를 중심으로 확산 및 심화되고 있다. 세계 각국은 이런 도시문제 해결 및 지속가능한 발전을 이루기 위해 스마트도시를 도입하고 있다. 최근에는 인프라 확대 등 스마트도시 건설을 위한 기존의 하향식(Top-Down) 도시계획 방식에서 벗어나 시민들이 직·간접적으로 도시건설 과정에 참여 및 상호작용할 수 있는 상향식(Bottom-Up) 방식으로의 접근이 경주되고 있다. 한편, 국내에서도 국가전략관점에서 스마트도시 건설이 추진되고 있지만, 스마트도시에 대한 일반 시민의 인식과 참여는 낮은 것으로 나타나고 있다. 이런 상황을 극복하기 위해 스마트도시의 구축과정에서 시민참여를 촉진하기 위한 연구가 시급한 상황이다. 따라서 본 연구에서는 스마트도시의 구축과정에서 시민참여를 촉진하기 위한 전략모색을 위해 Scopus DB에서 'Smart City'와 'Participation(Engagement)'가 동시에 포함된 문헌 995건을 수집 후 토픽모델링 기법을 활용하여 관련 연구주제를 유형화하고, 연구동향을 분석하였다. 이를 통해 스마트도시에서 시민참여에 관한 연구방향을 이해하고, 향후 관련 연구에 대한 방향성을 제시하는 근거자료로 활용될 수 있을 것으로 기대된다.