• 제목/요약/키워드: 토픽모델

검색결과 184건 처리시간 0.027초

Topic Signature를 이용한 댓글 분류 시스템 (Comments Classification System using Topic Signature)

  • 배민영;차정원
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권12호
    • /
    • pp.774-779
    • /
    • 2008
  • 본 논문에서는 토픽 시그너처(Topic Signature)를 이용하여 댓글을 분류하는 시스템에 대해서 설명한다. 토픽 시그너처는 자질을 선택하는 방법으로 문서요약이나 문서분류에서 사용하는 방법이다. 댓글은 문장의 길이가 짧고 띄어쓰기가 거의 없으며 특수문자들이 많은 특성을 가지고 있다. 따라서 우리는 댓글을 7개의 음절로 나누고 이를 다시 Tri-gram으로 나누어 분류의 기본단위로 본다. 이 Tri-gram을 토픽 시그너처를 이용한 학습 단위로 사용하고, 학습한 자질을 베이지안(Bayesian) 모델을 사용하여 분류한다. 다양한 방법의 모델과 비교 실험을 통하여 구현한 시스템의 성능이 기존의 방법보다 상승되었음을 실험 결과를 통해 알 수 있었다.

이질적인 언어 자원의 순차적 매칭을 이용한 문장 유사도 계산 기반의 위키피디아 한국어-영어 병렬 문장 추출 방법 (Extracting Korean-English Parallel Sentences based on Measure of Sentences Similarity Using Sequential Matching of Heterogeneous Language Resources)

  • 천주룡;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.127-132
    • /
    • 2014
  • 본 논문은 위키피디아로부터 한국어-영어 간 병렬 문장을 추출하기 위해 이질적 언어 자원의 순차적 매칭을 적용한 유사도 계산 방법을 제안한다. 선행 연구에서는 병렬 문장 추출을 위해 언어 자원별로 유사도를 계산하여 선형 결합하였고, 토픽모델을 이용해 추정한 단어의 토픽 분포를 유사도 계산에 추가로 이용함으로써 병렬 문장 추출 성능을 향상시켰다. 하지만, 이는 언어 자원들이 독립적으로 사용되어 각 언어자원이 가지는 오류가 문장 간 유사도 계산에 반영되는 문제와 관련이 적은 단어 간의 분포가 유사도 계산에 반영되는 문제가 있다. 본 논문에서는 이질적인 언어 자원들을 이용해 순차적으로 단어를 매칭함으로써 언어 자원들의 독립적인 사용으로 각 자원의 오류가 유사도에 반영되는 문제를 해결하였고, 관련이 높은 단어의 분포만을 유사도 계산에 이용함으로써 관련이 적은 단어의 분포가 반영되는 문제를 해결하였다. 실험을 통해, 언어 자원들을 이용해 순차적으로 매칭한 유사도 계산 방법은 선행 연구에 비해 F1-score 48.4%에서 51.3%로 향상된 성능을 보였고, 관련이 높은 단어의 분포만을 유사도 계산에 이용한 방법은 약 10%에서 34.1%로 향상된 성능을 얻었다. 마지막으로, 제안한 유사도 방법들을 결합함으로써 선행연구의 51.6%에서 2.7%가 향상된 54.3%의 성능을 얻었다.

  • PDF

개방형 GIS 컴포넌트에서의 기하 및 위상공간데이터 모델 (Geometry and Topology Data Model on OpenGIS Component)

  • 민경욱;최혜옥;이종훈
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2001년도 가을 학술발표논문집 Vol.28 No.2 (1)
    • /
    • pp.154-156
    • /
    • 2001
  • 공간정보 및 속성정보를 저장 및 관리하여 서비스하는 지리정보시스템은 최근 네트워크 및 분산환경의 기술개발과 더불어 급격히 변화하고 있다. 이러한 지리 정보시스템은 기존의 패키지, 지역적 클라이언트/서버환경의 기술에서 컴포넌트 기반 기술로 자리메김하고 있는 실정이다. 이러한 컴포넌트 GIS의 기술발전을 위해서 OGC(OpenGIS Consortium)에서는 다양한 설계 및 구현 사양과 토픽을 제시하고 있으며, 대부분의 GIS 기술개발시장에서는 이러한 사양과 토픽에 맞게끔 시스템을 설계 및 구현하고 있다. 지리정보시스템에서 다루는 공간데이터는 크게 기하정보(Geometry)와 위상정보(Topology)로 나뉜다. 지리정보시스템에서 기본석인 질의나 분석에 있어서 기하정보 뿐만 아니라 위상정보도 시스템 전체의 성능에 큰 영향을 미치며, 이러한 위상 정보의 저장, 관리는 필수적이다. 본 논문에서는 개방형 컴포넌트 GIS에서의 기본 기하 데이터 모델인 OGC Simple Feature Geometry 모델과 위상정보 (Topolygy Information)를 나타내는 위상 데이터 모델의 통합 및 연동방법에 대해서 살펴보고, 이러한 데이터모델을 포함하고 있는, OGC 구현사항에 맞게 설계 및 구현된 전체시스템 아키텍쳐를 살펴 볼 것이다.

  • PDF

토픽 모델링을 이용한 댓글 그래프 기반 소셜 마이닝 기법 (A Reply Graph-based Social Mining Method with Topic Modeling)

  • 이상연;이건명
    • 한국지능시스템학회논문지
    • /
    • 제24권6호
    • /
    • pp.640-645
    • /
    • 2014
  • 인터넷 상에서 많은 사람들은 사용자 간의 의사소통과 정보 공유, 사회적 관계를 생성하기 위한 방법으로 소셜 네트워크 서비스를 이용한다. 그 중 대표적인 트위터는 하루에 수백만 건의 소셜 데이터가 발생하기 때문에 수집되고 있는 데이터의 양이 엄청나다. 이 방대한 양의 데이터로부터 의미 있는 정보를 추출하는 소셜 마이닝이 집중적으로 연구되고 있다. 트위터는 일반적으로 유용한 정보 혹은 공유하고자 하는 내용을 팔로잉-팔로워 관계를 이용해 쉽게 전달하고 리트윗할 수 있다. 소셜 미디어에서 트윗 데이터에 대한 토픽 모델링은 이슈를 추적하기 위한 좋은 도구이다. 짧은 텍스트 기반인 트윗 데이터의 제한점을 극복하기 위해, 사용자를 노드로 사용자간 댓글과 리트윗 메시지의 여부를 간선으로 하는 그래프 구조를 갖는 댓글 그래프의 개념을 소개한다. 토픽 모델링의 대표적인 방법인 LDA 토픽 모델이 짧은 텍스트 데이터에 대해 비효율적인 것을 보완하기 위한 방법으로, 이 논문에서는 짧은 문서의 수를 줄이고 마이닝 결과의 질을 향상시키기 위한 댓글 그래프를 사용하는 토픽 모델링 방법을 소개한다. 제안한 모델은 토픽 모델링 방법으로 LDA 모델을 사용하였으며, 7일간 수집한 트윗 데이터에 대한 실험 결과를 보인다.

다이나믹 토픽 모델을 활용한 D(Data)·N(Network)·A(A.I) 중심의 연구동향 분석 (Investigation of Research Trends in the D(Data)·N(Network)·A(A.I) Field Using the Dynamic Topic Model)

  • 우창우;이종연
    • 한국융합학회논문지
    • /
    • 제11권9호
    • /
    • pp.21-29
    • /
    • 2020
  • 최근 디지털 사회의 도래로 다양한 데이터가 폭발적으로 증가하고, 그중 문헌 내 주제어를 도출하는 토픽 모델링에 관한 연구가 활발히 진행되고 있다. 본 논문의 연구목표는 토픽 모델링 방법 중 하나인 DTM(Dynamic Topic Model) 모델을 적용해 D.N.A.(Data, Network, A.I) 분야에 대한 연구동향을 탐색하는데 있다. 실험 데이터는 최근 6년간(2015~2020) ICT(Information and Communication Technology) 분야 중 기술대분류가 SW·AI에 해당하는 연구과제 1,519개 사업에 대해 DTM 모델을 적용하였다. 실험결과로, D.N.A. 분야의 기술 키워드 Big data, Cloud, Artificial Intelligence와 확장된 의미의 기술 키워드 Unstructured, Edge Computing, Learning, Recognition 등이 매년 연구에 표출되었으며, 해당 키워드 들이 특정 연구과제에 종속되지 않고 다른 연구과제에서도 포괄적으로 연구되고 있음을 확인하였다. 끝으로 본 논문의 연구결과는 향후 D.N.A. 분야에 대한 정책기획·과제기획 등 연구개발 기획 과정과 기업의 기술 확보전략·마케팅 전략 등 다양한 곳에 활용될 수 있을 것으로 기대한다.

딥러닝 및 토픽모델링 기법을 활용한 소셜 미디어의 자살 경향 문헌 판별 및 분석 (Examining Suicide Tendency Social Media Texts by Deep Learning and Topic Modeling Techniques)

  • 고영수;이주희;송민
    • 한국비블리아학회지
    • /
    • 제32권3호
    • /
    • pp.247-264
    • /
    • 2021
  • 자살은 전 세계 사망 원인 중 4위이며 사회, 경제적 손실이 큰 난제이다. 본 연구는 자살 예방을 위하여 소셜미디어에 나타난 자살 관련 말뭉치를 구축하고 이를 통해 자살 경향 문헌을 분류할 수 있는 딥러닝 자동분류 모델을 만들고자 하였다. 또한, 자살 요인을 분석하기 위해 주제를 자동으로 추출하는 분석 기법인 토픽모델링을 활용하여 자살 관련 말뭉치를 세부 주제로 분류하고자 하였다. 이를 위해 소셜미디어 중 하나인 네이버 지식iN에 나타난 자살 관련 문헌 2,011개를 수집한 후 자살예방교육 매뉴얼을 기준으로 자살 경향 문헌 및 비경향 문헌 여부를 주석 처리하였으며, 이 데이터를 딥러닝 모델(LSTM, BERT, ELECTRA)로 학습시켜 자동분류 모델을 만들었다. 또한, 토픽모델링 기법의 하나인 LDA 기법으로 주제별 문헌을 분류하여 자살 요인을 발견하였고 이를 심층적으로 분석하기 위해 주제별로 동시출현 단어 분석 및 네트워크 시각화를 진행하였다.

한국자료분석학회지에 대한 토픽분석 (A Topic Analysis of Abstracts in Journal of Korean Data Analysis Society)

  • 강창완;김규곤;최승배
    • Journal of the Korean Data Analysis Society
    • /
    • 제20권6호
    • /
    • pp.2907-2915
    • /
    • 2018
  • 1998년에 창립한 한국자료분석 학회지는 자료분석에 기반한 다양한 전공분야를 위해 현재까지 응용학회지로서 역할을 해오고 있다. 본 연구에서는 이러한 한국자료분석 학회지의 본연의 목적을 잘 수행해오고 있는지 최근 10년간 학회지 요약문을 통해 분석하였다. 분석은 한국연구재단에서 제공한 온라인 저널 홈페이지를 통해 2006년부터 2016년까지의 영문 요약문 2680개를 웹크롤링하여 토픽모델을 적용하였다. 분석결과로 18개의 토픽이 선정되었으며 이에 대한 토픽을 해석한 결과 자료분석학회지는 간호학, 경영학(마케팅), 경제학 등 여러 분야를 다루고 있으며 분석방법으로 회귀분석, 가설검정, 데이터마이닝(연관성분석), 요인분석 등이 많이 이용되고 있음을 볼 수 있었다. 그리고 단어들의 연관성(association rule)분석을 통하여 통계적으로 유의한 연관성 규칙 10개를 제시하였다. 여기서 연관성규칙의 통계적 유의성검정은 피셔의 정확검정(Fisher's exact test)을 사용하였다. 또한 연구주제(토픽)의 변화를 살펴본 결과 전반기에는 조사연구가, 후반기에는 대조 연구가 많아졌음을 볼 수 있고 또한 회귀분석과 요인분석은 전, 후반기 구분 없이 자료분석에서 공통적으로 많이 사용하는 통계적 방법임을 알 수 있었다.

다이내믹 토픽 모델링의 의미적 시각화 방법론 (Semantic Visualization of Dynamic Topic Modeling)

  • 연진욱;부현경;김남규
    • 지능정보연구
    • /
    • 제28권1호
    • /
    • pp.131-154
    • /
    • 2022
  • 최근 방대한 양의 텍스트 데이터에 대한 분석을 통해 유용한 지식을 창출하는 시도가 꾸준히 증가하고 있으며, 특히 토픽 모델링(Topic Modeling)을 통해 다양한 분야의 여러 이슈를 발견하기 위한 연구가 활발히 이루어지고 있다. 초기의 토픽 모델링은 토픽의 발견 자체에 초점을 두었지만, 점차 시기의 변화에 따른 토픽의 변화를 고찰하는 방향으로 연구의 흐름이 진화하고 있다. 특히 토픽 자체의 내용, 즉 토픽을 구성하는 키워드의 변화를 수용한 다이내믹 토픽 모델링(Dynamic Topic Modeling)에 대한 관심이 높아지고 있지만, 다이내믹 토픽 모델링은 분석 결과의 직관적인 이해가 어렵고 키워드의 변화가 토픽의 의미에 미치는 영향을 나타내지 못한다는 한계를 갖는다. 본 논문에서는 이러한 한계를 극복하기 위해 다이내믹 토픽 모델링과 워드 임베딩(Word Embedding)을 활용하여 토픽의 변화 및 토픽 간 관계를 직관적으로 해석할 수 있는 방안을 제시한다. 구체적으로 본 연구에서는 다이내믹 토픽 모델링 결과로부터 각 시기별 토픽의 상위 키워드와 해당 키워드의 토픽 가중치를 도출하여 정규화하고, 사전 학습된 워드 임베딩 모델을 활용하여 각 토픽 키워드의 벡터를 추출한 후 각 토픽에 대해 키워드 벡터의 가중합을 산출하여 각 토픽의 의미를 벡터로 나타낸다. 또한 이렇게 도출된 각 토픽의 의미 벡터를 2차원 평면에 시각화하여 토픽의 변화 양상 및 토픽 간 관계를 표현하고 해석한다. 제안 방법론의 실무 적용 가능성을 평가하기 위해 DBpia에 2016년부터 2021년까지 공개된 논문 중 '인공지능' 관련 논문 1,847건에 대한 실험을 수행하였으며, 실험 결과 제안 방법론을 통해 다양한 토픽이 시간의 흐름에 따라 변화하는 양상을 직관적으로 파악할 수 있음을 확인하였다.

토픽모델 및 특허분석을 통한 차량용 반도체 기술 추세 분석 (Technology Trend Analysis in the Automotive Semiconductor Industry using Topic Model and Patent Analysis)

  • 남대경;최경현
    • 기술혁신학회지
    • /
    • 제21권3호
    • /
    • pp.1155-1178
    • /
    • 2018
  • 미래의 자동차는 친환경 자율주행이 가능한 이동형 생활공간으로 진화하고 있다. 차량내 각종 정보를 전기적으로 처리, 제어하고 명령하는 역할이 필수적으로 작용하며 자율주행, 친환경 자동차와 같은 미래 자동차는 차량용 반도체가 핵심 역할을 할 것으로 기대된다. 차량용 반도체 산업 육성을 위해서는 기술 트렌드를 파악하고 요구사항을 반영한 기술과 품질을 사전에 확보해야, 산업 경쟁력을 갖추고 기술혁신을 이룰 수 있다. 하지만, 현재까지 기술 트렌드의 체계적인 분석이 부족한 상황이다. 따라서 본 연구에서는 특허분석과 토픽모델을 활용하여 차량용 반도체 기술 추세를 분석하였고, 전기차, 운전보조, 디지털 제조와 같은 주요기술을 확인하였다. 기술 트렌드는 정부규제, 시장니즈, 기술융합 등에 따라 요소기술, 기술특성 등이 변화한다는 것을 확인할 수 있었다. 본 연구를 통해 차량용 반도체 산업의 R&D 정책수립과 산업계의 기술전략 수립을 위한 의사결정에 도움을 줄 것으로 기대된다. 또한 기술의 세부 요소기술 분류와 트렌드 분석결과를 제공하여 향후 세부적인 연구개발 방향과 특허전략 수립에 효과적으로 활용될 것으로 기대된다.

적응적 사용자 및 토픽 모델링 기반의 자동 TV 프로그램 추천 (Adaptive User and Topic Modeling based Automatic TV Recommendation)

  • 김은희;표신지;김문철
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 하계학술대회
    • /
    • pp.431-434
    • /
    • 2012
  • 시간 흐름에 따라 TV 프로그램 스케줄은 변화하고 스케줄의 변화는 사용자 선호에 영향을 미친다. 이러한 스케줄 변화에 따른 토픽의 흐름이 사용자 선호도에 미치는 영향 외에도, 개성에 따른 선호도의 변화는 개인별 차이가 크다. 본 논문은 사용자 선호도 변화에 적응적으로 대응하면서 시간 변화에도 일정한 관심을 보이는 사용자의 선호도에는 가중치를 더한 모델을 목표로 한다. 따라서 제안 모델은 현재의 시청 데이터를 기준으로 한 사용자별 선호도의 선행 정보(prior)로 이전 시청선호를 두었고, 선호도 변화와 일관성을 고려하여 하나의 시청길이에 대한 선호도뿐만 아니라 여러 시청 길이의 선호도를 결합한 선호도를 구성할 수 있는 확장성 있는 모델을 제시한다. 선호도의 일관성에 대한 가중치 연산에 있어 전체 확률모델의 확률을 향상시키는 연산을 통해 정교성을 더한 모델을 제시한다. 실제 사용자들이 시청한 데이터인 2011 TNMS데이터를 기준으로 제안 모델의 성능을 확인한 결과, 기존의 LDA, MDTM모델 보다 나은 성능을 보임을 확인할 수 있었으며, 1주일 단위 추천결과, 5개 추천 시, 최대 67.9%의 추천 정확도를 확인할 수 있었다.

  • PDF