• 제목/요약/키워드: 토픽모델

검색결과 176건 처리시간 0.029초

무한 사전 온라인 LDA 토픽 모델에서 의미적 연관성을 사용한 토픽 확장 (Topic Expansion based on Infinite Vocabulary Online LDA Topic Model using Semantic Correlation Information)

  • 곽창욱;김선중;박성배;김권양
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권9호
    • /
    • pp.461-466
    • /
    • 2016
  • 토픽 확장은 학습된 토픽의 질을 향상시키기 위해 추가적인 외부 데이터를 반영하여 점진적으로 토픽을 확장하는 방법이다. 기존의 온라인 학습 토픽 모델에서는 외부 데이터를 확장에 사용될 경우, 새로운 단어가 기존의 학습된 모델에 반영되지 않는다는 문제가 있었다. 본 논문에서는 무한 사전 온라인 LDA 토픽 모델을 이용하여 외부 데이터를 반영한 토픽 모델 확장 방법을 연구하였다. 토픽 확장 학습에서는 기존에 형성된 토픽과 추가된 외부 데이터의 단어와 유사도를 반영하여 토픽을 확장한다. 실험에서는 기존의 토픽 확장 모델들과 비교하였다. 비교 결과, 제안한 방법에서 외부 연관 문서 단어를 토픽 모델에 반영하기 때문에 대본 토픽이 다루지 못한 정보들을 토픽에 포함할 수 있었다. 또한, 일관성 평가에서도 비교 모델보다 뛰어난 성능을 나타냈다.

토픽 기반의 지식그래프를 이용한 BERT 모델 (Topic-based Knowledge Graph-BERT)

  • 민찬욱;안진현;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.557-559
    • /
    • 2022
  • 최근 딥러닝의 기술발전으로 자연어 처리 분야에서 Q&A, 문장추천, 개체명 인식 등 다양한 연구가 진행 되고 있다. 딥러닝 기반 자연어 처리에서 좋은 성능을 보이는 트랜스포머 기반 BERT 모델의 성능향상에 대한 다양한 연구도 함께 진행되고 있다. 본 논문에서는 토픽모델인 잠재 디리클레 할당을 이용한 토픽별 지식그래프 분류와 입력문장의 토픽을 추론하는 방법으로 K-BERT 모델을 학습한다. 분류된 토픽 지식그래프와 추론된 토픽을 이용해 K-BERT 모델에서 대용량 지식그래프 사용의 효율적 방법을 제안한다.

확장된 토픽맵을 이용한 제품 데이터에서의 관점의 표현 (Representing the views of product data using extended Topic Maps)

  • 채희권;최영환;김광수
    • 한국경영과학회:학술대회논문집
    • /
    • 한국경영과학회/대한산업공학회 2003년도 춘계공동학술대회
    • /
    • pp.1157-1164
    • /
    • 2003
  • 제품개발과정에서 생성된 제품정보모델은 시간에 따라 계속 변하고 미확정적인 정보가 포함된 UDM(Under Defined Model)이다. 정보모델에서 관점(viewpoint)은 UDM을 표현하고 관리하는 중요한 요소이다. 토픽맵(Topic Map) 이용한 정보모델은 관점의 표현이 용이하며, 관점에 따라 인간이 정보를 이해하고 조작하는 것을 돕는다. 그러나 토픽맵은 제품개발과정의 정보모델과 같은 UDM의 표현은 가능하나, 적합하지는 않다. 따라서 본 논문에서는 토픽맵이 UDM에 적합하도록 토픽맵의 문법을 확장하였다. 그리고 UDM으로부터 전자상거래에 적용 가능만 FDM(Fully Defined Model)으로 변화하는 과정에 대하여 논하였다. 관점이 적용된 UDM으로는 제품을 개발하는 과정 중에 생성되는 제품 모델을 적용하였으며, 대량생산이 된 이후의 제품 모델이나 제품개발단계에서 결정이 이루어진 후의 제품모델을 FDM 또는 UDM보다 모델의 의미가 보다 확정적인 확정적UDM을 사용하였다. 그리고 세탁기의 제품정보모델을 구현 예로 사용하여, UDM이 FDM 또는 확정적UDM으로 변화하는 과정을 설명하였다.

  • PDF

토픽 모델을 이용한 방송 대본 분석 사례 연구 (A case study of a broadcast script by using topic model)

  • 노윤석;곽창욱;김선중;박성배;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.228-230
    • /
    • 2015
  • 방송 대본은 방송 콘텐츠에 대해 얻을 수 있는 가장 주요한 텍스트 데이터 중에 하나이다. 본 논문에서는 토픽 모델을 통해 방송 대본 분석을 수행하고 그 결과를 제시한다. 방송 대본을 토픽 모델로 학습하기 위해 대본의 장면 단위로 문서를 구성하여 학습하여 대본의 장면을 분석하고 등장인물 단위로 문서를 구성하여 등장인물을 분석하여 그 특징을 살펴본다. 토픽 모델을 사용하여 방송 대본을 분석하는 과정에서 방송 대본이 가지는 특징을 분석하고 그로부터 향후 연구방향에 대해 논의한다.

  • PDF

토픽모델을 활용한 명문대 재학생의 학벌에 관한 인식 분석 (A Prestigious University Students' Perceptions of their Educational Attainment by a Topic model)

  • 정영선;이승연
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.503-512
    • /
    • 2024
  • 이 연구는 한국 사회에서 명문대로 분류되는 한 대학의 학생이 작성한 학벌에 대한 글쓰기 과제를 분석하여 이들이 가진 학벌에 대한 인식을 확인하고 내재한 의미를 분류한 연구이다. 분석에서 활용한 방법은 토픽 모델 중 잠재 디리클레 할당 방법으로 총 172편의 문서를 분석한 후 각 토픽에서 빈출한 키워드가 자주 등장하는 문서를 중심으로 학생의 인식을 탐색하였다. 분석 결과 도출한 토픽은 학벌의 순기능(토픽 1), 양날의 검(토픽 2), 권력공동체(토픽 3), 승리의 징표(토픽 4), 학벌의 역기능(토픽 5)의 다섯 가지이다. 각 토픽에서 가장 빈번하게 제시되는 단어를 정리하면 다음과 같다. 토픽 1에서는 '개인', '지위', '수단'이, 토픽 2는 '정의(定義)', '학교', '의미'가, 토픽 3은 '사람', '출신', '권력'이, 토픽 4는 '대학(교)', '능력', '노력'이, 토픽 5는 '학력', '우리나라', '출신'이었다. 이상의 분석을 통해 우리는 명문대 학생이 학벌을 논할 때 계급과 학벌 공동체, 사회와의 관련성을 통하여 계급재생산을 고려하지만 인종 및 민족와 같이 학벌에 영향을 미치는 기타 요인에 대하여는 크게 관심을 두지 않고 있음을 확인하였다. 앞으로의 관련 강의에서 보다 다양한 요인과 학벌의 관련성을 다룰 필요가 있다.

토픽모델의 성능 향상을 위한 불용어 자동 생성 기법 (Automatic Generating Stopword Methods for Improving Topic Model)

  • 이정빈;인호
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2017년도 춘계학술발표대회
    • /
    • pp.869-872
    • /
    • 2017
  • 정보검색(Information retrieval) 및 텍스트 분석을 위해 수집하는 비정형 데이터 즉, 자연어를 전처리하는 과정 중 하나인 불용어(Stopword) 제거는 모델의 품질을 높일 수 있는 쉽고, 효과적인 방법 중에 하나이다. 특히 다양한 텍스트 문서에 잠재된 주제를 추출하는 기법인 토픽모델링의 경우, 너무 오래되거나, 수집된 문서의 도메인이나 성격과 무관한 불용어의 제거로 인해, 해당 토픽 모델에서 학습되어 생성된 주제 관련 단어들의 일관성이 떨어지게 된다. 따라서 분석가가 분류된 주제를 올바르게 해석하는데 있어 많은 어려움이 따르게 된다. 본 논문에서는 이러한 문제점을 해결하기 위해 일반적으로 사용되는 표준 불용어 대신 관련 도메인 문서로부터 추출되는 점별 상호정보량(PMI: Pointwise Mutual Information)을 이용하여 불용어를 자동으로 생성해주는 기법을 제안한다. 생성된 불용어와 표준 불용어를 통해 토픽 모델의 품질을 혼잡도(Perplexity)로써 측정한 결과, 본 논문에서 제안한 기법으로 생성한 30개의 불용어가 421개의 표준 불용어보다 더 높은 모델 성능을 보였다.

언어 자원과 토픽 모델의 순차 매칭을 이용한 유사 문장 계산 기반의 위키피디아 한국어-영어 병렬 말뭉치 구축 (Building a Korean-English Parallel Corpus by Measuring Sentence Similarities Using Sequential Matching of Language Resources and Topic Modeling)

  • 천주룡;고영중
    • 정보과학회 논문지
    • /
    • 제42권7호
    • /
    • pp.901-909
    • /
    • 2015
  • 본 논문은 위키피디아로부터 한국어-영어 간 병렬 말뭉치를 구축하기 위한 연구이다. 이를 위해, 언어 자원과 토픽모델의 순차 매칭 기반의 유사 문장 계산 방법을 제안한다. 먼저, 언어자원의 매칭은 위키피디아 제목으로 구성된 위키 사전, 숫자, 다음 온라인 사전을 단어 매칭에 순차적으로 적용하였다. 또한, 위키피디아의 특성을 활용하기 위해 위키 사전에서 추정한 번역 확률을 단어 매칭에 추가 적용하였다. 그리고 토픽모델로부터 추출한 단어 분포를 유사도 계산에 적용함으로써 정확도를 향상시켰다. 실험에서, 선행연구의 언어자원만을 선형 결합한 유사 문장 계산은 F1-score 48.4%, 언어자원과 모든 단어 분포를 고려한 토픽모델의 결합은 51.6%의 성능을 보였으나, 본 논문에서 제안한 언어자원에 번역 확률을 추가하여 순차 매칭을 적용한 방법은 58.3%로 9.9%의 성능 향상을 얻었고, 여기에 중요한 단어 분포를 고려한 토픽모델을 적용한 방법이 59.1%로 7.5%의 성능 향상을 얻었다.

토픽 모델 기반의 국가 별 SNS 관심 이슈 분석 시스템 (Analysis System for SNS Issues per Country based on Topic Model)

  • 김성훈;윤지원
    • 정보과학회 논문지
    • /
    • 제43권11호
    • /
    • pp.1201-1209
    • /
    • 2016
  • 전 세계적으로 SNS의 이용이 활발해짐에 따라, 그와 관련한 다양한 연구가 활발히 진행 중에 있다. 특히 기존의 문서 내 주제 추출에 활용되던 토픽 모델이 SNS 분석에 효과가 있음이 밝혀짐에 따라, 토픽 모델 기반의 이슈 분석과 관련한 연구들이 대거 등장하였다. 이에 본 연구에서는 기존 토픽 모델 기반의 SNS 이슈 분석 기술에 전 세계 지도 시각화 및 이슈 매칭 기술을 결합하여, 전 세계의 각 국가 별 특정 주제와 관련한 관심 이슈와 그 분포의 변화 추이를 분석할 수 있는 시스템을 제안한다. 시스템 구성 요소는 트윗 수집 및 국가 별 분류 모듈, 토픽 모델 기반의 국가 별 토픽 및 분포 추출 모듈, Google geochart 기반의 토픽 및 분포 시각화 모듈이 있다. 미국과 UK 두 국가에서 발생한 5월 한 달간의 ISIS 관련 트윗을 대상으로 실험한 결과, 두 국가의 ISIS 관련 관심 이슈와 그 변화 추이를 확인할 수 있었다.

토픽 분할에 의한 토픽맵 매칭 및 통합 기법 (Topic maps Matching and Merging Techniques based on Partitioning of Topics)

  • 김정민;정현숙
    • 정보처리학회논문지D
    • /
    • 제14D권7호
    • /
    • pp.819-828
    • /
    • 2007
  • 본 논문에서는 토픽맵의 모델 특성을 고려한 토픽맵 매칭 및 통합 기법을 제안한다. 이전까지의 대부분의 스키마 매칭 연구들은 계산 시간의 효율성을 고려하지 않고 매칭 기법의 범용성 및 정확성을 높이기 위한 목적으로 개발되어 왔다. 그러나 현재 표준적인 온톨로지 언어로 RDF/OWL과 토픽맵이 사용되고 있으며 앞으로 많은 온톨로지들이 이들 언어로 구현될 것이다. 따라서 본 논문에서는 토픽맵 데이터 모델의 구조적 특성 및 제약조건을 고려하여 토픽 분할, 토픽명기반 매칭연산, 속성기반 매칭연산, 계층구조기반 매칭연산, 연관관계기반 매칭연산 및 통합 알고리즘을 개발함으로써 효과적이면서 효율적인 토픽맵 매칭 및 통합이 가능함을 보인다.

의미적 의존 링크 토픽 모델을 이용한 생물학 약어 중의성 해소 (Semantic Dependency Link Topic Model for Biomedical Acronym Disambiguation)

  • 김선호;윤준태;서정연
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.652-665
    • /
    • 2014
  • 생물학 도메인은 약어 표현이 빈번하며, 실제로 문서에서 중요한 의미를 지니는 개체명들이 약어로 표현되는 경우가 많다. 본 연구에서는 토픽과 링크 정보를 이용하여 약어 중의성을 해결하고 동일한 의미를 가지는 다양한 형태의 약어 원형들(variant forms)에 대한 그룹핑을 시도한다. 이를 위하여 LDA(latent Dirichlet allocation) 기반 의미적 의존 링크 토픽 모델(semantic dependency topic model)을 제안한다. 해당 모델은 생성 모델(generative model)의 일종으로 문서 집합의 각 문서에 등장하는 단어들은 문서에서 발생하는 토픽 분포와 토픽 당 단어 분포에 의해 생성되어 있는 것으로 가정하고, 관측 가능한 문서 집합의 단어들로부터 문서에 내재된 숨어있는 토픽 구조를 추론하여 단어 생성과 토픽 파라미터를 연결시킨다. 본 연구에서는 토픽 정보 외에 단어들 사이에 존재하는 의미적 의존성(semantic dependency)을 링크로 정의하고, 단어 간에 존재하는 링크 정보, 특히 원형과 문장에서 공기하는 단어들 사이의 링크를 파라미터화하여 중의성 해결에 이용하였다. 결과적으로 주어진 문서에 등장하는 약어에 대해 가장 가능성 있는 원형은 해당 모델을 이용하여 추론된 단어-토픽, 문서-토픽, 단어-링크 확률에 의해서 결정된다. 제안하는 모델은 MEDLINE 초록으로부터 Entrez 인터페이스를 이용해 22개의 약어 집합과 186개의 가능한 약어 원형을 이용하여 질의를 생성하고, 이를 이용해 검색된 문서들을 대상으로 학습과 테스트에 이용하였다. 실험은, 주어진 문서에 등장하는 해당 약어에 대한 원형이 무엇인지 예측하는 방식으로 98.3%의 정확률의 높은 성능을 보였다.