• 제목/요약/키워드: 구조적 토픽모델

검색결과 22건 처리시간 0.033초

토픽 분할에 의한 토픽맵 매칭 및 통합 기법 (Topic maps Matching and Merging Techniques based on Partitioning of Topics)

  • 김정민;정현숙
    • 정보처리학회논문지D
    • /
    • 제14D권7호
    • /
    • pp.819-828
    • /
    • 2007
  • 본 논문에서는 토픽맵의 모델 특성을 고려한 토픽맵 매칭 및 통합 기법을 제안한다. 이전까지의 대부분의 스키마 매칭 연구들은 계산 시간의 효율성을 고려하지 않고 매칭 기법의 범용성 및 정확성을 높이기 위한 목적으로 개발되어 왔다. 그러나 현재 표준적인 온톨로지 언어로 RDF/OWL과 토픽맵이 사용되고 있으며 앞으로 많은 온톨로지들이 이들 언어로 구현될 것이다. 따라서 본 논문에서는 토픽맵 데이터 모델의 구조적 특성 및 제약조건을 고려하여 토픽 분할, 토픽명기반 매칭연산, 속성기반 매칭연산, 계층구조기반 매칭연산, 연관관계기반 매칭연산 및 통합 알고리즘을 개발함으로써 효과적이면서 효율적인 토픽맵 매칭 및 통합이 가능함을 보인다.

의미적 토픽 기반 지식모델의 통합에 관한 연구 (A study on integration of semantic topic based Knowledge model)

  • 전승수;이상진;배상태
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2012년도 한국컴퓨터종합학술대회논문집 Vol.39 No.1(B)
    • /
    • pp.181-183
    • /
    • 2012
  • 최근 자연어 및 정형언어 처리, 인공지능 알고리즘 등을 활용한 효율적인 의미 기반 지식모델의 생성과 분석 방법이 제시되고 있다. 이러한 의미 기반 지식모델은 효율적 의사결정트리(Decision Making Tree)와 특정 상황에 대한 체계적인 문제해결(Problem Solving) 경로 분석에 활용된다. 특히 다양한 복잡계 및 사회 연계망 분석에 있어 정적 지표 생성과 회귀 분석, 행위적 모델을 통한 추이분석, 거시예측을 지원하는 모의실험(Simulation) 모형의 기반이 된다. 본 연구에서는 이러한 의미 기반 지식모델을 통합에 있어 텍스트 마이닝을 통해 도출된 토픽(Topic) 모델 간 통합 방법과 정형적 알고리즘을 제시한다. 이를 위해 먼저, 텍스트 마이닝을 통해 도출되는 키워드 맵을 동치적 지식맵으로 변환하고 이를 의미적 지식모델로 통합하는 방법을 설명한다. 또한 키워드 맵으로부터 유의미한 토픽 맵을 투영하는 방법과 의미적 동치 모델을 유도하는 알고리즘을 제안한다. 통합된 의미 기반 지식모델은 토픽 간의 구조적 규칙과 정도 중심성, 근접 중심성, 매개 중심성 등 관계적 의미분석이 가능하며 대규모 비정형 문서의 의미 분석과 활용에 실질적인 기반 연구가 될 수 있다.

이형 온톨로지 언어의 속성 및 계층구조 매핑 (Mapping of Characteristics and Hierarchy between Heterogeneous Ontology Languages)

  • 홍현술
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (B)
    • /
    • pp.131-136
    • /
    • 2007
  • 토픽맵은 RDF에 기반을 둔 OWL과 많은 유사점을 갖지만, 양자는 역사적, 기술적, 의도하는 목적에서 차이가 있다. 토픽맵은 ISO 표준이지만, OWL은 W3C의 온톨로지 개발 표준언어로서 양자는 각각의 제약언어, 데이터 모델, 그리고 일련의 구문들을 별개로 갖는다. 그러나 토픽맵과 OWL 양자는 지식을 표현하는 온톨로지 언어라는 공통적 특성을 가지며, 술어로직에 기반을 두고 있고, XML포맷이기 때문에 상호간에 매핑이 가능하다. 논문의 목적은 토픽맵과 OWL의 메타모델로부터 온톨로지 정보자원의 공유, 교환, 통합에 접근시킨다. 따라서 각각의 메타모델에서 주요 요소를 추출하고, 이들의 의미적인 측면과 구조적인 측면의 요소들의 손실이 발생되지 않도록 매핑을 수행한다.

  • PDF

텍스트 분석을 이용한 코로나19 관련 국내논문의 토픽 및 감성연구 (Topic and Sentiment Analysis on COVID19 Research in Korea Using Text Analysis)

  • 허성민;양지연
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.329-331
    • /
    • 2021
  • 본 연구에서는 코로나19 관련 연구논문의 연구주제를 탐색하고 동향을 검토하고 있다. 또한 감성분석을 통해 부정적인 어조가 강한 경고가 되는 주제들을 알아본다. 잠재 디리슐레 할당(LDA)를 이용하여 총 8개의 토픽을 발견하 였고, 이를 구조적 토픽 모델링(STM)과 비교하여 비교적 안정적인 결과임을 확인하였다. 또한 k-means 군집 알고리즘을 통해 각 토픽별로 세부 연구주제를 발견하였고 주성분 분석을 이용하여 이를 시각적으로 표현하였다. 감성분석을 통해 각 토픽별 긍정적, 부정적인 단어들을 살펴보고 감성점수를 계산하여 연구논문의 주된 어조를 파악하였는데, 특히 생물 의학 관련, 국제적 역학관계, 심리적 영향과 관련된 연구에서 부정적인 어조가 강한 것으로 나타나 해당 부문에 대해서 주의와 관심이 요구된다. 향후 연구자들이 연구의 방향성을 탐색하고 정책결정자들이 연구지원 사업을 결정하는데 기초자료로 활용될 수 있을 것이다.

  • PDF

KorBERT 기반 빈칸채우기 문제를 이용한 텍스트 분류 (Text Classification using Cloze Question based on KorBERT)

  • 허정;이형직;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2021년도 제33회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.486-489
    • /
    • 2021
  • 본 논문에서는 KorBERT 한국어 언어모델에 기반하여 텍스트 분류문제를 빈칸채우기 문제로 변환하고 빈칸에 적합한 어휘를 예측하는 방식의 프롬프트기반 분류모델에 대해서 소개한다. [CLS] 토큰을 이용한 헤드기반 분류와 프롬프트기반 분류는 사전학습의 NSP모델과 MLM모델의 특성을 반영한 것으로, 텍스트의 의미/구조적 분석과 의미적 추론으로 구분되는 텍스트 분류 태스크에서의 성능을 비교 평가하였다. 의미/구조적 분석 실험을 위해 KLUE의 의미유사도와 토픽분류 데이터셋을 이용하였고, 의미적 추론 실험을 위해서 KLUE의 자연어추론 데이터셋을 이용하였다. 실험을 통해, MLM모델의 특성을 반영한 프롬프트기반 텍스트 분류에서는 의미유사도와 토픽분류 태스크에서 우수한 성능을 보였고, NSP모델의 특성을 반영한 헤드기반 텍스트 분류에서는 자연어추론 태스크에서 우수한 성능을 보였다.

  • PDF

분산 토픽맵의 다중 전략 매핑 기법 (A Multi-Strategic Mapping Approach for Distributed Topic Maps)

  • 김정민;신효필;김형주
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제33권1호
    • /
    • pp.114-129
    • /
    • 2006
  • 유사한 지식구조의 분산된 온톨로지들을 통합 및 연결하여 새로운 온톨로지를 생성하거나 확장 지식 검색을 효과적으로 제공하기 위해서는 온톨로지 모델 자체의 구조적 특성이나 제약조건을 고려한 온톨초지 매핑이 중요하다. 그러나 과거의 온톨로지 매핑은 범용성을 높이기 위해 대부분 그래프 모델을 기반으로 노드와 간선 중심의 매핑여부를 계산함으로써 온톨로지 모델의 특성과 제약조건을 매핑에 반영하지 못하는 문제점을 가진다. 본 논문에서는 RDF와 함께 온톨로지 모델로 사용되고 있는 토픽맵의 구문적 특성과 제약조건을 반영한 다중 매핑 전략의 토픽맵 매핑 기법을 제안한다. 다중 매핑 전략에는 토픽명 기반 매핑, 토픽 속성 기반 매핑, 계층 구조 기반 매핑, 연관관계 기반 매핑의 4가지 매핑 전략이 포함되어 있으며 개체들 사이의 매핑 여부를 결정하기 위해 각 매핑의 개별 유사도를 조합한 다음 단일 유사도를 결정하는 하이브리드 방식을 사용한다. 또한 토픽맵의 구문적 특성에 따라 매핑 계산 전에 매핑이 불가능한 개체들을 미리 제거함으로써 탐색 범위를 줄이고 있으며 토픽명 색인과 PSI 색인을 생성하여 매핑 계산의 효율을 높이고 있다. 제안하는 토픽맵 매핑 기법의 성능을 보이기 위해 동, 서양 철학 온톨로지들과 야후 철학 백과사전 및 독일 문학 백과사전을 토픽맵으로 구현하여 실험 데이타로 활용하였으며 그 결과 자동 생성된 매핑 집합이 전문가에 의해 생성된 매핑 집합을 대부분 포함함을 확인하였다.

의미적 의존 링크 토픽 모델을 이용한 생물학 약어 중의성 해소 (Semantic Dependency Link Topic Model for Biomedical Acronym Disambiguation)

  • 김선호;윤준태;서정연
    • 정보과학회 논문지
    • /
    • 제41권9호
    • /
    • pp.652-665
    • /
    • 2014
  • 생물학 도메인은 약어 표현이 빈번하며, 실제로 문서에서 중요한 의미를 지니는 개체명들이 약어로 표현되는 경우가 많다. 본 연구에서는 토픽과 링크 정보를 이용하여 약어 중의성을 해결하고 동일한 의미를 가지는 다양한 형태의 약어 원형들(variant forms)에 대한 그룹핑을 시도한다. 이를 위하여 LDA(latent Dirichlet allocation) 기반 의미적 의존 링크 토픽 모델(semantic dependency topic model)을 제안한다. 해당 모델은 생성 모델(generative model)의 일종으로 문서 집합의 각 문서에 등장하는 단어들은 문서에서 발생하는 토픽 분포와 토픽 당 단어 분포에 의해 생성되어 있는 것으로 가정하고, 관측 가능한 문서 집합의 단어들로부터 문서에 내재된 숨어있는 토픽 구조를 추론하여 단어 생성과 토픽 파라미터를 연결시킨다. 본 연구에서는 토픽 정보 외에 단어들 사이에 존재하는 의미적 의존성(semantic dependency)을 링크로 정의하고, 단어 간에 존재하는 링크 정보, 특히 원형과 문장에서 공기하는 단어들 사이의 링크를 파라미터화하여 중의성 해결에 이용하였다. 결과적으로 주어진 문서에 등장하는 약어에 대해 가장 가능성 있는 원형은 해당 모델을 이용하여 추론된 단어-토픽, 문서-토픽, 단어-링크 확률에 의해서 결정된다. 제안하는 모델은 MEDLINE 초록으로부터 Entrez 인터페이스를 이용해 22개의 약어 집합과 186개의 가능한 약어 원형을 이용하여 질의를 생성하고, 이를 이용해 검색된 문서들을 대상으로 학습과 테스트에 이용하였다. 실험은, 주어진 문서에 등장하는 해당 약어에 대한 원형이 무엇인지 예측하는 방식으로 98.3%의 정확률의 높은 성능을 보였다.

디지털 인문학 분야의 국내외 연구 동향 분석 (An Analysis on Research Trends of Digital Humanities)

  • 정유경
    • 정보관리학회지
    • /
    • 제37권2호
    • /
    • pp.311-331
    • /
    • 2020
  • 본 연구의 목적은 디지털 인문학 분야의 국내외 주요 연구의 동향을 살펴보고 비교 분석하는 데 있다. 기존의 디지털 인문학 동향에 관한 연구들은 해외의 주요 연구사례와 국가정책, 발전 방향 등을 검토하는 연구들로, 디지틸 인문학 분야의 세부 연구주제 및 하위 분야를 파악하는 것과는 거리가 있었다. 본 연구에서는 국내외 학술 문헌의 계량서지적 분석을 통해 디지털 인문학 분야의 지적 구조를 살펴보고자 한다. 이를 위해 Web of Science와 RISS로부터 2020년 3월까지 출판된 디지털 인문학 관련 국내외 학술 문헌을 수집하여 분석에 사용하였다. 이 자료들을 대상으로 구조적 토픽모델을 적용하여 세부 주제들을 살펴보았으며, 이 주제들의 시계열적 추이를 파악하였다. 분석결과, 국내외 공통적으로 인문학 기반의 융합 연구들이 수행되었으며, 주로 사료의 디지털화가 주된 연구의 관심사였다. 국내는 문화콘텐츠와 스토리텔링 관련된 연구주제가 두드러지게 나타났으며, 해외는 디지털화된 자료의 제공 측면에서 문헌정보학 관련 주제들이 주목을 받는 것으로 나타났다. 이를 통해 국내의 디지털 인문학 분야의 연구 공백을 파악하고 연구주제 확장이 가능한 영역들을 제안하였다.

팬데믹에 따른 소비자의 피부 관련 관심 영역 변화 분석: 구조적 토픽모델링을 중심으로 (Analyzing Changes in Consumers' Interest Areas Related to Skin under the Pandemic: Focusing on Structural Topic Modeling)

  • 김나경;박지원;문형빈
    • 지식경영연구
    • /
    • 제25권1호
    • /
    • pp.173-192
    • /
    • 2024
  • 최근 뷰티 산업은 급격한 성장과 혁신으로 빠르게 발전하였으며, 코로나19 팬데믹으로 인한 마스크 착용 및 비대면 생활의 증가와 같은 생활 양식 변화에 따라 새로운 전환을 겪고 있다. 본 연구는 온라인상에 나타난 소비자의 피부에 대한 의견을 분석하여 코로나19 팬데믹 이후 뷰티 산업의 변화를 수요 측면에서 이해하고자 하였다. 이를 위해 2017년부터 2022년까지 소셜 미디어에 게재된 게시글 중 '피부 고민'을 포함한 96,908개의 게시글을 수집하고 이를 구조적 토픽모델에 적용하여 피부 관련 주제를 도출하였다. 분석 결과, 소비자가 고민하고 있는 피부 관련 주제는 총 22개로 구분될 수 있음을 확인하였으며, 이들 주제는 크게 뷰티 제조업, 뷰티 서비스업·연관산업, 피부고민, 기타 등 4가지 유형으로 구분될 수 있었다. 또한 본 연구는 분석 기간을 코로나19 팬데믹의 확산 양상을 기준으로 7개 단계로 나누고 각 토픽의 비중이 어떻게 변화하는지를 상승, 하강, 일정, 진동으로 구분하여 보았다. 코로나19 팬데믹 전과 후 시점에 대하여 주제별 비중의 변화 양상을 분석한 결과, 피부 고민 중 피부 트러블(여드름)과 이와 관련된 제품(스팟패치)은 상승 분야로, 뷰티 연관산업 중 성형외과와 한의원은 하강 분야로, 뷰티 제조업 중 수분 마스크팩, 메이크업 제품은 큰 변화가 없는 일정 분야로 나타났다. 또한 코로나 발생기간 내에서 팬데믹이 최고조에 달한 시기에는 바디케어 제품과 관련된 토픽이 급증하는 것을 확인할 수 있었다. 본 연구의 결과는 뷰티 산업의 수요 변화에 대응하여 기업이 제품 개발, 마케팅 전략을 수립하는 데에 활용될 수 있으며, 팬데믹 발생 시 정부가 경제적 지원 정책을 수립하는 경우 정책 추진의 근거로서도 활용될 수 있을 것으로 기대된다.

Spark 프레임워크 기반 비정형 빅데이터 토픽 추출 시스템 설계 (A Design on Informal Big Data Topic Extraction System Based on Spark Framework)

  • 박기진
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제5권11호
    • /
    • pp.521-526
    • /
    • 2016
  • 온라인상에서 다루어지는 비정형 텍스트 데이터는 대용량이면서 비구조적 형태의 특성을 가지고 있기 때문에, 기존 관계형 데이터 모델의 저장 방식과 분석 방법만으로는 한계가 있다. 더군다나, 동적으로 발생하는 대량의 소셜 데이터를 활용하여 이용자의 반응을 실시간으로 분석하기란 어려운 상황이다. 이에 본 논문에서는 대용량 비정형 데이터(문서)의 의미를 빠르고, 용이하게 파악하기 위하여 데이터 셋에 대한 사전학습 없이, 문서 내 단어 비중에 따라 자동으로 토픽(주제)이 추출되는 시스템을 설계 및 구현하였다. 제안된 시스템의 토픽 모델링에 사용될 입력 단어는 N-gram 알고리즘에 의하여 도출되어 복수 개의 단어도 묶음 처리할 수 있게 했으며, 또한, 대용량 비정형 데이터 저장 및 연산을 위하여 Hadoop과 분산 인메모리 처리 프레임워크인 Spark 기반 클러스터를 구성하여, 토픽 모델 연산을 수행하였다. 성능 실험에서는 TB급의 소셜 댓글 데이터를 읽어 들여, 전체 데이터에 대한 전처리 과정과 특정 항목의 토픽 추출 작업을 수행하였으며, 대용량 데이터를 클러스터의 디스크가 아닌 메모리에 바로 적재 후, 처리함으로써 토픽 추출 성능의 우수성을 확인할 수 있었다.