• 제목/요약/키워드: 토픽

검색결과 1,131건 처리시간 0.028초

교수-학습지원시스템에서 학습자 질의응답 자동분류를 위한 토픽 모델링 (Topic modeling for automatic classification of learner question and answer in teaching-learning support system)

  • 김경록;송혜진;문남미
    • 디지털콘텐츠학회 논문지
    • /
    • 제18권2호
    • /
    • pp.339-346
    • /
    • 2017
  • 기사와 댓글, 질의응답과 같은 비정형 데이터에 기반한 텍스트 분석에 대한 관심이 증가하고 있다. 이는 사람들의 견해인 비정형 텍스트 데이터로부터 특징을 파악하고, 평가, 예측 및 추천에 활용할 수 있기 때문이다. TEL 분야에서도 MOOC 서비스의 확대로 교수학습지원시스템 기반 토론, 질의응답 서비스를 자동화하기 위한 관심이 증가하고 있다. 시스템에 축적된 질의응답 데이터를 기반으로 질의 토픽을 생성하고, 새로운 질의에 대해 토픽을 자동분류하기 위해서이다. 따라서 본 연구에서는 새로운 질의 토픽을 자동분류 할 수 있도록 LDA기법을 활용한 토픽 모델링을 제안하고자 한다. 이를 바탕으로 질의 토픽 사전을 생성하고 새로운 질의에 대해 토픽을 자동분류 할 수 있다. 일부 질의에서는 0.7 이상의 높은 자동 분류를 보였으며, 새로운 질의가 여러 토픽에 포함될수록 좀 더 좋은 자동분류 결과를 보였다.

건설신기술에 대한 토픽 모델링 및 토픽 변화추이 분석 (Topic modeling and topic change trend analysis for advanced construction technologies)

  • 정성윤;김남곤
    • 스마트미디어저널
    • /
    • 제10권4호
    • /
    • pp.102-110
    • /
    • 2021
  • 현재 국내 건설기술의 발전을 도모하기 위해 건설신기술 지정 제도를 운영하고 있다. 이 제도를 통해 지정된 건설신기술과 관련하여 중요도가 높은 출현 어휘와 어휘들 간의 관계를 분석함으로써 건설신기술에 내재된 암묵적인 의미를 살펴보고자 하였다. 이를 위해 918건의 건설신기술정보를 수집하였다. 수집된 건설신기술의 고시연도와 요약 내용을 기초로 하여 건설신기술별로 출현어휘의 중요도를 측정하였다. LDA 모형을 기반으로 한 4개의 토픽별로 연관된 어휘들 간의 영향정도를 평가하였다. 기술적용분야에 따른 토픽을 분석하였다. 1990년부터 2021년까지의 토픽별로 영향력이 높은 어휘들의 변화 추이를 유추하였다. 향후 환경·기계·설비 토픽과 구조물의 보수 보강 토픽의 영향정도 변화와 이에 관련한 적용기술 분야를 예측하였다. 토픽의 개발방향을 예측하였다.

성격유형과 흥미유형에 따른 독서 감상문 토픽 분석 연구 (A Study on the Topic Modeling Analysis of Book Reports on Personality Types and Interest Types)

  • 임정훈
    • 정보관리학회지
    • /
    • 제40권1호
    • /
    • pp.175-198
    • /
    • 2023
  • 본 연구에서는 성격유형과 흥미유형에 따른 독서 감상문에 나타난 독서에 대한 반응의 차이를 탐구하였다. 이를 위해 대전의 D과학고등학교 3학년 학생 81명을 대상으로 성격유형분석 데이터, 흥미유형분석 데이터, 교과독서 활동으로 작성된 독서 감상문 데이터를 수집하였다. 수집된 독서 감상문의 토픽 분석을 수행하고, 성격유형(사고형, 감정형)과 흥미유형(탐구형, 탐구형 외)에 따른 독서 감상문의 토픽 발현 확률을 통계적으로 검증하였다. 이어서 키워드 네트워크 분석을 통해 단어들의 개념 연결 구조를 측정하고, 중심성 지표를 통해 토픽모델링의 분석 결과를 보완하였다. 연구 결과, 토픽 회귀분석을 통해 토픽2(이해와 공부)와 토픽3(읽기와 사고)에서 사고형(T)과 감정형(F) 간에 통계적으로 유의한 차이를 확인할 수 있었으며, 토픽2(이해와 공부)에서 탐구형과 탐구형 외 간에 통계적으로 유의한 차이가 확인되었다. 본 연구의 결과는 맞춤형 도서 추천이나 개인화를 고려한 독서교육의 기초자료로 활용될 수 있을 것이다.

토픽맵-기반 판소리 검색시스템 구축 및 평가에 관한 연구 (A Study of Developing and Evaluating a Pansoree Retrieval System Using Topic Maps)

  • 오삼균;박옥남
    • 한국도서관정보학회지
    • /
    • 제36권4호
    • /
    • pp.77-98
    • /
    • 2005
  • 이 연구의 목적은 유용한 지식포탈 구축을 위한 대안을 제시하기 위하여 판소리 도메인을 중심으로 토픽맵 시스템을 구축하고 그 유효성을 검증하기 위해서 질의유형별로 기존 사이트와 심층 분석을 수행하는 것이다. 먼저 토픽맵에 대한 간략 설명, 판소리 도메인에 대한 토픽맵 데이터 모델링, 그 모델링을 기반으로 토픽맵 기반 판소리 시스템을 구축하였다. 비교대상 사이트는 다양한 판소리 사이트를 비교한 결과, pansoree.com 사이트를 선정하였다. 보다 체계적인 성능비교를 위해서 질의유형별로 나누어서 두 사이트를 비교 분석하였다. 질의유형은 단순질의, 고급질의, 연계질의 Cross Reference 질의로 나누었고, 분석결과 토픽맵 기반 판소리 사이트가 모든 질의유형에서 기존 사이트보다 검색시간과 단계를 줄일 수 있고, 판소리 도메인을 잘 모르는 이용자의 경우에도 용이한 검색을 제공하는 것으로 판명되었다.

  • PDF

온톨로지 언어의 비교 연구: W3C OWL과 ISO 토픽맵을 중심으로 (A Comparison of Ontology Languages: Focusing on W3C OWL and ISO Topic Maps)

  • 오삼균
    • 한국비블리아학회지
    • /
    • 제15권2호
    • /
    • pp.71-96
    • /
    • 2004
  • 이 연구의 목적은 국제표준 온톨로지 언어로 간주되고 있는 W3C의 웹 온톨로지 언어(OWL)와 ISO 토픽맵(Topic Map)의 핵심개념을 상세히 기술하고, 각 언어의 의미표현력에 대해서 비교분석하는 것이다. 본 논문의 구성은, 첫째 온톨로지의 기반을 이루고 있는 URI와 네임스페이스에 대해서 기술하는 것이고, 둘째 토픽맵의 핵심 개념인 토픽(Topic), 연계(Association), 어커런스(Occurrence) 등에 대한 상세한 설명을 제공하는 것이고, 셋째 토픽맵이 검색결과를 의미 있는 그룹으로 묶어서 보여 주어야 한다는 목록의 제2목적을 효율적으로 성취하는 방법에 대해서 기술하는 것이고, 마지막으로 토픽맵과 OWL의 의미표현력의 차이점에 대해서 상세하게 비교분석한 내용으로 되어 있다.

  • PDF

Topographic non-negative matrix factorization에 기반한 텍스트 문서로부터의 토픽 가시화 (Topographic Non-negative Matrix Factorization for Topic Visualization from Text Documents)

  • 장정호;엄재홍;장병탁
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2006년도 가을 학술발표논문집 Vol.33 No.2 (B)
    • /
    • pp.324-329
    • /
    • 2006
  • Non-negative matrix factorization(NMF) 기법은 음이 아닌 값으로 구성된 데이터를 두 종류의 양의 행렬의 곱의 형식으로 분할하는 데이터 분석기법으로서, 텍스트마이닝, 바이오인포매틱스, 멀티미디어 데이터 분석 등에 활용되었다. 본 연구에서는 기본 NMF 기법에 기반하여 텍스트 문서로부터 토픽을 추출하고 동시에 이를 가시적으로 도시하기 위한 Topographic NMF (TNMF) 기법을 제안한다. TNMF에 의한 토픽 가시화는 데이터를 전체적인 관점에서 보다 직관적으로 파악하는데 도움이 될 수 있다. TNMF는 생성모델 관점에서 볼 때, 2개의 은닉층을 갖는 계층적 모델로 표현할 수 있으며, 상위 은닉층에서 하위 은닉층으로의 연결은 토픽공간상에서 토픽간의 전이확률 또는 이웃함수를 정의한다. TNMF에서의 학습은 전이확률값의 연속적 스케줄링 과정 속에서 반복적 파리미터 갱신 과정을 통해 학습이 이루어지는데, 파라미터 갱신은 기본 NMF 기반 학습 과정으로부터 유사한 형태로 유도될 수 있음을 보인다. 추가적으로 Probabilistic LSA에 기초한 토픽 가시화 기법 및 희소(sparse)한 해(解) 도출을 목적으로 한 non-smooth NMF 기법과의 연관성을 분석, 제시한다. NIPS 학회 논문 데이터에 대한 실험을 통해 제안된 방법론이 문서 내에 내재된 토픽들을 효과적으로 가시화 할 수 있음을 제시한다.

  • PDF

토픽 모델링을 이용한 건설현장 추락재해 분석 (Falling Accidents Analysis in Construction Sites by Using Topic Modeling)

  • 류한국
    • 한국융합학회논문지
    • /
    • 제10권7호
    • /
    • pp.175-182
    • /
    • 2019
  • 본 연구는 기계학습 기법 중 토픽 모델링을 활용하여 건설현장에서 발생하는 추락재해에 대한 토픽을 분류하고 각 토픽에 따른 재해요인을 분석하였다. 잠재 디리클레 할당 기반의 토픽 모델링을 적용하기 위해 텍스트 데이터의 전처리를 하였고 Perplexity 점수로 평가하여 모형의 신뢰성을 높였다. 각 토픽에서 공통으로 도출된 추락재해의 대부분은 소규모 사업장에 속한 일용직 작업자들에게 발생하였다. 추락재해의 대부분의 원인은 안전장비 미착용, 현장 정리 정돈 미흡, 안전장비의 성능 및 착용 상태로 인해 제대로 작동하지 않은 것으로 판단되었다. 추락재해를 예방하고 절감하기 위해서는 소규모 사업장에 맞는 안전교육과 작업장의 정리 정돈과 개인 안전장비의 적절한 착용 상태 및 성능을 확인하는 것이 중요한 것으로 도출되었다.

LDA를 사용한 COVID-19 관련 국내 논문의 연구 토픽 분석 (Research Topic Analysis of the Domestic Papers Related to COVID-19 Using LDA)

  • 김은회;서유화
    • 한국정보전자통신기술학회논문지
    • /
    • 제15권5호
    • /
    • pp.423-432
    • /
    • 2022
  • 본 논문은 학술연구자들이 COVID-19 관련 논문의 전체적인 연구 동향을 파악할 수 있도록 한다. KCI 사이트에서 수집한 2020년 1월부터 2022년 7월까지 총 10,599편의 COVID-19 관련 논문 정보를 LDA 토픽 모델링으로 분석한 결과를 제시한다. 또한 학술연구자들이 자신의 관심 연구분야의 토픽을 쉽게 파악할 수 있도록 LDA 토픽 모델링의 결과를 주요 연구 카테고리별로 분석하고, 토픽별로 연구가 많이 이루어지는 세부 연구 카테고리 정보를 분석한다. 학술연구자들이 시간의 흐름에 따른 연구 토픽의 추세(trend)를 파악하는 것은 연구 동향을 파악하는데 매우 중요하다. 따라서 이를 위해 본 논문에서는 시계열 분해를 사용하여 토픽들의 추세(trend)를 분석하여 제시한다.

MeSH 기반의 LDA 토픽 모델을 이용한 검색어 확장 (The MeSH-Term Query Expansion Models using LDA Topic Models in Health Information Retrieval)

  • 유석진
    • 한국도서관정보학회지
    • /
    • 제52권1호
    • /
    • pp.79-108
    • /
    • 2021
  • 헬스 분야에서 정보 검색의 어려움 중의 하나는 일반 사용자들이 전문적인 용어들을 이해하기가 어렵다는 점이다. 헬스와 관련된 전문 용어들은 일반 사용자들이 검색어로 사용하기 어렵기 때문에 이러한 전문 용어들이 자동적으로 검색어에 더해질 수 있다면 좀 더 검색의 효과를 높일 수 있을 것이다. 제안된 검색어 확장 모델은 전문 용어를 포함하는 MeSH(Medical Subject Headings)를 검색어 확장을 위한 단어 후보 군으로 이용하였다. 문서들은 MeSH용어들로 표현이 되고 이렇게 표현된 문서들의 집합에 대해서 LDA(Latent Dirichlet Analysis) 토픽들이 생성된 후, (검색어+초기 검색어에 의해 검색된 상위 k개 문서들)에 연관된 토픽 단어들이 원래의 검색어를 확장하는 데 쓰여졌다. MeSH로 구성된 토픽 단어들은 임의로 정해진 토픽 확률 임계값과 토픽을 구성하는 단어의 확률 임계값보다 높았을 때 초기의 검색어에 포함되었다. 특정수의 토픽을 갖는 LDA 모델에서 이러한 적절한 임계값의 설정을 통해 선택된 토픽 단어들은 검색어 확장에 이용되어 검색시에 infAP(inferred Average Precision)와 infNDCG(inferred Normalized Discounted Cumulative Gain)를 높이는데 효과적으로 작용하였다. 또한 토픽 확률값과 토픽 단어의 확률값을 곱하여 계산된 토픽 단어의 스코어가 높은 상위 k개의 단어를 검색어를 확장하는 데 이용하였을 때에도 검색의 성능이 향상될 수 있음을 확인하였다.

토픽 모델링을 활용한 한국콘텐츠학회 논문지 연구 동향 탐색 (An Exploratory Research Trends Analysis in Journal of the Korea Contents Association using Topic Modeling)

  • 석혜은;김수영;이연수;조현영;이수경;김경화
    • 한국콘텐츠학회논문지
    • /
    • 제21권12호
    • /
    • pp.95-106
    • /
    • 2021
  • 본 연구의 목적은 한국콘텐츠학회 논문지에 게재된 9,858건의 논문을 대상으로 토픽 모델링을 활용하여 지난 20년간 연구동향을 탐색함으로써 콘텐츠 연구개발에서의 주요 토픽을 도출하고 학술적 발전방향을 제공하는데 있다. 추출된 토픽의 신뢰성과 타당성을 확보하기 위해 양적 평가기법 뿐만 아니라 정성적 기법을 단계적으로 적용하여 연구자들이 합의한 수준의 말뭉치가 생성될 때까지 이를 반복적으로 수행하였으며 이에 따른 구체적인 분석 절차를 제시하였다. 분석 결과 8개의 핵심 토픽이 추출되었다. 이는 한국콘텐츠학회가 특정 학문 분야를 한정하지 않고 다양한 분야의 융·복합 연구 논문을 발간하고 있음을 보여준다. 또한 2012년 이전 상반기에는 공학기술 분야 토픽 비중이 상대적으로 높게 나타난 반면, 2012년 이후 하반기에는 사회과학 분야 토픽 출현 비중이 상대적으로 높게 나타났다. 구체적으로 '사회복지' 토픽은 상반기 대비 하반기에 약 4배수 증가세가 나타났다. 토픽별 추세분석을 통해 추세선의 변곡점이 나타난 특정 시점에 주목하여 해당 토픽의 연구동향에 영향을 미친 외적 변인을 탐색하였고 토픽과 외적 변인 간 관련성을 파악하였다. 본 연구결과가 국내 콘텐츠 관련 연구 개발 및 산업 분야에서 진행되고 있는 활발한 논의를 진행하는데 시사점을 제공할 수 있기를 기대한다.