• 제목/요약/키워드: 토픽

검색결과 1,131건 처리시간 0.02초

단어 유사도를 이용한 뉴스 토픽 추출 (News Topic Extraction based on Word Similarity)

  • 김동욱;이수원
    • 정보과학회 논문지
    • /
    • 제44권11호
    • /
    • pp.1138-1148
    • /
    • 2017
  • 토픽 추출은 문서 집합으로부터 그 문서 집합을 대표하는 토픽을 자동 추출하는 기술이며 자연어 처리의 중요한 연구 분야이다. 대표적인 토픽 추출 방법으로는 잠재 디리클레 할당과 단어 군집화 기반 토픽 추출방법이 있다. 그러나 이러한 방법의 문제점으로는 토픽 중복 문제와 토픽 혼재 문제가 있다. 토픽 중복 문제는 특정 토픽이 여러 개의 토픽으로 추출되는 문제이며, 토픽 혼재 문제는 추출된 하나의 토픽 내에 여러 토픽이 혼재되어 있는 문제이다. 이러한 문제를 해결하기 위하여 본 연구에서는 토픽 중복 문제에 대해 강건한 잠재 디리클레 할당으로 토픽을 추출하고 단어 간 유사도를 이용하여 토픽 분리 및 토픽 병합의 단계를 거쳐 최종적으로 토픽을 보정하는 방법을 제안한다. 실험 결과 제안 방법이 잠재 디리클레 할당 방법에 비해 좋은 성능을 보였다.

무한 사전 온라인 LDA 토픽 모델에서 의미적 연관성을 사용한 토픽 확장 (Topic Expansion based on Infinite Vocabulary Online LDA Topic Model using Semantic Correlation Information)

  • 곽창욱;김선중;박성배;김권양
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권9호
    • /
    • pp.461-466
    • /
    • 2016
  • 토픽 확장은 학습된 토픽의 질을 향상시키기 위해 추가적인 외부 데이터를 반영하여 점진적으로 토픽을 확장하는 방법이다. 기존의 온라인 학습 토픽 모델에서는 외부 데이터를 확장에 사용될 경우, 새로운 단어가 기존의 학습된 모델에 반영되지 않는다는 문제가 있었다. 본 논문에서는 무한 사전 온라인 LDA 토픽 모델을 이용하여 외부 데이터를 반영한 토픽 모델 확장 방법을 연구하였다. 토픽 확장 학습에서는 기존에 형성된 토픽과 추가된 외부 데이터의 단어와 유사도를 반영하여 토픽을 확장한다. 실험에서는 기존의 토픽 확장 모델들과 비교하였다. 비교 결과, 제안한 방법에서 외부 연관 문서 단어를 토픽 모델에 반영하기 때문에 대본 토픽이 다루지 못한 정보들을 토픽에 포함할 수 있었다. 또한, 일관성 평가에서도 비교 모델보다 뛰어난 성능을 나타냈다.

지역신문기사 자료와 토픽모델링을 이용한 해변 관련 계절별 현안분석 (Seasonal analysis of Beach-related Issues using Local Newspaper Articles and Topic Modeling)

  • 유무상;정수연;김건후;손철
    • 지역연구
    • /
    • 제34권4호
    • /
    • pp.19-34
    • /
    • 2018
  • 본 연구의 목적은 2004년부터 2017년까지의 해변과 해수욕장을 키워드로 하는 지역신문기사를 이용하여 계절별 현안을 분석하는 것이다. 분석을 위해 오픈소스 프로그램을 기반으로 한 토픽모델링과 시계열회귀분석을 수행하였다. 토픽모델링 분석 결과 계절별 토픽은 봄 35개, 여름 47개, 가을 36개, 겨울 35개가 도출되었다. 모든 계절에서 공통적으로 도출된 주제는 해수욕장, 축제 행사, 사건사고 및 환경문제, 관광지, 개발 분양, 행정 정책, 날씨로 나타났다. 시계열회귀분석 결과 봄에는 35개의 토픽 중 5개의 상승 토픽과 2개의 하락 토픽이 도출되었다. 여름에는 47개의 토픽 중 6개의 상승 토픽과 3개의 하락 토픽이 도출되었다. 가을에는 36개의 토픽 중 4개의 상승 토픽과 3개의 하락 토픽이 도출되었다. 겨울에는 35개의 토픽 중 3개의 상승 토픽과 3개의 하락 토픽이 도출되었다. 그리고 각 계절별로 상승 토픽과 하락 토픽에 해당하지 않는 토픽은 중립 토픽으로 구분하였다. 본 연구를 통해 해변과 같이 계절별로 용도가 다른 경우에 지역현안에 대한 분석을 위해 계절별 토픽모델링을 진행한다면 더욱 유용한 결과를 도출하고 이에 따른 세부적인 진단이 가능하다고 판단된다.

사용자 프로파일을 이용한 개인화된 토픽맵 랭킹 알고리즘 (Personalized Topic map Ranking Algorithm using the User Profile)

  • 박정우;이상훈
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제35권8호
    • /
    • pp.522-528
    • /
    • 2008
  • 토픽맵에서 사용자의 토픽 선택에 따라 제공되는 정보는 개별 사용자의 관심과 배경지식이 고려되지 않고 최초 도메인 전문가에 의해 구축된 토픽맵 상의 토픽(Topic)과 연관되는 관계(Association), 자원(Occurrence)만을 이용하여 사용자에게 토픽맵 정보를 제공하고 있다. 이에 토픽맵은 개인화된 정보제공 측면의 단점을 보완하고자 개별 사용자를 위한 개인화 기능으로 개인 선호항목 설정, 필터링(Filtering), 범위제한(Scope) 등 사용자가 직접 관심정보를 사전에 설정하는 기능을 제공하고 있으나 토픽맵 사용자를 위한 개인화 측면에서 만족스럽지 못하다. 따라서 본 논문에서는 특정 도메인 토픽맵에서 사용자가 원하는 개인화된 정보를 제공하기 위해 사용자 클릭정보 수집을 통한 프로파일 정보와 이를 이용한 토픽 선호도 백터(Topic Preference Vector), 토픽맵 지식층의 기본요소인 토픽(Topic)과 관계(Association)를 이용한 개인화된 토픽맵 랭킹 알고리즘(PTR)을 제안한다. 사용자는 PTR 알고리즘을 이용하여 개인 선호도가 고려되어 랭킹된 토픽맵 정보를 제공받을 수 있게 됨으로써 개인화된 정보 제공 측면에서의 성능 향상을 가져올 수 있는 장점을 가진다.

토픽모델을 활용한 명문대 재학생의 학벌에 관한 인식 분석 (A Prestigious University Students' Perceptions of their Educational Attainment by a Topic model)

  • 정영선;이승연
    • 문화기술의 융합
    • /
    • 제10권3호
    • /
    • pp.503-512
    • /
    • 2024
  • 이 연구는 한국 사회에서 명문대로 분류되는 한 대학의 학생이 작성한 학벌에 대한 글쓰기 과제를 분석하여 이들이 가진 학벌에 대한 인식을 확인하고 내재한 의미를 분류한 연구이다. 분석에서 활용한 방법은 토픽 모델 중 잠재 디리클레 할당 방법으로 총 172편의 문서를 분석한 후 각 토픽에서 빈출한 키워드가 자주 등장하는 문서를 중심으로 학생의 인식을 탐색하였다. 분석 결과 도출한 토픽은 학벌의 순기능(토픽 1), 양날의 검(토픽 2), 권력공동체(토픽 3), 승리의 징표(토픽 4), 학벌의 역기능(토픽 5)의 다섯 가지이다. 각 토픽에서 가장 빈번하게 제시되는 단어를 정리하면 다음과 같다. 토픽 1에서는 '개인', '지위', '수단'이, 토픽 2는 '정의(定義)', '학교', '의미'가, 토픽 3은 '사람', '출신', '권력'이, 토픽 4는 '대학(교)', '능력', '노력'이, 토픽 5는 '학력', '우리나라', '출신'이었다. 이상의 분석을 통해 우리는 명문대 학생이 학벌을 논할 때 계급과 학벌 공동체, 사회와의 관련성을 통하여 계급재생산을 고려하지만 인종 및 민족와 같이 학벌에 영향을 미치는 기타 요인에 대하여는 크게 관심을 두지 않고 있음을 확인하였다. 앞으로의 관련 강의에서 보다 다양한 요인과 학벌의 관련성을 다룰 필요가 있다.

토픽 분할에 의한 토픽맵 매칭 및 통합 기법 (Topic maps Matching and Merging Techniques based on Partitioning of Topics)

  • 김정민;정현숙
    • 정보처리학회논문지D
    • /
    • 제14D권7호
    • /
    • pp.819-828
    • /
    • 2007
  • 본 논문에서는 토픽맵의 모델 특성을 고려한 토픽맵 매칭 및 통합 기법을 제안한다. 이전까지의 대부분의 스키마 매칭 연구들은 계산 시간의 효율성을 고려하지 않고 매칭 기법의 범용성 및 정확성을 높이기 위한 목적으로 개발되어 왔다. 그러나 현재 표준적인 온톨로지 언어로 RDF/OWL과 토픽맵이 사용되고 있으며 앞으로 많은 온톨로지들이 이들 언어로 구현될 것이다. 따라서 본 논문에서는 토픽맵 데이터 모델의 구조적 특성 및 제약조건을 고려하여 토픽 분할, 토픽명기반 매칭연산, 속성기반 매칭연산, 계층구조기반 매칭연산, 연관관계기반 매칭연산 및 통합 알고리즘을 개발함으로써 효과적이면서 효율적인 토픽맵 매칭 및 통합이 가능함을 보인다.

독후감 텍스트의 토픽모델링 적용에 관한 탐색적 연구 (A Study on the Application of Topic Modeling for the Book Report Text)

  • 이수상
    • 한국도서관정보학회지
    • /
    • 제47권4호
    • /
    • pp.1-18
    • /
    • 2016
  • 이 연구는 독후감 텍스트의 주제분석에 토픽모델링의 활용방안을 탐색하는 것을 목적으로 하고 있다. 텍스트의 주제분석 방안으로서 토픽모델링 분석방법을 이해하고, R에서 제공하는 "topicmodels" 패키지의 LDA 함수를 사용하여 23건의 사례 독후감 텍스트들을 대상으로 실제의 분석작업을 수행하였다 토픽모델링 분석결과 16개의 토픽들을 추출하였고 토픽과 구성 단어들의 관계에서 토픽 네트워크 사례 독후감과 토픽들의 관계에서 독후감 네트워크를 구성하였다. 이후 토픽 네트워크와 독후감 네트워크를 대상으로 중심성 분석을 수행하였으며 분석결과는 다음과 같다. 첫째 16개의 토픽들이 1개의 컴포넌트를 가지는 네트워크로 나타났다. 이것은 16개 토픽들이 상호 연관되어 있다는 것을 의미한다. 둘째, 독후감 네트워크에서는 연결정도 중심성이 높은 독후감들과 낮은 독후감들로 구분이 되었다. 전자의 독후감들은 다른 독후감들과 주제적으로 유사성을 가지며 후자의 독후감들은 다른 독후감들과 주제적으로 상이성을 가지는 것으로 해석하였다. 토픽모델링의 결과를 네트워크 분석과 결합함으로써 독후감의 주제파악에 유용한 결과들을 얻게 되었다.

토픽모델을 이용한 전력반도체 패키징 기술 동향 연구 (A Study on Technology Trend of Power Semiconductor Packaging using Topic model)

  • 박근서;최경현
    • 마이크로전자및패키징학회지
    • /
    • 제27권2호
    • /
    • pp.53-58
    • /
    • 2020
  • 전기자동차용 전력반도체 패키징 기술에 대한 분석을 수행하였다. 비정형 데이터인 특허들을 수집하여 유효특허를 도출하여 LDA 기법을 적용한 토픽모델링을 수행하였다. 20개의 토픽으로 분류하였고 각 토픽별 추출된 단어를 통해 기술에 대한 정의를 내렸다. 각 토픽의 대한 동향분석을 위해 연도별 빈도수에 대한 회귀분석을 통해 토픽별 Hot토픽과 Cold 토픽을 도출하여 전력반도체 패키징 기술의 동향을 분석하였다. Hot 토픽의 기술로는 내전압에 따른 패키지 구조 기술과 입출력 관련 제어 기술, 방열기술을 도출하였고 Cold 토픽 기술로는 인덕턴스 저감기술이 도출되었다.

장소에 내재된 토픽 기반 기사 추천 (Article Recommendation based on Latent Place Topic)

  • 노윤석;손정우;박성배;박세영;이상조
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2011년도 제23회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.41-46
    • /
    • 2011
  • 스마트폰의 대중화와 함께 그에 내장된 GPS를 활용하여 컨텐츠를 제공하는 서비스들이 점차 늘어나고 있다. 그러나 이런 컨텐츠를 단지 위도, 경도 좌표 정보만을 기초로 구성하게 되면 실제 그 위치가 가지는 의미적 특성을 제대로 반영하지 못하게 된다. 사용자의 위치를 기반으로 그에 맞는 서비스를 제공하기 위해서는 장소의 토픽을 고려해야한다. 본 논문은 장소에 내재된 토픽을 바탕으로 한 기사 추천 방법을 제안한다. 장소와 관련된 문서로부터 장소의 토픽을 표현하고 그 토픽을 기사 추천에 이용한다. 제안한 방법이 실제로 장소에 내재된 토픽을 잘 반영함을 보이고 또한 이를 바탕으로 장소와 관련된 적합한 기사를 추천하는 것을 보여준다.

  • PDF

토픽 모델링을 활용한 다문화 연구의 이슈 추적 연구 (A Study on Issue Tracking on Multi-cultural Studies Using Topic Modeling)

  • 박종도
    • 한국문헌정보학회지
    • /
    • 제53권3호
    • /
    • pp.273-289
    • /
    • 2019
  • 본 논문은 국내 다문화 관련 분야의 연구동향을 규명하기 위하여 다문화와 관련한 국내 학술 문헌을 수집하여 LDA (Latent Dirichlet Allocation) 기반의 토픽 모델링을 통해 토픽을 분석하였다. 이를 통해 국내 다문화 관련 연구에서의 중심 연구 토픽을 시기별로 추적하여 그 변화의 양상을 관찰하였고, 그 결과 핫 토픽으로는 '다문화 사회통합'과 '학교 다문화 교육'이 관찰되었으며 콜드 토픽으로는 '문화정체성과 민족주의' 관련 토픽이 관찰되었다.