• 제목/요약/키워드: 주제시간

검색결과 779건 처리시간 0.031초

주제어 문장거리를 이용한 뉴스 편향성 분석 그래프 학습 (Graph Learning System for Analyzing Bias among News Using Keyword Distance Model)

  • 조찬우;조찬형
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.533-538
    • /
    • 2023
  • 문서에서 저자의 의도와 주제, 그 안에 포함된 감성을 분석하는 것은 자연어 연구의 핵심적인 주제이다. 이와 유사하게 특정 글에 포함된 정치적 문화적 편향을 분석하는 것 역시 매우 의미 있는 연구주제이다. 우리는 최근 발생한 한 사건에 대하여 여러 신문사와 해당 신문사에서 생산한 기사를 중심으로 해당 글의 정치적 편향을 정량화 하는 방법을 제시한다. 그 방법은 선택된 주제어들의 문장 공간에서의 거리를 중심으로 그래프를 생성하고, 생성된 그래프의 기계학습을 통하여 편향과 특징을 분석하였다. 그리고 그 그래프들의 시간적 변화를 추적하여 특정 신문사에서 특정 사건에 대한 입장이 시간적으로 어떻게 변화하였는지를 동적으로 보여주는 그래프 애니메이션 시스템을 개발하였다. 실험을 위하여 최근 이슈에 대하여 12개의 신문사에서 약 2000여 개의 기사를 수집하였다. 그 결과, 약 82%의 정확도로 일반적으로 알려진 정치적 편향을 예측할 수 있었다. 또한, 학습 데이터에 쓰이지 않은 신문기사를 활용하여도 같은 정도의 정확도를 보임을 알 수 있었다. 우리는 이를 통하여 신문기사에서의 정치적 편향은 작성자나 신문사의 특성이 아니라 주제어들의 문장 공간에서의 거리 관계로 특성화할 수 있음을 보였다. 할 수 있다.

  • PDF

주제어 기반 문서 클러스터링 알고리즘 (Keyword-based Document C lustering Algorithm)

  • 장성호;강승식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2002년도 봄 학술발표논문집 Vol.29 No.1 (B)
    • /
    • pp.469-471
    • /
    • 2002
  • 높은 연관성을 갖는 문서들을 서로 집단화시키는 문서 클러스터링은 문서와 문서간의 연관성을 확인할 수 있는 문서의 주제어 추출이 중요한 문제이며 일반적인 정보검색 시스템에서 사용하는 출현빈도에 의한 주제어 추출은 성능 향상에 한계가 있다. 또한, 문서 클러스터링은 문서를 집단화시키기 위해 문서간 연관성을 확인하기 위해 유사도 계산에 따른 시간과 공간을 많이 소비하는 문제를 가지고 있다. 본 논문에서는 주제어 추출 기법을 적용하여 주제어 연관성에 의해 문서들을 집단화시키는 새로운 방법의 문서 클러스터링 알고리즘을 제안한다.

  • PDF

위키피디아를 이용한 반자동 학습 기반의 cQA 서비스 주제 분류 시스템 (A Topic Classification System in cQA Services Based on Semi-Automatic Learning Using Wikipedia)

  • 김태현
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2015년도 제27회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.139-141
    • /
    • 2015
  • 본 논문은 커뮤니티 기반의 질의-응답 서비스에서 사용자 질의의 주제를 분류하는 시스템을 소개한다. 커뮤니티 기반의 질의-응답 서비스는 분야에 따라 다양한 주제를 가질 수 있으며 오늘 날 사용자 질의의 주제 분류에는 통계 기반의 분류 방법이 많이 이용되고 있다. 통계 기반의 분류 방법으로 사용자 질의를 분류하기 위해서는 주제에 적합한 대량의 학습 말뭉치가 필요하다. 주제에 적합한 대량의 학습 말뭉치를 사람이 직접 구축하는 것은 많은 시간과 비용이 든다. 따라서 본 논문에서는 이러한 문제를 해결하기 위해 위키피디아 문서를 Supervised K-means Clustering 기법으로 주제별로 분류함으로써 학습 말뭉치를 반자동으로 구축하는 방법을 제안한다. 그 다음, 생성된 학습 말뭉치로 지지 벡터 기계를 학습하여 사용자 질의의 주제를 분류하게 된다. 위키피디아 문서와 사용자 질의는 다른 도메인의 문서임에도 불구하고 본 논문의 시스템으로 사용자 질의의 주제를 분류한 결과 77.33%의 정확도를 보였다.

  • PDF

주제 임베딩을 활용한 한국어 생성 기반 챗봇 (Korean Generative Chatbot using Topic Embedding)

  • 오신혁;김학수
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.524-528
    • /
    • 2020
  • 챗봇은 발화에 대해 컴퓨터가 자동으로 응답하는 시스템이다. 현재 챗봇은 전체 주제에 대한 잡담(chit-chat)보다는 특정 주제에 관한 대화를 목적으로 많이 개발되고 있다. 하지만 개개인이 필요로 하는 챗봇 용도에 적합한 학습 데이터는 부족하다. 이러한 상황에서 챗봇 학습을 위해 필요한 주제의 말뭉치를 대량으로 구축하는 것은 시간과 비용이 많이 소모되어 현실적으로 어렵다. 따라서 학습에 필요한 소량의 말뭉치만 사용하더라도 주제에 적합한 응답을 할 수 있는 챗봇이 필요하다. 이에 본 논문은 챗봇의 목적과 관련 없는 대량의 말뭉치와 소량의 주제 기반 말뭉치를 이용하여 높은 성능을 끌어낼 수 있는 주제 임베딩 방법을 제안한다.

  • PDF

해외지역 연구를 위한 전자문화지도 설계

  • 강지훈;문상호
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.207-209
    • /
    • 2012
  • 문화지도는 지도라는 인터페이스를 활용하여 문화와 관련된 여러 가지 주제들을 지도위에 나타내는 것이며, 이는 해당지역에 대한 문화(주제), 지역(공간), 시대(시간) 라는 세 가지 값을 동시에 활용하여 해당지역의 시대별 문화를 통합적으로 이해할 수 있다. 전자문화지도는 이러한 문화지도를 전자적 형태 즉, 컴퓨터를 활용해 구현한 시스템으로 주제, 공간, 시간 값의 메타데이터를 활용해 조합이 가능하도록 데이터베이스화한 개념이다. 이는 시대별 지역별 주제별 정보들을 사용자 스스로가 조합해서 조회가 가능하다는 의미이다. 본 논문에서는 해외지역, 특히 지중해지역 중심의 연구를 위한 전자문화지도를 설계한다. 이는 인문, 지역학과 IT의 융합학으로서, 해외지역을 연구하는 도구 및 연구결과물의 전시 도구로 활용할 수 있다.

  • PDF

주제어와 미분류 문서들을 이용한 문서의 자동 분류 방법 (Automatic Text Classification Method Using Keywords and Unlabeled Text)

  • 이강일;이창환
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 한국컴퓨터종합학술대회 논문집 Vol.32 No.1 (B)
    • /
    • pp.592-594
    • /
    • 2005
  • 문서를 분류하기 위해서는 분류주제에 맞춰 미리 분류가 된 자료(labeled data)가 필요하다. 하지만 미리 분류가 된 자료를 만들기 위해서는 사람이 직접 그 문서의 의미를 해석하고 일일이 분류를 해야 하기 때문에 시간이 많이 소모가 된다. 본 논문에서는 비록 사랑이 직접 분류한 자료를 이용하는 것에 비해서 분류 정확도는 조금 떨어지지만, 대신 주제어와 미분류 문서(unlabeled data)를 이용해서 문서를 분류하는 방법을 제시하려고 한다. 이와 같은 주제어와 미분류 문서의 경우에는 구하기가 쉽고, 사랑이 일일이 분류하는 작업이 필요로 하지 않기 때문에 비용과 시간이 크게 절약이 된다는 장정이 있다.

  • PDF

지반공동 긴급복구 재료의 팽창 및 강도특성에 관한 연구 (A Study on Expansion and Strength Characteristics of Material for Emergency Restoration in Ground Cavity)

  • 한진규;유용선;김동욱;박정준;홍기권
    • 한국지반신소재학회논문집
    • /
    • 제16권2호
    • /
    • pp.131-138
    • /
    • 2017
  • 본 연구에서는 지반함몰을 유발하는 지반 내 공동 긴급복구 재료에 대한 팽창 및 일축압축강도 실험을 수행하였으며, 실험결과를 바탕으로 주제-경화제 구성비와 주제 내 발포제-촉진제 배합비에 따른 팽창 및 강도특성을 분석하였다. 먼저, 경화시간-팽창률 관계를 분석한 결과, 주제에 포함된 발포제와 촉진제 배합조건에 상관없이, 경화제의 비율이 높으면, 경화시간을 단축하면서 팽창률을 감소시키는 것으로 평가되었다. 이는 주제-경화제 구성비가 팽창률에 큰 영향을 미치는 것을 의미한다. 팽창재료의 강도특성을 분석한 결과, 발포제와 촉진제 배합비가 팽창재료 강도에 큰 영향을 미치는 것으로 확인되었다. 따라서 긴급복구가 요구되는 경우, 공동의 크기 및 형태 등에 따라 팽창재료의 소요 주입시간, 팽창률 및 요구강도를 고려한 주제-경화제 구성비, 주제 내 발포제-촉진제 배합비의 적용이 필요함을 확인하였다.

축구 경기의 실시간 하이라이트 색인기법 (Real-time highlight indexing of live broadcast soccer game)

  • 김명훈;김혁만
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.199-201
    • /
    • 2004
  • 디지털 방송 환경의 메타데이타 서비스 중에서도 가장 혁신적인 것이 하이라이트(highlight)메타데이타 서비스이다. 하이라이트 메타데이타를 생성하기 위해서 시각율동을 이용한 샷경계 검출 알고리즘을 사용해 스포츠 경기의 하이라이트 시간구간을 결정하고, 하이라이트 표시기에서 하이라이트를 설명하는 간단한 주제어를 부가한다. 그리고 하이라이트 템플릿을 이용해 계층구조를 생성하고 하이라이트에 부가된 하이라이트 주제어에 따라 계층 구조의 적절한 위치에 삽입하고. 하이라이트 계층구조는 MPEG-7 표준 스키마에 따라 xml로 서술한다 하이라이트 메타데이타 서비스를 받는 시청자들은 매우 짧은 시간에 이미 방영된 스포츠 경기의 중요 장면들을 모두 볼 수 있다.

  • PDF

한국과학교육학회지는 44년간 어떤 주제로 어떻게 변화했는가? -잠재 디리클레 할당(LDA)을 활용한 토픽모델링 분석- (How the Journal of the Korean Association for Science Education(JKASE) Changed for the Past 44 Years?: Topic Modeling Analysis Using Latent Dirichlet Allocation)

  • 장진아;나지연
    • 한국과학교육학회지
    • /
    • 제42권2호
    • /
    • pp.185-200
    • /
    • 2022
  • 이 연구에서는 LDA 기반의 토픽모델링 분석을 통해 한국과학교육학회지에 게재된 연구 논문들이 어떤 주제로 어떻게 변화했는지 탐색하였다. 이를 위해, 1978년부터 2021년 5월까지 한국과학교육학회지에 게재된 논문들의 영문초록 총 2,115개에 대한 LDA 기반 토픽모델링분석을 실시하였다. 분석 결과, 총 23개의 토픽을 추출하였으며 각 토픽들을 관련된 키워드 및 세부 연구주제들과 함께 제시하였다. 다음으로, 시간에 따른 토픽들의 변화 추이를 살펴보기 위해, 4년 주기에 대한 각 토픽들의 평균 비중값의 변화를 히트맵으로 시각화하였다. 이를 통해, 시간이 지남에 따라 상승해온 주제와 하락해온 주제들을 밝혔다. 이 연구의 결과들은 꾸준히 연구되어온 전통적인 연구 주제들, 교육 철학이나 연구방법의 변화, 사회나 정책적 요구에 따라 달라져온 연구 주제들을 드러냄으로써 한국의 과학교육연구에 새로운 통찰을 제공할 것으로 기대된다.