• 제목/요약/키워드: 트윗 개체 링킹

검색결과 2건 처리시간 0.017초

개체 중의성 해소를 위한 사용자 유사도 기반의 트윗 개체 링킹 기법 (Tweet Entity Linking Method based on User Similarity for Entity Disambiguation)

  • 김서현;서영덕;백두권
    • 정보과학회 논문지
    • /
    • 제43권9호
    • /
    • pp.1043-1051
    • /
    • 2016
  • 트위터 문서는 웹 문서에 비해 길이가 짧기 때문에 웹 기반의 개체 링킹 기법을 그대로 적용시킬 수 없어 사용자 정보나 집단의 정보를 활용하는 방법들이 시도되고 있다. 하지만, 트윗의 개수가 충분하지 않은 사용자의 경우 데이터 희소성 문제가 여전히 발생하고 관련이 없는 집단의 정보를 사용할 경우 링킹의 결과에 악영향을 미칠 수 있다. 본 논문에서는 기존 연구의 문제를 해결하기 위해 단일 트윗 내의 의미 관련도 뿐만 아니라 사용자의 트윗 집합과 다른 사용자들의 트윗 집합까지 고려하여 데이터 희소성을 해결하고, 관련성이 높은 사용자들의 트윗 정보에 가중치를 주어 트윗 개체 링킹의 성능을 높이고자 한다. 실제 트위터 데이터를 활용한 실험을 통해 제안하는 트윗 개체 링킹 기법이 기존의 기법에 비해 높은 성능을 가지며, 유사도가 높은 사용자의 정보를 사용하는 것이 트윗 개체 링킹에서 데이터 희소성 해결과 링킹 정확도 향상에 연관성이 있음을 보였다.

유저 모델과 실시간 뉴스 스트림을 사용한 트윗 개체 링킹 (Entity Linking For Tweets Using User Model and Real-time News Stream)

  • 정소윤;박영민;강상우;서정연
    • 인지과학
    • /
    • 제26권4호
    • /
    • pp.435-452
    • /
    • 2015
  • 최근 개체 링킹에 대한 연구들은 지식 베이스를 외부 자원으로 사용하여 실세계의 지식과 의미적인 관련도를 통해 중의성을 해소하는데 중점을 두고 있다. 지식 베이스를 사용한 개체 링킹은 신문기사나 블로그 포스트 등에서는 좋은 성능을 보이지만, 마이크로블로그에서는 짧은 텍스트 길이와 지식 베이스에 존재하지 않는 주제를 다루는 특성 때문에 비교적 낮은 성능을 보인다. 본 논문에서는 140자가 되지 않는 짧은 텍스트 내에서 실시간으로 빠르게 정보를 공유하는 특성을 가지는 마이크로블로그에서 나타나는 개체명의 중의성을 해소하는 방법을 제안한다. 제안하는 방법은 지식 베이스만 사용하는 개체 링킹의 한계를 극복하기 위해 마이크로블로그 사용자 기록과 뉴스 기사를 이용하고, 지식 베이스에 존재하는 특정 엔트리로 개체 링킹을 수행한다. 본 논문에서는 개체명을 포함하는 한국어 트윗을 추출하여 데이터를 구축하였다. 성능 평가는 정확도 지표(시스템이 정답으로 판정한 데이터 개수/전체 데이터 개수)를 사용하였으며, 제안하는 시스템은 구축한 데이터에서 기존 지식 베이스만 사용한 개체 링킹 시스템보다 높은 67.7%의 정확도를 나타내었다.