• 제목/요약/키워드: 주제 연관성 기반 분류

검색결과 14건 처리시간 0.023초

연관도를 계산하는 자동화된 주제 기반 웹 수집기 (An Automated Topic Specific Web Crawler Calculating Degree of Relevance)

  • 서혜성;최영수;최경희;정기현;노상욱
    • 인터넷정보학회논문지
    • /
    • 제7권3호
    • /
    • pp.155-167
    • /
    • 2006
  • 인터넷을 사용하는 사람들에게 그들의 관심사와 부합하는 웹 페이지를 제공하는 것은 매우 중요하다. 이러한 관점에서 본 논문은 각 웹 페이지의 주제와 연관된 정도를 계산하여 웹 페이지 군(cluster)을 형성하며, 단어빈도/문서빈도 엔트로피(entropy) 및 컴파일된 규칙을 이용하여 수집된 웹 페이지를 정제하는 주제 기반 웹 수집기를 제안한다. 실험을 통하여 주제 기반 웹 수집기에 대한 분류의 정확성, 수집의 효율성 및 수집의 일관성을 평가하였다. 첫째, C4.5, 역전패(back propagation) 및 CN2 기계학습 알고리즘으로 컴파일한 규칙을 이용하여 실험한 웹 수집기의 분류 성능은 CN2를 사용한 분류 성능이 가장 우수 하였으며, 둘째, 수집의 효율성을 측정하여 각 범주별로 최적의 주제 연관 정도에 대한 임계값을 도출할 수 있었다. 마지막으로, 제안한 수집기의 수집정도에 대한 일관성을 평가하기 위하여 서로 다른 시작 URL을 사용하여 수집된 웹 페이지들의 중첩정도를 측정하였다. 실험 결과에서 제안한 주제 기반 웹 수집기가 시작 URL에 큰 영향을 받지 않고 상당히 일관적인 수집을 수행함을 알 수 있었다.

  • PDF

A Development Method of Framework for Collecting, Extracting, and Classifying Social Contents

  • Cho, Eun-Sook
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권1호
    • /
    • pp.163-170
    • /
    • 2021
  • 빅데이터가 여러 분야에서 다양하게 접목됨에 따라 빅데이터 시장이 하드웨어로부터 시작해서 서비스 소프트웨어 부문으로 확장되고 있다. 특히 빅데이터 의미 파악 및 이해 능력, 분석 결과 등 총체적이고 직관적인 시각화를 위하여 애플리케이션을 제공하는 거대 플랫폼 시장으로 확대되고 있다. 그 중에서 SNS(Social Network Service) 등과 같은 소셜 미디어를 활용한 빅데이터 추출 및 분석에 대한 수요가 기업 뿐만 아니라 개인에 이르기까지 매우 활발히 진행되고 있다. 그러나 이처럼 사용자 트렌드 분석과 마케팅을 위한 소셜 미디어 데이터의 수집 및 분석에 대한 많은 수요에도 불구하고, 다양한 소셜 미디어 서비스 인터페이스의 이질성으로 인한 동적 연동의 어려움과 소프트웨어 플랫폼 구축 및 운영의 복잡성을 해결하기 위한 연구가 미흡한 상태이다. 따라서 본 논문에서는 소셜 미디어 데이터의 수집에서 추출 및 분류에 이르는 과정을 하나로 통합하여 운영할 수 있는 프레임워크를 개발하는 방법에 대해 제시한다. 제시된 프레임워크는 이질적인 소셜 미디어 데이터 수집 채널의 문제를 어댑터 패턴을 통해 해결하고, 의미 연관성 기반 추출 기법과 주제 연관성 기반 분류 기법을 통해 소셜 토픽 추출과 분류의 정확성을 높였다.

실시간 SNS 트렌드 분석에 기반한 이슈 요약 기법 (Issue summarization scheme based on real-time SNS trend analysis)

  • 김대용;김대훈;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2013년도 추계학술발표대회
    • /
    • pp.1096-1097
    • /
    • 2013
  • 최근 Twitter를 비롯한 소셜 네트워크 서비스의 급속한 확산으로 인해, 많은 수의 SNS 메시지가 실시간으로 생성되고 있다. 이러한 SNS 상의 모든 글을 읽어보는 것은 현실적으로 불가능하며, 여러 포탈 사이트에서 제공되는 실시간 검색어 순위만으로는 상세 내용을 직관적으로 파악하기 어렵다. 따라서, 이러한 SNS상의 글을 실시간으로 분석하여 최신의 트렌드를 찾고 이와 연관된 내용을 분류 및 요약할 수 있다면, 사용자에게 유용한 최신 정보를 생성하여 제공할 수 있다. 본 논문에서는 Tweet 들을 분석하여 얻은 트렌드 키워드를 기반으로 관련된 Tweet 들을 주제 별로 분류한 후, 각 주제 별로 세부 내용을 요약해서 제공하는 기법을 제안한다. 제안하는 기법은 실시간으로 생성되는 Tweet 내에서 최근 화제가 된 트렌드 및 연관 키워드를 추출해낸다. 그 후, 해당 키워드가 출현한 Tweet 내에서 핵심 키워드를 찾고, 이를 기반으로 Tweet 들을 각각의 주제별로 분류하고 각 주제를 '이슈'로 정의한다. 마지막으로, 특정한 이슈에 해당되는 Tweet들을 분석하여 각 이슈 별로 키워드 리스트 및 단문 형식으로 요약된 줄거리를 생성한다. 제안된 기법을 바탕으로 프로토타입 시스템을 구현하고, 다양한 실험을 통하여 이슈 검출 기법의 유용성 면에서 성능을 평가한다.

기계학습 기반 토픽모델링을 이용한 학술지 "자원환경지질"의 연구주제 분류 및 연구동향 분석 (Topic Model Analysis of Research Themes and Trends in the Journal of Economic and Environmental Geology)

  • 김태용;박혜민;허준용;양민준
    • 자원환경지질
    • /
    • 제54권3호
    • /
    • pp.353-364
    • /
    • 2021
  • 국내 지질학의 연구 분야는 20세기 중반 이후부터 꾸준하게 발전되어왔다. 학술지 "자원환경지질"은 국내 지질학을 대표하는 역사가 긴 학술지로 지질학을 바탕으로 하는 융복합연구 논문이 게재되고 있다. 본 연구는 학술지 "자원환경지질"에 게재된 논문을 대상으로 문헌 고찰(literature review)을 수행하여 지질학의 역사와 발전에 대해 논의하고자 한다. 1968년부터 2020년까지 총 2,571편의 논문 제목, 주제어, 다국어 초록을 수집하였으며, Latent Dirichlet Allocation (LDA) 기반 토픽모델링을 실시하여 연구 주제를 분류하고 연구 동향과 주제간 연관성을 확인하였다. 학술지 "자원환경지질"은 총 8개의 연구주제('암석학 및 지구화학', '수문학 및 수리지질학', '광상학', '화산학', '토양오염 및 복원학', '기초지질 및 구조지질학', '지구물리 및 물리탐사', '점토광물')로 분류할 수 있었다. 1994년 이전에는 '광상학', '화산학', '기초지질 및 구조지질학'의 연구주제들이 활발하게 연구되었으며, 이후 '수문학 및 수리지질학', '토양오염 및 복원학', '지구물리 및 물리탐사', '점토광물'의 연구주제들이 성행하였다. 연관성분석(network analysis)결과, 학술지 "자원환경지질"은 '광상학'을 기반으로 융복합적 연구 논문들이 게재되었다는 것을 확인하였다. 본 연구의 결과는 지질학을 다루는 연구자들에게 문헌 고찰의 새로운 방법론을 제시하여 지질학의 역사에 대한 이해를 제공했음에 의의가 있다.

WV-BTM: SNS 단문의 주제 분석을 위한 토픽 모델 정확도 개선 기법 (WV-BTM: A Technique on Improving Accuracy of Topic Model for Short Texts in SNS)

  • 송애린;박영호
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권1호
    • /
    • pp.51-58
    • /
    • 2018
  • SNS의 사용자와 데이터량이 폭발적으로 증가함에 따라, SNS 빅 데이터를 기반으로 한 연구들이 활발히 진행되고 있다. 특히 소셜 마이닝 분야에서는 비 분류된 대용량 SNS 텍스트 데이터로부터 각 텍스트 별 유사성을 파악하고, 그로부터 트렌드를 추출하기 위해 대표적인 토픽 모델 기법인 LDA를 사용한다. 그러나 LDA는 단문 데이터에 대하여 비 빈발 단어 출현으로 인한 의미 희박성(semantic sparsity)으로 인해 양질의 주제 추론이 어렵다는 한계를 가진다. BTM 연구는 이와 같은 LDA의 한계점을 두 단어의 조합을 통해 개선하였으나, BTM 또한 조합된 단어 중 높은 빈도수의 단어에 더 큰 영향을 받아 각 주제와의 연관성을 고려한 가중치 계산이 불가능하다는 한계점을 지닌다. 본 논문은 단어 간의 의미적 연관성을 반영함으로써 기존 연구 BTM의 정확도를 개선하는 방안을 모색한다.

재난안전 사회관심 분석을 위한 언어모델 활용 정보 네트워크 구축 (A Language Model based Knowledge Network for Analyzing Disaster Safety related Social Interest)

  • 최동진;한소희;김경준;배은솔
    • 한국재난정보학회:학술대회논문집
    • /
    • 한국재난정보학회 2022년 정기학술대회 논문집
    • /
    • pp.145-147
    • /
    • 2022
  • 본 논문은 대규모 텍스트 데이터에서 이슈를 발굴할 때 사용되는 기존의 정보 네트워크 또는 지식 그래프 구축 방법의 한계점을 지적하고, 문장 단위로 정보 네트워크를 구축하는 새로운 방법에 대해서 제안한다. 먼저 문장을 구성하는 단어와 캐릭터수의 분포를 측정하며 의성어와 같은 노이즈를 제거하기 위한 역치값을 설정하였다. 다음으로 BERT 기반 언어모델을 이용하여 모든 문장을 벡터화하고, 코사인 유사도를 이용하여 두 문장벡터에 대한 유사성을 측정하였다. 오분류된 유사도 결과를 최소화하기 위하여 명사형 단어의 의미적 연관성을 비교하는 알고리즘을 개발하였다. 제안된 유사문장 비교 알고리즘의 결과를 검토해 보면, 두 문장은 서술되는 형태가 다르지만 동일한 주제와 내용을 다루고 있는 것을 확인할 수 있었다. 본 논문에서 제안하는 방법은 단어 단위 지식 그래프 해석의 어려움을 극복할 수 있는 새로운 방법이다. 향후 이슈 및 트랜드 분석과 같은 미래연구 분야에 적용하면, 데이터 기반으로 특정 주제에 대한 사회적 관심을 수렴하고, 수요를 반영한 정책적 제언을 도출하는데 기여할 수 있을 것이다

  • PDF

웹2.0의 참여형 아키텍쳐 환경에서 그래픽 기반 포크소노미 태그 연관 검색의 설계 및 구현 (Design and Implementation of the Graphical Relational Searching for Folksonomy Tags in the Participational Architecture of Web 2.0)

  • 김운용;박석규
    • 인터넷정보학회논문지
    • /
    • 제8권5호
    • /
    • pp.1-10
    • /
    • 2007
  • 최근 인터넷의 급격한 확장을 통해 대두되는 웹2.0 기술은 웹의 구조적 진화인 질적 변화와 사용자 증가라는 양적인 변화로 해석할 수 있으며, 이 구조는 사용자 참여형 아키텍쳐를 근간으로 하고 있다. 블로그, UCC, SNS(Social Networking Service), 매쉬 업, 롱테일 등으로 대표되는 웹2.0기술은 웹의 구조화에 중심적인 역할을 담당하고 있으며, 이곳에 포함된 사용자 참여형 자료의 분류와 검색은 포크소노미(Folksonomy)방식을 통해 널리 이용되고 있다. 포크소노미는 웹 페이지에 공개되고 있는 정보나 관련 주제를 고전적 분류학 기술로 나누는 것이 아니라 꼬리표(태그)에 따라 구분하는 새로운 분류방식으로 사용자 참여로 구성된다. 현재 이러한 분류를 통한 검색은 단순 텍스트 태그검색이나 태그클라우드 방식 등을 통해 특정 태그에 대한 검색이 이루어지고 있으나 태그들 간의 관계를 표현하고, 이들 관계를 고려한 검색은 미비한 실정이다. 이에 본 논문에서는 등록되는 태그들 간의 관계를 고려하여 태그들 간의 연관 그래프를 동적으로 형성하고 이를 기반으로 연관 검색을 제공한다. 이를 통해 태그 검색의 신뢰성을 높이고 검색의 편이성을 제공할 수 있을 것이다.

  • PDF

연관규칙 기반 동시출현단어 분석을 활용한 기술경영 연구 주제 네트워크 분석 (Exploring the Research Topic Networks in the Technology Management Field Using Association Rule-based Co-word Analysis)

  • 전익진;이학연
    • 기술혁신연구
    • /
    • 제24권4호
    • /
    • pp.101-126
    • /
    • 2016
  • 본 연구는 동시출현단어(co-word) 분석을 이용하여 기술경영 분야의 연구 주제 네트워크를 구축하고, 핵심 연구 주제 및 연구 주제 간 상호연관관계를 도출한다. 동시출현 빈도수의 정규화를 통해 키워드 간 유사성을 도출하여 무방향 네트워크를 분석하는 기존 연구들과는 달리 본 연구는 연관규칙분석(association rule)을 통해 키워드 간 신뢰도(confidence)를 도출하여 유방향 네트워크 분석을 수행한다. 2011~2014년 기술경영 분야 9개 국제 학술지에 게재된 2,456개의 논문의 저자키워드를 대상으로 빈도수 상위 200개 키워드를 추출하고, 주제(THEME), 방법(METHOD), 분야(FIELD)의 세 가지 유형으로 키워드를 분류한다. 각 유형별 일원(one-mode) 네트워크를 구축하여, 함께 많이 연구가 이루어진 키워드들을 찾아내고, 핵심 키워드를 도출한다. 또한 두 가지 유형의 키워드 간의 이원(two-mode) 네트워크를 구축하여, 연구 주제별로 함께 많이 활용된 방법 및 대상 분야를 탐색한다. 본 연구 결과는 최근 성숙기에 접어든 기술경영 분야의 연구 흐름 및 지식 구조를 키워드 수준에서 구체적으로 제시함으로써, 기술경영 분야 연구자들의 연구 주제 탐색 및 연구방향 설계에 활용될 수 있을 것으로 기대된다.

이승만시기 국무회의록과 정부부처 기록의 연관구조 분석에 기반한 역사 컨텐츠 설계 방안 (Development of Historical Contents Based on Relational Structure of Minutes of State Council and Records of Ministries in the Period of Rhee Regime)

  • 설문원;김익한
    • 한국비블리아학회지
    • /
    • 제17권2호
    • /
    • pp.115-136
    • /
    • 2006
  • 국무회의록은 국정 전반의 의사결정 내용을 종합적으로 보여주는 최고위 기록이며, 특히 이승만 시기의 국무회의록은 사안의 중요성과 상대적인 충실성에 있어서 다른 시기에 비해 남다른 가치를 지닌다. 본 연구는 공공기록으로서 국무회의록을 대상으로 연구자는 물론 일반 독자들도 쉽게 역사적 사실에 접근하고 이를 구조적으로 이해할 수 있는 역사컨텐츠 개발을 위한 방법론을 제시하는 것이다. 이를 위해 첫째. 이승만 시기 국무회의록의 내용을 재구성하고 회의 안건들을 위한 DB 설계방법을 제안하였다. 둘째, 안건들을 분석하여 이를 주제사안 분류체계와 연계하고, 각 주제사안별로 부처기록을 연계할 수 있는 방안을 제안하였다. 셋째, 이를 토대로 각 주제사안 별로 역사적 사실을 해석하여 이를 컨텐츠로 개발하는 절차를 제안하였다. 이러한 컨텐츠 방법론은 앞으로 공공기록의 활용범위를 확장하고, 아울러 정치, 경제, 사회 각 영역에 걸친 당대의 정책 사안들을 실증적으로 연구하고 해석할 수 있는 기록정보컨텐츠 개발에 일조할 수 있을 것이다.

개인정보보호에 관한 시나리오 기반 질의응답서비스 품질이 이용의도에 미치는 요인에 관한 연구 (A Study on the Influencing Factors of Continuous Usage Intention for a Scenario based FAQ Service regarding on Private Information Protection)

  • 강상욱;이대철
    • 디지털융복합연구
    • /
    • 제12권2호
    • /
    • pp.223-236
    • /
    • 2014
  • 본 논문은 개인정보 보호에 관한 인지수준 제고를 위한 시나리오기반 인지형 질의응답서비스의 지속적인 사용 의도에 영향을 미치는 요인에 대해 실증하였다. 연구결과 시나리오기반 인지형 질의응답서비스의 지속사용의도에 영향을 미치는 요인은 크게 3가지이다. 첫째, 정보유형별 세분화 된 개인정보 보호 다차원 분류체계를 적용하여 검색의 용이성을 제고할 필요가 있는 것으로 나타났다. 둘째, 수요자 상황별로 질의답변 주제를 미리 제시하고 도입, 문제 상황, 질문, 해결방법으로 이어지는 개연성을 갖는 이야기 형식으로 보다 알기 쉽게 전달되어 사례의 이해도를 제고할 필요가 있다. 셋째, 연관서비스 등 다른 이용자의 문제해결 사례를 노출시켜 시나리오기반 인지형 질의응답 서비스를 통해 자신이 처해 있는 상황에 대한 문제해결이 가능하다는 확신을 줄 수 있어야 한다. 이와 같은 활동들은 국민 및 기업에게 개인정보 보호에 대해 쉽게 널리 알리는 효과를 가져다 줄 것으로 사료된다. 본 연구 결과를 통해 시나리오 기반 인지형 질의응답서비스가 개인정보 보호 사건의 문제해결에 도움을 주는 도구로써 유용하게 활용할 수 있다는 점을 밝혔으며, 특히 복잡한 문제를 담고 있는 정보를 제공하려는 서비스 분야에서는 시나리오기반 인지형 질의응답서비스 방식의 응용이 유용할 것으로 분석된다.