• 제목/요약/키워드: Web contents mining

검색결과 71건 처리시간 0.021초

텍스트마이닝을 활용한 연구동향 분석: 소셜네트워크서비스를 중심으로 (Research Trends Investigation Using Text Mining Techniques: Focusing on Social Network Services)

  • 윤혜진;김창식;곽기영
    • 디지털콘텐츠학회 논문지
    • /
    • 제19권3호
    • /
    • pp.513-519
    • /
    • 2018
  • 본 연구의 목적은 소셜네트워크서비스 주제에 관한 연구동향을 조사하는 것이다. 연구의 목적을 달성하기 위해서 웹오브사이언스 데이터베이스에서 제목에 'Social Network Service(SNS)'를 포함하는 1994년부터 2016년까지 출판된 논문 초록 308편을 분석 하였다. 본 연구에서는 텍스트마이닝 기법 중에서 최근 많이 적용되는 토픽모델링기법을 활용하였다. 토픽모델링 분석결과 20개의 토픽(신뢰, 지지, 만족 모델, 조직 지배구조, 모바일 시스템, 인터넷 마케팅, 대학생 효과, 의견 확산, 고객, 정보보호, 건강관리, 웹 협업, 방법, 학습 효과, 지식, 개인 이론, 아동 지지, 알고리즘, 미디어 참여, 문맥 시스템)이 도출되었다. 또한 시계열회귀분석 결과 모든 토픽은 상승 추세로 나타났다.

연구 개발 트렌드 분석을 위한 기술 지식 온톨로지 구축 (Ontology Construction of Technological Knowledge for R&D Trend Analysis)

  • 황미녕;이승우;조민희;김순영;최성필;정한민
    • 한국콘텐츠학회논문지
    • /
    • 제12권12호
    • /
    • pp.35-45
    • /
    • 2012
  • 과학기술 분야 연구자들은 이전 연구와 개발 결과에 대한 조사 연구에 많은 시간을 소비한다. 또한, 연구자들은 유리한 입지를 성공적으로 차지하기 위해 일반적으로 학술 논문, 특허, 최근 연구 동향에 대한 웹 문서 등의 다양한 학술 자원을 분석하여 새롭게 등장하는 연구 주제를 선점하려고 한다. 하지만 키워드 기반의 정보 검색이나 참고문헌 정보에 근거한 연관 문서 추출 방법을 사용해서는 방대한 문헌에서 투자 가능한 연구 주제를 효율적으로 찾는 일이 쉽지 않다. 본 논문에서는 대규모 기술 문헌 자료에서 추출되는 기술, 제품, 연구 주체 간의 의미론적으로 연결된 정보를 효율적으로 생성, 저장하고 활용할 수 있는 방법을 제안한다. 세부적으로 텍스트 마이닝 기술을 활용하여 문헌에서 나타나는 주요 개체들과 연관 관계를 추출하여 시맨틱 웹 환경에 적용 가능한 기술 지식으로 생성하는데 적합한 온톨로지를 구축한다. 이렇게 구축된 온톨로지는 연관 관계를 가진 기술 지식 탐색을 지원하기에 연구 개발 트렌드 예측 및 분석 서비스인 InSciTe Adaptive에 사용되었다.

A Study of Main Contents Extraction from Web News Pages based on XPath Analysis

  • Sun, Bok-Keun
    • 한국컴퓨터정보학회논문지
    • /
    • 제20권7호
    • /
    • pp.1-7
    • /
    • 2015
  • Although data on the internet can be used in various fields such as source of data of IR(Information Retrieval), Data mining and knowledge information servece, and contains a lot of unnecessary information. The removal of the unnecessary data is a problem to be solved prior to the study of the knowledge-based information service that is based on the data of the web page, in this paper, we solve the problem through the implementation of XTractor(XPath Extractor). Since XPath is used to navigate the attribute data and the data elements in the XML document, the XPath analysis to be carried out through the XTractor. XTractor Extracts main text by html parsing, XPath grouping and detecting the XPath contains the main data. The result, the recognition and precision rate are showed in 97.9%, 93.9%, except for a few cases in a large amount of experimental data and it was confirmed that it is possible to properly extract the main text of the news.

주제기반 모바일 웹 콘텐츠 적응화 (Topic-Specific Mobile Web Contents Adaptation)

  • 이은실;강진범;최중민
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제34권6호
    • /
    • pp.539-548
    • /
    • 2007
  • 모바일 콘텐츠 적응화는 데스크탑 PC 용으로 제작되고 표현된 웹 콘텐츠를 크기와 정보량이 제한된 사용자의 무선 모바일 디바이스 환경에 맞게 변환하여 표현해주는 적응화 기술을 말한다. 기존의 웹 콘텐츠 적응화 방법은 대부분 장치 의존적인 접근 방법을 취했다. 또한 소형 장치에 맞게 콘텐츠를 변환하는 작업이 대부분 수동으로 이루어졌고 콘텐츠와 연관된 문맥 정보가 제공되지 않았다. 이 외에도 사용자의 선호도를 반영하지 못하여 모든 사용자에게 동일한 정보를 제공하였다. 이와 같이 기존의 모바일 콘텐츠 적응화 방법은 범용성, 확장성, 사용자 적응성에 문제가 있었고, 그 결과 사용자는 방대한 양의 콘텐츠 중에서 자신이 원하는 정보를 선택하는데 어려움을 겪을 수밖에 없었다. 이러한 문제점을 해결하기 위해 본 논문에서는 모바일 디바이스에 대한 새로운 웹 콘텐츠 적응화 기법을 제시한다. 제안하는 기법의 특징은 모바일 디바이스 적응화와 사용자 적응화를 동시에 적용하는 자동화된 콘텐츠 적응화를 시도하였다는 것이다. 이를 위해 웹 콘텐츠 적응화 과정을 블록 필터링, 블록 제목 추출, 블록 콘텐츠 요약, 학습을 통한 개인화 등의 4 단계로 구성하였다. 이러한 과정을 통해 웹페이지를 블록 단위로 나눠서 불필요한 블록을 제거하고 사용자가 필요로 하는 콘텐츠 블록만을 선별하여 모바일 디바이스에 나타내며, 학습을 통해 사용자가 관심을 가지는 정보를 정보목록의 상위에 놓음으로써 사용자가 선호정보를 편리하게 사용할 수 있도록 하였다. 온라인 뉴스사이트를 서점을 대상으로 한 일련의 실험을 통해 제안하는 모바일 웹 콘텐츠 적응화의 성능을 평가하였으며 디바이스 적응화와 사용자 적응화 모두 만족한 결과를 얻을 수 있었다.

소셜미디어 콘텐츠의 오피니언 마이닝결과 시각화: N라면 사례 분석 연구 (Visualizing the Results of Opinion Mining from Social Media Contents: Case Study of a Noodle Company)

  • 김유신;권도영;정승렬
    • 지능정보연구
    • /
    • 제20권4호
    • /
    • pp.89-105
    • /
    • 2014
  • Web2.0의 등장과 함께 급속히 발전해온 온라인 포럼, 블로그, 트위터, 페이스북과 같은 소셜 미디어 서비스는 소비자와 소비자간의 의사소통을 넘어 이제 기업과 소비자 사이의 새로운 커뮤니케이션 매체로도 인식되고 있다. 때문에 기업뿐만 아니라 수많은 기관, 조직 등에서도 소셜미디어를 활용하여 소비자와 적극적인 의사소통을 전개하고 있으며, 나아가 소셜 미디어 콘텐츠에 담겨있는 소비자 고객들의 의견, 관심, 불만, 평판 등을 분석하고 이해하며 비즈니스에 적용하기 위해 이를 적극 분석하는 단계로 진화하고 있다. 이러한 연구의 한 분야로서 비정형 텍스트 콘텐츠와 같은 빅 데이터에서 저자의 감성이나 의견 등을 추출하는 오피니언 마이닝과 감성분석 기법이 소셜미디어 콘텐츠 분석에도 활발히 이용되고 있으며, 이미 여러 연구에서 이를 위한 방법론, 테크닉, 툴 등을 제시하고 있다. 그러나 아직 대량의 소셜미디어 데이터를 수집하여 언어처리를 거치고 의미를 해석하여 비즈니스 인사이트를 도출하는 전반의 과정을 제시한 연구가 많지 않으며, 그 결과를 의사결정자들이 쉽게 이해할 수 있는 시각화 기법으로 풀어내는 것 또한 드문 실정이다. 그러므로 본 연구에서는 소셜미디어 콘텐츠의 오피니언 마이닝을 위한 실무적인 분석방법을 제시하고 이를 통해 기업의사결정을 지원할 수 있는 시각화된 결과물을 제시하고자 하였다. 이를 위해 한국 인스턴트 식품 1위 기업의 대표 상품인 N-라면을 사례 연구의 대상으로 실제 블로그 데이터와 뉴스를 수집/분석하고 결과를 도출하였다. 또한 이런 과정에서 프리웨어 오픈 소스 R을 이용함으로써 비용부담 없이 어떤 조직에서도 적용할 수 있는 레퍼런스를 구현하였다. 그러므로 저자들은 본 연구의 분석방법과 결과물들이 식품산업뿐만 아니라 타 산업에서도 바로 적용 가능한 실용적 가이드와 참조자료가 될 것으로 기대한다.

뉴스 웹 페이지에서 기사 본문 추출에 관한 연구 (A Study on Extracting News Contents from News Web Pages)

  • 이용구
    • 정보관리학회지
    • /
    • 제26권1호
    • /
    • pp.305-320
    • /
    • 2009
  • 웹을 통해 제공되는 뉴스 페이지의 경우 필요한 정보 뿐 아니라 많은 불필요한 정보를 담고 있다. 이러한 불필요한 정보는 뉴스를 처리하는 시스템의 성능 저하와 비효율성을 가져온다. 이 연구에서는 웹 페이지로부터 뉴스 콘텐츠를 추출하기 위해 문장과 블록에 기반한 뉴스 기사 추출 방법을 제시하였다. 또한 이들을 결합하여 최적의 성능을 가져올 수 있는 방안을 모색하였다. 실험 결과, 웹 페이지에 대해 하이퍼링크 텍스트를 제거한 후 문장을 이용한 추출 방법을 적용하였을 때 효과적이었으며, 여기에 블록을 이용한 추출 방법과 결합하였을 때 더 좋은 결과를 가져왔다. 문장을 이용한 추출 방법은 추출 재현율을 높여주는 효과가 있는 것으로 나타났다.

연관 규칙 탐사 기법을 이용한 해양 전문 검색 엔진에서의 질의어 처리에 관한 연구 (A Research on User′s Query Processing in Search Engine for Ocean using the Association Rules)

  • 하창승;윤병수;류길수
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2002년도 추계정기학술대회
    • /
    • pp.266-272
    • /
    • 2002
  • Recently various of information suppliers provide information via WWW so the necessary of search engine grows larger. However the efficiency of most search engines is low comparatively because of using simple pattern match technique between user's query and web document. And a manifest contents of query for special expert field so much worse A specialized search engine returns the specialized information depend on each user's search goal. It is trend to develop specialized search engines in many countries. For example, in America, there are a site that searches only the recently updated headline news and the federal law and the government and and so on. However, most such engines don't satisfy the user's needs. This paper proposes the specialized search engine for ocean information that uses user's query related with ocean and search engine uses the association rules in web data mining. So specialized search engine for ocean provides more information related to ocean because of raising recall about user's query

  • PDF

휴먼 FTA를 위한 소셜 웹 마이닝 기반 고용정보 서비스의 설계 및 구현 (Design and Implementation of a Employment Information Service based on the Social Web Mining for Human-FTA)

  • 송재오;박용구;유재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2015년도 춘계 종합학술대회 논문집
    • /
    • pp.419-420
    • /
    • 2015
  • 경제혁신 3개년 계획을 토대로 정부는 2015년 국내 생산가능 인구 감소에 대한 대응을 위해 외국인 인력 유치를 위한 휴먼 FTA를 발효하였다. 기존의 외국인 생산 인력에 대한 단순한 양적 증가뿐만이 아니라 해외로 생산거점을 이동한 국내 기업의 리턴을 유도하기 위해 석박사급의 고급 인력과 투자자 유치 등에 대한 내용도 포함하고 있다. 본 논문에서는 상기와 같은 노동시장의 새로운 제도인 휴먼 FTA에 대한 활성화와 원활한 운영을 위해 세계적으로 많이 사용되고 있는 트위터, 페이스북, 구글 등의 소셜 웹 데이터를 활용하여 국내 기업의 외국인 인력에 대한 고용 매칭을 위한 서비스 플랫폼을 제안한다.

  • PDF

웹기반 문헌분석 및 생물학적 네트워크 분석시스템 개발 (Web based Text-mining and Biological Network Analysis System)

  • 서동민;조성훈;안광성;유석종;박동일
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2017년도 춘계 종합학술대회 논문집
    • /
    • pp.27-28
    • /
    • 2017
  • 다양한 위상학적 관계(topological relation)를 분석하는 네트워크 분석은 복잡한 데이터에서 숨어있는 특성과 사실을 발견하는 기술로 최근 빅데이터 분야에서 데이터 분석 핵심 기술로 급부상하고 있다. 본 연구에서는 질병연구에 핵심적인 생물학적 네트워크의 생성 및 사용자 친화적인 네트워크 분석시스템을 개발하였다. 개발한 시스템은 PubMed에서 특정 질병과 관련있는 논문 요약 정보를 자동 수집후 텍스트마이닝을 통해 질병 관련 화합물, 유전자 그리고 상호작용 정보를 추출해 생물학적 네트워크를 생성하는 기능을 제공한다. 또한, 연구자가 손쉽게 생성된 네트워크에 대한 검색 및 다차원 분석을 수행할 수 있는 기능을 제공한다. 마지막으로 개발한 시스템의 우수성을 입증하기 위해 크론병(Crohn's Disease)에 대한 적용사례를 소개한다.

  • PDF

학회 웹사이트의 토픽 정보추출을 이용한 주제에 따른 학회 자동분류 기법 (Academic Conference Categorization According to Subjects Using Topical Information Extraction from Conference Websites)

  • 이수경;김관호
    • 한국전자거래학회지
    • /
    • 제22권2호
    • /
    • pp.61-77
    • /
    • 2017
  • 최근 온라인상에 게시된 학회정보가 급증함으로써 주제에 따른 학회정보의 자동분류는 연구자들에게 효율적인 관련 학회 탐색을 가능하게 한다. 그러나 대부분의 학회 목록 제공 서비스에서는 학회명칭, 날짜, 위치, URL 등의 정보만 제공하기 때문에 학회 주제를 파악할 수 있는 정보는 학회명칭에 국한된다. 따라서 본 연구에서는 URL을 통한 학회 웹사이트의 토픽정보를 추출함으로써 학회정보량의 부족문제를 해결하고, 동시에 양질의 정보로 학습의 성능을 향상시키는 기법을 제안한다. 구체적으로는 웹사이트 URL을 통해 수집한 HTML 문서로부터 주요 콘텐츠를 추출하고, 학회명칭과 유사한 토픽 키워드 정보를 선정하여 추가 가중치를 부여한다. 실 데이터를 활용한 실험 결과, 제안된 방법인 추가적인 웹 콘텐츠 정보의 사용은 주제에 따른 학회 분류의 성능을 성공적으로 향상시킬 수 있음을 확인하였다. 추후 연구에서는 웹 사이트의 구조를 고려한 토픽 정보추출을 통해 분류의 정확성을 더욱 향상시킬 계획이다.