• 제목/요약/키워드: 웹뉴스

검색결과 170건 처리시간 0.023초

다중 분류기 시스템을 이용한 자동 문서 분류 (Automatic Document Classification Using Multiple Classifier Systems)

  • 김인철
    • 정보처리학회논문지B
    • /
    • 제11B권5호
    • /
    • pp.545-554
    • /
    • 2004
  • 단일 분류기에 비해 높은 분류성능을 얻기 위해 다수의 분류기들을 결합하여 사용하는 방법은 폭넓게 이용되어 온 기술이다. 하나의 다중 분류기 시스템을 구성하는 일은 다음 두 가지 문제들을 가지고 있다. 첫째는 어떻게 기반 분류기들을 생성하느냐 하는 것이고 둘째는 이들의 예측결과를 어떻게 결합하느냐 하는 것이다. 본 논문에서는 Bagging, Boosting, Stacking 등 기존의 대표적인 다중 분류기 시스템들의 특징을 살펴보고, 문서 분류를 위한 새로운 다중 분류기 시스템들인 Stacked Bagging, Stacked Boosting, Bagged Stacking, Boosted Stacking들을 제안한다. 이들은 Bagging, Boosting, Stacking과 같은 기존 다중 분류기 시스템들의 장점들을 결합한 일종의 혼합형 다중 분류기 시스템들이다. 본 논문에서는 제안된 다중 분류기 시스템들의 성능을 평가하기 위해 MEDLINE, 유즈넷 뉴스, 웹 문서 등의 문서집합을 이용한 문서 분류 실험들을 전개하였다. 그리고 이러한 실험결과를 통해 제안한 혼합형 다중 분류기 시스템들은 전반적으로 기존 시스템들보다 우수한 성능을 보이는 것으로 나타났다.

TK-Indexing : NoSQL 기반 SNS 데이터 색인 기법 (TK-Indexing : An Indexing Method for SNS Data Based on NoSQL)

  • 심형남;김정동;설광수;백두권
    • 정보처리학회논문지D
    • /
    • 제19D권4호
    • /
    • pp.271-280
    • /
    • 2012
  • 현재 소셜 네트워크 서비스(Social Network Service: SNS)의 이용자 수가 늘어나면서 SNS에서 생성되는 콘텐츠 데이터의 양도 기하급수적으로 늘어나고 있다. 이러한 SNS는 개인의 근황, 관심사를 전달하기 위해 사용하고, 친목도모, 엔터테인먼트, 제품 마케팅, 최신 뉴스 공유, 1인 미디어 등 다양한 목적으로 활용하고 있다. SNS가 스마트폰에서 사용 가능해지면서 사용자들은 언제, 어디서나 실시간으로 사회의 주요쟁점이나 사회구성원들의 주 관심사와 같은 콘텐츠를 기존 미디어 매체보다 빠르게 생성하고 확산시킨다. 기존 웹 콘텐츠 색인 기법은 색인대상이 다양하고 정확성에 중점을 두어 색인하므로 실시간으로 대량 생성되는 SNS 콘텐츠를 색인하는 기법으로 한계가 있다. 이러한 문제를 해결하기 위하여 관계형 DBMS기반 실시간 색인 기법이 있으나 색인대상의 축소와 색인 절차의 복잡성이 높다는 단점이 있다. 따라서 본 논문에서는 실시간으로 생성된 SNS콘텐츠를 색인하기 위하여 NoSQL기반 SNS 콘텐츠 생성시간과 키워드를 각각 색인하는 TK-Indexing 기법을 제안하여 기존 색인 기법의 복잡성을 개선한다.

관계형 DBMS 기반의 XML 데이터를 위한 k-비트맵 클러스터링 기법 (k-Bitmap Clustering Method for XML Data based on Relational DBMS)

  • 이범석;황병연
    • 정보처리학회논문지D
    • /
    • 제16D권6호
    • /
    • pp.845-850
    • /
    • 2009
  • 웹2.0 환경의 발달과 함께 XML 데이터의 사용도 증가하였는데, 특히 블로그나 뉴스 피드의 정보 전달을 위한 RSS나 ATOM 포맷의 기반 기술로 사용되면서 그 장점과 가치를 인정받고 있다. XML 데이터의 인덱싱을 위한 여러 기법들 중 빠른 검색성능을 보인 비트맵 클러스터링은 관계형 DBMS를 기반으로 메모리에 인덱스를 유지하는 기법이다. 기존의 비트맵 클러스터링 기법을 이용하여 XML 데이터를 인덱싱할 때 너무 많은 클러스터가 생성되어 오히려 검색 효율과 결과의 품질이 저하되는 문제점이 있었다. 본 논문에서는 이 문제점을 해결하기 위해 사용자가 제시하는 k개의 클러스터를 생성하는 k-비트맵 클러스터링 기법과 대표비트를 생성할 때 배제된 단어를 검색하기 위한 역인덱스를 함께 유지하는 방법을 제안한다. 성능평가를 수행한 결과 제안하는 기법은 생성되는 클러스터의 수를 임의로 설정할 수 있을 뿐만 아니라 단일 단어 검색에서 높은 재현율을 보였고, 2개의 인덱스를 함께 유지할 때에는 질의에 대해 모든 관련된 문서의 반환을 보장하였다.

TRIB: 블로그 댓글 분류 및 시각화 시스템 (TRIB : A Clustering and Visualization System for Responding Comments on Blogs)

  • 이윤정;지정훈;우균;조환규
    • 정보처리학회논문지D
    • /
    • 제16D권5호
    • /
    • pp.817-824
    • /
    • 2009
  • 최근 들어 블로그나 인터넷 게시판 등은 사람들의 정보 공유나 의견 교환의 중요한 매체가 되고 있으며, 많은 수의 블로그들이 사회적 문제들을 반영하고 있다. 온라인 커뮤니티에서 많은 사용자들은 댓글을 통해 인터넷 뉴스나 블로그 게시물에 대한 자신의 의견을 적극적으로 표현하고 있다. 블로그 사용이 활발해짐에 따라 수만개 이상의 댓글들이 등록되는 블로그들도 쉽게 찾을 수 있다. 대부분의 블로그나 인터넷 포털사이트의 경우 게시물이나 댓글들을 순차적인 목록 형태로 제공하므로 자신이 원하는 내용의 댓글을 검색하거나 전체 댓글에 대한 전반적인 파악이 힘들다. 본 논문에서는 게시물에 달린 많은 수의 댓글들을 분류하고, 이를 시각화 하는 시스템인 TRIB (Telescope for Responding comments for Internet Blog)를 제안한다. TRIB는 미리 정의된 사용자 정의 사전을 이용하여 댓글을 내용에 따라 분류하여 시각화한다. 또한, 사용자들의 관심과 흥미를 고려한 개인화 된 뷰를 제공한다. TRIB의 유용성을 보이기 위해서 1,000개 이상의 댓글을 가진 인터넷 게시물들을 대상으로 한 실험을 통해 TRIB 시스템의 댓글 분류와 시각화 성능을 보인다.

빅데이터를 활용한 편의점 간편식에 대한 의미 분석 (A study on the User Experience at Unmanned Checkout Counter Using Big Data Analysis)

  • 김애숙;류기환;정주희;김희영
    • 문화기술의 융합
    • /
    • 제8권4호
    • /
    • pp.375-380
    • /
    • 2022
  • 본 연구는 빅데이터를 활용하여 편의점 간편식에 대한 소비자들의 인식과 의미를 알아보기 위한 목적이 있다. 이 연구를 위하여 네이버(NAVER)와 다음(Daum)에서 뉴스, 지식인, 블로그, 카페, 지식인(팁), 웹 문서를 대상으로 분석하였고 자료 검색을 위한 키워드로는 '편의점 간편식'을 사용하였다. 자료 분석 기간은 2019년 1월1일부터 2021년 12월 31일까지 3년으로 선정하였다. 자료수집 및 분석을 위해서는 텍스톰(TEXTOM)을 사용하여 빈도 및 매트릭스 데이터를 추출하였고 UCINET 6 프로그램의 NetDraw 기능을 이용해 네트워크 분석과 시각화 분석을 실시하였다. 그 결과 편의점 간편식을 소비자들의 선택속성에 따라 건강성, 다양성, 간편성, 경제성으로 군집화 하였다. 직접 조리한 음식에 뒤떨어지지 않고 한 끼 식사로 그 종류가 다양하며, 적절한 가격, 할인 쿠폰, 이벤트 등 편의점 간편식에 대한 소비자들의 의미와 선택속성을 바탕으로 간편성과 편의성을 추구하는 변화된 생활방식에 맞는 새로운 간편식 메뉴 개발에 기초 자료가 되기를 기대한다.

빅데이터를 활용한 색조화장품의 구매 요인에 관한 연구: 토픽모델링과 Concor 분석을 중심으로 (A Study on the Purchasing Factors of Color Cosmetics Using Big Data: Focusing on Topic Modeling and Concor Analysis)

  • 이은희;배승희
    • 한국응용과학기술학회지
    • /
    • 제40권4호
    • /
    • pp.724-732
    • /
    • 2023
  • 본 연구에서는 코로나 이후 색조화장품 시장의 소비자들의 온라인 관심 정보에 대한 자료 수집을 통하여 색조화장품 정보 검색의 특성과 텍스트 마이닝 분석 결과에 나타난 코로나 이후 색조화장품 시장의 주요 관심정보들을 분석하고자 하였다. 실증분석에서는 "색조화장품" 이라는 단어를 포함하는 뉴스, 블로그, 카페, 웹페이지 등의 모든 문서들을 분석 대상으로 텍스트 마이닝을 수행하였다. 분석 결과 코로나 이후 색조화장품에 대한 온라인 정보 검색은 주로 구매 정보와 피부와 마스크 관련 화장법 등에 관한 정보와 관심 브랜드와 행사 정보 등의 주요 토픽이 주를 이루고 있었다. 결과적으로 코로나 이후 색조화장품 구매자들은 적극적인 온라인 정보 검색을 통하여 제품 가치와 안전성, 가격 혜택, 매장 정보 등의 구매 정보에 더욱 민감하게 될 것이므로 이에 대한 대응전략이 요구된다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).

모바일 러닝에서의 신규 융합서비스 도출을 위한 분석: 사회연결망 분석과 연관성 분석 사례 (An Analysis for Deriving New Convergent Service of Mobile Learning: The Case of Social Network Analysis and Association Rule)

  • 백헌;김진화;김용진
    • 경영정보학연구
    • /
    • 제15권3호
    • /
    • pp.1-37
    • /
    • 2013
  • 본 연구는 모바일 러닝의 활성화를 위한 서비스 융합의 가능성을 보고자 하였다. 이를 위해 모바일 러닝의 유형 및 특성을 분석 하였다. 먼저 현재 모바일 러닝 서비스는 어떤 서비스를 중심으로 활성화되고 있으며, 이러한 서비스를 중심으로 사용자의 활용도가 높은 서비스는 무엇인지 알아 보았다. 두 번째로는 모바일에서 주로 이뤄지고 있는 서비스와 이러닝에서 주로 이뤄지고 있는 서비스의 복합적 융합가능성을 살펴 보았다. 세 번째로는 모바일에서의 서비스와 이러닝에서의 공통된 서비스를 중심으로 앞으로 융합이 활성화 될 가능성을 살펴보았다. 분석을 위하여 포털 사이트에서 관련 웹페이지를 통하여 변수를 추출하였으며, 사회 네트워크 분석과 연관성 분석을 사용하였다. 이는 웹페이지마다 변수의 종류와 수가 다르기 때문에 전체적인 웹 상에서 각각의 변수들의 위치와 네트워크상에서의 복잡한 연결 정도를 살펴보기 힘들다. 이러한 문제점을 해결하기 위해 사회 네트워크 분석을 하였으며, 변수들 간의 연관규칙을 발견하고자 연관성 분석을 하였다. 규칙의 해석을 위해서는 사회 네트워크 분석 결과와 연관규칙을 함께 고려하여 살펴보았다. 분석 결과, 모바일에서 제공되는 서비스와 이러닝에서 제공되고 있는 공통된 서비스 중에서 빈도수가 높은 서비스로는 게임과 SNS로 나타났으며, 이외 결제, 광고, 메일, 이벤트, 동영상, 클라우드, 전자책, 증강현실, 취업 등으로 발견되었다. 이러한 서비스를 중심으로 이러닝의 다양한 서비스와 융합하여 이뤄지고 있음을 알 수 있었다. 공통된 서비스와 함께 모바일에서는 검색, 뉴스, GPS 등의 서비스가 활성화 되고 있으며, 이러닝에서는 시뮬레이션, 교양, 공교육 등의 서비스가 활성화 되고 있음을 알 수 있었다. 모바일과 이러닝의 공통된 변수를 기반으로 각각의 서비스의 융합이 높게 나타난 변수로는 모바일에서는 게임과 SNS, 게임과 스포츠, SNS와 광고, 게임과 이벤트, SNS와 전자책, 게임과 커뮤니티가 융합이 높게 나타났으며, 이러닝에서는 게임, 동영상, 상담, 전자책을 전항으로 하여 시뮬레이션, 말하기, 공교육, 출결관리 등의 서비스의 융합정도가 높게 나타난 것을 알 수 있었다. 다음으로 모바일서비스와 이러닝서비스의 공통된 서비스중에서, 모바일 러닝 서비스에서 활성화가 높은 서비스와 사용자를 기반한 모바일 러닝 서비스의 활성화가 높은 서비스인 게임, SNS, 전자책을 기준으로 서비스 융합 활성화 가능성을 예측했다. 본 연구결과를 통해 모바일을 활용한 이러닝 서비스의 관련 서비스 융합으로, 모바일 러닝의 활성화에 대한 전략적 방향성을 제안할 수 있을 것이다.

  • PDF

디렉터리 서비스 분류항목 및 정보자원의 계량적 분석 (A Quantitative Analysis of Classification Classes and Classified Information Resources of Directory)

  • 김성원
    • 정보관리연구
    • /
    • 제37권1호
    • /
    • pp.83-103
    • /
    • 2006
  • 본 연구에서는 키워드 검색의 단점을 보완하기 위해 다수의 웹 포털에서 제공중인 디렉터리 검색 서비스의 분류항목 및 정보자원에 대해 계량적으로 분석했다. 구체적으로는 Yahoo, Naver, Empas 등 3개 디렉터리 서비스의 주제별 분류항목, 주제별 정보자원, 그리고 분류항목 대비 정보자원의 계량적 분석을 시도했다. 이같은 분석결과, 각 디렉터리 서비스별로 차이를 파악해 볼 수 있다. 주제별 분류항목의 검토결과, 분야에 따라 순항목과 참조항목의 비율상 차이가 있고 형식구분의 성격인 주제분야에서 참조항목 전개비율이 높다는 것을 알 수 있다. 등록된 정보자원의 계량분석을 통해 규모의 관점에서는 야후의 등록자원이 가장 많으며, 디렉터리 서비스별로 주제별 정보자원의 다과를 파악할 수 있었다. 해당 분류항목에 분류된 정보자원의 수에 대한 계량적 분석은 뉴스, 미디어 분야를 중심으로 수행했으며, 이를 통해 엠파스나 네이버가 야후보다 등록자원에 비해 많은 분류항목을 전개하고 있다는 점을 알 수 있다. 또한 동일 정보자원이 분류된 깊이를 비교한 결과 야후가 한 단계 세분된 분류항목에 등록하고 있음을 알 수 있다.

네이티브 광고의 전략적 관리방안에 관한 연구 (A Study on Strategic Management of Native Advertisement)

  • 손제영;강인원
    • 경영과정보연구
    • /
    • 제38권1호
    • /
    • pp.63-81
    • /
    • 2019
  • 기업들은 기존의 웹광고 기법인 베너 광고, 팝업 광고, 삽입 광고 등의 단점들을 극복하기 위해, 이용자들의 거부감을 줄이는 네이티브 광고(native ad)를 적극적으로 활용하고 있다. 네이티브 광고는 이용자들의 거부감을 줄이고 동시에 이목을 이끌어 낼 수 있다는 점에서 유용한 광고기법으로 여겨지고 있으나, 최근에는 전문적인 기사나 동영상 콘텐츠가 광고로 둔갑을 하는 이른바 가짜뉴스, 가짜콘텐츠가 생성되어 그 폐해가 많아 보인다. 이에 본 연구는 웹상에서 기업들이 네이티브 광고를 어떻게 조율하고 통제하는 것이 합리적인 방향으로 기업들의 성과에 기여할 수 있는지에 대하여 파악하고자 하였다. 연구의 검증결과, 광고에 대한 평가가 부정적으로 지각될수록 해당 광고게시물에 대한 설득수준을 저해함과 동시에 해당 광고가 노출되는 웹사이트에도 부정적인 영향을 미칠 수 있다는 것을 파악하였다. 또한, 본 연구는 네이티브 광고기법의 부정적 자극요인들을 중심으로 기업의 질적 성과에 미치는 영향력을 검증한 결과, 정보원의 비전문성이 광고에 대한 의구심에 가장 높은 영향을 미친다는 것을 알 수 있었다. 뿐만 아니라 플랫폼의 정보과잉은 광고에 대한 부정적 평가와 더불어 웹사이트의 평가에도 직접적인 영향을 가진다는 것을 확인할 수 있었다. 아울러 본 연구는 이용자의 웹사이트 관여수준에 따라 경로 간의 차이를 검증함으로써, 세분시장에서 적용될만한 구체적인 시사점들을 제시하였다.