• 제목/요약/키워드: Keyword Filtering

검색결과 62건 처리시간 0.029초

등급에 따른 웹 유해 문서 분류 기술 (A Distinction Technology for Harmful Web Documents by Rates)

  • 김영수;남택용;원동호
    • 정보처리학회논문지C
    • /
    • 제13C권7호
    • /
    • pp.859-864
    • /
    • 2006
  • 웹의 개방성은 사람들로 하여금 언제, 어디서든 손쉽게 유용한 정보를 획득할 수 있게끔 하였다. 하지만 인터넷은 유용한 정보의 손쉬운 활용이라는 순기능과 더불어 사회적으로 통제를 필요로 하는 유해한 정보 역시 인터넷을 이용하는 이용자들에게 무차별적으로 제공함으로써 역기능을 발생시키고 있다. 성인 컨텐츠 같은 정보들은 모든 사용자들, 특히 청소년들에게 악영향을 미칠 수 있다. 또한, 변태적인 성인 사이트들이 담고 있는 컨텐츠들은 성인들의 정신 건강에도 해를 미치게 된다. 한편, 인터넷은 전 세계적으로 연결된 개방망이므로 유해정보 제공자를 각국의 법적, 제도적 장치를 이용하여 규제하는데 한계가 있다. 또한, 유해 사이트, 유해성 스팸 메일, P2P 등 다양한 경로를 통해 유해 정보를 접할 수 있기 때문에, 어떤 시스템에 특화된 유해정보 분류기술을 개발하는 것은 바람직하지 않다. 따라서, 유해정보의 내용 자체에 기반하여 유해 여부를 자동으로 판별할 수 있는 유해정보 판별 핵심 기술의 연구 및 개발의 중요성이 점차 부각되고 있다. 이에 본 논문에서는 내용 기반 기술을 이용한 효율적인 유해 웹 문서 텍스트 판별 시스템을 제시한다.

폐전지 재활용 관련 기술의 특허 동향분석 (Analysis of Patents on the Recycling Technologies for Waste Batteries)

  • 강태원;정진기;이재천;손정수;강경석
    • 자원리싸이클링
    • /
    • 제14권6호
    • /
    • pp.44-59
    • /
    • 2005
  • 폐 건전지의 재활용에 대한 관련 기술의 추이 및 동향을 조사하기 위하여 특허 출원 검색을 시행하였다. 검색 범위는 공개 특허를 대상으로 하였으며 특허 검색 데이터베이스는 미국의 USPTO 및 DELPHION, 일본의 PAJ,유럽의 EPO,그리고 한국의 KIPRIS를 선정 조사하였다. 폐전지 재활용 관련 키워드는 배터리, 전자 셀, 특허, 재활용, 그리고 IPC분류 중 H01M-006/52 및 H01M-010/54를 대상으로 검색하여 총 2,490건을 선정하였으며, 이를 2단계 필터링 과정을 거쳐 871건 선정하여 최증 분석하였다. 1971년부터 2000년까지 년도별, 주요 국가별, 주요 회사별, 그리고 관련 기술별로 분류하여 분석하였다.

최근 20년간 침의 암성통증에 대한 효과 연구의 계량서지학적 분석 (Bibliometric Analysis of the Effect of Acupuncture on Cancer Pain in the Last 20 Years)

  • 박한송;이도은;하지수;서호석;김진원
    • 대한한방내과학회지
    • /
    • 제42권3호
    • /
    • pp.279-292
    • /
    • 2021
  • Objectives: Analyze papers on the effect of acupuncture on cancer pain from a macroscopic point of view, suggesting global trends and future research directions to promote acupuncture treatment for cancer pain. Methods: By filtering the papers searched for (acupuncture) AND (cancer pain) in the Web of Science database, 351 papers were selected and analyzed by year, field, journal, institution, author, and keyword. Results: Most papers were published in 2020, and research was active in the field of complementary and alternative medicine. Research on the effects of acupuncture in cancer pain has been active in cancer centers and university hospitals, research has been active in various countries. The most frequently mentioned keywords in the titles and abstracts were acupuncture, pain, and quality of life. The latest top 5 keywords were inhibitor-induced arthralgia, acupuncture therapy, risk factors, opioids, and recovery. Conclusions: Acupuncture treatment has the potential to reduce pain and improve quality of life in cancer patients, and it should be actively studied in the future.

빅데이터 클러스터에서의 추출된 형태소를 이용한 유사 동영상 추천 시스템 설계 (A Design of Similar Video Recommendation System using Extracted Words in Big Data Cluster)

  • 이현섭;김진덕
    • 한국정보통신학회논문지
    • /
    • 제24권2호
    • /
    • pp.172-178
    • /
    • 2020
  • 최근 널리 이용되고 있는 동영상 공유 서비스에서는 콘텐츠 추천 시스템이 매우 중요한 요소이다. 콘텐츠 추천을 위해서 일반적으로 사용자 선호도와 동영상(아이템) 유사도를 동시에 고려하는 협업 필터링을 사용하고 있다. 그러한 서비스는 주로 사용자의 검색 키워드와 시청시간과 같은 개인 선호도를 활용하여 사용자의 편의를 도모한다. 또한 동영상에 지정한 키워드를 중심으로 랭킹화한다. 그러나 한정된 키워드만을 이용한 동영상 유사도를 분석한다는 한계가 있다. 이런 경우 지정한 키워드가 아이템을 제대로 반영하지 못하는 경우 그 문제가 심각해진다. 이 논문에서는 교육 동영상으로부터 차별화된 의미를 갖는 모든 단어를 고려하여 유사도를 분석하며, 이런 경우 데이터와 연산의 규모가 방대하기 때문에 빅데이터 클러스터에서 처리하는 방법을 적용한다. 제안한 시스템은 빅데이터 영상 분석을 통해 동영상 공유 서비스 플랫폼의 기본 모듈로 활용될 것으로 기대한다.

텍스트 마이닝을 통한 키워드 추출과 머신러닝 기반의 오픈소스 소프트웨어 주제 분류 (Keyword Extraction through Text Mining and Open Source Software Category Classification based on Machine Learning Algorithms)

  • 이예슬;백승찬;조용준;신동명
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제14권2호
    • /
    • pp.1-9
    • /
    • 2018
  • 오픈소스를 사용하는 사용자 및 기업의 비중이 지속적으로 증가하고 있다. 국외뿐만 아니라 국내에서의 오픈소스 소프트웨어 시장 규모가 급격하게 성장하고 있다. 하지만 오픈소스 소프트웨어의 지속적인 발전에 비해서, 오픈소스 소프트웨어 주제 분류에 대한 연구 거의 이루어지지 않고 있으며 소프트웨어의 분류 체계 또한 구체화되어 있지 않다. 현재는 사용자가 주제를 직접 입력하거나 태깅하는 방식을 사용하고 있으며 이에 따른 오 분류 및 번거로움이 존재한다. 또한 오픈소스 소프트웨어 분류에 대한 연구는 오픈소스 소프트웨어 평가, 추천, 필터링등의 기반 연구로 이용될 수 있다. 따라서 본 연구에서는 머신러닝 모델을 사용하여 오픈소스 소프트웨어를 분류하는 기법에 대하여 제안하고, 머신러닝 모델 별 성능 비교를 제안한다.

빅데이터 기반 추천시스템 구현을 위한 다중 프로파일 앙상블 기법 (A Multimodal Profile Ensemble Approach to Development of Recommender Systems Using Big Data)

  • 김민정;조윤호
    • 지능정보연구
    • /
    • 제21권4호
    • /
    • pp.93-110
    • /
    • 2015
  • 기존의 협업필터링 추천시스템 연구는 상품에 대한 고객의 평점(rating)이나 구매 여부 데이터로부터 하나의 프로파일을 생성하고 이를 기반으로 추천 성능을 향상시킬 수 있는 새로운 알고리즘을 개발하는 위주로 진행되어 왔다. 그러나 빅데이터 환경이 도래하면서 기업이 수집할 수 있는 고객 데이터가 풍부해지고 다양해짐에 따라, 보다 정확하게 고객의 선호도나 행태를 파악하는 것이 가능하게 되었고 이러한 데이터, 즉 퍼스널 빅데이터(personal big data)를 추천시스템에 활용하는 연구의 필요성이 대두되고 있다. 본 연구에서는 마케팅의 시장세분화 이론에 근거하여 퍼스널 빅데이터로부터 고객의 선호도나 행태를 다양한 관점에서 표현할 수 있는 5종의 다중 프로파일(multimodal profile)을 개발하고, 이를 활용하여 협업필터링 추천시스템의 성능을 개선하고자 한다. 제안하는 5종의 다중 프로파일은 프로파일 통합 유사도, 개별 프로파일 유사도 평균, 개별 프로파일 유사도 가중 평균이라는 세 가지 앙상블 기법을 통해 협업필터링의 이웃(neighborhood) 탐색과정에 적용된다. 실제 퍼스널 빅데이터에 본 연구에서 제안하는 방법론을 적용한 결과, 단일 프로파일을 사용하는 협업필터링 알고리즘보다 추천 성능이 상당히 개선되었으며 앙상블 방법 중에서는 개별 프로파일 유사도 가중 평균 기법이 가장 높은 추천 성능을 보여주었다. 본 연구는 빅데이터 환경에서 추천시스템을 개발하고자 할 때, 어떠한 성격의 데이터로부터 고객의 특성을 규명하는 프로파일을 만들고 이를 어떻게 결합하여 사용하는 것이 효과적인 지 처음으로 제안하였다는 점에서 그 의의가 있다.

사회문제 해결형 기술수요 발굴을 위한 키워드 추출 시스템 제안 (A Proposal of a Keyword Extraction System for Detecting Social Issues)

  • 정다미;김재석;김기남;허종욱;온병원;강미정
    • 지능정보연구
    • /
    • 제19권3호
    • /
    • pp.1-23
    • /
    • 2013
  • 융합 R&D가 추구해야 할 바람직한 방향은 이종 기술 간의 결합에 의한 맹목적인 신기술 창출이 아니라, 당면한 주요 문제를 해결함으로써 사회적 니즈를 충족시킬 수 있는 기술을 개발하는 것이다. 이와 같은 사회문제 해결형 기술 R&D를 촉진하기 위해서는 우선 우리 사회에서 주요 쟁점이 되고 있는 문제들을 선별해야 한다. 그런데 우선적이고 중요한 사회문제를 분별하기 위해 전문가 설문조사나 여론조사 등 기존의 사회과학 방법론을 사용하는 것은 참여자의 선입견이 개입될 수 있고 비용이 많이 소요된다는 한계를 지닌다. 기존의 사회과학 방법론이 지닌 문제점을 보완하기 위하여 본 논문에서는 사회적 이슈를 다루고 있는 대용량의 뉴스기사를 수집하고 통계적인 기법을 통하여 사회문제를 나타내는 키워드를 추출하는 시스템의 개발을 제안한다. 2009년부터 최근까지 3년 동안 10개 주요 언론사에서 생산한 약 백 30만 건의 뉴스기사에서 사회문제를 다루는 기사를 식별하고, 한글 형태소 분석, 확률기반의 토픽 모델링을 통해 사회문제 키워드를 추출한다. 또한 키워드만으로는 정확한 사회문제를 파악하기 쉽지 않기 때문에 사회문제와 연관된 키워드와 문장을 찾아서 연결하는 매칭 알고리즘을 제안하다. 마지막으로 사회문제 키워드 비주얼라이제이션 시스템을 통해 시계열에 따른 사회문제 키워드를 일목요연하게 보여줌으로써 사회문제를 쉽게 파악할 수 있도록 하였다. 특히 본 논문에서는 생성확률모델 기반의 새로운 매칭 알고리즘을 제안한다. 대용량 뉴스기사로부터 Latent Dirichlet Allocation(LDA)와 같은 토픽 모델 방법론을 사용하여 자동으로 토픽 클러스터 세트를 추출할 수 있다. 각 토픽 클러스터는 연관성 있는 단어들과 확률값으로 구성된다. 그리고 도메인 전문가는 토픽 클러스터를 분석하여, 각 토픽 클러스터의 레이블을 결정하게 된다. 이를 테면, 토픽 1 = {(실업, 0.4), (해고, 0.3), (회사, 0.3)}에서 토픽 단어들은 실업문제와 관련있으며, 도메인 전문가는 토픽 1을 실업문제로 레이블링 하게 되고, 이러한 토픽 레이블은 사회문제 키워드로 정의한다. 그러나 이와 같이 자동으로 생성된 사회문제 키워드를 분석하여 현재 우리 사회에서 어떤 문제가 발생하고 있고, 시급히 해결해야 될 문제가 무엇인지를 파악하기란 쉽지 않다. 따라서 제안된 매칭 알고리즘을 사용하여 사회문제 키워드를 요약(summarization)하는 방법론을 제시한다. 우선, 각 뉴스기사를 문단(paragraph) 단위로 세그먼트 하여 뉴스기사 대신에 문단 세트(A set of paragraphs)를 가지게 된다. 매칭 알고리즘은 각 토픽 클러스터에 대한 각 문단의 확률값을 측정하게된다. 이때 토픽 클러스터의 단어들과 확률값을 이용하여 토픽과 문단이 얼마나 연관성이 있는지를 계산하게 된다. 이러한 과정을 통해 각 토픽은 가장 연관성이 있는 문단들을 매칭할 수 있게 된다. 이러한 매칭 프로세스를 통해 사회문제 키워드와 연관된 문단들을 검토함으로써 실제 우리 사회에서 해당 사회문제 키워드와 관련해서 구체적으로 어떤 사건과 이슈가 발생하는 지를 쉽게 파악할 수 있게 된다. 또한 매칭 프로세스와 더불어 사회문제 키워드 가시화를 통해 사회문제 수요를 파악하려는 전문가들은 웹 브라우저를 통해 편리하게 특정 시간에 발생한 사회문제가 무엇이며, 구체적인 내용은 무엇인지를 파악할 수 있으며, 시간 순서에 따른 사회이슈의 변동 추이와 그 원인을 알 수 있게 된다. 개발된 시스템을 통해 최근 3년 동안 국내에서 발생했던 다양한 사회문제들을 파악하였고 개발된 알고리즘에 대한 평가를 수행하였다(본 논문에서 제안한 프로토타입 시스템은 http://dslab.snu.ac.kr/demo.html에서 이용 가능함. 단, 구글크롬, IE8.0 이상 웹 브라우저 사용 권장).

구인구직사이트의 구인정보 기반 지능형 직무분류체계의 구축 (Development of Intelligent Job Classification System based on Job Posting on Job Sites)

  • 이정승
    • 지능정보연구
    • /
    • 제25권4호
    • /
    • pp.123-139
    • /
    • 2019
  • 주요 구인구직사이트의 직무분류체계가 사이트마다 상이하고 SW분야에서 제안한 'SQF(Sectoral Qualifications Framework)'의 직무분류체계와도 달라 SW산업에서 SW기업, SW구직자, 구인구직사이트가 모두 납득할 수 있는 새로운 직무분류체계가 필요하다. 본 연구의 목적은 주요 구인구직사이트의 구인정보와 'NCS(National Competaency Standars)'에 기반을 둔 SQF를 분석하여 시장 수요를 반영한 표준 직무분류체계를 구축하는 것이다. 이를 위해 주요 구인구직사이트의 직종 간 연관분석과 SQF와 직종 간 연관분석을 실시하여 직종 간 연관규칙을 도출하고자 한다. 이 연관규칙을 이용하여 주요 구인구직사이트의 직무분류체계를 맵핑하고 SQF와 직무 분류체계를 맵핑함으로써 데이터 기반의 지능형 직무분류체계를 제안하였다. 연구 결과 국내 주요 구인구직사이트인 '워크넷,' '잡코리아,' '사람인'에서 3만여 건의 구인정보를 open API를 이용하여 XML 형태로 수집하여 데이터베이스에 저장했다. 이 중 복수의 구인구직사이트에 동시 게시된 구인정보 900여 건을 필터링한 후 빈발 패턴 마이닝(frequent pattern mining)인 Apriori 알고리즘을 적용하여 800여 개의 연관규칙을 도출하였다. 800여 개의 연관규칙을 바탕으로 워크넷, 잡코리아, 사람인의 직무분류체계와 SQF의 직무분류체계를 맵핑하여 1~4차로 분류하되 분류의 단계가 유연한 표준 직무분류체계를 새롭게 구축했다. 본 연구는 일부 전문가의 직관이 아닌 직종 간 연관분석을 통해 데이터를 기반으로 직종 간 맵핑을 시도함으로써 시장 수요를 반영하는 새로운 직무분류체계를 제안했다는데 의의가 있다. 다만 본 연구는 데이터 수집 시점이 일시적이기 때문에 시간의 흐름에 따라 변화하는 시장의 수요를 충분히 반영하지 못하는 한계가 있다. 계절적 요인과 주요 공채 시기 등 시간에 따라 시장의 요구하는 변해갈 것이기에 더욱 정확한 매칭을 얻기 위해서는 지속적인 데이터 모니터링과 반복적인 실험이 필요하다. 본 연구 결과는 향후 SW산업 분야에서 SQF의 개선방향을 제시하는데 활용될 수 있고, SW산업 분야에서 성공을 경험삼아 타 산업으로 확장 이전될 수 있을 것으로 기대한다.

모바일 사용자의 성별 예측을 위한 식별 및 인기 단어 집합 기반 2단계 기기 내 분석 (A Two-Phase On-Device Analysis for Gender Prediction of Mobile Users Using Discriminative and Popular Wordsets)

  • 최예림;박규연;김소이;박종헌
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.65-77
    • /
    • 2016
  • 모바일 기기 데이터를 활용한 분석에서 사용자의 프라이버시를 보호하는 것이 주요한 이슈로 대두됨에 따라 데이터를 외부로 전송하지 않고 모바일 기기 안에서 분석을 수행하는 기기내 분석이 주목 받고 있다. 기기 내 분석을 활용하면 문자 메시지, 검색 단어, 북마크, 연락처등 매우 개인적이지만 성별 구분에 효과적이라고 알려진 모바일 텍스트를 이용한 성별 예측이 가능하며, 사전에 선정된 단어들의 집합을 모바일 기기로 전송하여 이 단어들과 모바일 텍스트를 비교를 통해 성별을 예측하는 단어 비교 방식을 이용하면 모바일 기기의 제한된 자원 문제를 극복할 수 있다. 특히, 확실한 근거를 이용하여 필터링 한 후 예측을 수행하면 정확도를 극대화하고 복잡도를 낮출 수 있다. 따라서 본 논문에서는 단어의 식별력과 인기도를 순차적으로 고려하는 2단계의 기기 내 성별 예측 방법을 제안한다. 구체적으로, 제안하는 방법론은 소수의 높은 식별력을 가지는 단어를 이용하여 전체 사용자의 성별을 예측하고 이어서 인기도가 높은 단어를 활용하여 앞서 예측이 되지 않은 사용자의 성별을 예측한다. 실제 데이터를 이용한 실험에서 제안하는 방법론은 비교 방법론보다 우수한 성능을 나타내었다.

트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거 (Geographical Name Denoising by Machine Learning of Event Detection Based on Twitter)

  • 우승민;황병연
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권10호
    • /
    • pp.447-454
    • /
    • 2015
  • 본 논문에서는 트위터 기반 이벤트 탐지에서의 기계학습을 통한 지명 노이즈제거 방식을 제안한다. 최근 스마트폰 이용자의 증가로 소셜 네트워크 서비스(SNS) 이용자가 증가하고 있는 추세이다. 그중 트위터는 140자 이내의 단문서비스와 팔로우 기능으로 정보의 빠른 전달력과 확산성을 가지고 있다. 이러한 특성과 모바일에 최적화된 트위터의 특성상 정보 전달 속도가 매우 빠르기 때문에 재난 상황이나 이벤트 전달의 매개체 역할을 하고 있다. 이와 관련된 연구로는 트위터 사용자 개개인을 이벤트 탐지의 센서로 사용하여 현실에서 발생하는 이벤트를 탐지하였는데 이벤트가 특정 장소에서 발생한다는 특성을 이용해서 지명 키워드를 사용하였다. 그러나 지명과 동형이의어 관계에 관한 노이즈제거에 대한 부분이 누락되어있어서 이벤트 탐지의 정확도를 낮추는 요인이 된다. 이에 본 논문에서는 제거와 예측 두 가지 방식으로 노이즈제거 기법을 적용하였다. 먼저 노이즈 관련 데이터베이스 구축을 이용하여 제거 필터링을 진행한 후에 나이브 베이지안 분류를 이용해서 지명 유무를 결정하였다. 실험 데이터를 이용해서 기계학습을 위한 확률값을 구했으며, 지명마다 본 논문에서 제시하는 예측기법을 검증했을 때 89.6%의 신뢰도로 노이즈제거 기법의 필요성을 보였다.