• 제목/요약/키워드: 카테고리

검색결과 819건 처리시간 0.038초

군집화 기법을 이용한 준감독 군집화의 훈련예제 선정 (Selecting Examples to Be Labeled for Semi-Supervised Clustering Using Cluster-Based Sampling)

  • 김종성;강재호;류광렬
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2004년도 봄 학술발표논문집 Vol.31 No.1 (B)
    • /
    • pp.646-648
    • /
    • 2004
  • 기계학습의 군집화(clustering) 기법은 예제들 간의 유사성에 근거하여 주어진 예제들을 무리 짓는 방법이다. 준감독(semi-supervised) 군집화는 카테고리가 부여된(labeled) 소수의 예제들을 적극적으로 활용하여 군집형태가 보다 자연스럽게 형성되도록 유도하는 군집화 방법이다. 준감독 군집화 문제에서 예제에 카테고리를 부여하는 작업은 현실적으로 극히 제한적이거나 카테고리를 부여하는데 소요되는 비용이 상당하므로, 제한된 자원 내에서 군집화에 효용성이 높을 예제들을 선정하여 카테고리를 부여하는 것이 필요하다. 본 논문에서는 기존 연구에서 능동적 학습의 초기 훈련예제 선정을 위해 제안된 군집기반 훈련예제 선정 방법을 준감독 군집화에 적용하여 군집 결과의 질을 향상시키고자 한다. 군집화를 이용한 예제 선정 방법은 유사한 예제들은 동일한 카테고리에 속할 가능성이 높다는 가정하에 전체 예제를 활용하여 선정하고자 하는 예제 수만큼 군집을 생성 한 후. 각 군집의 중심점에 가장 가까운 예제들을 대표 예제로 선정하여 훈련 집합을 구성하는 방법이다 본 논문에서는 문서를 대상으로 하는 준감독 군집화 실험을 통해, 카테고리를 부여할 예제를 임의로 선정한 경우에 비해 군집화를 이용한 훈련 예제들로 준감독 군집화를 수행한 경우가 보다 좋은 군집을 형성함을 확인하였다.

  • PDF

시맨틱 웹 기반의 도서검색 프로그램 설계 (A Design of Book Search program based on the Semantic Web)

  • 최준녕;이지훈;정인정;유동희
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.130-131
    • /
    • 2014
  • 시맨틱 웹은 1998년 웹의 창시자인 Tim Berners Lee가 제안을 한 웹 기술로써 인간의 언어를 이해하고 인간과 쉽게 의사소통이 가능한 네트워크를 말한다. 즉 컴퓨터 스스로 웹에 연결된 정보의 의미를 인식하고 사용자가 필요로 하는 정보를 검색하며 검색된 정보에서 지식을 유추할 수 있는 기능을 제공하는 지능형 웹 환경이다. 이런 시맨틱 웹 개념을 적용한 사례로는 네이버 시맨틱 웹 영화검색 이있다. 본 논문에서는 네이버 시맨틱 웹 영화검색 시스템을 벤치마킹한 도서검색 서비스 설계를 제안하고자 한다. 본 도서검색 서비스는 온톨로지 개념을 적용하여 도서와 관련된 검색 카테고리를 설정하며, 간단한 시나리오는 다음과 같다. 한 권의 책을 검색하면 해당 책과 연관된 첫 번째 카테고리로 출판사, 제작한 년도, 저자, 장르, 관련 검색 도서 등의 데이터들이 상단에 제시된다. 제시된 카테고리에서 임의의 항목을 선택하면 그 하단 공백에 선택된 항목과 연관된 카테고리에 해당하는 항목들이 제시된다. 예를 들어, 출판사를 선택한다면 해당 출판사에서 출간된 도서들이 하단 공백에 열거가 되고 상단 두 번째 카테고리에 원작국가, 저자 관련 책, 수상정보, 공동 집필자, 책을 원작으로 확장된 컨텐츠 등 또 다른 카테고리가 우측으로 생성이 되며 선택을 할 수 있게 된다. 본 논문에서 제안하는 시맨틱 웹 기반 도서검색 서비스는 사용자가 검색하고자 하는 정보를 보다 효율적이고 사용자 중심에서 제공할 수 있다고 사료된다.

  • PDF

관심 지점 명칭의 단어와 문맥 정보를 활용한 관심 지점의 분류 (Categorization of POIs Using Word and Context information)

  • 최수정;박성배
    • 한국지능시스템학회논문지
    • /
    • 제24권5호
    • /
    • pp.470-476
    • /
    • 2014
  • 관심 지점이란 상점이나 공원, 음식점 등과 같이 사람들이 관심을 가지거나 유용하다고 생각하는 특정한 지리적 위치를 의미한다. 관심 지점은 명칭과 제공 서비스, 카테고리 등과 같은 여러 정보들로 구성되어 있다. 이와 같은 정보들은 위치기반 어플리케이션에서 필수적인 정보이고, 그 중에서도 카테고리 정보는 위치기반 서비스에서 가장 핵심적인 역할을 한다. 그러나 관심 지점의 카테고리 정보를 직접 모으는 것은 많은 비용과 노력이 들기 때문에 자동으로 수집되어야 한다. 본 논문에서는 카테고리를 자동으로 추정하기 위해서 관심 지점 명칭의 단어 정보와 제한적 주변 문맥 정보를 결합하여 사용하는 방법을 제안한다. 관심 지점 명칭의 단어에는 카테고리를 반영하는 단어들을 포함하고 있어 카테고리를 추정하는데 있어서 중요한 단서가 된다. 제한적 주변 문맥 정보는 관심 지점의 명칭이 언급된 문서에서 명칭이 언급된 주변의 문맥을 의미한다. 명칭이 언급된 주변의 문맥에는 관심 지점의 카테고리를 추정할 정보들을 포함하고 있어 카테고리를 추정하는 것에 있어서 가치있는 정보를 제공한다. 우리는 제안한 모델의 성능을 측정하기 위해 두 가지 데이터셋에서 성능을 평가한 결과, 각 정보를 따로 사용하여 카테고리를 추정한 성능보다 결합하여 사용한 모델의 성능이 더 높게 나타났다.

수도권지역의 통행발생모형의 검증 (회귀모형과 카테고리모형을 중심으로) (Improvement of Trip Generation Model in Seoul Metropolitan Area)

  • 김진자;이종호
    • 대한교통학회지
    • /
    • 제22권3호
    • /
    • pp.49-58
    • /
    • 2004
  • 본 논문에서는 서울시와 경기도에서 발표한 통근 및 등교통행발생 회귀모형과 ${\ulcorner}$1996년 교통센서스 조사${\lrcorner}$ 자료로 만든 통근통행발생률 및 등교통행발생률을 이용하여 2002년의 통근 및 등교통행발생량을 예측하였다. 그리고 ${\ulcorner}$2002년 교통센서스 조사${\lrcorner}$의 관측값과 비교하여 기존 통행발생모형의 개선방법을 제시하였다. 연구의 결과, 경기도의 통근통행발생회귀모형과 카테고리모형의 예측은 유사한 분포를 보이는 반면, 서울시의 통근통행발생 회귀모형으로 예측한 경우 인천광역시와 경기도에서 관측값보다 평균 40.16% 과대 예측되었다. 등교통행발생 예측값과 관측값이 서울시와 경기도 지역에서 비슷하게 예측되었다. 인천광역시 지역의 경우 경기도에서 발표한 회귀모형으로 예측한 값이 관측값보다 평균 79.71% 작게 예측되었다. 분석 결과 수도권에서의 장래 통근과 등교통행발생량 예측에서 카테고리분석법이 회귀분석법 보다 예측력이 우수한 것으로 나타났다. 우리나라에서는 장래 카테고리화된 자료의 부재로 카테고리 분석의 장래의 통행량 예측에 어려움이 따른다. 이에 카테고리분석을 적용하여 회귀분석의 취약점을 보완할 수 있는 것으로 판단된다.

이미지와 텍스트 정보의 카테고리 분류에 의한 SNS 팔로잉 추천 방법 (Recommendation Method of SNS Following to Category Classification of Image and Text Information)

  • 홍택은;신주현
    • 스마트미디어저널
    • /
    • 제5권3호
    • /
    • pp.54-61
    • /
    • 2016
  • 다양한 스마트 디바이스의 발전에 따라 거리, 공간의 제약 없이 실시간으로 의사소통, 정보공유 등이 가능한 SNS(Social Network Service)를 즐기는 사용자(User)가 증가하고 있다. 의사소통, 관계 형성에 중점을 두었던 SNS 사용자들이 정보공유의 기능으로 SNS를 활용하는 추세이다. 본 논문에서는 사용자의 SNS 게시글을 이용하여 카테고리를 추출하고 정보제공자(Information provider)를 팔로잉 추천해주는 방법을 기술한다. 게시글의 텍스트에서 단어를 분류하고 빈도수를 측정하며, 머신 러닝 기법 중 하나인 CNN(Convolutional Neural Network)을 바탕으로 구축한 Inception-v3 모델을 이용하여 이미지를 단어로 분류한다. 텍스트와 이미지에서 분류한 단어를 DMOZ 기준으로 카테고리 분류하여 정보제공자 DB를 구축한다. 정보제공자 DB의 카테고리와 게시글에서 분류한 사용자의 카테고리를 비교한다. 카테고리가 일치할 경우 카테고리에 분류되어 있는 정보 제공자들를 대상으로 유사도를 측정하여 가장 비슷한 정보제공자의 계정을 추천해주는 방법에 대해 제안한다.

우리나라 보호지역에 IUCN 카테고리 적용 방안에 관한 연구 (A Study on the Application of IUCN Category to the Protected Areas of Korea)

  • 허학영;김현;이영주;김성일
    • 환경정책연구
    • /
    • 제6권2호
    • /
    • pp.71-96
    • /
    • 2007
  • 본 연구는 우리나라 보호지역의 특성을 반영하여 IUCN 카테고리 시스템 적용하기 위한 방안을 도출하였으며, 도출된 IUCN 카테고리 시스템을 소백산국립공원에 적용해 봄으로써 동 시스템의 적용가능성을 검토하였다. 우리나라 보호지역에 IUCN 카테고리 시스템 채택을 위해 고려해야 할 사항으로는 보호지역 관리목적에 있어 (1)원생지 보호 개념, (2)자원의 지속가능한 이용, (3)문화적 전통적 특성 유지 등에 대해서 우리나라 특성에 맞는 유연한 접근이 필요한 것으로 나타났다. 또한 용도지역 면적 및 용도지구별 행위규제 내용에 대한 고려, IUCN 카테고리 별 이용유형의 상대적 비교(탐방, 자원이용, 거주), 복합적 분류의 활용 등이 필요할 것으로 판단된다. 이를 고려할 때, 우리나라의 보호지역에 대한 IUCN 카테고리의 적용원칙으로는 (1)원생지 개념의 보호지역(Ib) 적용 배제, (2)자연자원의 지속가능한 이용에 있어 극히 제한적 이용(자연보존지구, 자연환경지구의 합이 95%이상) 개념 고려, (3)거주민 점유 수준 등 관리여건 고려, (4)생태계 서비스 유지 개념 고려, (5)복합적 분류 활용을 선택할 수 있다. 이 원칙에 따라 IUCN 카테고리 적용 분류키를 소백산 국립공원에 적용하면, 소백산 국립공원은 IUCN 카테고리 II에 적합하고, 소백산 국립공원 내 천연기념물로 지정되어 있는 주목군락지는 카테고리 Ia 지역이 적합하다. 본 연구에서 제안한 보호지역의 분류키는 향후 보호지역의 카테고리 적용을 위한 기초자료로 활용될 수 있을 것으로 사료된다. 향후 IUCN 카테고리 채택을 통한 보호지역의 효율적 관리를 위해서는 카테고리별 차별화된 관리가 가능하도록 각 카테고리의 보전 목적에 적합한 법제도에 대한 검토와 관리수단에 대한 연구가 필요할 것이다.

  • PDF

협업필터링 기법을 이용한 모바일 광고 추천 시스템 (Using collaborative filtering techniques Mobile ad recommendation system)

  • 김은숙;윤성대
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2012년도 추계학술대회
    • /
    • pp.3-6
    • /
    • 2012
  • 최근 모바일 시장이 급속도로 성장함에 따라, 현대인들은 컴퓨터가 가지는 여러가지 제약들을 극복하여 원하는 정보를 빠르게 얻을 수 있는 수단으로 모바일 컨텐츠 사용이 늘고 있다. 그러나 광범위한 콘텐츠의 추천으로 콘텐츠의 선택에 있어 많은 시간이 소요된다. 이러한 문제점을 해결하기 위해 사용자가 원하는 콘텐츠를 예측하여 정확하게 추천해 줄 수 있는 시스템이 필요하다. 본 논문에서는 이러한 사용자들의 요구에 맞추어 원하는 컨텐츠를 제공하기 위하여 협업필터링을 이용하여 추천의 선택 횟수를 높일 수 있는 방법을 제시한다. 첫번째 단계에서 대분류로 카테고리를 구분하여 목표고객과 사용자간의 유사도를 구하고, 최근접 이웃을 구성하여 대분류 카테고리간 선호도 예측값을 구하여 가장 높은 대분류 카테고리를 목표고객에게 추천한다. 두 번째 단계에서 소분류 카테고리 간 선호도 예측값을 구하여 가장 높은 소분류 카테고리를 목표고객에게 추천한다. 실험에서 대분류 카테고리 기반 협업필터링으로 모바일 컨텐츠를 추천하고, 소분류 카테고리 기반 협업필터링으로 모바일 컨텐츠를 추천해 두 가지 방법의 결과를 비교하여 소분류 카테고리 기반 협업필터링의 방법이 선택 횟수가 높다는 것을 검증하였다.

  • PDF

감성 개념을 이용한 웹 이미지 검색 결과 분류 (Categorizing Web Image Search Results Using Emotional Concepts)

  • 김영래;권경수;신윤희;김은이
    • 한국HCI학회:학술대회논문집
    • /
    • 한국HCI학회 2009년도 학술대회
    • /
    • pp.562-566
    • /
    • 2009
  • 영상 검색에서 보다 빠르고 정확한 결과를 제공하기 위해 많은 시스템들은 결과내 재검색을 위한 카테고리 내 검색을 제공하고 있다. 이를 위해, 본 논문에서는 감성 카테고리를 사용하여 영상을 분류하는 시스템을 제안한다. 제안된 시스템은 영상에 포함된 컬러와 패턴 정보를 가지고 감성 벡터를 추출하여, 각 영상을 8 개의 감성 카테고리로 분류한다. 이때, 감성 카테고리는 고바야시가 정의한 8 개의 어휘 {romantic, natural, casual, elegant, chic, classic, dandy, modern}를 사용한다. 질의에 대한 결과가 주어지면, 사용자는 선택한 감성 카테고리로 재분류된 영상들을 제공받을 수 있다. 제안된 시스템의 성능을 평가하기 위하여 야후 이미지 검색에서 수집된 풍경 영상 1,000 장으로 사용자 평가를 실시하였으며 이를 통해 제안된 시스템의 성능을 증명하였다.

  • PDF

사용자의 소셜 카테고리를 이용한 유튜브 동영상 추천 알고리즘 (The YouTube Video Recommendation Algorithm using Users' Social Category)

  • 유소엽;정옥란
    • 정보과학회 논문지
    • /
    • 제42권5호
    • /
    • pp.664-670
    • /
    • 2015
  • 인터넷과 스마트폰의 발전과 함께 소셜 미디어 공유 사이트인 유튜브도 크게 성장하여 수많은 동영상을 공유하는 사이트가 됐다. 사용자들이 유튜브를 통해 동영상을 공유하면서 소셜 데이터를 만들어내고, 많은 동영상들 중에서 본인의 관심사가 반영된 동영상 추천을 원하게 된다. 본 논문에서는 유튜브 데이터를 이용하여 사용자의 사회적 관계와 유튜브의 특징이 반영된 소셜 카테고리 분류 목록을 기반으로 사용자의 소셜 카테고리를 추출한다. 우리는 좀 더 정확하고 의미있는 추천을 위해 추출된 사용자 소셜 카테고리를 이용한 유튜브 동영상을 추천하는 알고리즘을 제안하였다. 또한 실험을 통해 그 유효성을 검증하였다.

토픽 기반의 트윗 분류를 위한 해시태그 분석 기법 (Hashtag Analysis Scheme for Topic based Tweet Categorization)

  • 김용성;전상훈;유제혁;황인준
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2014년도 추계학술발표대회
    • /
    • pp.737-740
    • /
    • 2014
  • 최근 SNS 사용자가 급증하면서 매우 다양하고 방대한 양의 글이 여러 종류의 SNS를 통해 생성되고 있다. 그중 트위터는 정보의 전달 및 확산에 상당히 유용한 도구로 사용되고 있다. 이러한 트위터의 사용자 트윗은 뉴스, 음악, 사진, 여행 등 다양한 형태로 등장한다. 또한 트위터는 해시태그라는 사용자 정의 태그를 사용하는데 이는 트윗의 키워드 및 핵심을 쉽게 표현할 수 있도록 해주는 효과적인 수단이다. 최근 상당히 많은 양의 트윗의 생성에도 불구하고 이를 다양한 카테고리별로 분류할 수 있는 연구가 많이 진행되지 않았다. 따라서 본 논문에서는 해시태그를 이용해 트윗의 핵심을 파악하고 수많은 트윗을 다양한 토픽별로 분류할 수 있는 기법을 제안한다. 우선 다양한 카테고리의 인기 해시태그가 포함된 트윗을 수집하고 수집한 트윗에서 해시태그별 키워드를 추출한다. 그리고 코사인 유사도를 통해 해시태그별 내용 유사도를 파악하여 각 카테고리 내의 해시태그가 얼마나 유사한 내용을 지니고 있는지 파악한다. 마지막으로 사용자 트윗이 입력되면 모든 카테고리와 유사도를 비교하여 가장 유사도가 높은 카테고리를 찾아 추천해준다. 제안된 기법을 바탕으로 프로토타입을 구현하고 실험을 통해 성능을 평가한다.