• Title/Summary/Keyword: search word

Search Result 379, Processing Time 0.026 seconds

지능형 검색엔진을 위한 색상 질의 처리 방안 (Color-related Query Processing for Intelligent E-Commerce Search)

  • 홍정아;구교정;차지원;서아정;여운영;김종우
    • 지능정보연구
    • /
    • 제25권1호
    • /
    • pp.109-125
    • /
    • 2019
  • 지능형 전자상거래 검색 엔진에 대한 관심이 커지면서, 검색 상품의 특징을 지능적으로 추출하고 활용하기 위한 연구들이 수행되고 있다. 특히 전자상거래 지능형 검색 엔진에서 상품을 검색 할 때, 제품의 색상은 상품을 묘사하는 중요한 특징 중에 하나이다. 따라서 사용자의 질의에 정확한 응답을 위해서는 사용자가 검색하려는 색상과 그 색상의 동의어 및 유의어에 대한 처리가 필요하다. 기존의 연구들은 색상 특징에 대한 동의어 처리를 주로 사전 방식으로 다뤄왔다. 하지만 이러한 사전방식으로는 사전에 등록되지 않은 색상 용어가 질의에 포함된 경우 처리하지 못하는 한계점을 가지고 있다. 본 연구에서는 기존에 사용하던 방식의 한계점을 극복하기 위하여, 실시간으로 인터넷 검색 엔진을 통해 해당 색상의 RGB 값을 추출한 후 추출된 색상정보를 기반으로 유사한 색상명들을 출력하는 모델을 제안한다. 본 모델은 우선적으로 기본적인 색상 검색을 위해 671개의 색상명과 각 RGB값이 저장된 색상 사전을 구축하였다. 본 연구에서 제시한 모델은 특정 색상을 검색하는 것으로 시작하며, 검색된 색상이 색상 사전 내 존재하는 지 유무를 확인한다. 사전 내에 검색한 색상이 존재한다면, 해당 색상의 RGB 값이 기준 값으로 사용된다. 만일 색상사전 내에 존재하지 않는다면, Google 이미지 검색 결과를 크롤링하여 각 이미지의 특정 영역 내 RGB값들을 군집화하여 구한 평균 RGB값을 검색한 색상의 기준 값으로 한다. 기준 RGB값을 앞서 구축한 색상 사전 내의 모든 색상의 RGB 값들과 비교하여 각 R, G, B 값에 있어서 ${\pm}50$ 내의 색상 목록을 정렬하고, RGB값 간의 유클리디안 거리 유사도를 활용하여 최종적으로 유사한 색 상명들을 출력한다. 제안 방안의 유용성을 평가하기 위해 실험을 진행하였다. 피설문자들이 생각하는 300 개의 색상 이름과 해당 색상 값을 얻어, 본 연구에서 제안한 방안을 포함한 총 네가지 방법을 통해 얻은 RGB 값들과 피설문자가 지정한 RGB값에 대한 비교를 진행했다. 인간의 눈을 반영하는 측정 기준인 CIELAB의 유클리드안거리는 평균 13.85로 색상사전만을 활용한 방안의 30.88, 한글 동의어사전 사이트인 워드넷을 추가로 활용한 방안의 30.38에 비해 비교적 낮은 색상 간의 거리 값을 보였다. 연구에서 제시하는 방안에서 군집화 과정을 제외한 방안의 색 차는 13.88로 군집화 과정이 색 차를 줄여준다는 것을 확인할 수 있었다. 본 연구에서는 기존 동의어 처리 방식인 사전 방식이 지닌 한계에서 벗어나기 위해, 사전 방식에 새로운 색상명에 대한 실시간 동의어 처리 방식을 결합한 RGB값 기반의 새로운 색상 동의어 처리 방안을 제안한다. 본 연구의 결과를 활용하여 전자상거래 검색 시스템의 지능화에 크게 기여할 수 있을 것이다.

모바일 사용자의 성별 예측을 위한 식별 및 인기 단어 집합 기반 2단계 기기 내 분석 (A Two-Phase On-Device Analysis for Gender Prediction of Mobile Users Using Discriminative and Popular Wordsets)

  • 최예림;박규연;김소이;박종헌
    • 한국전자거래학회지
    • /
    • 제21권1호
    • /
    • pp.65-77
    • /
    • 2016
  • 모바일 기기 데이터를 활용한 분석에서 사용자의 프라이버시를 보호하는 것이 주요한 이슈로 대두됨에 따라 데이터를 외부로 전송하지 않고 모바일 기기 안에서 분석을 수행하는 기기내 분석이 주목 받고 있다. 기기 내 분석을 활용하면 문자 메시지, 검색 단어, 북마크, 연락처등 매우 개인적이지만 성별 구분에 효과적이라고 알려진 모바일 텍스트를 이용한 성별 예측이 가능하며, 사전에 선정된 단어들의 집합을 모바일 기기로 전송하여 이 단어들과 모바일 텍스트를 비교를 통해 성별을 예측하는 단어 비교 방식을 이용하면 모바일 기기의 제한된 자원 문제를 극복할 수 있다. 특히, 확실한 근거를 이용하여 필터링 한 후 예측을 수행하면 정확도를 극대화하고 복잡도를 낮출 수 있다. 따라서 본 논문에서는 단어의 식별력과 인기도를 순차적으로 고려하는 2단계의 기기 내 성별 예측 방법을 제안한다. 구체적으로, 제안하는 방법론은 소수의 높은 식별력을 가지는 단어를 이용하여 전체 사용자의 성별을 예측하고 이어서 인기도가 높은 단어를 활용하여 앞서 예측이 되지 않은 사용자의 성별을 예측한다. 실제 데이터를 이용한 실험에서 제안하는 방법론은 비교 방법론보다 우수한 성능을 나타내었다.

전통문화 콘텐츠 표준체계를 활용한 자동 텍스트 분류 시스템 (A System for Automatic Classification of Traditional Culture Texts)

  • 허윤아;이동엽;김규경;유원희;임희석
    • 한국융합학회논문지
    • /
    • 제8권12호
    • /
    • pp.39-47
    • /
    • 2017
  • 한국 문화의 역사, 전통과 관련된 디지털 웹 문서가 증가하게 되었다. 하지만 창작자 또는 전통 문화와 관련된 소재를 찾는 사용자들은 정보를 검색해도 결과가 충분하지 않았으며 원하는 정보를 얻지 못하는 경우가 나타나고 있다. 이런 효과적인 정보를 접하기 위해서는 문서 분류가 필요하다. 과거에 문서 분류는 작업자가 수작업으로 문서 분류하여 시간과 비용이 많이 소비하는 어려움이 있었지만, 최근 기계학습 기반으로 한 자동 문서 분류를 통해 효율적인 문서 분류가 이루어진다. 이에 본 논문은 전통문화 콘텐츠를 체계적인 분류체계로 구성한 한민족정보문화마당 데이터를 기반으로 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발한다. 본 연구는 한민족정보문화마당 텍스트 데이터에 대해 단어 빈도수를 추출하기 위해 TF-IDF모델, Bag-of-Words 모델, TF-IDF/Bag-of-Words를 결합한 모델을 적용하여 각각 SVM 분류 알고리즘을 사용하여 전통문화 콘텐츠 자동 텍스트 분류 모델을 개발하여 성능평가를 확인하였다.

사회학 분야의 연구데이터 특성과 지적구조 규명에 관한 연구 (An Investigation on Characteristics and Intellectual Structure of Sociology by Analyzing Cited Data)

  • 최형욱;정은경
    • 정보관리학회지
    • /
    • 제34권3호
    • /
    • pp.109-124
    • /
    • 2017
  • 여러 학문 분야에서 데이터의 공유와 재이용에 관한 관심이 증가하고 있다. 실제로 다른 연구자의 데이터를 다시 연구에 사용하고 인용을 부여하는 관행이 서서히 자리를 잡아가고 있다. 이러한 변화를 반영하여 톰슨로이터는 Data Citation Index(DCI)라는 데이터인용 색인 데이터베이스 서비스를 2012년부터 제공하기 시작하였다. DCI는 모든 학문의 전 영역에서 데이터의 인용 현황을 저널의 논문과 유사하게 집계한다. 본 연구에서는 데이터인용이 활발한 사회학 분야의 인용된 연구데이터를 분석하여 해당 분야의 특성과 지적구조를 규명하고자 하였다. 이를 위해 논문인용을 기반으로 한 사회학 분야의 지적구조와 비교하였으며, 사회학 분야의 연구데이터의 특성과 고유한 지적구조를 살펴보고자 하였다. 분석을 위한 데이터는 두 종류로 수집하였다. 첫째는 DCI에서 'Sociology'로 주제 검색을 수행하여 총 8,365건의 인용된 데이터를 수집하였다. 둘째로, 논문 인용 분석과의 비교를 위해서 Web of Science에서 'Sociology'로 주제 검색을 수행하여 총 12,132건의 데이터를 수집하였다. 이 두 데이터를 활용하여 저자키워드 동시출현단어 분석을 수행한 결과, 데이터를 기반으로 한 사회학 분야는 2영역 15군집으로 구성된 반면, 논문을 기반으로 한 사회학 분야는 3영역 17군집으로 나타났다. 내용적인 특성을 살펴보면, 전통적으로 사회학의 지적구조를 나타낸다고 볼 수 있는 논문 기반 사회학과 달리 사회학 분야의 연구데이터는 의학 분야와의 활발한 접목을 찾아볼 수 있으며, 그 중에서도 공중보건과 심리학이 중심 영역인 것으로 나타났다.

소셜데이터 분석 및 인공지능 알고리즘 기반 범죄 수사 기법 연구 (Artificial Intelligence Algorithms, Model-Based Social Data Collection and Content Exploration)

  • 안동욱;임춘성
    • 한국빅데이터학회지
    • /
    • 제4권2호
    • /
    • pp.23-34
    • /
    • 2019
  • 최근 디지털 플랫폼을 활용한 민생 위협 범죄는 '15년 약 14만여 건, '16년 약 15만여 건 등 사이버범죄 지속 증가 추이이며 전통적인 수사기법을 통한 온라인 범죄 대응에 한계가 있다고 판단되고 있다. 현행 수기 온라인 검색 및 인지 수사 방식만으로는 빠르게 변화하는 민생 위협 범죄에 능동적으로 대처 할 수 없으며, 소셜 미디어 특성상 불특정 다수에게 게시되는 콘텐츠로 이루어 졌다는 점에서 더욱 어려움을 겪고 있다. 본 연구는 민생 침해 범죄가 발생하는 온라인 미디어의 특성을 고려한 콘텐츠 웹 수집 방식 중 사이트 중심의 수집과 Open API를 통한 방식을 제시한다. 또한 불법콘텐츠의 특성상 신속히 게시되고 삭제되며 신조어, 변조어 등이 다양하고 빠르게 생성되기 때문에 수작업 등록을 통한 사전 기반 형태소 분석으로는 빠른 인지가 어려운 상황이다. 이를 해소 하고자 온라인에서 벌어지는 민생 침해 범죄를 게시하는 불법 콘텐츠를 빠르게 인지하고 대응하기 위한 데이터 전처리인 WPM(Word Piece Model)을 통하여 기존의 사전 기반의 형태소 분석에서 토크나이징 방식을 제시한다. 데이터의 분석은 불법 콘텐츠의 수사를 위한 지도학습 기반의 분류 알고리즘 모델을 활용, 투표 기반(Voting) 앙상블 메소드를 통하여 최적의 정확도를 검증하고 있다. 본 연구에서는 민생경제를 침해하는 범죄를 사전에 인지하기 위하여 불법 다단계에 대한 사례를 중심으로 분류 알고리즘 모델을 활용하고, 소셜 데이터의 수집과 콘텐츠 수사에 대하여 효과적으로 대응하기 위한 실증 연구를 제시하고 있다.

  • PDF

비지도학습 기반의 행정부서별 신문기사 자동분류 연구 (A Study on Automatic Classification of Newspaper Articles Based on Unsupervised Learning by Departments)

  • 김현종;유승의;이철호;남광우
    • 한국산학기술학회논문지
    • /
    • 제21권9호
    • /
    • pp.345-351
    • /
    • 2020
  • 행정기관은 정책 대응성을 제고하기 위해 빅데이터 분석에 관심을 기울이고 있다. 빅데이터 중 뉴스 기사는 정책 이슈와 정책에 대한 여론을 파악하는데 중요한 자료로 활용될 수 있다. 한편으로 새로운 온라인 매체의 등장으로 뉴스 기사의 생산은 급격히 증가하고 있어 문서 자동분류를 통해 기사를 수집할 필요가 있다. 그러나 기존 뉴스 기사의 범주와 키워드 검색방법으로는 특정 행정기관 및 부서별로 업무에 관련된 기사를 자동적으로 수집하는 것에 한계가 있었다. 또한 기존의 지도학습 기반의 분류 기법은 다량의 학습 데이터가 필요한 단점을 가지고 있다. 이에 본 연구에서는 행정부서의 업무특징을 포함한 분류사전을 활용하여 기사의 분류를 효과적으로 처리하기 위한 방법을 제안한다. 이를 위해 행정 기관의 업무와 신문기사를 Word2Vec와 토픽모델링 기법으로 부서별 특징을 추출하여 분류사전을 생성하고, 행정 부서별로 신문기사를 자동분류 한 결과 71%정도의 정확도를 얻었다. 본 연구는 행정부서별 신문기사를 자동분류하기 위해 부서별 업무 특징 추출 방법과 비지도학습 기반의 자동분류 방법을 제시하였다는 학문적·실무적 기여점이 있다.

디자인 지식창출을 위한 검색시스템 구축

  • 임옥수;오민권;정인수;유의상
    • 디자인학연구
    • /
    • 제16권1호
    • /
    • pp.35-44
    • /
    • 2003
  • 오늘날은 유용한 정보의 확보 및 이용이 경쟁의 중요한 원천이었던 과거 정보화시대와는 달리 정보를 토대로 새로운 지식을 창출하여 현장에 적용하는 지식정보화(지식경영) 시대이다. 이 같은 지식정보화 시대에는 누구나 인터넷을 기반으로 하는 검색서비스를 이용하여 필요한 자료 및 정보를 손쉽게 얻을 수 있기 때문에 더 이상 단순한 정보의 획득이 개인, 기업, 국가의 경쟁력이 될 수 없게 되었다. 이러한 지식정보화라는 시대적 요구는 사회 각 분야에서 지식경영 시스템(Knowledge Management System) 등을 통해 급속도로 변화되고 있으며 여러 학문분야에서도 활발한 연구가 진행되고 있으나 디자인분야는 아직까지 일반적인 디자인 자료에 대한 단편(일차원)적인 검색서비스 수준에 머물러 있는 실정이다. 이에 본 연구에서는 가전제품, 생활용품, 의류제품, 식료품관련 회사들의 각 제품에 대한 CI/BI에 대해서 형태, 색상, 심미적 요소, 선호 이미지 언어, 만족도 등을 조사한 자료를 데이터베이스를 구축하고 이를 바탕으로 디자이너가 새로운 제품에 대한 CI/BI 작업을 수행하는데 있어 유용한 자료 및 정보를 얻을 수 있는 검색 시스템을 제안하였다. 특히, 제안된 시스템은 디자이너가 특정 BI/CI를 개발해야 하는 경우 기존 BI/CI에 대한 다양한 검색결과는 유용한 디자인 컨셉을 제공할 것이다. 또한 기존 디자인에 대한 디자인요소(형태, 색상, 심미적 요소, 선호 이미지 언어)들의 이차원 범주형자료 분석결과인 분할표(Cross Table)는 디자이너가 새로운 디자인지식을 창출하는데 기여할 것이다.

  • PDF

스택-포인터 네트워크와 부분 트리 정보를 이용한 한국어 의존 구문 분석 (Korean Dependency Parsing Using Stack-Pointer Networks and Subtree Information)

  • 최용석;이공주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제10권6호
    • /
    • pp.235-242
    • /
    • 2021
  • 본 연구에서는 포인터 네트워크 모델을 의존 구문 분석에 맞게 확장한 스택-포인터 네트워크 모델을 이용하여 한국어 의존 구문 분석기를 구현한다. 스택-포인터 네트워크 모델 기반 의존 구문 분석기는 인코더-디코더로 구성되어 있으며 다른 의존 구문 분석기와 달리 내부 스택을 갖고 있어 루트부터 시작하는 하향식 구문 분석이 가능하다. 디코더의 각 단계에서는 의존소를 찾기 위해 부모 노드뿐만 아니라 이미 파생된 트리 구조에서 조부모와 형제 노드를 참조할 수 있다. 기존 연구에서는 단순하게 해당 노드들의 합을 계산하여 입력으로 사용하였고, 형제 노드의 경우에는 가장 최근에 방문했던 것만을 사용할 수 있었다. 본 연구에서는 그래프 어텐션 네트워크를 도입하여 이미 파생된 부분 트리를 표현하고 이를 스택-포인터 네트워크의 입력으로 사용하도록 구문 분석기를 수정한다. 세종 코퍼스와 모두의 코퍼스를 대상을 실험한 결과 레이어 2의 그래프 어텐션 네트워크를 이용하여 부분 트리를 표현했을 때 특히 문장 단위의 구문 분석 정확도에서 많은 성능 향상을 확인할 수 있었다.

텍스트 마이닝을 적용한 사회서비스원 언론보도기사 분석 (An Analysis on Media Trends in Public Agency for Social Service Applying Text Mining)

  • 박해긍;윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권2호
    • /
    • pp.41-48
    • /
    • 2022
  • 본 연구는 사회서비스원과 관련한 국내 언론보도기사를 주요 원자료로 삼고, 기사에 내재된 주요 키워드 및 토픽을 분석하여 사회서비스원과 관련한 이슈, 즉 사회적 인식이 어떻게 형성되었는지를 실증적으로 탐색하고자 하였다. 본 연구는 사회서비스원에 관한 사회 전반적인 인식 및 동향을 여론을 통해 파악한다는 점에서 의의가 있다. 언론동향의 데이터를 추출하기 위해 검색은 빅테이터 분석 시스템인 텍스톰을 사용하여 대표적 포털인 네이버 뉴스와 다음 뉴스에서 자료를 수집하였다. 수집된 기사는 2020년도 1,299개, 2021년도 총 1,410로, 총 2,709개였다. 분석결과로 첫째, 텍스트 출현빈도와 관련해서 가장 많이 도출된 단어는 '사회서비스원', '설립', '운영' 등으로 주로 사회서비스원의 설립과 관련한 내용이 주를 이루고 있었다. 둘째, N-gram분석결과 사회서비스원과 직접 관련된 단어의 쌍(pairs)은 '사회서비스원과 공공', '사회서비스원과 개원', '사회서비스원과 출범', '사회서비스원과 원장', '사회서비스원과 직원', '사회서비스원과 돌봄종사자' 등으로 나타났다. 셋째, TF-IDF 분석결과 및 단어 네트워크 분석결과에서는 단어출현빈도와 N-gram의 결과와 유사하게 '설립', '운영', '공공', '출범', '제공', '개원', '개최', '돌봄' 등의 결과가 도출되었다. 상기분석결과를 통해 긴급돌봄지원단의 강화, 구체적인 사업화, 일자리의 안정화 등을 제언하였다.

주자학(朱子學)에 있어서 군(君)·신(臣)·민(民) 관계 (The King-Vassal-Subject Relation in Neo-Confucianism)

  • 이상익
    • 한국철학논집
    • /
    • 제27호
    • /
    • pp.167-196
    • /
    • 2009
  • 주자학에 있어서 군(君)·신(臣)·민(民)의 관계에 대해, 본고에서는 '군(君)·신(臣)·민(民)의 위상'과 '군(君)·신(臣)·민(民)의 소통'이라는 두 맥락으로 대별하여 논하였다. '군(君)·신(臣)·민(民)의 위상'에 있어서는 주자학의 주권론과 통치권론을 살펴보았다. 주자는 주관(主權)의 차원에서 보자면 민(民)이 귀(貴)하고 군(君)이 경(輕)하나, 통치권(統治權)의 차원에서 보자면 군(君)이 귀(貴)하고 민(民)은 경(輕)하다고 보았다. 주자는 이 두 주장은 차원을 달리 하며 양립하는 것으로, 결코 모순이 아니라고 보았다. 주자는 통치권의 운용에 있어서는 군주권(君主權)·재상권(宰相權)·간관권(諫官權)으로 분립시켜 서로 견제하도록 하는 것이 바람직하다고 보았다. 주자가 권력분립을 옹호한 까닭은, 국가는 한 사람만의 힘으로는 다스릴 수 없다는 점과 상호 견제를 통하여 통치권이 공정하게 운용될 수 있다는 점에 있었다. '군(君)·신(臣)·민(民)의 소통'에 있어서는 주자학의 감응론(感應論)과 공론론(公論論)을 살펴보았다. 감응론은 '덕치(德治)를 통한 도덕적 감응'과 '여민동락(與民同樂)을 통한 정서적 감응'을 두 축으로 삼는다. 공론론은 '군(君)·신(臣)·민(民)의 의사의 소통'과 그 공정한 수렴을 지향하는 것이다. 주자는 공론(公論)을 '천리(天理)에 따르고 인심(人心)에 부합하여, 천하의 모든 사람들이 함께 옳게 여기는 것'이라고 정의했다. 주자는 천리(天理)와 민심(民心)이 접맥되는 지점에서 공론(公論)의 이론적 근거를 발견하고, 공론(公論)에 공동선(共同善)의 추구라는 의미를 부여했던 것이다. 주자는 공론을 구현할 수 있는 제도적 장치들로서 언로(言路)의 개방과 언론(言論)의 자유를 역설하고, 공론의 주도자로서 간관(諫官)의 역할을 중시했다.