• 제목/요약/키워드: 검색 가중치

검색결과 400건 처리시간 0.027초

염기문자의 빈도와 위치정보를 이용한 DNA 인덱스구조 (A DNA Index Structure using Frequency and Position Information of Genetic Alphabet)

  • 김우철;박상현;원정임;김상욱;윤지희
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제32권3호
    • /
    • pp.263-275
    • /
    • 2005
  • 대규모 DNA 데이타베이스를 대상으로 원하는 서열을 빠르게 검색하기 위해 인덱싱 기법을 많이 사용하고 있다. 그러나 대부분의 인덱싱 기법은 원래 데이타베이스보다 더 큰 저장공간을 사용하고 DBMS와의 밀 결합이 어렵다는 문제점을 가지고 있다. 본 논문에서는 완전 매치, 와일드카드 매치, k-미스매치와 같은 근사 매치 질의 처리를 위해 작은 공간을 사용하는 디스크 기반의 효율적인 인덱싱 기법과 질의 처리 기법을 제안한다 인덱싱을 위해서 DNA 염기서열에 일정 크기의 슬라이딩 윈도우를 위치시킨 후, 윈도우 내에서 각 문자의 출현 빈도를 이용해 서명을 추출해서 R*-트리와 같은 다차원 공간 인덱스에 저장한다. 특히 윈도우 내의 각 위치에 따라서 가중치를 줌으로써 서명들이 인덱스 공간에 집중되는 현상을 억제한다. 제안된 질의 처리방법은 질의 시퀀스를 다차원 사각형으로 변환하고 그 사각형과 중첩되는 서명들을 인덱스로부터 찾아낸다 제안된 방법을 실제 생물학자들이 사용하는 데이타를 이용해 실험한 결과 서픽스 트리 기반의 방법에 비해서 완전 매치인 경우 3배 이상, 와일드카드 매치인 경우 2배 이상, k-미스매치인 경우 수십 배 이상의 성능향상을 보였다.

이벤트와 관련된 주변 관광지 자동 추천 알고리즘 개발 (Automatic Recommendation of Nearby Tourist Attractions related to Events)

  • 안진현;임동혁
    • 한국산학기술학회논문지
    • /
    • 제21권3호
    • /
    • pp.407-413
    • /
    • 2020
  • 관광객이 관광 도중에 각종 문화제, 전시회, 공연 등의 이벤트에 참여하는 경우가 있다. 관광객이 이벤트에 참여 후 다음 관광지를 결정하게 되는데, 관광지 정보를 얻을 수 있는 수단은 지도 서비스, 블로그와 같은 소셜네트워크서비스 등이 존재한다. 지도 서비스를 활용하면 관광객이 현재 위치한 장소 주변의 관광지를 쉽게 검색할 수 있다. 이는 위치 기반 관광지 추천으로 활용될 수 있다. 블로그 등은 관광지의 내용을 담고 있기 때문에 관광객이 이벤트의 내용과 관련된 관광지를 찾을 수 있다. 이는 내용 기반 관광지 추천으로 활용될 수 있다. 하지만, 위치 기반 추천의 경우 이벤트의 내용과 관련이 없이 단순히 가까운 관광지가 추천이 될 수 있고, 내용 기반 추천의 경우 거리가 먼 관광지가 추천이 될 수 있는 단점이 있다. 위치와 내용을 모두 고려하는 관광지 추천 서비스는 거의 없다. 본 연구에서는 두 가지 방법의 장점만을 취하기 위해 한국관광공사 LOD(Linked Open Data), 위키피디아, 국어사전 등에 기반하여 위치와 내용을 모두 고려한 관광지 추천 알고리즘을 제시한다. 관광지의 설명글로부터 명사들을 추출한 뒤 다른 관광지의 명사들과 비교를 하여 동일한 명사가 많이 있을수록 내용이 관련이 있다고 판단한다. 정확히 동일한 명사가 없어도 위키피디아에 있는 키워드를 활용하여 관련된 명사가 존재할 경우에도 관련이 있다고 판단한다. 각 관광지의 위도와 경도를 기준으로 거리를 계산한 뒤 사용자가 선택한 가중치로 상기 내용 기반 관련도와 선형결합하여 추천순위를 계산한다.

다중 기계학습 방법을 이용한 한국어 커뮤니티 기반 질의-응답 시스템 (A Korean Community-based Question Answering System Using Multiple Machine Learning Methods)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 논문지
    • /
    • 제43권10호
    • /
    • pp.1085-1093
    • /
    • 2016
  • 커뮤니티 기반 질의 응답 시스템은 사용자 질의에 대한 정답을 인터넷 커뮤니티에 사용자들이 게시했던 문서 중에서 선택하여 제공하는 시스템이다. 기존 방법들은 질의 분석의 성능 향상을 위하여 목적 영역에 적합한 규칙을 구축하거나 일부 처리 과정에 기계 학습을 적용하였다. 하지만 기존 방법들은 적용 영역을 확장하거나 수정하는 경우 많은 비용이 소요되며 경우에 따라서는 시스템이 특정 영역에 과적합되는 경우가 발생한다. 본 논문에서는 커뮤니티 기반 질의-응답 시스템의 효과적인 처리를 위해서 시스템의 각 과정에 적합한 기계 학습 방법을 적용하여 전체 과정을 자동화하는 다중 기계학습 방법을 제안한다. 제안 시스템은 사용자 질의를 분석하는 부분과 정답 문서를 선택하는 부분으로 나눌 수 있다. 질의 분석 과정은 질의의 초점 구문을 분석하는 질의 핵심부 추출기와 질의의 주제를 분류하는 질의 유형 분류기로 구성하였으며, 전자는 조건부 무작위장을 사용하고 후자는 지지 벡터 기계를 사용한다. 정답 문서 선택에서는 유사도 측정에서 사용하는 가중치를 인공 신경망으로 학습한다. 또한 인터넷에 커뮤니티에 게시된 데이터는 형태소 분석 결과를 신뢰할 수 없는 경우가 많이 발생한다. 따라서 음절 자질을 사용하여 질의를 분석 단계에서 형태소 분석의 영향을 최소화하는 방법을 제안한다. 제안하는 시스템은 Mean Average Precision 기준으로 0.765, R-Precision 기준으로 0.872의 성능을 보여 기존 시스템보다 성능이 우수하다.

OECD PISA 자료를 활용한 우리나라 학생들의 ICT 접근 및 활용 수준 추이 분석 (Trend Analysis of ICT Accessibility and Utilization Levels of Korean Students based on OECD PISA Data)

  • 김혜숙;김한성;김진숙;신안나
    • 정보화정책
    • /
    • 제24권4호
    • /
    • pp.17-43
    • /
    • 2017
  • 본 연구의 목적은 OECD PISA 자료를 활용하여 우리나라 학생들의 ICT 접근 및 활용 수준의 변화를 살펴보고 이를 기초로 초 중등학생 ICT 교육의 발전 방향을 탐색하는 것에 있다. 이를 위해, 2009년부터 2015년까지 실시된 OECD PISA 'ICT 친숙도 조사' 공통 문항을 중심으로 우리나라와 OECD 국가 평균의 조사 주기별 추이를 비교 분석하였다. 조사대상은 만 15세 학생이며, 분석 방법은 표집 가중치를 고려하여 각 항목에 대한 응답 비율을 산출하였다. 분석 결과는 다음과 같다. 첫째, 가정에서의 ICT 접근성은 2009년부터 2015년까지 증가하였으나 OECD 평균보다는 지속적으로 낮은 경향을 보였다. 둘째, 인터넷 사용 시간은 OECD 평균보다 낮았으며, 2012년보다 2015년에 주중 인터넷 사용시간은 증가하였으나 주말 인터넷 사용시간은 오히려 감소하였다. 셋째, 학교에서의 ICT 접근성은 2009년부터 2012년까지 감소하다가 2015년에는 증가하는 추세를 보이고 있으나 2015년을 기준으로 OECD 평균보다 낮은 수준을 보였다. 넷째, 학생들의 컴퓨터 최초 활용 나이 비율은 2012년부터 2015년까지 6세 이하를 기준으로 했을 때 증가하는 경향을 보였으나 OECD 평균에 못 미치는 것으로 나타났다. 마지막으로 학생들의 디지털기기 사용은 2012년에서 2015년까지 오락을 위한 인터넷 검색, SNS 활동은 증가폭이 컸으나 이메일, 온라인 채팅, 프로그램 다운로드, 인터넷 뉴스 읽기, 실용적 정보 수집 등 일상적 활용 수준은 오히려 감소하였다. 본 연구는 이러한 결과를 기초로 우리나라 초 중등학생 ICT 교육의 개선을 위한 정책 방안을 제안하였다.

유사어 벡터 확장을 통한 XML태그의 유사성 검사 (Similarity checking between XML tags through expanding synonym vector)

  • 이정원;이혜수;이기호
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제29권9호
    • /
    • pp.676-683
    • /
    • 2002
  • XML(extensible Markup Language)문서가 웹 문서의 표준으로 자리 매김 할 수 있는 가장 큰 성공요인은 사용자가 문서 타입을 기술할 수 있는 유연성(flexibility)이다. 그러나 XML의 유연성으로 야기되는 문제점은 동일한 의미를 표현하기 위해 XML문서 작성자마다 서로 다른 태그명과 구조를 사용한다는 점이다. 즉 서로 다른 태그 집합, 요소(element), 속성(attribute)에 대한 서로 다른 이름 또는 다른 문서 구조로 인해 다른 태그로 표현된 문서는 서로 다른 부류의 문서로 간주되기 쉽다. 따라서 본 논문은 XML태그에 내재된 의미 정보(semantic information)와 구조 정보(structured information)를 추출하여 의미적으로 최대한 유사한 동의어로 확장하고, XML문서의 확장된 태그간의 의미적 유사도를 비교 분석할 수 있는 개념 기반의 태그 패턴 매처(Tag Pattern Matcher)를 설계 구현하였다. 두 XML문서의 태그간의 의미적 유사도에 가중치를 부여하여 기존의 비구조적인(semi-structured) 문서를 위한 벡터 스페이스 모델(vector space model)을 확장함으로써 두 XML문서가 유사한지를 파악할 수 있다.

다중요인모델에 기반한 텍스트 문서에서의 토픽 추출 및 의미 커널 구축 (Multiple Cause Model-based Topic Extraction and Semantic Kernel Construction from Text Documents)

  • 장정호;장병탁
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제31권5호
    • /
    • pp.595-604
    • /
    • 2004
  • 문서 집합 내의 개념 또는 의미 관계의 자동 분석은 보다 효율적인 정보 획득과 단어 이상의 개념 수준에서의 문서간 비교를 가능케 한다. 본 논문에서는 다중요인모델에 기반 하여 텍스트 문서로부터 토픽들을 추출하고 이로부터 의미 커널(semantic kernel)을 구축하여 문서간 유사도를 측정하는 방안을 제시한다. 텍스트 문서는 내재된 토픽들의 다양한 결합에 의해 생성된다고 가정하며 하나의 토픽은 공통 주제에 관련되거나 적어도 자주 같이 나타나는 단어들의 집합으로 정의한다. 다중요인모델은 은닉층을 갖는 하나의 네트워크 형태로 표현되며, 토픽을 표현하는 단어 집합은 은닉노드로부터의 가중치가 높은 단어들로 구성된다. 일반적으로 이러한 다중요인 네트워크에서의 학습과 추론과정을 용이하게 하기 위해서는 근사적 확률 추정 기법이 요구되는데, 본 논문에서는 헬름홀츠 머신에 의한 방법을 활용한다. TDT-2 문서 집합에 대한 실험에서 토픽별로 관련 있는 단어 집합들을 추출할 수 있었으며, 4개의 텍스트 집합에 대한문서 검색 실험에서는 다중요인모델의 분석결과에 기반 한 의미 커널을 사용함으로써 기본 벡터공간 모델에 비해 평균정확도 면에서 통계적으로 유의한 수준의 성능 향상을 얻을 수 있었다.

Analysis of the relationship between service robot and non-face-to-face

  • Hwang, Eui-Chul
    • 한국컴퓨터정보학회논문지
    • /
    • 제26권12호
    • /
    • pp.247-254
    • /
    • 2021
  • 코로나19가 확산되면서 비대면 활동이 요구되었고, 서비스로봇의 활용 분야는 점차 증가되고 있다. 본 논문은 뉴스 빅데이터 분석시스템인 빅카인즈를 활용하여 최근 3년(2018.10~2021.9)간 '서비스로봇 AND 비대면' 키워드가 포함된 키워드 검색을 통하여 코로나19 전후에 서비스로봇의 사용 증가 추세와 비대면과의 연관성을 분석하였다. 그 결과 1차(2018.10~2019.9) 기간에 키워드 빈도수 0건, 2차(2019.10~2020.9) 기간에 52건, 3차(2020.10~2021.9) 기간에는 112건으로 2차 기간에 비하여 115% 증가하였다. 2~3차 기간에 관계도 키워드 트렌드 연관어 분석에서 공통으로 거론되는 키워드로는 코로나19, 인공지능, 산업통상자원부, LG전자이었으며, 코로나19의 가중치가 제일 크게 나타나 분석 키워드에 연관성이 가장 큰 것을 확인할 수 있었다. 코로나19의 확산으로 비대면이 요구되고 정보통신 기술의 발전으로 서비스로봇은 그 활용 분야가 급격하게 증가하고 있다. 이에 따른 비대면 경제를 이끌 서비스 로봇의 상용화를 위하여 안전, 성능 분야의 표준화 및 전문성이 요구되는 인력양성이 시급한 실정이다.

합성곱 신경망의 비지니스 응용: 런웨이 이미지를 사용한 의류 분류를 중심으로 (Business Application of Convolutional Neural Networks for Apparel Classification Using Runway Image)

  • 서이안;신경식
    • 지능정보연구
    • /
    • 제24권3호
    • /
    • pp.1-19
    • /
    • 2018
  • 최근 딥러닝은 오디오, 텍스트 및 이미지 데이터와 같은 비 체계적인 데이터를 대상으로 다양한 추정, 분류 및 예측 문제에 사용 및 적용되고 있다. 특히, 의류산업에 적용될 경우 딥러닝 기법을 활용한 의류 인식, 의류 검색, 자동 제품 추천 등의 심층 학습을 기반으로 한 응용이 가능하다. 이 때의 핵심모형은 합성곱 신경망을 사용한 이미지 분류이다. 합성곱 신경망은 입력이 전달되고 출력에 도달하는 과정에서 가중치와 같은 매개 변수를 학습하는 뉴런으로 구성되고, 영상 분류에 가장 적합한 방법론으로 사용된다. 기존의 의류 이미지 분류 작업에서 대부분의 분류 모형은 의류 이미지 자체 또는 전문모델 착용 의류와 같이 통제된 상황에서 촬영되는 온라인 제품 이미지를 사용하여 학습을 수행한다. 하지만 본 연구에서는 통제되지 않은 상황에서 촬영되고 사람들의 움직임과 다양한 포즈가 포함된 스트릿 패션 이미지 또는 런웨이 이미지를 분류하려는 상황을 고려하여 분류 모형을 훈련시키는 효과적인 방법을 제안한다. 이동성을 포착하는 런웨이 의류 이미지로 모형을 학습시킴으로써 분류 모형의 다양한 쿼리 이미지에 대한 적응력을 높일 수 있다. 모형 학습 시 먼저 ImageNet 데이터셋을 사용하여 pre-training 과정을 거치고 본 연구를 위해 수집된 32 개 주요 패션 브랜드의 2426개 런웨이 이미지로 구성된 데이터셋을 사용하여 fine-tuning을 수행한다. 학습 과정의 일반화를 고려해 10번의 실험을 수행하고 제안된 모형은 최종 테스트에서 67.2 %의 정확도를 기록했다. 본 연구 모형은 쿼리 이미지가 런웨이 이미지, 제품 이미지 또는 스트릿 패션 이미지가 될 수 있는 다양한 분류 환경에 적용될 수 있다. 구체적으로는 패션 위크에서 모바일 어플리케이션 서비스를 통해 브랜드 검색을 용이하게 하는 서비스를 제공하거나, 패션 잡지사의 편집 작업에 사용되어 브랜드나 스타일을 분류하고 라벨을 붙일 수 있으며, 온라인 쇼핑몰에서 아이템 정보를 제공하거나 유사한 아이템을 추천하는 등의 다양한 목적에 적용될 수 있다.

주경로 분석과 연관어 네트워크 분석을 통한 '구전(WoM)' 관련 연구동향 분석 (Analysis of Research Trends of 'Word of Mouth (WoM)' through Main Path and Word Co-occurrence Network)

  • 신현보;김혜진
    • 지능정보연구
    • /
    • 제25권3호
    • /
    • pp.179-200
    • /
    • 2019
  • 구전(Word-of-Mouth) 활동은 오래 전부터 기업의 마케팅 과정에서 중요성을 인식하고 특히 마케팅 분야에서 많은 주목을 받아왔다. 최근에는 인터넷의 발달에 따라 온라인 뉴스, 온라인 커뮤니티 등에서 사람들이 지식과 정보를 주고 받는 방식이 다양해지면서 구전은 후기, 평점, 좋아요 등으로 입소문의 양상이 다각화되고 있다. 이러한 현상에 따라 구전에 관한 다양한 연구들이 선행되어왔으나, 이들을 종합적으로 분석한 메타 분석 연구는 부재하다. 본 연구는 학술 빅데이터를 활용해 구전 관련 연구동향을 알아내기 위해서 텍스트 마이닝 기법을 적용하여 주요 연구들을 추출하고 시기별로 연구들의 주요 쟁점을 파악하는 기법을 제안하였다. 이를 위해서 1941년부터 2018년까지 인용 데이터베이스인 Scopus에서 'Word-of-Mouth'라는 키워드로 검색되는 총 4389건의 문헌을 수집하였고, 영어 형태소 분석과 불용어 제거 등 전처리 과정을 통해 데이터를 정제하였다. 본 연구는 학문 분야의 발전 궤적을 추적하는 데 활용되는 주경로 분석기법을 적용해 구전과 관련된 핵심 연구들을 추출하여 연구동향을 거시적 관점에서 제시하였고, 단어동시출현 정보를 추출하여 키워드 간 네트워크를 구축하여 시기별로 구전과 관련된 연관어들이 어떻게 변화되었는지 살펴봄으로써 연구동향을 미시적 관점에서 제시하였다. 수집된 문헌 데이터를 기반으로 인용 네트워크를 구축하고 SPC 가중치를 적용하여 키루트 주경로를 추출한 결과 30개의 문헌으로 구성된 주경로가 추출되었고, 연관어 네트워크 분석을 통해서는 시기별로 온라인 시대, 관광 산업 등 다양한 산업군 등 산업 변화가 반영돼 시대적 변화와 더불어 발전하고 있는 학술적 영역의 변화를 확인할 수 있었다.

노인의 식생활지침 실천 평가도구 개발 (Development of an evaluation tool for dietary guideline adherence in the elderly)

  • 임영숙;오지수;김혜영
    • Journal of Nutrition and Health
    • /
    • 제57권1호
    • /
    • pp.1-15
    • /
    • 2024
  • 한국인을 위한 식생활지침은 건강한 식생활을 위한 가이드로 활용되는데, 식생활지침에 대한 세부 항목이 제시되지 않아서 지침에 대한 실천도를 자세히 평가하기는 어렵다. 따라서 본 연구는 식생활지침 실천도를 평가할 수 있는 세부 항목들을 선별하여 지침 실천도를 평가하는 평가도구를 만들고자 수행되었다. 노인의 식생활지침 실천 평가도구 개발을 위하여 문헌검토와 전문가 자문을 거쳐 총 35개의 평가 후보 항목을 추출하고, 전국단위 5개 지역의 남녀 노인 800명 (남 400명, 여 400명)을 대상으로 설문조사를 수행하였다. 식생활지침의 세 가지 영역별로 후보 항목에 대한 탐색적 요인분석으로 평가도구에 사용될 항목을 선별하고, 확인적 요인분석을 수행하여 구성타당도를 검증하였다. 구조방정식 모형의 경로계수를 활용하여 항목별 가중치를 부여하여 식생활지침 실천 점수를 계산하고, 전국조사 결과를 바탕으로 평가도구의 등급 체계를 마련하였다. 본 연구에서 개발된 노인 식생활지침 실천 평가도구는 총 28개 항목으로 식품섭취 영역 13항목, 식생활습관 영역 7항목, 환경을 생각하는 식생활 문화 영역 8항목으로 구성되었다. 식품섭취 영역에는 신선 생채소, 황색채소, 생과일, 콩·견과류, 생선·해산물, 고기·달걀 섭취, 우유·유제품, 잡곡 섭취, 물, 다양한 식품군 섭취, 육류 가시지방 제거, 단 음료, 염장 식품 섭취 항목이 포함되었고, 식생활습관 영역에는 건강체중 유지, 활동량 증가 노력, 운동, 과식정도, 과음빈도, 아침식사 빈도, 식사의 규칙성 항목이 포함되었다. 환경을 생각하는 식생활문화 영역에는 조리 및 음식 먹기 전 손 씻기, 유통기한 (소비기한) 확인, 개인 접시에 덜어 먹기 실천, 냉장고에 보관한 음식 덜어 먹기, 제철음식 섭취, 지역 농산물 이용, 식품 원산지 확인, 음식물 쓰레기 줄이기가 포함되었다. 전국설문조사 노인 (n = 800)의 식생활지침 실천 평균 점수는 56.9점이었고, 식품섭취 영역 49.8점, 식생활습관 영역 63.2점 그리고 식생활문화 영역은 58.6점이었다. 식생활지침 실천 점수는 기 개발된 노인 영양지수 및 식품정보이해력 점수와도 유의한 상관성을 보여서 식생활지침 실천 평가 도구가 식품섭취와 식행동 뿐만 아니라 지속가능한 식생활 실천 부분도 잘 반영한다는 것을 확인할 수 있었다. 앞으로 노인 맞춤형 식생활지침 실천 평가 도구가 노인들의 식품섭취, 식생활습관 및 식생활문화 영역를 종합적으로 평가하는 쉽고 간편한 검색 평가 도구로 활발하게 활용될 것으로 기대된다.