• 제목/요약/키워드: 질의 빈도

검색결과 849건 처리시간 0.026초

정보 검색에서 질의문 길이에 대한 가중치와 질의어 출현 빈도 가중치 적용 (Applying the Weight for Query Length and the Frequency of Query Term to Information Retrieval)

  • 강승식;전영진
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2005년도 춘계학술발표대회
    • /
    • pp.763-766
    • /
    • 2005
  • 정보검색 시스템에서 긴 문장으로 질의가 들어올 경우 질의문의 길이와 시스템이 정답이라고 판단한 문서에서 질의문을 분석하여 추출한 질의어들이 출현한 빈도수를 가중치로 준다면 좀더 정확한 결과를 보일 수 있을 것이라 가정하였다. 즉 벡터 모델을 이용하여 문서와 질의와의 유사도를 계산하고 여기에 질의문의 길이에 대한 가중치와 유사도를 이용하여 얻은 결과 문서에서 질의문을 분석하여 얻은 질의 용어들의 출현 빈도에 대한 가중치를 적용하는 방법을 제안하였다.

  • PDF

DNA 서열의 위치 정보를 이용한 효율적인 유사성 검색 알고리즘 (An Efficient Algorithm for Similarity Search using Positional Information of DNA Sequences)

  • 정인선;박경욱;임형석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2005년도 가을 학술발표논문집 Vol.32 No.2 (1)
    • /
    • pp.970-972
    • /
    • 2005
  • 유전자 데이터베이스의 서열의 길이가 수백만에서 수백억 정도의 대용량 텍스트이기 때문에 기존의 Smith-waterman 알고리즘으로 정확한 서열의 유사성을 검색하는 것은 매우 비효율적이다. 따라서 빠른 유사성 검색을 위해 데이터베이스에 저장된 문자열에 대해 특정 길이의 모든 부분문자열에 나타나는 문자의 출현 빈도를 이용한 휴리스틱 방법들이 제안되었다. 이러한 방법들은 질의 서열과 일치될 가능성이 높은 후보들만을 추출한 후 이들 각각에 대하여 질의 서열과의 일치 여부를 조사하므로 빠르게 유사성 검색을 할 수 있다. 그러나 이 방법은 문자의 출현 빈도만을 사용하므로 서로 다른 서열을 같은 서열로 취급하는 단점이 있어 정확도가 Smith-Waterman 알고리즘에 비해 떨어진다. 본 논문에서는 문자가 부분문자열에 나타나는 위치 정보를 포함하여 문자의 출현빈도를 인덱싱함으로써 질의 처리를 효율적으로 수행하는 알고리즘을 제안한다. 실험결과 제안된 알고리즘은 문자 빈도만을 사용하는 알고리즘에 비해 $5\~15\%$정도 정확성이 향상되었다.

  • PDF

유사계수에 따른 전역적 질의확장 검색 성능 비교 (Comparing the Performance of Global Query Expansion according to Similarity Measures)

  • 이재윤
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.526-528
    • /
    • 2003
  • 공기빈도를 이용한 전역적 질의확장 검색에서 공기유사도를 판정하는데 이용되는 유사계수의 특성에 따른 질의확장 성능을 비교해보았다. 먼저 각 유사계수의 통계적인 특성을 말뭉치와 검색실험 문서집단을 대상으로 살펴본 결과 코사인 계수, 자카드 계수는 고빈도어 선호경향을 보이고 상호정보량과 율의 Y는 저빈도어 선호경향을 보이는 것으로 나타났다. 질의확장 검색실험에서는 고빈도어 선호경향을 가진 유사계수에 비해서 저빈도어 선호경향을 가진 유사계수률 이용할 때 더 종은 성능이 나타났다. 특히 율의 Y는 질의어의 DF가 1에 가깝게 매우 낮을 때 다른 유사계수와 달리 고빈도어를 선호함으로써 항상 저빈도어를 선호하는 상호정보량에 비해서 질의확장 검색에 유리함을 알 수가 있었다.

  • PDF

질의 어휘와의 근접도를 반영한 단어 그래프 기반 질의 확장 (Query Expansion based on Word Graph using Term Proximity)

  • 장계훈;이경순
    • 정보처리학회논문지B
    • /
    • 제19B권1호
    • /
    • pp.37-42
    • /
    • 2012
  • 잠정적 적합성 피드백모델은 초기 검색 결과의 상위에 순위화된 문서를 적합 문서라 가정하고, 상위문서에서 빈도가 높은 어휘를 확장 질의로 선택한다. 빈도수를 이용한 질의 확장 방법의 단점은 문서 안에서 포함된 어휘들 사이의 근접도에 상관없이 각 어휘를 독립적으로 생각한다는 것이다. 본 논문에서는 어휘빈도를 이용한 질의 확장을 대체할 수 있는 어휘 근접도를 반영한 단어 그래프 기반 질의 확장을 제안한다. 질의 어휘 주변에 발생한 어휘들을 노드로 표현하고, 어휘들 사이의 근접도를 에지의 가중치로 하여 단어 그래프를 표현한다. 반복된 연산을 통해 확장 질의를 선택함으로써 성능을 향상시키는 기법을 제안한다. 유효성 검증을 위해 웹문서 집합인 TREC WT10g 테스트 컬렉션에 대한 실험에서 언어모델 보다 MAP 평가 기준에서 6.4% 향상됨을 보였다.

퍼지 추론을 이용한 질의 용어 확장 및 가중치 재산정 (Query Term Expansion and Reweighting by Fuzzy Infernce)

  • 김주연;김병만;신윤식
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2000년도 봄 학술발표논문집 Vol.27 No.1 (B)
    • /
    • pp.336-338
    • /
    • 2000
  • 본 논문에서는 사용자의 적합 피드백을 기반으로 적합 문서들에서 발생하는 용어들과 초기 질의어간의 발생 빈도 유사도 및 퍼지 추론을 이용하여 용어의 가중치를 산정하는 방법에 대하여 제안한다. 피드백 문서들에서 발생하는 용어들 중에서 불용어를 제외한 모든 용어들을 질의로 확장될 수 있는 후보 용어들로 선택하고, 발생 빈도 유사성을 이용한 초기 질의어-후보 용어의 관련 정도, 용어의 IDF, DF 정보를 퍼지 추론에 적용하여 후보 용어의 초기 질의에 대한 최종적인 관련 정도를 산정 하였으며, 피드백 문서들에서의 가중치와 관련 정보를 결합하여 후보 용어들의 가중치를 산정 하였다.

  • PDF

가족식사가 식생활태도, 학업성취도 및 삶의 질에 미치는 영향 - 경기도 고양시 소재 중학생을 중심으로 - (Effects of family meals on eating behavior, academic achievement and quality of life - Based on the students of middle school at Goyangsi, Gyeonggido -)

  • 신우경;강소영;김유경
    • 한국가정과교육학회지
    • /
    • 제29권4호
    • /
    • pp.149-159
    • /
    • 2017
  • 본 연구에서는 가족식사가 청소년들의 식생활태도와 학업성취도 그리고 삶의 질에 어떠한 영향을 미치는지 연구하였다. 경기도 고양시 소재 중학교 1, 2, 3학년 남녀학생 302명을 대상으로 가족식사를 빈도, 규칙, 인식의 각 요인으로 나누어 청소년의 식생활태도, 학업성취도, 그리고 삶의 질과의 연관성을 살펴보았다. 조사 항목은 일반적인 가족식사 패턴과, 가족식사는 빈도, 규칙, 인식의 세 가지 요인으로 나누어 각 요인을 조사하였다. 식생활태도는 중학생의 식생활 특성을 반영하여 영양, 배려, 예절, 행복감의 세부항목으로 총 19개의 항목으로 측정하였다. 학업성취도에 관한 설문은 각 과목에 대한 학업성취도를 측정하였다. 삶의 질은 신체적 건강 관련 삶의 질 4항목, 정신적 건강 관련 삶의 질 10항목, 그리고 경제적 만족도와 관련한 삶의 질 3항목의 총 17개 항목으로 구성하여 측정하였다. 자료 분석 결과는 다음과 같다. 첫째, 가족형태에 따라 가족식사 규칙(p<0.05)과 인식(p<0.05)에 유의한 차이를 보이는 이는 반면, 맞벌이여부에 따라서는 가족식사 빈도(p<0.05)에서 유의한 차이를 보였다. 둘째, 가족식사 요인에 따른 식생활태도, 학업성취도, 삶의 질의 차이를 분석한 결과 빈도와 인식에 따라 식생활태도(빈도 p<0.001; 인식 p<0.001), 학업성취도(빈도 p<0.001; 인식 p<0.05), 삶의 질(빈도 p<0.001; 인식 p<0.001) 모든 항목에서 유의한 차이를 보인 반면, 규칙의 경우 학업성취도를 제외한 식생활태도(p<0.001)와 삶의 질(p<0.05)에서 유의한 차이를 나타냈다. 셋째, 가족식사 요인과 식생활태도, 학업성취도, 삶의 질 간 관계는 모두 유의한(p<0.01) 양의 상관관계를 나타냈다. 넷째, 가족식사 요인이 식생활태도, 학업성취도, 삶의 질에 미치는 영향을 분석한 결과, 가족식사 빈도와 식생활 태도가 학업성취도(빈도 p<0.001; 식생활태도 p<0.05 및 삶의 질(빈도 p<0.001; 식생활태도 p<0.001)에 모두 유의한 영향을 미치는 것으로 나타났으며, 가족식사 요인 중 빈도가 학업성취도(${\beta}=0.298$ p<0.001)와 삶의 질(${\beta}=0.298$ p<0.001)에 미치는 영향력이 상대적으로 가장 컸다. 연구결과를 바탕으로 가족식사의 중요성을 중학생들과 학부모, 교사에게 교육하고 가정과 학교에서 올바른 지도를 위한 교육프로그램을 개발하는 데에 활용할 수 있을 것이다.

택시 데이터에 대한 효율적인 Top-K 빈도 검색 (Finding Frequent Route of Taxi Trip Events Based on MapReduce and MongoDB)

  • ;안성아;;정한유;권준호
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제4권9호
    • /
    • pp.347-356
    • /
    • 2015
  • IoT(사물인터넷) 기술의 빠른 개발로 인하여 기존의 택시들은 디스패처와 위치 시스템을 통해 서로 연결되고 있다. 일반적으로 현대의 택시들은 경로 정보를 획득하기 위한 목적으로 GPS(Global Positioning System)를 탑재하고 있다. 택시 운행 데이터들의 경로 빈도를 분석하여, 주어진 질의 시간에 해당하는 빈번한 경로를 찾을 수 있다. 그러나 위치 데이터의 용량이 매우 크고 복잡하기 때문에 택시의 운행 이벤트의 위치 데이터를 분석된 빈도 정보로 변환할 때에 확장성 문제가 발생한다. 이 문제를 해결하기 위하여, NoSQL 데이터베이스에 기반한 택시 운행 데이터에 대한 Top-K 질의 시스템을 제안한다. 첫째, 원시 택시 운행 이벤트를 분석하고 모든 경로들의 빈도 정보를 추출한다. 추출한 경로 정보는 NoSQL 문서-지향 데이터베이스인 MongoDB에 해시 기반의 인덱스 구조로 저장한다. 주로 발생하는 경로에 대한 효율적인 Top-K 질의 처리는 몽고DB의 상에서 이루어진다. 미국 뉴욕시의 실제 택시 운행 데이터를 이용한 실험을 통하여 알고리즘의 효율성을 검증하였다.

애기다시마 식물의 미세구조 연구 1. 고정액 조성 (Fine structure of Laminaria religiosa Miyabe (Laminariales, Phaeophyta) 1 . Composition of Fixatives.)

  • 정익교
    • 한국수산과학회지
    • /
    • 제23권2호
    • /
    • pp.155-166
    • /
    • 1990
  • 대형 갈조류 미세구조 연구의 문제점인 원형질 분리 현상을 다양한 농도의 고정액과 완충용액을 조합한 일련의 고정액으로 연구 검토하였다. 1차고정액 조성 중 1470 mosmol 고정액 조성($3\%$ glutaraldehyde, $2.4\%$ paraformaldehyde, 0.05M cacodylate buffer, 0.2M sucrose, $0.5\%$ caffeine, pH 7.2) 이 뚜렷하지는 않았으나 원형질분리 현상의 빈도가 비교적 적었다. 각 고정액 조성과 원형질분리 현상의 빈도와의 연관성은 각 고정액 별로 큰 차이를 보여 주지 않았으나, osmolarity가 증가하면서 분리 현상의 빈도와 정도가 감소하였다. 그 중 원형질분리 현상의 빈도가 가장 낮은 고정액을 이용하여 점도가 낮은 레이진을 사용하여 침투 과정에서의 원형질분리 가능성을 분석하였으나 특별한 차이가 없었다. 전반적으로 다시마(Laminaria religiosa)의 특징인 다량의 점액질 때문에 고정액의 침투가 어렵고, 점액질의 분비에 따른 세포내 생리적 기작들이 원형질막의 고정을 난이하게 만드는 요인으로 확인되었으나, 다른 세포 내용물들의 고정 상태는 양호하였다.

  • PDF

공간 데이터스트림의 입력 빈도와 데이터 밀집도 기반의 동적 부하제한 기법 (Dynamic Load Shedding Scheme based on Input Rate of Spatial Data Stream and Data Density)

  • 정원일
    • 한국산학기술학회논문지
    • /
    • 제16권3호
    • /
    • pp.2158-2164
    • /
    • 2015
  • u-GIS 환경에서는 실시간으로 유입되는 공간 데이터 스트림으로 인해 발생되는 부하를 제한하기 위한 연구가 계속되고 있다. 그러나 기존의 비공간 데이터 기반의 부하 제한 기법은 공간 데이터의 특성을 고려하지 않아 공간 질의 처리의 정확도를 감소시킨다. 또한, 공간 데이터 기반의 부하 제한 기법도 공간 데이터 스트림의 입력 빈도 변화와 공간 데이터의 밀집도를 반영하지 않아 질의 처리 정확도와 질의 처리 성능이 저하되는 문제가 존재한다. 이에 본 논문에서는 u-GIS 환경에서 부하 발생 빈도를 최소화하고 연속 질의 처리 성능과 정확도를 향상시키기 위해 공간 데이터의 밀집도와 공간데이터스트림의 입력 변화량을 이용하여 동적으로 부하를 제한하는 기법을 제안한다. 제안 기법에서는 부하제한 요구시 공간 이용도에 따라 질의에 참여할 확률이 낮은 데이터를 샘플링함으로써 연속 질의 처리 결과의 정확도와 질의 처리 속도를 향상시킬 수 있다.

불리언 질의 최적화에 관한 연구 (A Study on Boolean Query Optimization in Information Retrieval)

  • 주원균;이민호;강무영
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2002년도 추계학술발표논문집 (하)
    • /
    • pp.1879-1882
    • /
    • 2002
  • 본 논문에서는 불리언 모델을 지원하는 정보검색 시스템에서 사용자로부터 입력받은 불리언 질의를 효율적으로 연산하기 위한 3 가지 방법을 제안한다. 첫째, 불리언 대수를 사용하여 형태적으로 불필요한 노드를 제거한다. 둘째 색인어 출현 빈도 정보를 사용함으로써 빈도 0 을 가지는 노드와 이를 포함하는 노드의 연산 제외 여부를 결정하고, 연산 수행 시 시간이 적게 걸리는 순으로 피 연산자와 연산자의 순서를 재배열한다. 셋째, 불리언 질의 내에 복합 명사가 포함되어 있을 경우 구성 명사와 연산자의 조합을 이용한 질의 확장을 실시한다. 처음 두 가지 방법은 검색 속도의 향상을, 세 번째 방법은 정확도의 향상을 목표로 한다.

  • PDF