• 제목/요약/키워드: BM25

검색결과 311건 처리시간 0.034초

Okapi BM25 단어 가중치법 적용을 통한 문서 범주화의 성능 향상 (A Research on Enhancement of Text Categorization Performance by using Okapi BM25 Word Weight Method)

  • 이용훈;이상범
    • 한국산학기술학회논문지
    • /
    • 제11권12호
    • /
    • pp.5089-5096
    • /
    • 2010
  • 문서 범주화는 정보검색 시스템의 중요한 기능중의 하나로 문서들을 어떤 기준에 의해 그룹화를 하는 것을 말한다. 범주화의 일반적인 방법은 대상 문서에서 중요한 단어들을 추출하고 가중치를 부여한 후에 분류 알고리즘에 따라 문서를 분류한다. 따라서 성능과 정확성은 분류 알고리즘에 의해 결정됨으로 알고리즘의 효율성이 중요하다. 본 논문에서는 단어 가중치 계산 방법을 개선하여 문서분류 성능을 향상시키는 것을 소개하였다. Okapi BM25 단어 가중치법은 일반적인 정보검색분야에서 사용되어 검색 결과에 좋은 결과를 보여주고 있다. 이를 적용하여 문서 범주화에서도 좋은 성능을 보이는지를 실험하였다. 비교한 단어 가중치법에는 가장 일반적인 TF-IDF법와 문서분류에 최적화된 가중치법 TF-ICF법, 그리고 문서요약에서 많이 사용되는 TF-ISF법을 이용하여 4가지 가중치법에 따라 결과를 측정하였다. 실험에 사용한 문서로는 Reuter-21578 문서를 사용하였으며 분류기 알고리즘으로는 Support Vector Machine(SVM)와 K-Nearest Neighbor(KNN)알고리즘을 사용하여 실험하였다. 사용된 가중치법 중 Okapi BM25 법이 가장 좋은 성능을 보였다.

반도체광증폭기로 전송거리 확장된 2.5 Gb/s TDM-PON에서 버스트 효과에 의한 신호왜곡 분석 (The Burst Effect Analysis of 2.5 Gb/s TDM-PON Systems Using a SOA Link Extender)

  • 최보훈;이상수
    • 한국광학회지
    • /
    • 제23권1호
    • /
    • pp.6-11
    • /
    • 2012
  • 256개의 ONU를 수용하며 50 km 전송거리를 갖는 차세대 시분할 수동광망(TDM-PON) 링크에 링크 확장기로 반도체 광증폭기가 적용되었다. 이 광증폭기의 이득은 25dB 였고 입력신호 변화에 따른 이득 자동조정장치는 사용되지 않았다. 상향 링크의 전체 광세기 범위는 58 dB 였고, 광증폭기로의 입력신호가 -30 dBm인 조건에서 링크의 $10^{-9}$ BER을 위한 수신감도는 -25 dBm였다. 그 입력세기가 -10 dBm인 경우 버스트 신호에 의한 증폭기의 이득 과도응답에 의한 초과펄스왜곡은 45% 였고 이로 인한 신호성능의 악화는 $10^{-12}$ BER 에서 1.55 dB의 페널티를 발생시켰다. 그러나 -15 dBm 이하의 입력조건에서는 페널티는 무시할 수준으로 급격히 낮아져서, 링크의 다이나믹 범위가 최소한 -15 dBm 까지는 보장되었다. 이 같이 측정된 입력신호의 다이나믹 범위는 50 km이상 장거리 그리고 수백개 이상의 다수가입자를 지원하는 차세대 수동광망에서 링크 확장기로 광증폭기가 사용되더라도 광증폭기 이득 자동조정장치를 사용하는 것이 필수적이지 않음을 의미한다.

GSM 대역용 휴대전화 인증 시험 공간 확보를 위한 전파 환경 측정 (Measurement of Electromagnetic Wave for the Selection of Certification Test Space at GSM Band)

  • 박철근;민경식
    • 한국전자파학회논문지
    • /
    • 제18권9호
    • /
    • pp.1030-1038
    • /
    • 2007
  • 본 논문에서는 유럽에서 사용되는 GSM-900/GSM-1800 대 역 에 대 한 전자파 강도 측정 결과를 제시한다. 측정결과, 부산 기장군 장안읍 기룡 마을과 철마면 소산벌 두 곳이 후보지로 선정되었다. 두 후보지에서 수직 편파가 수평 편파보다 약 12 dBm이 더 높았으며, 번화가보다 25 dBm 낮게 측정되었다. 셀룰러/GSM-900 대역에서 측정한 수직 편파의 강도의 최대값은 각각 기룡 마을에서 -65 dBm, 소산벌에서 -69 dBm이다. PCS/GSM-1800 대역에서의 결과로는 각각 기룡 마을이 최고 -90.5 dBm, 소산벌은 -85 dBm이다. 두 후보지에서 수신된 전자파 강도가 -65 dBm 이하로 매우 약하다는 것을 확인하였으며, GSM 주파수 대역의 신호가 기존 시스템에 간섭 영향을 끼치지 않아 GSM 모바일 필드 테스트를 위한 적합한 장소로 사료된다.

온라인 가공식품의 수량과 중량에 따른 최저가격 검색 모델 (A Model for Minimum Price Search of Processed Food Items on Online Platforms Based on Quantity and Weight)

  • 최태민;임희석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.458-460
    • /
    • 2023
  • 가공식품이라는 특정 도메인에서는 기존 검색엔진에서 많이 활용되는 BM25 만을 가지고 최저가 검색하는 데는 어려움이 있다. 본 논문에서는 BM25 외에도 검색의 정확성을 높이기 위해 HuggingFace 에 공개되어 있는 KoELECTRA 를 활용하여 개체명 인식(Named Entity Recognition 과 이진 분류모델(Binary Classification)을 Fine-tuning 하고 BM25 와 연계하여 구축한 검색시스템을 제안한다. 기존의 BM25 대비 성능 평가를 통해 효과를 검증하였다.

Bolus를 대체하기 위해 자체 제작된 선량상승영역 변환기를 투과한 광자선의 특성 (Characteristics of Photon Beam through a Handmade Build-Up Modifier as a Substitute of a Bolus)

  • 김성준;이승준;문수호;설기호;이정은
    • 한국의학물리학회지:의학물리
    • /
    • 제25권4호
    • /
    • pp.225-232
    • /
    • 2014
  • 본 논문에서는 자체 제작된 선량상승영역 변환기(build-up modifier, BM)을 투과하는 high energy photon beam의 심부선량백분율(PDD)을 특성을 측정하고 이 결과를 토대로 BM 산란인자(BM scatter factor, $S_{BM}$)를 계산하였다. 다양한 조건에서 BM scatter가 PDD의 Build-up region에 미치는 영향을 평가하고 BM의 유용성을 알아보는 것이 본 연구의 목적이다. $S_{BM}$는 BM을 사용하지 않은 SFS 30 mm에서 측정된 산란인자의 값을 1로서 정규화 하였다. 가장 큰 SFS 200 mm의 경우, 6 MV 광자선을 사용할 때 $S_{BM}$는 두께에 따라 각각 1.331, 1.519, 1.598, 1.641, 그리고 1.657이었다. 10 MV 광자선에는 각각 1.384, 1.662, 1.825, 1.913, 그리고 2.001이었다. BM의 효과는 bolus의 최대 76% 효율을 가지는 것으로 나타났다. Bolus를 밀착시키기 어려운 특정적 부위에 대해 BM은 그 대안으로써 효과적인 장치가 될 수 있을 것으로 기대된다.

준밀리미터파 BWLL용 HBT 전력증폭기 설계 및 제작 (Design and Fabrication of a HBT Power Amplifier for Quasi Millimeter-wave Broadband Wireless Local Loop Applications)

  • 김창우;채규성
    • 한국통신학회논문지
    • /
    • 제27권3C호
    • /
    • pp.234-240
    • /
    • 2002
  • AlGaAs/InGaAs/GaAs HBT를 이용하여 준밀리미터파 광대역 무선망(BWLL) 시스템의 가입자용 장치에 사용 가능한 전력증폭기를 개발하였다. 베이스 접지 HBT 소자의 비선형 등가 회로를 추출하여 선형 및 비선형 회로 시뮬레이션을 통하여 출력 전력 정합 회로를 갖는 증폭기를 설계하였으며, 이를 기초로 하여 세라믹 기판 위의 스텁을 이용하여 하이브리드 형태로 증폭기를 구현하였다. 제작된 전력증폭기는 24.4 GHz에서 최대 포화 출력 25.5 dBm, 35%의 전력 부가 효율을 얻었으며, 24.8 GHz에서는 7.5 dB의 최대 선형 이득을 얻었다. 또한, 24.25 GHz∼24.75 GHz의 주파수 대역에서 22 dBm 이상의 포화 출력 전력과 25% 이상의 전력 부가 효율을 얻었다.

로드-풀을 이용한 X-Band GaN HEMT의 최적 임피던스 분석 (Analysis of Optimum Impedance for X-Band GaN HEMT using Load-Pull)

  • 김민수;이영철
    • 한국전자통신학회논문지
    • /
    • 제6권5호
    • /
    • pp.621-627
    • /
    • 2011
  • 본 논문에서는 로드-풀을 이용하여 X-band에서 on-Wafer 상태의 GaN HEMT 소자에 대한 성능을 분석하고 분석한 결과를 바탕으로 최적의 임피던스 점을 분석하였다. 패키징 하기 전 on-Wafer 상태에 있는 반도체 소자의 최적의 임피던스 분석을 통해 소자 자체에서 최적의 성능을 내는 방안을 제안하였다. Gate length가 0.25um이고 Gate Width가 각각 400um, 800um인 소자에 대한 최적의 임피던스를 선정하여 성능을 분석한 결과, 400um는 $P_{sat}$=33.16dBm(2.06W), PAE=67.36%, Gain=15.16dBm의 성능을 가지며, 800um는 $P_{sat}$=35.9 dBm(3.9W), PAE=69.23%, Gain=14.87dB의 성능을 보였다.

효율적인 질의응답시스템 개발을 위한 BM25기반의 단락 검색 시스템 (A BM25 based Passage Retrieval System for Developing an Efficient Question and Answering System)

  • 임희석;이영신;임해창
    • 컴퓨터교육학회논문지
    • /
    • 제6권4호
    • /
    • pp.23-30
    • /
    • 2003
  • 본 논문은 문서 단위 보다 작은 단락 단위의 검색 시스템을 사용하는 효율적인 질의 응답 시스템 개발을 위하여 문서 검색에서 성능이 검증된 Okapi 시스템의 BM25 알고리즘을 응용한 단락 검색 시스템을 제안하고, 단락 검색 시스템의 성능을 분석하고자 한다. 100만 건의 문서로 구성된 TREC Q&A track 테스트 컬렉션을 색인에 사용하고 TREC Q&A track 질의 집합 중 1~100번까지의 질의를 사용하여 실험한 결과 재현율이 100%가 되기 위해서는 문서 검색은 약 12만 문장을 검색해야 하는 반면, 단락 검색에서는 문서 검색의 약 1/70인 1700문장만으로도 100%의 재현율을 얻을 수 있음을 확인하였다.

  • PDF

BERT Sparse: BERT를 활용한 키워드 기반 실시간 문서 검색 (BERT Sparse: Keyword-based Document Retrieval using BERT in Real time)

  • 김영민;임승영;유인국;박소윤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2020
  • 문서 검색은 오래 연구되어 온 자연어 처리의 중요한 분야 중 하나이다. 기존의 키워드 기반 검색 알고리즘 중 하나인 BM25는 성능에 명확한 한계가 있고, 딥러닝을 활용한 의미 기반 검색 알고리즘의 경우 문서가 압축되어 벡터로 변환되는 과정에서 정보의 손실이 생기는 문제가 있다. 이에 우리는 BERT Sparse라는 새로운 문서 검색 모델을 제안한다. BERT Sparse는 쿼리에 포함된 키워드를 활용하여 문서를 매칭하지만, 문서를 인코딩할 때는 BERT를 활용하여 쿼리의 문맥과 의미까지 반영할 수 있도록 고안하여, 기존 키워드 기반 검색 알고리즘의 한계를 극복하고자 하였다. BERT Sparse의 검색 속도는 BM25와 같은 키워드 기반 모델과 유사하여 실시간 서비스가 가능한 수준이며, 성능은 Recall@5 기준 93.87%로, BM25 알고리즘 검색 성능 대비 19% 뛰어나다. 최종적으로 BERT Sparse를 MRC 모델과 결합하여 open domain QA환경에서도 F1 score 81.87%를 얻었다.

  • PDF

Symmetric Balance Incomplete Block Design Code의 Spectral Efficiency (Spectral Efficiency 0f Symmetric Balance Incomplete Block Design Codes)

  • 지윤규
    • 전자공학회논문지
    • /
    • 제50권1호
    • /
    • pp.117-123
    • /
    • 2013
  • 본 논문은 symmetric balance incomplete block design(BIBD) code의 BER=$10^{-9}$을 만족하는 spectral efficiency를 구하였다. 이 계산 결과 effective power가 큰 경우 ($P_{sr}=-10$ dBm)는 m=2로 고정시키고 q값을 변화시키는 ideal BIBD code구성이 효율적이었다. 이와 반대로 effective power가 작은 경우 ($P_{sr}=-25$ dBm)는 ideal BIBD code 구성 보다는 q > 2인 값을 취하고 m값을 변화시키는 설계가 더 효율적임을 알 수 있었다.