• 제목/요약/키워드: 빅데이터모델

검색결과 761건 처리시간 0.028초

BERT Sparse: BERT를 활용한 키워드 기반 실시간 문서 검색 (BERT Sparse: Keyword-based Document Retrieval using BERT in Real time)

  • 김영민;임승영;유인국;박소윤
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2020년도 제32회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.3-8
    • /
    • 2020
  • 문서 검색은 오래 연구되어 온 자연어 처리의 중요한 분야 중 하나이다. 기존의 키워드 기반 검색 알고리즘 중 하나인 BM25는 성능에 명확한 한계가 있고, 딥러닝을 활용한 의미 기반 검색 알고리즘의 경우 문서가 압축되어 벡터로 변환되는 과정에서 정보의 손실이 생기는 문제가 있다. 이에 우리는 BERT Sparse라는 새로운 문서 검색 모델을 제안한다. BERT Sparse는 쿼리에 포함된 키워드를 활용하여 문서를 매칭하지만, 문서를 인코딩할 때는 BERT를 활용하여 쿼리의 문맥과 의미까지 반영할 수 있도록 고안하여, 기존 키워드 기반 검색 알고리즘의 한계를 극복하고자 하였다. BERT Sparse의 검색 속도는 BM25와 같은 키워드 기반 모델과 유사하여 실시간 서비스가 가능한 수준이며, 성능은 Recall@5 기준 93.87%로, BM25 알고리즘 검색 성능 대비 19% 뛰어나다. 최종적으로 BERT Sparse를 MRC 모델과 결합하여 open domain QA환경에서도 F1 score 81.87%를 얻었다.

  • PDF

도메인 적응 사전 훈련 (Domain-Adaptive Pre-training, DAPT) 한국어 문서 요약 (Domain-Adaptive Pre-training for Korean Document Summarization)

  • 장형국;장현철
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.843-845
    • /
    • 2024
  • 도메인 적응 사전 훈련(Domain-Adaptive Pre-training, DAPT)을 활용한 한국어 문서 요약 연구에서는 특정 도메인의 문서에 대한 이해도와 요약 성능을 향상시키기 위해 DAPT 기법을 적용했다. 이 연구는 사전 훈련된 언어 모델이 일반적인 언어 이해 능력을 넘어 특정 도메인에 최적화된 성능을 발휘할 수 있도록 도메인 특화 데이터셋을 사용하여 추가적인 사전 훈련을 진행한다. 구체적으로, 의료, 법률, 기술 등 다양한 도메인에서 수집한 한국어 텍스트 데이터를 이용하여 모델을 미세 조정하며, 이를 통해 얻은 모델은 도메인에 특화된 용어와 문맥을 효과적으로 처리할 수 있음을 보여준다. 성능 평가에서는 기존 사전 훈련 모델과 DAPT를 적용한 모델을 비교하여 DAPT의 효과를 검증했다. 연구 결과, DAPT를 적용한 모델은 도메인 특화 문서 요약 작업에서 성능 향상을 보였으며, 이는 실제 도메인별 활용에서도 유용할 것으로 기대된다.

빅데이터를 활용한 컴퓨터교육 연구 방법 (Research Review of Computer Education Using Big Data)

  • 노영욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.647-649
    • /
    • 2017
  • 본고에서는 ICT 기술 발전에 따라 가능하게 된 빅데이터 분석 기술을 교육 분야에 적용하는 연구방법에 대해 조사 분석한다. 그리고 교육에서 학습자, 교수자, 교육 조직 각각이 지향하는 교육적 목적을 달성하기 위해 필요한 데이터 모델과 교육 분석에 대해 기술한다.

  • PDF

빅데이터 분석과 게임이론을 활용한 야구선수 영입 모델 (Baseball Player Scouting Model using Big Data Analysis and Game Theory)

  • 김윤후;김상헌;최형준;정재은
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.321-322
    • /
    • 2018
  • 빅데이터 분석은 스포츠에서 다양한 분야에서 사용되고 있다. 야구산업에서도 세이버 메트릭스를 활용하여 전술 훈련, 개인 훈련 등 다양한 방면으로 활용되고 있다. 본 논문에서는 기존의 연구인 빅데이터 분석과 게임이론을 활용한 축구선수 영입 모델을 야구에 적용킨 시뮬레이션을 진행하고 합리적인 의사결정 모델을 제안한다.

  • PDF

빅 데이터 평판분석을 위한 서비스 모델구축에 관한 연구 (A Study on the Service Model Construction for the Reputation Analysis on Big Data)

  • 강민식;송은지
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2014년도 춘계학술대회
    • /
    • pp.848-849
    • /
    • 2014
  • 실시간으로 고객의 피드백을 파악할 수 있는 방법으로 SNS 등과 같은 빅 데이터를 이용하는 것이 매우 효율적 이다. 따라서 최근 기업들은 온라인상의 빅 데이터 평판을 분석하는 시스템들을 이용하여 고객피드백에 관한 정보를 수집하고 분석하고 있다. 본 논문에서는 온라인상의 고객피드백의 보다 정확하고 효율적인 정보 수집과 분석이 가능하며 분석 지식체계의 근간을 이루는 서비스 모델구축 방법을 제안한다. 서비스 모델 구축방법은 서비스 산업군에 대한 시소러스 분석 체계를 정의하고 데스트베드 대상의 인터뷰 등을 통하여 분류체계 기본 방향을 수립하며 타겟 대상의 특화된 수집원 및 범위를 설정하는 방법 등으로 이루어진다.

  • PDF

선박 운항 빅데이터를 활용한 운항 효율 향상 방법 연구 (A Study on the Improvement of Sailing Efficiency Using Big Data of Ship Operation)

  • 신정훈;심정연;박진우;최대한;변상수
    • 해양환경안전학회:학술대회논문집
    • /
    • 해양환경안전학회 2017년도 공동학술발표회
    • /
    • pp.244-244
    • /
    • 2017
  • 최근 4차 산업혁명의 주요 변화동인 중 하나인 "빅데이터" 기술을 활용하여 다양한 산업에 적용하기 위한 연구가 활발히 이루어지고 있다. 선박이 운항 하면서 발생되는 데이터에는 1해리 당 소모연료량, 엔진출력, 대지속력, 대수속력, Main Engine RPM, FOC, SFOC, DFOC 등의 여러 지표가 있다. 본 논문에서는 Gathering 데이터간의 민감도를 분석 하여 각 변수들간의 영향력을 판단하여 선박 운항 관련 에너지효율에 대한 주요 변수를 분석 하고, 분석 기법 중 수학 모델을 이용한 근사 모델을 생성 하여, 실측 데이터와 예측결과를 비교분석 하였다. 이를 통해 빅데이터 분석 기술을 활용하여 운항 선박의 에너지효율 관련 변수 간 민감도 확인, 근사모델을 이용한 연비 관련 지표 예측에 활용 할 수 있는 가능성을 확인 하였다.

  • PDF

대용량 분산처리 플랫폼 공유 모델 연구 (Shared Distributed Big-Data Processing Platform Model: a Study)

  • 정환진;강태호;김규석;신영호;정진규
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제22권11호
    • /
    • pp.601-613
    • /
    • 2016
  • 최근 다양한 분야에서 빅데이터 분석의 수요가 증가하고 있다. 효과적인 빅데이터 분석을 위해 분산처리시스템을 이용하지만 시스템 구축에는 상당한 금전적, 시간적 비용이 소모된다. 따라서 시스템 구축비용절감을 위한 방안이 필요하며 빅데이터 분석 플랫폼 서비스를 제공하여 사용자의 시스템 구축비용을 절약할 수 있다. 멀티테넌시는 다수의 사용자가 하나의 서비스를 공유하는 환경을 말하며 싱글테넌트 환경에 비해 시스템 자원 이용률을 향상시킬 수 있다는 장점이 있다. 본 논문에서는 대용량 분산처리 플랫폼 모델 두 가지를 제시하며 멀티테넌시를 지원하기 위한 방안에 대해 설명한다. 첫 번째 모델은 다수의 사용자가 단일 하둡 플랫폼을 공유하는 모델로 하둡의 멀티테넌시 지원을 활용하며, 다른 모델은 가상화 클라우드 컴퓨팅 환경을 활용하여 개별 가상 하둡 클러스터를 제공하는 모델이다. 제시한 두 모델의 프로토타입을 구축하였으며 두 모델의 성능 비교와 하둡 플랫폼의 멀티테넌시 검증을 하였다.

심혈관질환 위험 예측을 위한 비용민감 학습 모델 (Cost-Sensitive Learning for Cardio-Cerebrovascular Disease Risk Prediction)

  • 이유나;이경희;조완섭
    • 한국빅데이터학회지
    • /
    • 제6권2호
    • /
    • pp.161-168
    • /
    • 2021
  • 본 연구에서는 기계 학습을 사용하여 심혈관 질환 예측 모델을 제안한다. 먼저 두 집단간에 다양한 차이를 다차원분석하고 그 결과를 시각화한다. 특히, 질환과 같이 정상집단과 환자집단 간에 높은 클래스 불균형이 존재하는 경우에 대하여 민감도를 향상시킬 수 있는 비용 민감 학습을 사용하는 예측 모델을 제안한다. 본 연구에서는 대표적인 머신러닝 기술인 CART와 XGBoost를 사용하여 예측모델을 개발하고, 심혈관 질환 환자 데이터를 대상으로 예측하고 성능을 비교한다. 연구결과에 따르면 CART가 XGBoost 보다 더 높은 정확도와 특이도를 보였으며, 정확도는 약 70%~74%로 나타났다.

생산공정 기반의 제조빅데이터 클라우드 시스템 (Manufacturing Big Data Cloud System Based on Production Process)

  • 송재오;권진관;이상문
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제61차 동계학술대회논문집 28권1호
    • /
    • pp.255-256
    • /
    • 2020
  • 생산 현장에서 발생되는 다양한 형태의 데이터는 스마트한 제조관리를 가능하게 하는 원동력으로 이를 효율적으로 저장하고 처리, 분석하는 일련의 과정이 4차 산업혁명 기반의 제조혁신에 능동적으로 대응하기 위한 핵심요소로서, 이와 관련한 다양한 연구들이 활발히 이루어지고 있다. 특히, 제조데이터 분석이라는 영역은 단순하게 기존의 데이터를 통계적인 접근 수단으로만 보는 것이 아니라 다양한 산업별 업종 도메인의 특성에 기반하여 빅데이터 분석과 기계학습 등의 인공지능 모델로 발전하고 있다. 본 논문에서는 다양한 산업별 제조현장을 이해하는 도메인 경험 및 특성을 고려하여 데이터를 효과적으로 저장, 처리, 분석할 수 있는 클라우드 형태의 빅데이터 시스템을 제안한다.

  • PDF

빅 데이터의 효율성 시험 평가 방법 (Evaluation Method of Big Data Efficiency)

  • 양형식;김선배
    • 디지털융복합연구
    • /
    • 제11권8호
    • /
    • pp.31-39
    • /
    • 2013
  • 최근 소셜미디어, 산업 간 융합 등이 확대되고, 기존의 PC뿐만 아니라 스마트폰, 태블릿 PC 등 다양한 스마트 기기를 통한 인터넷 이용이 증가하면서 수많은 비정형 데이터를 발생됨에 따라 빅 데이터 시스템에 대한 관심이 증가하고 있다. 시장조사 전문기관에서는 향후 5년에는 현재보다 데이터량이 9배가 증가할 것으로 전망하고 있으며, 빅 데이터 시장도 더 커질 것으로 예상하고 있다. 본 논문에서는 빅 데이터가 갖추어야할 효율성 품질평가 항목을 요구사항 분석을 통해서 도출하고 평가항목을 세분화하여 빅 데이터에 대한 효율성 시험 평가를 하였다.