• 제목/요약/키워드: 편향 기반 예측

검색결과 29건 처리시간 0.029초

행동중심의 인터넷뉴스 카테고리에 관한 연구 (Action oriented research on the Internet news categories)

  • 최경림;반영환
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2011년도 춘계 종합학술대회 논문집
    • /
    • pp.77-78
    • /
    • 2011
  • 현대 사회에서는 복잡하고 넘쳐나는 정보들을 스마트한 기술을 통해 지식 기반으로 제공한다. 이에 따라 정보를 기반으로 한 대표적인 콘텐츠인 인터넷 뉴스 또한 지식 기반의 제공이 필요하다. 하지만, 현재 인터넷 뉴스는 정보를 노출하는데 편향되어 있다. 따라서 본 연구에서는 행동 기반의 뉴스를 통해 실 사용자들에게 유용한 정보를 제공해주는 것을 목표로 한다. 결론적으로 지식 기반의 뉴스는 "사용자가 예측할 수 있고 행동할 수 있도록 돕는 정보로 제공되어야 한다."라는 결론을 도출해냈으며, 이는 지식 기반의 인터넷 뉴스 콘텐츠를 위한 행동 분류를 제시하였다는 점에서 의미가 있다.

  • PDF

잠재요인 모델 기반 영화 추천 시스템 (Movie Recommendation System based on Latent Factor Model)

  • ;김강철
    • 한국전자통신학회논문지
    • /
    • 제16권1호
    • /
    • pp.125-134
    • /
    • 2021
  • 영화 산업의 빠른 발전으로 영화의 제작 수가 급격하게 증가하고 있으며, 영화 추천 시스템은 관객들의 과거 행동이나 영화 후기에 기반하여 관객들의 선호도를 예측하여 영화의 선택에 도움을 주고 있다. 본 논문은 평점의 평균과 편향의 보정을 이용하여 잠재요인 모델에 기반한 영화 추천 시스템을 제안한다. 특이값 분해 방법이 평점 매트릭스 분해에 사용되고, 통계 경사 하강법이 최소자승 손실 함수의 파라미터 최적합에 사용된다. 그리고 평균 제곱근 오차를 사용하여 제안한 시스템 성능을 평가한다. Surprise 패키지를 이용하여 제안한 시스템을 구현 하였으며, 모의실험 결과는 평균 제곱근 오차가 0.671이며, 다른 논문에서 방법에 비하여 좋은 성능을 가진다는 것을 확인하였다.

딥러닝 데이터 분석을 통한 최적의 상권 입지 추천 기술 개발 (Commercial location recommend system using deep learning data analysis)

  • 박형빈;김소희;남지수;조윤빈;전희국;임동혁
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2022년도 춘계학술발표대회
    • /
    • pp.602-605
    • /
    • 2022
  • 본 연구는 대량의 상권 데이터를 바탕으로 머신 러닝과 딥러닝 분석을 이용하여 최적의 상권 입지를 추천하는 시스템 개발을 목표로 한다. 자영업자들의 오프라인 창업에 있어 개개인의 매장 정보에 기반한 입지 조건 판단은 앞으로의 매출에 중요한 시작점이다. 따라서 상권 정보를 기반으로 미래 매출을 예측하여 최적의 상권 입지를 추천하는 기술이 필요하다. 이를 위해 기존에 선행된 다수의 회귀 기법과 더불어 강하게 편향된 데이터를 레이블링 하여 다중 분류 기법으로도 문제를 접근한다. 최종적으로 딥러닝 모델과 합성하여 더 높은 성능을 이끌어내고 이로부터 편향 데이터 처리 방법과 딥러닝 모델과의 앙상블 중요성에 대해 논의하고자 한다.

순서형 회귀분석을 활용한 악성 댓글 분류 (Hate Speech Classification Using Ordinal Regression)

  • 이세영;박새롬
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2021년도 제64차 하계학술대회논문집 29권2호
    • /
    • pp.735-736
    • /
    • 2021
  • 인터넷에서 댓글 시스템은 자신의 의사표현을 위한 시스템으로 널리 사용되고 있다. 하지만 이를 악용하여 상대방에 대한 혐오를 드러내기도 한다. 악성댓글에 대한 적절한 대처를 위해 빠르고 정확한 탐지는 필수적이다. 본 연구에서는 악성 댓글 분류 문제를 해결하기 위해서 순서가 있는 분류 레이블의 성질을 활용한 순서형 회귀 (Ordinal regression) 기반의 분류 모델을 제안한다. 일반적인 분류 모형과는 달리 혐오 발언 정도에 따라 다중 레이블을 부여하여 학습을 진행하였다. 실험을 통해 Korean Hate Speech Dataset에 대해 LSTM기반의 모형의 출력층을 다르게 구성하여 순서형 회귀 기반의 모형들의 성능을 비교하였다. 결과적으로 예측 결과에 대한 조율이 가능한 순서형 회귀 모형이 일반적인 순서형 회귀 모형에 비해서 편향된 예측에 대해 추가적인 성능 향상을 보였다.

  • PDF

평점 빈도 가중치 기반 기준선 예측기의 추천 성능 향상을 위한 편향 기반 추천기 (Bias-Based Predictor to Improve the Recommendation Performance of the Rating Frequency Weight-based Baseline Predictor)

  • 황태규;김성권
    • 정보과학회 논문지
    • /
    • 제44권5호
    • /
    • pp.486-495
    • /
    • 2017
  • 협업 필터링(CF, Collaborative Filtering)은 추천을 수행하기 위해 필요한 비용(시간/공간 복잡도 등)이 현실 데이터에 적용하기에는 한계가 있다. 평점 빈도 가중치 기반의 Baseline Predictor(RFWBP, Rating Frequency Weight-based Baseline Predictor)는 정확도가 기존의 방법과 근사하며, 비용을 크게 줄일 수 있는 효율적인 방법 중 하나이다. 그러나 효율성을 고려해 RFWBP만 사용할 경우, 1)학습을 수행하지 않기 때문에 발생되는 오차를 감소시킬 수 없고, 2)적합한 추천 목록을 작성하기 위한 조건이 없기 때문에 모두 추천했다. 본 논문은, 제시된 문제를 해결하기 위한 BBP(Bias-Based Predictor)를 제안한다. BBP는 Bias를 보정하여 오차의 범위를 감소시킴으로써 1)을 해결했고, 선호에 적합한 추천 목록 작성을 위한 몇 가지 Case를 정하고, 추천 목록을 구성함으로써 2)를 해결하였다.

임계값 설정을 통한 근치적 위절제술 후 합병증 발생 예측 모델의 성능 평가 (Performance of a Model to Predict Complication Occurance after Radical Gastrectomy according to Thresholds)

  • 임수연;최자윤
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.687-689
    • /
    • 2024
  • 위암은 전 세계적인 주요 건강문제이며, 근치적 위절제술은 위암의 표준치료이다. 근치적 위절제술 후 치료목표는 합병증 발생을 낮춰 병전 상태로 빠르게 회복하는 데 있다. 따라서, 근치적 위절제술 후 합병증 발생 여부를 선별하여 예측할 수 있는 성능이 좋은 모델을 개발하는 것은 위암환자의 회복에 매우 중요하다. 랜덤포레스트 모델은 여러 개의 결정트리를 활용한 배깅 방식의 대표적인 알고리즘으로 의료 데이터를 기반으로 한 예측에 있어 뛰어난 성능을 보여 주었다. 그러나 실제 데이터는 불균형이 빈번하게 발생하여 모델의 예측 성능에 영향을 미치므로, 최적의 분류 임계값을 설정하여 다수 클래스에 대한 편향을 줄이는 것이 중요하다. 따라서, 본 연구는 최근 10년 간 일개 대학병원의 전자의무기록 데이터를 활용하여 근치적 위절제술 후 합병증 발생을 예측하는 랜덤포레스트 모델을 개발하고, 임계값 설정을 통해 불균형 데이터에 대한 모델의 성능을 평가하고자 한다.

앙상블 학습의 부스팅 방법을 이용한 악의적인 내부자 탐지 기법 (Malicious Insider Detection Using Boosting Ensemble Methods)

  • 박수연
    • 정보보호학회논문지
    • /
    • 제32권2호
    • /
    • pp.267-277
    • /
    • 2022
  • 최근 클라우드 및 원격 근무 환경의 비중이 증가함에 따라 다양한 정보보안 사고들이 발생하고 있다. 조직의 내부자가 원격 접속으로 기밀 자료에 접근하여 유출을 시도하는 사례가 발생하는 등 내부자 위협이 주요 이슈로 떠오르게 되었다. 이에 따라 내부자 위협을 탐지하기 위해 기계학습 기반의 방법들이 제안되고 있다. 하지만, 기존의 내부자 위협을 탐지하는 기계학습 기반의 방법들은 편향 및 분산 문제와 같이 예측 정확도와 관련된 중요한 요소를 고려하지 않았으며 이에 따라 제한된 성능을 보인다는 한계가 있다. 본 논문에서는 편향 및 분산을 고려하는 부스팅 유형의 앙상블 학습 알고리즘들을 사용하여 악의적인 내부자 탐지 성능을 확인하고 이에 대한 면밀한 분석을 수행하며, 데이터셋의 불균형까지도 고려하여 최종 결과를 판단한다. 앙상블 학습을 이용한 실험을 통해 기존의 단일 학습 모델에 기반한 방법에서 나아가, 편향-분산 트레이드오프를 함께 고려하며 유사하거나 보다 높은 정확도를 달성함을 보인다. 실험 결과에 따르면 배깅과 부스팅 방법을 사용한 앙상블 학습은 98% 이상의 정확도를 보였고, 이는 사용된 단일 학습 모델의 평균 정확도와 비교하면 악의적인 내부자 탐지 성능을 5.62% 향상시킨다.

낙동강 하구 환경변화 예측모형의 불확실성 (Uncertainty of the operational models in the Nakdong River mouth)

  • 조홍연;이기섭
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2022년도 학술발표회
    • /
    • pp.4-4
    • /
    • 2022
  • 낙동강 하구 환경/생태 복원을 위하여 "해수유입"으로 하구환경을 조성하는 사업이 추진되고 있으며, 해수 유입 규모와 빈도에 따른 생태환경변화를 예측하는 연구수요가 증가하고 있는 상황이다. 보다 구체적으로는 단기간의 해수유입에 의한 흐름 및 염분 확산범위 예측과 더불어 보다 장기간의 지형변화, 수질환경 변화, 생태환경 변화 등에 대한 예측이 필요한 상황이다. 그리고 그 예측의 대부분을 수치모델에 크게 의존하고 있는 상황이다. 그러나, 수치모형을 이용한 단기 예측은 가까운 미래에 대한 입력조건을 사용하여야 하기 때문에 입력조건에 대한 불확실성이 포함되고, 환경생태모형의 불확실성에 따른 예측 한계 등으로 인하여 오차가 누적되기 때문에 직접적인 활용에 크게 제한이 따를 수 있다. 또한 운영과정에서 어떤 분산, 편향 오차 등이 지속적으로 발생하는 경우, 모델 예측 결과에 대한 신뢰수준이 크게 감소하기 때문에 모델의 적절한 운영기법이 요구된다. 모델은 관심을 가지는 자연현상에 대한 근사(approximation)이고, 예상하지 못한 오차가 발생할 수 있기 때문에 관측 자료를 이용한 자료동화(data assimilation) 과정이 운영모델에서는 필수적인 부분이다. 이론적인 기반이 탄탄한 유체역학 기반 기상예측의 경우에도, 가용한 모든 지점의 관측 자료를 이용한 자료 동화과정을 통하여 모델 예측 결과를 개선하여 나가는 과정을 포함하여 운영하고 있다. 이 과정이 포함하는 중요한 개념은 수치모델이 가지고 있는 (예측 수준의) 한계를 인정하고, 수치모델에 전적으로 의존하는 것이 아니라 관측 자료를 이용하여 그 한계를 저감하여 나가는 과정이다. 모니터링은 모델의 한계를 알려주는 지표이다. 모델링과 모니터링의 불가피한 상호의존 관계를 의미하는 이 개념은 단기간의 흐름, 염분 확산 예측으로 한정되지 않고, 장기적인 변화가 예상되는 생태환경변화 모델에도 적용이 된다. 즉각적인 변화보다는 장기적인 관점에서 파악하여야 하는 생태학적인 변화는 보다 다양한 인자가 관여하기 때문에 어떤 측면에서는 모델보다는 적절한 빈도와 항목에 대한 관측계획 수립(monitoring design)이 더 중요하다고 할 수 있다. 이론적인 질량보존(mass conservation) 방정식을 기반으로 하는 모델은 다양한 현실적인 인자의 영향을 받기 때문에 모델의 한계를 인정하고, 모니터링 자료를 적극적으로 활용하여 불확실성을 저감하는 접근방식이 요구된다.

  • PDF

약물-표적 단백질 연관관계 예측모델을 위한 쌍 기반 뉴럴네트워크 (Pairwise Neural Networks for Predicting Compound-Protein Interaction)

  • 이문환;김응희;김홍기
    • 인지과학
    • /
    • 제28권4호
    • /
    • pp.299-314
    • /
    • 2017
  • In-silico 기반의 약물-표적 단백질 연관관계 예측은 신약 탐색 단계에서 매우 중요하다. 그러나 기존의 예측모델은 입력 값이 고정적이며 표적 단백질의 특질 값이 가공된 데이터로 한정됨으로써 예측 모델의 확장성과 유연성이 부족하다. 본 논문에서는 약물-표적 단백질 연관관계를 예측하는 확장 가능한 형태의 머신러닝 모델을 소개한다. 확장 가능한 머신러닝 모델의 핵심 아이디어는 쌍기반의 뉴럴 네트워크로써, 약물과 단백질의 미가공 데이터를 사용하여 특질을 추출하고 특질 값을 각각의 뉴럴 네트워크 레이어에 입력한다. 이 방법은 추가적인 지식없이 자동적으로 약물과 단백질의 특질을 추출한다. 또한 쌍기반 레이어는 특질 값을 풍부한 저차원의 벡터로 향상 시킴으로써 입력 값의 차이로 인한 편향 학습을 방지한다. PubChem BioAssay(PCBA) 데이터 셋에 기반한 5-폴드 교차 검증법을 통하여 제안한 모델의 성능을 평가했으며, 이전의 모델보다 우월한 성능을 보였다.

협대역 수중음향측정을 위한 신뢰도 기반의 측정정확도 분석 (Analysis of Measurement Accuracy Based on Confidences for Narrow-Band Underwater Acoustic Measurement)

  • 도경철;최재용;이용곤
    • 한국음향학회지
    • /
    • 제19권4호
    • /
    • pp.16-22
    • /
    • 2000
  • 본 연구에서는 오차분산을 명확하게 표현하지 못하는 협대역 수중음향 측정체계의 측정성능 및 운용성을 설계 단계에서 사전 예측할 목적으로, 신호대잡음비에 따른 신뢰도 기반의 협대역 측정정확도 예측 기준을 제안한다. 제안 기준에서 신호의 평균과 분산은 신호의 샘플 개수와 신호대잡음비에 의해 표현된다. 본 논문에서는 편향된 환경에서 수중음향을 분석하는 경우와 배경소음을 사전 예측하여 측정음향에서 제거시키는 경우에 대하여 협대역 수중음향 측정성능 예측을 제안 기준에 의해 시뮬레이션하고 그 결과를 고찰한다.

  • PDF