• 제목/요약/키워드: 최종가중치

검색결과 363건 처리시간 0.026초

듀얼 SMS 스팸 필터링: 그래프 기반 자질 가중치 기법 (Dual SMS SPAM Filtering: A Graph-based Feature Weighting Method)

  • 황재원;고영중
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2014년도 제26회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.95-99
    • /
    • 2014
  • 본 논문에서는 최근 급속히 증가하여 사회적 이슈가 되고 있는 SMS 스팸 필터링을 위한 듀얼 SMS 스팸필터링 기법을 제안한다. 지속적으로 증가하고 새롭게 변형되는 SMS 문자 필터링을 위해서는 패턴 및 스팸 단어 사전을 통한 필터링은 많은 수작업을 요구하여 부적합하다. 그리하여 기계 학습을 이용한 자동화 시스템 구축이 요구되고 있으며, 효과적인 기계 학습을 위해서는 자질 선택과 자질의 가중치 책정 방법이 중요하다. 하지만 SMS 문자 특성상 문장들이 짧기 때문에 출현하는 자질의 수가 적어 분류의 어려움을 겪게 된다. 이 같은 문제를 개선하기 위하여 본 논문에서는 슬라이딩 윈도우 기반 N-gram 확장을 통해 자질을 확장하고, 확장된 자질로 그래프를 구축하여 얕은 구조적 특징을 표현한다. 학습 데이터에 출현한 N-gram 자질을 정점(Vertex)으로, 자질의 출현 빈도를 그래프의 간선(Edge)의 가중치로 설정하여 햄(HAM)과 스팸(SPAM) 그래프를 각각 구성한다. 이렇게 구성된 그래프를 바탕으로 노드의 중요도와 간선의 가중치를 활용하여 최종적인 자질의 가중치를 결정한다. 입력 문자가 도착하면 스팸과 햄의 그래프를 각각 이용하여 입력 문자의 2개의 자질 벡터(Vector)를 생성한다. 생성된 자질 벡터를 지지 벡터 기계(Support Vector Machine)를 이용하여 각 SVM 확률 값(Probability Score)을 얻어 스팸 여부를 결정한다. 3가지의 실험환경에서 바이그램 자질과 이진 가중치를 사용한 기본 시스템보다 F1-Score의 약 최대 2.7%, 최소 0.5%까지 향상되었으며, 결과적으로 평균 약 1.35%의 성능 향상을 얻을 수 있었다.

  • PDF

XML 태그를 분류에 따른 가중치 결정 (An XML Tag Indexing Method Using on Lexical Similarity)

  • 정혜진;김용성
    • 정보처리학회논문지B
    • /
    • 제16B권1호
    • /
    • pp.71-78
    • /
    • 2009
  • 보다 효과적인 색인어 추출 및 색인어 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 태그의 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 상식적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 태그 정보를 이용한 자동색인을 위하여, 논문을 구성하는 주요 태그를 중요도에 따라 분류하고, 낮은 태그에서 추출된 용어 가중치를 계산하고, 그 가중치로 높은 가중치의 태그에서 추출된 용어의 가중치를 갱신해 가면서 최종 가중치를 계산하는 방법을 제안한다. 보다 객관적인 가중치 결정을 위하여 사용자가 중요하게 생각하는 태그를 실험해 보고 그에 따라 중요도를 분류하여 가중치 계산에 반영한다. 그리고 기존 태그 중요도 결정 방법을 적용하여 계산된 색인어 가중치를 이용한 검색성능과 비교함으로써 본 논문에서 제안한 방법을 적용하여 계산된 색인어 가중치의 효과를 검증한다.

가중치 분석을 적용한 지역공동형 훈련성과 평가지표 개발 (The Development of Key Performance Indicators for Regional Co-Training Programs, Using Analytic Hierarchy Process Technique)

  • 이영민
    • 한국콘텐츠학회논문지
    • /
    • 제14권4호
    • /
    • pp.160-167
    • /
    • 2014
  • 본 논문의 목적은 가중치 분석을 통해 지역공동형 훈련성과를 효과적으로 점검할 수 있는 평가지표를 개발하는 것이다. 지표를 개발하기 위하여, 1단계에서는 선행연구 분석을 통해 예비지표 목록을 구성하였고, 2단계에서는 전문가 검토를 통해 지표의 적절성과 대표성을 점검하였으며, 3단계에서는 현장 훈련기관 전담자 검토를 통해 지표의 현장 적용 가능성을 파악하였고, 최종 성과 평가지표를 산출하였다. 4단계에서는 최종지표를 바탕으로 가중치 분석을 실시하였다. 연구결과, 협약기업 발굴 및 관리실적 영역(협약기업 참여율, 근로자 훈련참여율 등), 훈련실적 영역(수료율, 취업률 등), 비용효과성 영역(1인당 훈련비용), 만족도 영역(협약기업 만족도, 훈련생 만족도), 지역공동 훈련활성화 영역(지역인적자원개발협의체 운영, 지자체의 인력개발 의지 등)별 지표들을 개발하였다. 가중치는 지역산업의 훈련수요 대응, 협약기업 만족도, 지역인적 자원개발협의체 운영 순으로 높았다. 또한 지역공동형 훈련성과 지표에 대한 지속적인 개선과 분석이 필요하다는 점을 제언하였다.

용어 발생 유사도와 퍼지 추론을 이용한 질의 용어 확장 및 가중치 재산정 (Query Term Expansion and Reweighting using Term Co-Occurrence Similarity and Fuzzy Inference)

  • 김주연;김병만
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제27권9호
    • /
    • pp.961-972
    • /
    • 2000
  • 본 논문에서는 사용자의 적합 피드백을 기반으로 적합 문서들에서 발생하는 용어들과 초기 질의어간의 발생 빈도 유사도 및 퍼지 추론을 이용하여 용어의 가중치를 산정하는 방법에 대하여 제안한다. 피드백 문서들에서 발생하는 용어들 중에서 불용어를 제외한 모든 용어들을 질의어로 확장될 수 있는 후보 용어들로 선택하고, 발생 빈도 유사성을 이용한 초기 질의어-후보 용어의 관련 정도, 용어의 IDF, DF 정보를 퍼지 추론에 적용하여 후보 용어의 초기 질의어에 대한 최종적인 관련 정도를 산정 하였으며, 피드백 문서들에서의 가중치와 관련 정도를 결합하여 후보 용어들의 가중치를 산정 하였다. 본 논문에서는 성능을 평가하기 위하여 KT-set 1.0과 KT-set 2.0을 사용하였으며, 성능의 상대적인 평가를 위하여 Dec-Hi 방법, 용어 분포 유사도를 이용한 방법, 퍼지 추론을 이용한 방법들을 정확률-재현률을 사용하여 평가하였다.

  • PDF

색상 영상의 최대 변화도를 이용한 깊이맵 업샘플링 기법 (Depth Map Up-sampling Using Maximum Gradient of Color Image)

  • 정재일;호요성
    • 한국방송∙미디어공학회:학술대회논문집
    • /
    • 한국방송공학회 2012년도 추계학술대회
    • /
    • pp.29-30
    • /
    • 2012
  • 본 논문은 고해상도의 깊이맵을 얻기 위해서 대응되는 색상 영상의 최대 변화도를 이용한 깊이맵 업샘플링 기술을 제안한다. 기존 알고리즘들이 인접한 화소의 깊이 값을 참조할 때 거리에 따른 가중치를 부여하는 것과 달리, 제안한 방법은 현재 화소와 참조 화소 사이의 최대 색차 변화도를 이용하여 가중치를 부여한다. 이런 접근 방법은 비슷한 색상의 물체가 서로 붙어 있거나 큰 크기의 객체가 존재할 경우에도 모두 올바른 가중치를 부여할 수 있다는 장점을 갖는다. 먼저, 색상 영상의 색차 성분에 대한 변화도 영상을 계산하고, 업샘플링하고자 하는 화소와 참조 화소 사이의 최단 경로 위에서 가장 큰 변화도를 취한다. 변화도가 클수록 다른 객체에 존재할 확률이 높기 때문에 변화도가 큰 참조 화소에는 작은 가중치를 부여하고, 이들의 가중합을 통해 최종 깊이 값을 계산한다. 제안한 방법을 이용하여 깊이맵을 업샘플링한 결과가 기존 알고리즘들에 비해 우수한 결과를 보였다.

  • PDF

열화가중치와 웨이블함수를 이용한 케이블의 열화진단 (Degradation Diagnosis of Power Cables Using degradation point and Weibull Function)

  • 김충배;김철운
    • 한국컴퓨터정보학회논문지
    • /
    • 제4권4호
    • /
    • pp.133-139
    • /
    • 1999
  • 본 논문은 현재 사용되고 있는 케이블의 진단을 위해서 열화가중치라는 새로운 접근법을 사용하였다. 케이블은 상시에 높은 온도로 운전된다는 점, 수분이 접촉할 확률이 크다는 점에서 신뢰성 있고 효율적인 열화진단은 필수적이라고 할 수 있다. 종래의 연구는 수트리가 발생되는 절연층을 주 대상으로 삼았으나, 현대에 와서는 절연층뿐만 아니라, 내·외부 반도전층 또한 활발한 연구가 이루어지고 있다. 본 연구에서는 최근에 국내에서 제안된 열화가중치법을 이용하여 케이블의 열화인자가 될 수 있는 부분에 대하여 특성분석을 수행한 다음, 열화가중치를 부여하여 케이블의 최종적인 상태를 파악해 보았다.

  • PDF

단락을 분류에 따른 XML 키워드 가중치 결정 기법 (An XML Keyword Indexing Method Using on Lexical Similarity)

  • 정혜진;김형진
    • 한국산학기술학회:학술대회논문집
    • /
    • 한국산학기술학회 2008년도 춘계학술발표논문집
    • /
    • pp.205-208
    • /
    • 2008
  • 보다 효과적인 키워드 추출 및 키워드 가중치 결정을 위하여 문서의 내용뿐 아니라 구조를 이용하여 색인을 추출하는 연구가 이루어지고 있는데, 대부분의 연구들이 XML 단락별 중요도가 아닌, 문맥상의 단락에 대한 중요도를 계산하는게 일반적이다. 이러한 기존 연구들은 대부분이 객관적인 실험을 통해서 중요도를 입증하기보다는 일반적인 관점에서 단순한 수치로 중요도를 결정하고 있다. 본 논문에서는 웹 문서 관리를 위한 표준으로 자리잡아가고 있는 XML 문서의 자동색인을 위하여, 논문을 구성하는 주요 단락을 세분하고, 단락에서 추출된 용어의 가중치를 갱신해 가면서 최종 색인어 가중치를 계산하는 방법을 제안한다.

  • PDF

데이터 불균형 기법의 부작용 완화를 위한 어텐션 기반 앙상블 (Attention-Based Ensemble for Mitigating Side Effects of Data Imbalance Method)

  • 박요한;최용석;;이공주
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.546-551
    • /
    • 2023
  • 일반적으로 딥러닝 모델은 모든 라벨에 데이터 수가 균형을 이룰 때 가장 좋은 성능을 보인다. 그러나 현실에서는 특정라벨에 대한 데이터가 부족한 경우가 많으며 이로 인해 불균형 데이터 문제가 발생한다. 이에 대한 해결책으로 오버샘플링과 가중치 손실과 같은 데이터 불균형 기법이 연구되었지만 이러한 기법들은 데이터가 적은 라벨의 성능을 개선하는 동시에 데이터가 많은 라벨의 성능을 저하시키는 부작용을 가지고 있다. 본 논문에서는 이 문제를 완화시키고자 어텐션 기반의 앙상블 기법을 제안한다. 어텐션 기반의 앙상블은 데이터 불균형 기법을 적용한 모델과 적용하지 않은 모델의 출력 값을 가중 평균하여 최종 예측을 수행한다. 이때 가중치는 어텐션 메커니즘을 통해 동적으로 조절된다. 그로므로 어텐션 기반의 앙상블 모델은 입력 데이터 특성에 따라 가중치를 조절할 수가 있다. 실험은 에세이 자동 평가 데이터를 대상으로 수행하였다. 실험 결과로는 제안한 모델이 데이터 불균형 기법의 부작용을 완화하고 성능이 개선되었다.

  • PDF

주성분 분석(PCA)을 이용한 물관리 탄력성 지수의 가중치 산정 (Estimation of Weights in Water Management Resilience Index Using Principal Component Analysis(PCA))

  • 박정은;임광섭;이을래
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2016년도 학술발표회
    • /
    • pp.583-583
    • /
    • 2016
  • 다양한 평가지표가 반영된 복합 지수(Composite Index)는 물관리 정책의 우선순위 결정 및 정책성과의 모니터링에 유용한 도구로 사용되고 있다. 각 지표별 중요도를 나타내는 가중치는 최종 지수의 산정에 영향을 미칠 수 있으며, 그 결정방법도 Data Envelopment Analysis(DEA), Benefit of doubt Approach(BOD), Unobserved Component Model(UCM), Budget Allocation Process(BAP), Analytic Hierarchy Process(AHP), Conjoint Analysis(CA) 등 다양하다. 본 연구에서는 여러 가지 가중치 결정방법 중 통계적 방법인 주성분 분석(Principal Component Analysis, PCA)을 사용하여 Park et al.(2016)이 제시한 물관리 탄력성 지수(Water Management Resilience Index, WMRI)에 대한 가중치를 산정하여 동일 가중치를 적용한 기존 결과와 비교하였다. 물관리 탄력성 지수는 자연조건상 물관리 취약성(Vulnerability), 기존 수자원 인프라의 견고성(Robustness), 물위기 적응전략의 다양성(Redundancy)의 3가지 부지수(sub-index)는 각각 13개, 11개, 7개의 지표(Indicator)로 구성되어 있으며, 117개 중권역을 다목적댐 하류 본류유역(범주 1), 용수공급 및 유량조절이 불가능한 지류(범주 2)와 가능한 지류(범주 3)로 분류하여 적용되었다. 각 부지수별로 추출된 3개, 5개, 3개의 주성분이 전체 자료의 76.4%, 71.2%, 63.2%를 설명하는 것으로 분석되었으며 부지수별 주성분의 고유벡터(Eigenvector)와 고유값(Eigenvalue)를 계산하고 각 지표의 가중치를 산정하였다. 주성분 분석에 의한 가중치와 동일 가중치를 적용하였을 경우와 비교해보면 취약성 부지수 1.9%, 견고성 부지수 1.9%, 다양성 부지수 2.1%의 차이가 나타나며 물관리 탄력성 지수는 0.4%의 차이를 보임에 따라 Park et al.이 제시한 연구결과의 적정성을 확인할 수 있었다. 주성분 분석은 객관적인 가중치 설정을 위한 통계적 접근방법의 하나로써 다양한 물관리 정책지수 산정시 활용될 수 있을 것이며, 향후 다른 가중치 산정방법을 적용함으로써 각 방법에 따른 지수 결과의 민감도 및 장단점을 분석할 수 있을 것으로 판단된다.

  • PDF

지역별 메가가뭄 복원력 정량화를 위한 AHP기반 인자 가중치 결정 (Determination of AHP-based factor weights for quantification of regional mega-drought resilience)

  • 이찬욱;문기훈;유도근
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2021년도 학술발표회
    • /
    • pp.361-361
    • /
    • 2021
  • 가뭄의 경우 타 자연재난에 비해 발생경로, 피해범위, 발생기간 등이 매우 다양해 다각적인 측면에서의 대응책 마련이 필요하다. 따라서, 극한가뭄에 대비한 지자체별 가뭄 역량 평가를 수행하는 것은 재난관리에 있어서 최우선이라고 할 수 있다. 현재 국내외적으로 가뭄과 관련된 지역적 복원력을 평가한 사례는 매우 적다. 가뭄은 지진, 홍수 등과 같은 타 자연재난에 비하여 지속기간이 길고, 그 지속기간에 따라 피해의 영향 또한 파급력이 달라지므로 복원력 산정을 위한 항목, 복원력 곡선의 저하 형태 및 양상 역시 가뭄의 특성에 맞춰 도출되어야 한다. 본 연구에서는 지자체별 극한가뭄에 대한 복원력 정량화를 위하여 가뭄과 관련된 내구성, 대체성, 신속성, 자원동원력의 세부인자를 정성인자와 정량인자로 구분하여 총 18개 항목으로 구성하였다. 구성된 18가지 항목이 정량인자 뿐만 아니라 정성인자로 구성됨에 따라, 모든 인자를 동일한 가중치로 평가할 경우 최종결과가 상대적 중요도의 미 고려로 인해 왜곡될 가능성이 존재한다. 따라서 계층적분석기법(AHP, Analytic Hierarchy Process)을 통해 내구성, 대체성, 신속성, 그리고 자원동원력에 대한 가중치와 내구성, 대체성, 그리고 신속성에 대한 세부 지표별 가중치를 도출하여 지역별 메가가뭄 복원력을 정량화 하였다. 분석결과를 동일한 가중치를 적용한 결과와 비교분석하였으며, 과거 가뭄사례를 통해 검토하였다.

  • PDF