• 제목/요약/키워드: 확률추출

검색결과 849건 처리시간 0.034초

확률행렬이론을 이용한 한국주식시장의 상관행렬 분석 (A Random Matrix Theory approach to correlation matrix in Korea Stock Market)

  • 김건우;이승철
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권4호
    • /
    • pp.727-733
    • /
    • 2011
  • 주식수익률간의 상관행렬 분석을 통해 유의미한 정보를 추출 활용하는 것은 주식시장을 이해하는데 매우 중요하다. 최근 확률행렬이론을 이용 상관행렬을 분석하는 연구들이 많이 진행되어 왔는데, 본 논문에서는 단일 요인 모형을 확률행렬이론에 적용 한국주식시장에서 주식수익률간의 상관행렬에 관한 유의미한 정보를 추출하였다. 특히 단일 요인을 도입 상관행렬을 분석한 결과가 실제 데이터를 잘 설명함을 관찰하였고, 단일 요인 모형의 유용성을 확인하였다.

강우사상 이변량 빈도해석을 위한 Peaks Over Threshold (POT) 방법을 이용한 적정 확률표본 선택 연구 (Appropriate Sample Size for Bivariate Frequency Analysis of Rainfall Event using Peaks Over Threshold (POT))

  • 주경원;김한빈;안현준;허준행
    • 한국수자원학회:학술대회논문집
    • /
    • 한국수자원학회 2018년도 학술발표회
    • /
    • pp.304-304
    • /
    • 2018
  • 이변량 빈도해석은 일반적으로 고정지속기간 강우량에 대해 빈도해석하는 단변량 빈도해석에 비해 지속기간을 확률변수로 이용하여 강우량과 동시에 확률변수로 사용할 수 있다는 장점이 있다. 하지만 확률분포형의 차원이 증가하기 때문에 기존 단변량 빈도해석에서 요구되던 표본크기보다 더 많은 표본이 필요하다. 우리나라 강우관측소의 경우 오래된 관측소의 경우에도 기록년수가 60년을 넘지 않아 연최대계열로 확률표본을 작성할 경우 이변량 빈도해석을 수행하기에 부족할 수 있다. 따라서 본 연구에서는 Peaks Over Threshold (POT) 방법을 이용하여 적정 확률표본을 선택하는 연구를 진행하였다. 서울 기상청 지점의 강우자료로부터 최소무강우시간을 이용하여 모든 강우사상을 추출하였으며 각 강우사상의 강우량과 지속기간이 확률변수로 사용되었다. 기존에 알려진 POT 방법들과 Anderson-Darling 적합도 검정을 이용한 절단값 산정방법등을 적용하여 확률표본 개수의 변화에 따른 주변분포형의 적합도 검정과 이변량 확률모형의 적합성을 살펴보았다.

  • PDF

웹문서의 테이블 객체 모델링을 통한 제목 추출 방법 (An Object Model of Korean Web Pages for Title Identification)

  • 윤주형;박세종;이승욱;한영석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2003년도 제15회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.18-21
    • /
    • 2003
  • 한국어 웹 문서에는 일반적으로 제목이 명시가 되어 있음으로 텍스트를 요약하는 방식의 제목추출과는 달리 여러 테이블 형태로 이루어진 웹 문서의 특성을 고려하여 제목에 해당하는 테이블 객체를 찾아내야 한다. 웹 문서를 테이블 객체의 리스트로 보고, 이들을 휴리스틱 규칙에 의해서 본문 후보와 이를 기준으로 하는 제목 후보 객체들로 구분하는 단계와 제목 후보들 간의 확률적 분포 값과 본문과의 언어적 유사도를 이용하여 제목 객체를 결정하는 단계를 통하여 제목을 인식한다. 인식의 정확성에 기여하는 것은 제목과 본문 객체를 구분하는 규칙 그리고 제목의 확률분포 및 언어적 유사 정도 등이며 이들 각 정보가 정확성에 기여하는 정도를 실험하였다. 무작위로 추출된 500개의 다양한 양식의 웹 문서를 대상으로 실험한 결과 제목인식 정확성은 95.1%였다.

  • PDF

테이블 객체 모델링을 이용한 웹 문서의 제목추출 (An Object Model of Korean Web Pages for Title Identification)

  • 박세종;윤주형;이승욱;한영석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 가을 학술발표논문집 Vol.30 No.2 (1)
    • /
    • pp.541-543
    • /
    • 2003
  • 한국어 웹 문서에는 일반적으로 제목이 명시가 되어 있음으로 텍스트를 하는 방식의 제목추출과는 달리 여러 테이블 형태로 이루어진 웹 문서의 특성을 고려하여 제목에 해당하는 테이블 객체를 찾아내야 한다. 웹 문서를 테이블 객체의 리스트로 보고, 이들을 휴리스틱 규칙에 의해서 본문 후보와 이를 기준으로 하는 제목 후보 객체들로 구분하는 단계와 제목 후보들 간의 확률적 분포 값과 본문과의 언어적 유사도를 이용하여 제목 개체를 결정하는 단계를 통하여 제목을 인식한다. 인식의 정확성에 기여하는 것은 제목과 본문 객체를 구분하는 규칙 그리고 제목의 확률분포 및 언어적 유사정도 등이며 이들 각 정보가 정확성에 기여하는 정도를 실험하였다. 무작위로 추출된 500개의 다양한 양식의 웹 문서를 대상으로 실험한 결과 제목인식 정확성은 95.1%였다.

  • PDF

층화모집단 평균에 대한 붓스트랩 추론 (On Statistical Inference of Stratified Population Mean with Bootstrap)

  • 허태영;이두리;조중재
    • Communications for Statistical Applications and Methods
    • /
    • 제19권3호
    • /
    • pp.405-414
    • /
    • 2012
  • 층화확률추출은 모집단을 어떤 층화기준에 의해 여러 층으로 분할한 다음 각 층으로부터 독립적으로 표본을 임의추출하는 방법으로 여러 가지 장점을 가지고 있어 실제 조사에서 많이 활용되고 있다. 본 연구에서는 대규모 표본조사에서 많이 사용하고 있는 층화확률추출을 사용하여 추출된 표본을 통해 모평균에 대한 붓스트랩 추정량과 신뢰구간 및 가설검정 등 통계적 추론에 대하여 연구하였다. 층화모집단에서의 모평균의 추정량과 관련된 극한 분포이론들을 기초로 붓스트랩 일치성을 근거로 층화 모평균에 대해 표준 붓스트랩 방법, 백분위수 붓스트랩 방법, 스튜던트화 붓스트랩 방법을 활용한 신뢰구간과 붓스트랩 가설검정 방법을 제안하였으며, 모의실험을 통해 신뢰구간 추정 방법들의 유효성을 확인하였다.

디지털 포렌식에서 텍스트 마이닝 기반 침입 흔적 로그 추천 (A Text Mining-based Intrusion Log Recommendation in Digital Forensics)

  • 고수정
    • 정보처리학회논문지:컴퓨터 및 통신 시스템
    • /
    • 제2권6호
    • /
    • pp.279-290
    • /
    • 2013
  • 디지털 포렌식에서의 로그 데이터는 사용자의 과거 행적에 대한 추적을 목적으로 대용량의 형태로 저장된다는 특성을 가지고 있다. 이러한 대용량의 로그 데이터를 단서가 없이 수동으로 분석하는 절차는 조사관들에게는 어려운 일이다. 본 논문에서는 포렌식 분석을 하는 조사관들에게 믿을 만한 증거를 추천하기 위하여 대용량의 로그 집합으로부터 해킹 흔적을 추출하는 텍스트 마이닝 기술을 제안한다. 학습 단계에서는 훈련 로그 집합을 대상으로 전처리를 한 후, Apriori 알고리즘을 이용하여 침입 흔적 연관 단어를 추출하고, 신뢰도와 지지도를 병합하여 각 연관단어의 침입 흔적 확률을 계산한다. 또한, 침입 흔적 확률의 정확도를 높이기 위하여 스팸 메일의 여과에 사용된 Robinson의 신뢰도 계산 방법을 이용하여 확률에 가중치를 추가하며, 최종적으로 침입 흔적 연관 단어 지식 베이스를 구축한다. 테스트 단계에서는 연관 단어 지식 베이스를 기반으로 테스트 로그 집합에 대해 피셔(Fisher)의 역 카이제곱 분류 알고리즘을 적용하여 침입 흔적 로그일 확률과 정상 로그일 확률을 계산하고, 이를 병합하여 침입 흔적 로그를 추출한다. 추출된 로그를 조사관에게 침입 흔적이 있는 로그로서 추천한다. 제안한 방법은 비구조화된 대용량의 로그 데이터를 대상으로 데이터의 의미를 명확하게 분석할 수 있는 학습 방법을 사용함으로써 데이터의 모호성으로 인해 발생하는 정확도 저하 문제를 보완할 수 있으며, 피셔의 역 카이제곱 분류 알고리즘을 이용하여 추천함으로써 오분류율(false positive)을 감소시키고 수동으로 증거를 추출하는 번거로움을 줄일 수 있다는 장점을 갖는다.

확률적 교차 연산을 이용한 보편적 관계 추출 (General Relation Extraction Using Probabilistic Crossover)

  • 이제승;김재훈
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권8호
    • /
    • pp.371-380
    • /
    • 2023
  • 관계 추출은 텍스트로부터 개체(named entity) 사이의 관계를 추출하는 과정이다. 전통적으로 관계 추출 방법은 주어와 목적어가 미리 정해진 상태에서 관계만 추출한다. 그러나 종단형 관계 추출에서는 개체 쌍마다 주어와 목적어의 위치를 고려하여 가능한 모든 관계를 추출해야 하므로 이 방법은 시간과 자원을 비효율적으로 사용한다. 본 논문에서는 이러한 문제를 완화하기 위해 문장에서 주어와 목적어의 위치에 따른 방향을 설정하고, 정해진 방향에 따라 관계를 추출하는 방법을 제안한다. 제안하는 방법은 기존의 관계 추출 데이터를 활용하여 문장에서 주어가 목적어를 가리키는 방향을 나타내는 방향 표지를 새롭게 생성하고, 개체 위치 토큰과 개체 유형 정보를 문장에 추가하는 작업을 통해 사전학습 언어모델 (KLUE-RoBERTa-base, RoBERTa-base)을 이용하여 방향을 예측한다. 그리고 확률적 교차 연산을 통해 주어와 목적어 개체의 표상을 생성한다. 이후 이러한 개체의 표상을 활용하여 관계를 추출한다. 실험 결과를 통해, 제안 모델이 하나로 통합된 라벨을 예측하는 것보다 3 ~ 4%p 정도 더 우수한 성능을 보여주었다. 또한, 제안 모델을 이용해 한국어 데이터와 영어 데이터를 학습할 때, 데이터 수와 언어적 차이로 인해 한국어보다 영어에서 1.7%p 정도 더 높은 성능을 보여주었고, 최상의 성능을 내는 매개변수의 값이 다르게 나타나는 부분도 관찰할 수 있었다. 제안 모델은 방향에 따른 경우의 수를 제외함으로써 종단형 관계 추출에서 자원의 낭비를 줄일 수 있다.

프라이버시를 보존하는 군집화 (Privacy Preserving Clustering)

  • 유현진;김민호;라마크리쉬나
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2004년도 추계학술발표논문집(상)
    • /
    • pp.473-476
    • /
    • 2004
  • 본 논문에서는 프라이버시를 침해 하지 않는 데이터 마이닝에 대해 다룬다. 방대한 데이터에서 유용한 정보를 추출하는 데이터 마이닝분야에서 데이터로부터 프라이버시 보존의 중요성이 부각되고 있다. 그래서 프라이버시의 침해를 막기 위한 방법으로 실제 데이터를 사용하지 않고 잡음이 들어간 데이터를 사용한다. 그리고 프라이버시를 침해하지 않기 위해 잡음이 들어간 데이터로부터 데이터의 확률 밀도 함수(PDF)만을 복원한다. 이렇게 복원된 확률 밀도 함수만을 이용하여 데이터 마이닝기술, 예를 들면 분류화에 곧바로 적용함으로써 프라이버시를 보존하는 것이다. 하지만 분류화에 사용되는 데이터의 1차원적인 확률 밀도 함수만 가지고는 군집화에 사용하기가 부적절하다. 따라서 본 논문에서는 군집화를 하기 위해 잡음이 들어간 데이터로부터 결합 확률 밀도 함수(Joint PDF)를 복원하고, 복원된 결합 확률 밀도 함수만 가지고 군집화를 할 수 있는 방법을 다룬다.

  • PDF

부하평준화를 위한 Tabu 탐색의 효율적 이웃해 생성 방법

  • 강병호;조민숙;류광렬
    • 한국지능정보시스템학회:학술대회논문집
    • /
    • 한국지능정보시스템학회 2003년도 춘계학술대회
    • /
    • pp.429-434
    • /
    • 2003
  • 본 논문은 작업일정계획에서 부하평준화 문제를 효율적으로 해결하기 위하여 tabu 탐색을 적용함에 있어서 확률적 선별에 기반하여 이웃해를 생성하는 방법을 제시한다. 이웃해 생성은 부하평준화를 위해 일정을 조정할 대상 작업을 선택하는 단계와 선택된 작업에 대해 일정 조정의 방향을 결정하는 단계로 구분된다. 확률적 선별에 기반한 이웃해 생성은 우선 무작위로 추출된 작업에 대해서 탐색의 질을 개선시킬 수 있는 가능성에 대한 추정치에 따라 확률을 부여하고, 이 확률에 기반하여 선택여부를 결정함으로써 이웃해를 선별하는 방법이다. 실제 현장의 부하평준화 문제를 대상으로 이웃해 생성 방법으로 무작위 방법, 그리디(greedy) 방법과의 비교 실험을 통해 확률적 선별에 기반한 이웃해 생성 방법의 성능을 검증하였다.

  • PDF

층화 가법 양적속성 확률화응답모형 (An Additive Stratified Quantitative Attribute Randomized Response Model)

  • 이기성;안승철;홍기학;손창균
    • 응용통계연구
    • /
    • 제27권2호
    • /
    • pp.239-247
    • /
    • 2014
  • 본 논문에서는 사회적으로나 개인적으로 매우 민감한 조사에서 조사하고자 하는 모집단이 여러 개의 층으로 구성되어 있고, 각 층이 양적인 속성으로 되어 있는 경우에 Himmelfarb-Edgell의 가법 모형과 Gjestvang-Singh의 가법 모형에 단순임의추출법 대신에 층화추출법을 적용한 층화 가법 양적속성 확률화응답모형을 제안하였다. 제안한 두 모형으로부터 각 층의 양적속성에 대한 모평균의 추정뿐만 아니라 모집단 전체 모평균에 대한 추정을 할 수 있는 이론적 체계를 마련하였다. 그리고 제안한 두 모형에서 비례배분과 최적배분 문제를 다루었으며, 각 배분법에 따른 분산식을 도출하였다. 마지막으로 두 층화 가법 양적속성 확률화응답모형들 간의 효율성을 비교해 본 결과 Gjestvang-Singh의 층화 가법 모형이 Himmelfarb-Edgell의 층화 가법 모형보다 효율적으로 나타났고, 특히 hh값이 작을수록 즉, 제시한 모형의 특성이 직접질문에 가까워질수록 Gjestvang-Singh의 층화 가법 모형의 효율성이 커짐을 알 수 있었다.