• 제목/요약/키워드: Fraud detection

검색결과 128건 처리시간 0.025초

데이터 마이닝의 범죄수사 적용 가능성 (Usefulness of Data Mining in Criminal Investigation)

  • 김준우;손중권;이상한
    • 대한수사과학회지
    • /
    • 제1권2호
    • /
    • pp.5-19
    • /
    • 2006
  • 데이터 마이닝은 컴퓨터와 정보처리의 발전으로 각기 다른 차원에서 다량으로 수집되는 데이터 속에서 숨은 의미나 패턴을 발견하는 유용한 기법이다. 의사결정나무, 신경망 모형, 규칙 귀납, K-평균 군집화, 시각화 등의 데이터 마이닝 개별 기법들은 산재해 있는 데이터에서 연관성을 분석하고, 이를 분류함으로써 일반화된 개념을 정의하고, 새로운 지식을 추론함으로써 실제 생활에 적용 가능한 예측을 가능하게 한다. 따라서 현재 데이터 마이닝은 기업의 마케팅 분야, 금융기관의 고객 분석, 통신 회사의 고객 이탈 방지 등에서 유용하게 활용되고 있다. 우리가 접해야 하는 정보의 양이 늘어나는 것은 범죄 수사에 있어서도 마찬가지 현상이다. 범죄와 범죄자에 대한 데이터는 축적되어 가지만 정작 개별 사안에 있어서는 중요한 데이터가 접근조차 되지 않고 있으며, 많은 데이터 속에서 이것이 내포하고 있는 숨은 의미를 지나치게 되는 경우도 많다. 본 연구에서는 선행 연구와 사례 적용을 통해 데이터 마이닝의 범죄 수사 적용 가능성과 한계점을 살펴보고자 하였다. 미제 사건으로 남는 경우가 많은 절도나 사기 같은 습관적 상습 범죄의 경우 데이터 마이닝의 분류, 군집화 기능을 활용 한다면 향후 여죄 추적에 효율적으로 활용될 수 있음을 파악할 수 있었고, 특히 다양한 문제에 적용 가능하고, 잡음에 대한 견고성이 있음에도 예측의 정확성을 지니고 있는 신경망 모형의 경우 패턴 인식을 통하여 범죄자 프로파일링이나 화상 자료 대비 시스템 구축에 충분히 활용될 것으로 생각한다. 특히 보험 사기 사례 적용에서 살펴본 바와 같이 마약, 테러와 같은 조직적 범죄수사나 자금세탁과 같은 금융 추적 수사의 경우 해당 자료의 방대함과 모호성으로 인해 수사를 하는 데 많은 어려움이 있지만 이러한 데이터 마이닝 가시화 기법을 적절히 활용한다면 전체적인 윤곽을 파악하는 데 매우 유용하며, 효율적인 수사가 가능함을 확인할 수 있었다. 그러나 데이터 마이닝은 예측 모델이므로 오류를 내재하고 있다는 점에서 수사 기관의 데이터 마이닝 접근은 조심스러워야 하며, 정보 독점화 현상과 개인 사생활 보호라는 측면에서 각 수사기관은 해당 법률에 정한 범위 내에서 해당 사건별로 데이터를 수집하고 이를 통합, 재구성하여 활용하는 측면으로 적용되어야 할 것이다. 또한 각 수사기관별로는 자신의 보유하고 있는 데이터에 대해 다차원 처리가 가능하도록 데이터베이스 시스템을 구축하여 데이터 마이닝이 적용 가능한 환경을 구축하도록 하여야 할 것이다. 아직은 논의의 초기 단계이므로 효과가 크게 부각되지는 않았지만 지금까지 제시한 문제에 대한 연구가 계속 이루어진다면 인권중심, 증거중심의 수사 개념을 바탕으로 적법절차에 의한 수사 활동을 요구받는 시대에 새로운 대안으로 자리 잡을 것이며, 수사의 과학화에 기여할 것으로 전망한다.

  • PDF

Stock Market Forecasting : Comparison between Artificial Neural Networks and Arch Models

  • Merh, Nitin
    • Journal of Information Technology Applications and Management
    • /
    • 제19권1호
    • /
    • pp.1-12
    • /
    • 2012
  • Data mining is the process of searching and analyzing large quantities of data for finding out meaningful patterns and rules. Artificial Neural Network (ANN) is one of the tools of data mining which is becoming very popular in forecasting the future values. Some of the areas where it is used are banking, medicine, retailing and fraud detection. In finance, artificial neural network is used in various disciplines including stock market forecasting. In the stock market time series, due to high volatility, it is very important to choose a model which reads volatility and forecasts the future values considering volatility as one of the major attributes for forecasting. In this paper, an attempt is made to develop two models - one using feed forward back propagation Artificial Neural Network and the other using Autoregressive Conditional Heteroskedasticity (ARCH) technique for forecasting stock market returns. Various parameters which are considered for the design of optimal ANN model development are input and output data normalization, transfer function and neuron/s at input, hidden and output layers, number of hidden layers, values with respect to momentum, learning rate and error tolerance. Simulations have been done using prices of daily close of Sensex. Stock market returns are chosen as input data and output is the forecasted return. Simulations of the Model have been done using MATLAB$^{(R)}$ 6.1.0.450 and EViews 4.1. Convergence and performance of models have been evaluated on the basis of the simulation results. Performance evaluation is done on the basis of the errors calculated between the actual and predicted values.

MEAT SPECIATION USING A HIERARCHICAL APPROACH AND LOGISTIC REGRESSION

  • Arnalds, Thosteinn;Fearn, Tom;Downey, Gerard
    • 한국근적외분광분석학회:학술대회논문집
    • /
    • 한국근적외분광분석학회 2001년도 NIR-2001
    • /
    • pp.1245-1245
    • /
    • 2001
  • Food adulteration is a serious consumer fraud and a matter of concern to food processors and regulatory agencies. A range of analytical methods have been investigated to facilitate the detection of adulterated or mis-labelled foods & food ingredients but most of these require sophisticated equipment, highly-qualified staff and are time-consuming. Regulatory authorities and the food industry require a screening technique which will facilitate fast and relatively inexpensive monitoring of food products with a high level of accuracy. Near infrared spectroscopy has been investigated for its potential in a number of authenticity issues including meat speciation (McElhinney, Downey & Fearn (1999) JNIRS, 7(3), 145-154; Downey, McElhinney & Fearn (2000). Appl. Spectrosc. 54(6), 894-899). This report describes further analysis of these spectral sets using a hierarchical approach and binary decisions solved using logistic regression. The sample set comprised 230 homogenized meat samples i. e. chicken (55), turkey (54), pork (55), beef (32) and lamb (34) purchased locally as whole cuts of meat over a 10-12 week period. NIR reflectance spectra were recorded over the wavelength range 400-2498nm at 2nm intervals on a NIR Systems 6500 scanning monochromator. The problem was defined as a series of binary decisions i. e. is the meat red or white\ulcorner is the red meat beef or lamb\ulcorner, is the white meat pork or poultry\ulcorner etc. Each of these decisions was made using an individual binary logistic model based on scores derived from principal component or partial least squares (PLS1 and PLS2) analysis. The results obtained were equal to or better than previous reports using factorial discriminant analysis, K-nearest neighbours and PLS2 regression. This new approach using a combination of exploratory and logistic analyses also appears to have advantages of transparency and the use of inherent structure in the spectral data. Additionally, it allows for the use of different data transforms and multivariate regression techniques at each decision step.

  • PDF

MEAT SPECIATION USING A HIERARCHICAL APPROACH AND LOGISTIC REGRESSION

  • Arnalds, Thosteinn;Fearn, Tom;Downey, Gerard
    • 한국근적외분광분석학회:학술대회논문집
    • /
    • 한국근적외분광분석학회 2001년도 NIR-2001
    • /
    • pp.1152-1152
    • /
    • 2001
  • Food adulteration is a serious consumer fraud and a matter of concern to food processors and regulatory agencies. A range of analytical methods have been investigated to facilitate the detection of adulterated or mis-labelled foods & food ingredients but most of these require sophisticated equipment, highly-qualified staff and are time-consuming. Regulatory authorities and the food industry require a screening technique which will facilitate fast and relatively inexpensive monitoring of food products with a high level of accuracy. Near infrared spectroscopy has been investigated for its potential in a number of authenticity issues including meat speciation (McElhinney, Downey & Fearn (1999) JNIRS, 7(3), 145 154; Downey, McElhinney & Fearn (2000). Appl. Spectrosc. 54(6), 894-899). This report describes further analysis of these spectral sets using a hierarchical approach and binary decisions solved using logistic regression. The sample set comprised 230 homogenized meat samples i. e. chicken (55), turkey (54), pork (55), beef (32) and lamb (34) purchased locally as whole cuts of meat over a 10-12 week period. NIR reflectance spectra were recorded over the wavelength range 400-2498nm at 2nm intervals on a NIR Systems 6500 scanning monochromator. The problem was defined as a series of binary decisions i. e. is the meat red or white\ulcorner is the red meat beef or lamb\ulcorner, is the white meat pork or poultry\ulcorner etc. Each of these decisions was made using an individual binary logistic model based on scores derived from principal component or partial least squares (PLS1 and PLS2) analysis. The results obtained were equal to or better than previous reports using factorial discriminant analysis, K-nearest neighbours and PLS2 regression. This new approach using a combination of exploratory and logistic analyses also appears to have advantages of transparency and the use of inherent structure in the spectral data. Additionally, it allows for the use of different data transforms and multivariate regression techniques at each decision step.

  • PDF

표준 웹 환경 디바이스 핑거프린트를 활용한 이용자 인증모델 연구 (A Study on User Authentication Model Using Device Fingerprint Based on Web Standard)

  • 박소희;장진혁;최대선
    • 정보보호학회논문지
    • /
    • 제30권4호
    • /
    • pp.631-646
    • /
    • 2020
  • 편리한 인터넷 이용환경을 조성하기 위해 정부에서는 공공·민간 웹사이트의 플러그인 제거 정책을 추진하고 있다. 일반적으로 금융서비스를 제공하는 금융기관 웹사이트는 전자금융거래 안정성 강화를 위해 이상금융거래 탐지시스템을 운영 중이며 이용자의 정보를 수집 및 분석하기 위해 설치형 소프트웨어를 사용하고 있다. 따라서 플러그인 제거 정책에 따라 별도의 소프트웨어 설치 없이 이용자의 정보를 수집할 수 있는 대체 기술 및 대응정책이 필요하다. 본 연구는 표준 웹 환경에서 사용 가능한 디바이스 핑거프린팅 기술들을 소개하고 다양한 기법 중 선택할 수 있는 가이드라인을 제시한다. 그리고 디바이스 핑거프린트를 활용한 머신러닝 기반 이용자 인증모델을 제안한다. 실제로 크롬과 익스플로러 이용자로부터 디바이스 핑거프린트를 수집하여 머신러닝 알고리즘 기반 Multi-class 인증모델을 생성하였으며 실험 결과, 크롬 기반 모델은 약 85%~89%의 성능을 보였으며 익스플로러 기반 모델은 약 93%~97%의 성능을 보였다.

다중외적연관성규칙을 이용한 불필요한 입력변수 제거에 관한 연구 (A study on removal of unnecessary input variables using multiple external association rule)

  • 조광현;박희창
    • Journal of the Korean Data and Information Science Society
    • /
    • 제22권5호
    • /
    • pp.877-884
    • /
    • 2011
  • 의사결정나무는 데이터마이닝의 대표적인 알고리즘으로서, 의사결정 규칙을 도표화하여 관심대상이 되는 집단을 몇 개의 소집단으로 분류하거나 예측을 수행하는 방법이다. 일반적으로 의사결정나무의 모형 생성 시, 입력 변수의 수가 많을 경우 생성된 의사결정모형은 복잡한 형태가 될 수 있고, 모형 탐색 및 분석에 있어 어려움을 겪기도 한다. 이때 입력변수들 간의 내재적인 관련성은 없으나, 외적 변수에 의하여 각 변수가 우연히 어떤 다른 변수와 연결됨으로써 관련성이 있는 것으로 나타나는 것을 종종 볼 수 있다. 이에 본 논문에서는 의사결정나무 생성 시, 입력 변수에 대한 외적 관계를 파악할 수 있는 다중외적연관성규칙을 이용하여 의사결정나무 생성에 불필요한 입력변수를 제거하는 방법을 제시하고 그 효율성을 파악하기 위하여 실제 자료에 적용하고자 한다.

불균형적인 이항 자료 분석을 위한 샘플링 알고리즘들: 성능비교 및 주의점 (On sampling algorithms for imbalanced binary data: performance comparison and some caveats)

  • 김한용;이우주
    • 응용통계연구
    • /
    • 제30권5호
    • /
    • pp.681-690
    • /
    • 2017
  • 파산감지, 스팸메일 감지, 불량품 감지 등 일상생활에서 불균형적인 이항 분류 문제를 다양하게 접할 수 있다. 반응변수의 클래스의 비율이 상당히 불균형한 경우 이항 분류 모형의 예측 성능이 좋지 않다는 점은 이미 잘 알려진 사실이다. 이러한 문제점을 해결하기 위해 그 동안 오버 샘플링, 언더 샘플링, SMOTE와 같은 여러 샘플링 기법이 개발되어 왔다. 본 연구에서는 분류 모형으로 많이 사용되는 기계학습모형으로 로지스틱 회귀모형, Lasso, 랜덤포레스트, 부스팅, 서포트 벡터 머신을 위의 샘플링 기법들과 결합하여 사용했을 때의 예측 성능을 살펴보았다. 실질적인 예측 성능의 개선 여부를 확인하기 위해 네 개의 실제 자료를 분석하였다. 이와 더불어, 샘플링 방법이 사용될 때 주의해야 할 점에 대해서 강조하였다.

사이버범죄의 학제간 연구를 위한 이해의 기초 - 형법상 규제를 중심으로 - (The Base of Understanding for Interdisciplinary Studies on Cyber Crimes - Centering on Regulations in Criminal Law -)

  • 임병락
    • 한국컴퓨터정보학회논문지
    • /
    • 제13권3호
    • /
    • pp.237-242
    • /
    • 2008
  • 본 연구는 사이버범죄에 대한 학제간 연구를 촉진하기 위해 법학자의 시각에서 공학자들에게 형사법상 이론적 기초를 제공하기 위해 연구되었다. 오늘날 사이버범죄에 대한 논의와 심각성은 차치(且置)하고라도 인터넷의 정보공유라는 순기능만을 강조해 온 채 역기능의 폐해는 방기되었다. 따라서 사이버 윤리의식의 강화, IT기술자들에 대한 법 준수의식 강화, 관리자의 보안철저, 웹하드 및 P2P업체 운영자의 적극적인 적법한 Contents 개발노력, 인터넷 이용범죄의 처벌규정의 강화등이 요청된다. 이러한 요청도 결국은 법적 규범의 이해가 전제 되어야 한다. 따라서 본 논문에서는 컴퓨터범죄와 인터넷 범죄에 대한 신규범을 형법상 해석론적으로 접근하여 컴퓨터 바이러스 침투행위등에 대한 형법적 규제조항을 중심으로 형법의 전통적 이론, 학설, 판례를 중심으로 해석상 기준제시 및 형법상 이론적 기초를 제공함으로 공학자들에게 작은 기초이론을 제공하고자 한다.

  • PDF

Determination of the Authenticity of Dairy Products on the Basis of Fatty Acids and Triacylglycerols Content using GC Analysis

  • Park, Jung-Min;Kim, Na-Kyeong;Yang, Cheul-Young;Moon, Kyong-Whan;Kim, Jin-Man
    • 한국축산식품학회지
    • /
    • 제34권3호
    • /
    • pp.316-324
    • /
    • 2014
  • Milk fat is an important food component, and plays a significant role in the economics, functional nutrition, and chemical properties of dairy products. Dairy products also contain nutritional resources and essential fatty acids (FAs). Because of the increasing demand for dairy products, milk fat is a common target in economic fraud. Specifically, milk fat is often replaced with cheaper or readily available vegetable oils or animal fats. In this study, a method for the discrimination of milk fat was developed, using FAs profiles, and triacylglycerols (TGs) profiles. A total of 11 samples were evaluated: four milk fats (MK), four vegetable oils (VG), two pork lards (PL), and one beef tallow (BT). Gas chromathgraphy analysis were performed, to monitor the FAs content and TGs composition in MK, VG, PL, and BT. The result showed that qualitative determination of the MK of samples adulterated with different vegetable oils and animal fats was possible by a visual comparision of FAs, using C14:0, C16:0, C18:1n9c, C18:0, and C18:2n6c, and of TGs, using C36, C38, C40, C50, C52, and C54 profiles. Overall, the objective of this study was to evaluate the potential of the use of FAs and TGs in the detection of adulterated milk fat, and accordingly characterize the samples by the adulterant oil source, and level of adulteration. Also, based on this preliminary investigation, the usefulness of this approach could be tested for other oils in the future.

Molecular Identification of Korean Mountain Ginseng Using an Amplification Refractory Mutation System (ARMS)

  • In, Jun-Gyo;Kim, Min-Kyeoung;Lee, Ok-Ran;Kim, Yu-Jin;Lee, Beom-Soo;Kim, Se-Young;Kwon, Woo-Seang;Yang, Deok-Chun
    • Journal of Ginseng Research
    • /
    • 제34권1호
    • /
    • pp.41-46
    • /
    • 2010
  • Expensive herbs such as ginseng are always a possible target for fraudulent labeling. New mountain ginseng strains have occasionally been found deep within mountain areas and commercially traded at exorbitant prices. However, until now, no scientific basis has existed to distinguish such ginseng from commonly cultivated ginseng species other than by virtue of being found within deep mountain areas. Polymerase chain reaction (PCR) analysis of the internal transcribed spacer has been shown to be an appropriate method for the identification of the most popular species (Panax ginseng) in the Panax ginseng genus. A single nucleotide polymorphism (SNP) has been identified between three newly found mountain ginseng (KGD4, KGD5, and KW1) and already established Panax species. Specific PCR primers were designed from this SNP site within the sequence data and used to detect the mountain ginseng strains via multiplex PCR. The established multiplex-PCR method for the simultaneous detection of newly found mountain ginseng strains, Korean ginseng, and foreign ginseng in a single reaction was determined to be effective. This study is the first report of scientific discrimination of "mountain ginsengs" and describes an effective method of identification for fraud prevention and for uncovering the possible presence of other, cheaper ginseng species on the market.