• 제목/요약/키워드: Machine Learning

검색결과 5,394건 처리시간 0.034초

머신러닝 기반의 자동화된 소스 싱크 분류 및 하이브리드 분석을 통한 개인정보 유출 탐지 방법 (Machine Learning Based Automated Source, Sink Categorization for Hybrid Approach of Privacy Leak Detection)

  • 심현석;정수환
    • 정보보호학회논문지
    • /
    • 제30권4호
    • /
    • pp.657-667
    • /
    • 2020
  • 안드로이드 프레임워크는 단 한번의 권한 허용을 통해 앱이 사용자의 정보를 자유롭게 이용할 수 있으며, 유출되는 데이터가 개인정보임을 식별하기 어렵다는 문제가 있다. 따라서 본 논문에서는 어플리케이션을 통해 유출되는 데이터를 분석하여, 해당 데이터가 실제로 개인정보에 해당하는 것인지를 파악하는 기준을 제시한다. 이를 위해 우리는 제어 흐름 그래프를 기반으로 소스와 싱크를 추출하며, 소스에서 싱크까지의 흐름이 존재하는 경우 사용자의 개인정보를 유출하는지 확인한다. 이 과정에서 우리는 구글에서 제공하는 위험한 권한 정보를 기준으로 개인정보와 직결되는 소스와 싱크를 선별하며, 동적분석 툴을 통해 각 API에 대한 정보를 후킹한다. 후킹되는 데이터를 통해 사용자는 해당 어플리케이션이 실제로 개인정보를 유출한다면 어떤 개인정보를 유출하는지 여부를 파악할 수 있다. 우리는 툴을 최신 버전의 API에 적용하기 위해 머신러닝을 통해 최신 버전의 안드로이드의 소스와 싱크를 분류하였으며, 이를 통해 86%의 정확도로 최신 배포 버전인 9.0 안드로이드의 API를 분류하였다. 또한 툴은 2,802개의 APK를 통해 평가되었으며, 개인정보를 유출하는 850개의 APK를 탐지하였다.

개발자 별 버그 해결 유형을 고려한 자동적 개발자 추천 접근법 (A Technique to Recommend Appropriate Developers for Reported Bugs Based on Term Similarity and Bug Resolution History)

  • 박성훈;김정일;이은주
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제3권12호
    • /
    • pp.511-522
    • /
    • 2014
  • 소프트웨어 개발 및 유지보수 과정에서 여러 종류의 버그가 발생된다. 버그는 소프트웨어의 개발 및 유지 보수 시간을 증가시키는 주요원인으로 소프트웨어의 품질 저하를 초래한다. 버그의 발생을 사전에 완벽하게 방지하는 것은 불가능하다. 대신 버그 질라(Bugzilla), 멘티스BT(MantisGBT), 트랙 (Trac), 질라 (JIRA)와 같은 버그 트래킹 시스템을 이용하여 버그를 효과적으로 관리하는 것이 가능하다. 개발자 또는 사용자가 발생된 버그를 버그 트래킹 시스템에 보고하면, 프로젝트 매니저에 의해서 보고된 버그는 버그 해결에 적합한 개발자에게 전달되어 해결될 때까지 버그 트래킹 시스템에 의해서 추척된다. 여기서 프로젝트 매니저가 버그 해결에 적합한 개발자를 선별하는 것을 버그 분류 작업 (Bug triaging)이라고 하며, 대량으로 발생되는 버그 리포트들을 수동으로 분류하는 것은 프로젝트 매니저에게 있어서 매우 어려운 문제가 된다. 본 논문에서는 버그 트래킹 시스템에 저장된 과거에 해결된 버그 리포트에서 개발자 별 버그 해결 유형을 추출하고, 이를 활용한 버그 분류 작업, 즉 개발자 추천 방법을 제안한다. 먼저 버그 트래킹 시스템에서 각 개발자가 해결한 버그 리포트들을 분류한 후, 자연 언어 처리 알고리즘과 TF-IDF (Term frequency-Inverse document frequency)를 활용하여 각 개발자 별 단어 리스트를 생성한다. 그 후, 새로운 버그가 발생되었을 때 코사인 유사도를 통해서 생성된 개발자 별 단어 리스트와 새로운 버그 리포트의 단어 리스트를 비교하여 가장 유사한 단어 리스트를 가지는 개발자를 추천하는 방법이다. 두 오픈 소스 프로젝트인 이클립스 JDT.UI와 CDT.CORE를 대상으로 수행한 개발자 추천 실험에서 기계 학습 모델 기반의 추천 방법보다 제안하는 방법이 더 우수한 결과를 얻은 것을 확인하였다.

LDA 기반 은닉 토픽 추론을 이용한 TV 프로그램 자동 추천 (Automatic TV Program Recommendation using LDA based Latent Topic Inference)

  • 김은희;표신지;김문철
    • 방송공학회논문지
    • /
    • 제17권2호
    • /
    • pp.270-283
    • /
    • 2012
  • 다채널 TV, IPTV 및 Smart TV 서비스의 등장으로 인해 수많은 방송 채널과 방대한 TV 프로그램 콘텐츠가 시청자 단말로 제공됨으로써 시청자들은 자신이 원하는 콘텐츠를 쉽게 찾고 소비하는 것이 어려운 TV 시청 환경을 맞게 되었다. 따라서 TV 사용자들에게 자신이 선호하는 콘텐츠를 자동 추천해 줌으로써 원하는 콘텐츠로의 접근성을 증대시키는 것은 미래의 지능형 TV 서비스에 있어서 주요한 이슈이다. 이에 본 논문에서는 사용자의 선호 취향과 대중의 선호취향을 모두 고려한 협업필터링 개념의 통계적 기계학습 기반 TV 프로그램 추천 모델을 제시한다. 이를 위해 시청한 TV 콘텐츠에 대한 선호 토픽을 사용자의 시청 선호도로 보고, 최근 널리 활용되고 있는 LDA(Latent Dirichlet Allocation)모델을 TV 프로그램 추천 모델에 적용하였다. LDA 기반 TV 프로그램 추천 성능을 개선하기 위해 본 논문에서는 TV시청 이용내역 데이터를 기반으로, TV 사용자들의 관심 토픽을 은닉 변수로 하고, TV 사용자들의 관심 토픽에 대한 다양성을 반영하기 위해 은닉 변수의 확률분포 특성을 비대칭 디리클레(Dirichlet) 분포로 모형화하여 실험에 적용하였다. 제안된 LDA 기반 TV 프로그램 자동 추천 방법의 성능을 검증하기 위해, 유사 시청 특성을 갖는 사용자 그룹에 대해 상위 5개의 TV 프로그램을 일주일 단위로 추천하였을 경우 평균 66.5%, 2개월 단위의 추천에 대해서는 평균 77.9%의 precision 추천 성능을 확인할 수 있었다.

클라우드 기반 한국형 스마트 온실 연구 플랫폼 설계 방안 (Research-platform Design for the Korean Smart Greenhouse Based on Cloud Computing)

  • 백정현;허정욱;김현환;홍영신;이재수
    • 생물환경조절학회지
    • /
    • 제27권1호
    • /
    • pp.27-33
    • /
    • 2018
  • 본 연구는 농업 및 정보 통신 기술의 융합을 기반으로 국내외 스마트 농장 서비스 모델을 검토하고 한국의 스마트 온실을 개선하기 위해 필요한 다양한 요인을 조사하기 위해 수행되었다. 국내 스마트 온실의 작물 생육모델 및 환경모델에 관한 연구는 제한적이었고, 연구를 위한 인프라를 구축하는 데는 많은 시간이 필요하다. 이러한 문제의 대안으로 클라우드 기반 연구 플랫폼이 필요하다. 제안된 클라우드 기반 연구 플랫폼은 통합 데이터, 생육환경모델, 구동기 제어 모델, 스마트 온실 관리, 지식 기반 전문가 시스템 및 농가 대시보드 모듈을 통해 통합적 데이터 저장 및 분석을 위한 연구 인프라를 제공한다. 또한 클라우드 기반 연구 플랫폼은 작물 생육환경, 생산성 및 액추에이터 제어와 같은 다양한 요인들 간의 관계를 정량화하는 기능을 제공하며, 연구자는 빅데이터, 기계 학습 및 인공지능을 활용하여 작물 생육 및 생장환경 모델을 분석할 수 있다.

AutoML을 이용한 산사태 예측 및 변수 중요도 산정 (Prediction of Landslides and Determination of Its Variable Importance Using AutoML)

  • 남경훈;김만일;권오일;왕파우;정교철
    • 지질공학
    • /
    • 제30권3호
    • /
    • pp.315-325
    • /
    • 2020
  • 이 연구는 도로 비탈면에서 발생하는 산사태의 확률론적 예측에 기반된 산사태 발생에 영향을 미치는 인자의 중요도 산정 및 예측 모델을 개발하는 것이다. 산사태 예측 모델을 개발하기 위해 한반도 전 지역을 대상으로 2007년부터 2020년까지 조사된 30,615사면의 현장조사 자료를 활용하였다. 전체 131개의 변수 인자 중 지형인자 17개, 지질인자 114개(기반암 89개를 포함), 도로와의 이격거리를 사용하였다. 산사태 발생에 영향을 미치는 인자를 자동화된 머신러닝인 AutoML을 실시하여 예측 성능이 뛰어난 XRT(extremely randomized trees)를 선정하였다. 변수 중요도 분석결과 지형적 요인 10개, 지질인자 9개, 사회적 영향성인 도로와의 이격 거리와 관련된 항목순으로 급경사지 불안정에 가장 많은 영향을 주는 것으로 분석되었다. 개발된 모델의 신뢰성 검증을 수행한 결과 AUC 83.977%의 예측율을 확보한 것으로 나타났다. 이 모델은 산사태 이력을 기반으로 한 현장조사 자료만을 이용하여 변수 중요도의 순위를 도출함으로써 그에 따른 산사태 발생 가능성을 확률적 및 정량적으로 평가하였다. 향후 의사 결정자들에게 현장조사를 통한 사면진단 안전평가 시 신뢰성 있는 근거를 제공하리라 판단된다.

복합 커널을 사용한 한국어 종속절의 의존관계 분석 (Analyzing dependency of Korean subordinate clauses using a composit kernel)

  • 김상수;박성배;박세영;이상조
    • 인지과학
    • /
    • 제19권1호
    • /
    • pp.1-15
    • /
    • 2008
  • 한국어에서 절들의 의존관계를 밝히는 작업은 구문 분석 작업에서 가장 어려운 작업들 중에 하나로 인식되고 있다. 절의 의존관계를 파악하는 일은 표면적으로 나타나는 정보만을 가지고 처리할 수 없고, 의미정보와 같은 추가적인 정보가 필요할 것으로 판단하고 처리해 왔다. 본 논문에서는 추가적인 정보를 사용하지 알고, 문장에서 얻을 수 있는 표면적인 정보만을 사용하여 절들 간의 의존관계를 파악하는 방법을 제안한다. 문장에서 얻을 수 있는 표면적인 정보는 문장의 구문 정보(tree structure information)와 어휘 및 거리 정보를 가지고 있는 정적인 정보(static information)로 나누어 볼 수 있다. 본 논문에서는 절들 간의 의존 관계 파악을 위하여 구문 정보와 정적 정보를 다루는 하나 이상의 커널의 결합해서 사용하는 복합 커널(composite kernel)을 제안하고, 이 커널에 맞는 다양한 인스턴스 공간의 설정을 제안한다. 실험은 최적화된 인스턴스 공간을 절들 간의 의존관계 파악 및 문장 수준에서 성능을 검정하였다. 관계 인스턴스 공간은 절들 간의 연결 및 하부절의 표현 유무로 나누었고, 결정된 인스턴스 공간에서 복합커널을 사용한 방법이 좋은 성능을 발휘함을 보였다.

  • PDF

SW 보안 취약점 자동 탐색 및 대응 기술 분석 (Technology Analysis on Automatic Detection and Defense of SW Vulnerabilities)

  • 오상환;김태은;김환국
    • 한국산학기술학회논문지
    • /
    • 제18권11호
    • /
    • pp.94-103
    • /
    • 2017
  • 자동으로 해킹을 수행하는 도구 및 기법의 발전으로 인해 최근 신규 보안 취약점들이 증가하고 있다. 대표적인 취약점 DB인 CVE를 기준으로 2010년부터 2015년까지 신규 취약점이 약 8만건이 등록되었고, 최근에도 점차 증가하는 추세이다. 그러나 이에 대응하는 방법은 많은 시간이 소요되는 전문가의 수동 분석에 의존하고 있다. 수동 분석의 경우 취약점을 발견하고, 패치를 생성하기까지 약 9개월의 시간이 소요된다. 제로데이와 같은 빠른 대응이 필요한 취약점에 대한 위험성이 더 부각되는 이유이다. 이와 같은 문제로 인해 최근 자동화된 SW보안 취약점 탐색 및 대응 기술에 대한 관심이 증가하고 있다. 2016년에는 바이너리를 대상으로 사람의 개입을 최소화하여 자동화된 취약점 분석 및 패치를 수행하는 최초의 대회인 CGC가 개최 되었다. 이 외에도 세계적으로 Darktrace, Cylance 등의 프로젝트를 통해 인공지능과 머신러닝을 활용하여 자동화된 대응 기술들을 발표하고 있다. 그러나 이러한 흐름과는 달리 국내에서는 자동화에 대한 기술 연구가 미비한 상황이다. 이에 본 논문에서는 자동화된 SW 보안 취약점 탐색 및 대응 기술을 개발하기 위한 선행 연구로서 취약점 탐색과 대응 기술에 대한 선행 연구 및 관련 도구들을 분석하고, 각 기술들을 비교하여 자동화에 용이한 기술 선정과 자동화를 위해 보완해야 할 요소를 제안한다.

뇌전도 기반 마우스 제어를 위한 동작 상상 뇌 신호 분석 (Motor Imagery Brain Signal Analysis for EEG-based Mouse Control)

  • 이경연;이태훈;이상윤
    • 인지과학
    • /
    • 제21권2호
    • /
    • pp.309-338
    • /
    • 2010
  • 본 논문에서는 사지가 마비되어 신체를 움직이지 못하지만 뇌의 기능은 살아있는 장애인들을 위하여, 생각만으로 외부의 장치를 제어할 수 있도록 하는 뇌-컴퓨터 인터페이스(BCI: Brain-Computer Interface) 기술을 연구하였다. 신경생리학 분야에서의 연구 결과에 의하면, 신체를 움직이는 상상을 할 경우, 뇌의 운동/감각 피질 영역에서는 $\beta$파(14-26 Hz)와 $\mu$파(8-12 Hz)가 억제/증가되는 ERD/ERS(Event-Related Desynchronization / Synchronization) 현상이 발생한다고 알려져 있다. 본 연구에서는 이를 기반으로 혀, 발, 왼손, 오른손의 동작 상상을 자극으로 이용하여 변화하는 뇌 신호 패턴을 실시간으로 분석하여 피험자의 생각을 읽을 수 있도록 하였으며, 상 하 좌 우의 네 방향으로 이동할 수 있도록 하는 마우스 제어 인터페이스를 구현하였다. 동작 상상 시 발생하는 뇌 신경 활동의 변화를 관측하기 위해서 뇌에 손상을 주지 않으면서도 높은 시간 해상도로 측정이 가능한 비침습적 뇌전도(EEG: ElectroEncephaloGraphy)를 이용하였다. 그러나 뇌전도 신호는 특성상 신호의 크기가 미약하고, 잡음의 영향을 많아 분석이 어렵다. 따라서 이를 극복하기 위해 통계적 방법을 기반으로 한 기계학습 기법인 CSP(Common Spatial Pattern)와 선형판별 분석(Linear Discriminant Analysis)을 이용하여 서로 다른 동작 상상에 의해 발생하는 뇌 신호들 간의 분산이 최대가 되도록 신호를 변환하여 인식 성능을 높일 수 있었다. 또한 분석된 뇌 신호의 시각화를 통해, 기존에 알려진 뇌의 해부학적, 신경생리학적 지식과 일치하는 ERD/ERS 현상이 발생하는 것을 확인할 수 있었다.

  • PDF

Computational estimation of the earthquake response for fibre reinforced concrete rectangular columns

  • Liu, Chanjuan;Wu, Xinling;Wakil, Karzan;Jermsittiparsert, Kittisak;Ho, Lanh Si;Alabduljabbar, Hisham;Alaskar, Abdulaziz;Alrshoudi, Fahed;Alyousef, Rayed;Mohamed, Abdeliazim Mustafa
    • Steel and Composite Structures
    • /
    • 제34권5호
    • /
    • pp.743-767
    • /
    • 2020
  • Due to the impressive flexural performance, enhanced compressive strength and more constrained crack propagation, Fibre-reinforced concrete (FRC) have been widely employed in the construction application. Majority of experimental studies have focused on the seismic behavior of FRC columns. Based on the valid experimental data obtained from the previous studies, the current study has evaluated the seismic response and compressive strength of FRC rectangular columns while following hybrid metaheuristic techniques. Due to the non-linearity of seismic data, Adaptive neuro-fuzzy inference system (ANFIS) has been incorporated with metaheuristic algorithms. 317 different datasets from FRC column tests has been applied as one database in order to determine the most influential factor on the ultimate strengths of FRC rectangular columns subjected to the simulated seismic loading. ANFIS has been used with the incorporation of Particle Swarm Optimization (PSO) and Genetic algorithm (GA). For the analysis of the attained results, Extreme learning machine (ELM) as an authentic prediction method has been concurrently used. The variable selection procedure is to choose the most dominant parameters affecting the ultimate strengths of FRC rectangular columns subjected to simulated seismic loading. Accordingly, the results have shown that ANFIS-PSO has successfully predicted the seismic lateral load with R2 = 0.857 and 0.902 for the test and train phase, respectively, nominated as the lateral load prediction estimator. On the other hand, in case of compressive strength prediction, ELM is to predict the compressive strength with R2 = 0.657 and 0.862 for test and train phase, respectively. The results have shown that the seismic lateral force trend is more predictable than the compressive strength of FRC rectangular columns, in which the best results belong to the lateral force prediction. Compressive strength prediction has illustrated a significant deviation above 40 Mpa which could be related to the considerable non-linearity and possible empirical shortcomings. Finally, employing ANFIS-GA and ANFIS-PSO techniques to evaluate the seismic response of FRC are a promising reliable approach to be replaced for high cost and time-consuming experimental tests.

뉴럴 디코딩의 원리와 최신 연구 동향 소개 (Principles and Current Trends of Neural Decoding)

  • 김광수;안정열;차성광;구교인;구용숙
    • 대한의용생체공학회:의공학회지
    • /
    • 제38권6호
    • /
    • pp.342-351
    • /
    • 2017
  • 뉴럴 디코딩은 뉴론이 발화한 스파이크 트레인으로부터 뉴론에 인가된 원 자극을 추정하는 작업을 말한다. 디코딩은 뉴론들끼리 어떻게 신호를 주고 받는 지를 이해함으로써 궁극적으로 뇌가 어떻게 정보처리를 하는 지 이해하는 기초적인 작업이다. 이 논문에서 우리는 3가지 뉴럴 디코딩 방법, 즉 빈도 디코딩, 시간 디코딩, 군집 디코딩 방법에 대해 설명하겠다. 빈도 디코딩은 자극에 대한 스파이크의 발화빈도 정보를 이용하여 자극을 복원하는 방법을 말한다. 역사적으로 가장 먼저 시도되었고 가장 간단한 디코딩 방법이다. 그러나 정수 개인 스파이크 개수로부터 빈도를 계산하는 과정에서 빈도자체가 불연속이고 양자화될 가능성이 높기 때문에 간단하고 정적인 자극이 아닌 경우 빈도 디코딩으로는 자극을 복원하기 어렵다는 한계를 가지고 있다. 시간 디코딩은 스파이크 발생 빈도가 아닌 개별 스파이크들의 발생시각을 이용한 디코딩 방법을 말하며 실제 빠르게 변화하는 자극의 경우 신경세포는 빈도 디코딩이 아니라 시간 디코딩을 통해 자극을 추정하는 것으로 이해되고 있다. 군집 디코딩은 단일 신경세포가 아닌 군집 신경세포로부터 자극을 복원하는 방법이다. 군집 디코딩은 단일 신경 세포 디코딩에 비해 신경 세포의 가변성에 따른 불확실성을 감소시킬 수 있고 서로 다른 자극의 특성을 동시에 표현할 수 있다는 장점을 갖는다. 이 논문에서는 먼저 세 가지 뉴럴디코딩 방법에 대해 소개하고 정보이론이 뉴럴디코딩에 어떻게 적용되는 지를 다룬 후 마지막으로 최근에 각광받고 있는 기계학습 방법에 의한 뉴럴 디코딩에 대해 다루도록 하겠다.