• 제목/요약/키워드: 소프트웨어 유사도

검색결과 816건 처리시간 0.026초

기계학습과 언어처리에 기반한 문자메시지 분류 (Text Message Classification based on Machine Learning)

  • 선주오;지명근;최범휘;이현아
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2019년도 제31회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.492-495
    • /
    • 2019
  • 휴대전화 메시지로는 결제, 인증번호, 택배, 광고 등의 다양한 문자들이 수신된다. 이 문자들은 서로 섞여 있어 이용자가 찾고자 하는 문자를 찾는 데 어려움이 있다. 본 논문에서는 기계학습과 단어 임베딩을 통해 메시지들을 카테고리로 분류하는 방법을 제안하고, 이를 구현한 안드로이드 앱을 소개한다. 앱에서는 택배, 카드, 인증, 공공기관, 통신사, 대화, 기타의 7개의 분류로 메시지를 분류하며, 자동 분류에서는 수동 태깅한 5802건의 문자메시지를 사용한다. 앱에서는 저장된 문자메시지간 유사도에 기반한 오프라인에 서의 자동 분류를 지원하여 개인정보 노출에 대한 거부감이 있는 사용자의 요구를 반영한다.

  • PDF

한반도에서 발생한 지진의 통계적 자기 유사성 분석 및 시각화 (Stochastic Self-similarity Analysis and Visualization of Earthquakes on the Korean Peninsula)

  • 황재민;임지영;정해덕
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.493-504
    • /
    • 2023
  • 대한민국은 지진 판의 경계로부터 멀리 떨어진 지역에 있으며, 이러한 지역에서 발생하는 판 내부 지진은 판 경계부 지진과 비교하면 일반적으로 규모가 작고 발생빈도도 낮다. 그럼에도 불구하고 과거 2년부터 1904년 사이 한반도에서 발생했던 지진과 최근 한반도 지진을 관측한 이래에 발생한 지진을 조사 및 분석한 결과 진도 규모 9까지 이르는 것으로 나타났다. 본 논문에서는 한반도에서 발생한 지진과 통계적 자기 유사성과의 관계를 분석하기 위해서 국립기상연구소에서 발표한 「한반도 역사지진 기록 (2년~1904년)」을 이용한다. 또한 본 논문을 통해서 해결한 문제는 한반도에서 발생한 지진데이터와 통계적 자기 유사성과 시각화의 관계 연구를 처음으로 규명하였으며, 그 결과 한반도 지진의 자기 유사성 정도를 판단하는 3가지 정량적인 추정방법으로 측정한 결과 자기 유사성 파라메터 H 값(0.5 < H < 1)이 0.8이상으로 자기 유사성 정도가 높은 것으로 나타났다. 그리고 그래프의 시각화를 통해 지진이 어느 지역에서 많이 발생했는지를 쉽게 파악할 수 있고, 향후 지진 발생시 피해를 예측하고 재산과 인명 피해를 최소화할 수 있는 예측 시스템 개발과 지진 데이터 분석 및 모델링 연구에 활용될 수 있을 것으로 보인다. 뿐만아니라 본 연구결과를 토대로 자기 유사성 프로세스는 지진활동의 패턴과 통계적 특성을 이해하고, 유사한 지진 사건을 그룹화하고 분류하는데 도움을 줄 수 있으며, 지진 활동에 대한 예측, 지진 위험 평가 및 지진 공학 관련 연구에 활용될 것으로 예상된다.

소프트웨어 부품의 검색을 위한 의미 유사도 측정 (A Semantic Similarity Measure for Retrieving Software Components)

  • 김태희;강문설
    • 한국정보처리학회논문지
    • /
    • 제3권6호
    • /
    • pp.1443-1452
    • /
    • 1996
  • 본 논문에서는 재사용가능한 소프트웨어 부품의 분류 과정을 자동화하여 라이브 러리에 구조적으로 저장하고, 사용자의 요구사항을 만족하는 부품을 효율적으로 검색 하기 위하여 부품들 사이의 의미 유사도를 측정하는 방법을 제안한다. 자연어로 기술 된 부품 설명서로부터 정보를 획득하여 부품의 특성을 표현하는 패싯을 결정하고, 각 패싯에 해당하는 항목을 자동으로 추출하여 부품 식별자를 구성하며, 분류된 부품들 의 유사성에 따라 비슷한 특성을 갖는 부품들을 인접한 위치에 저장한다. 그리고 사 용자의 요구사항을 만족하는 부품들을 검색하기 위하여 질의와 소프트웨어 라이브러 리에 저장된 부품들 사이의 의미 유사도를 측정한다. 재사용가능한 부품의 검색을 위 하여 의미유사도를 이용함으로써 단순히 사용자의 질의를 만족하는 부품들의 집합을 검색할 뿐만 아니라 질의를 만족하는 정도에 따라 검색된 부품들의 상관순위를 부여 하여 사용자들이 요구하는 부품의 검색 시간이 줄어들고 전체적인 검색 효율이 개선 되었다.

  • PDF

API 정보와 기계학습을 통한 윈도우 실행파일 분류 (Classifying Windows Executables using API-based Information and Machine Learning)

  • 조대희;임경환;조성제;한상철;황영섭
    • 정보과학회 논문지
    • /
    • 제43권12호
    • /
    • pp.1325-1333
    • /
    • 2016
  • 소프트웨어 분류 기법은 저작권 침해 탐지, 악성코드의 분류, 소프트웨어 보관소의 소프트웨어 자동분류 등에 활용할 수 있으며, 불법 소프트웨어의 전송을 차단하기 위한 소프트웨어 필터링 시스템에도 활용할 수 있다. 소프트웨어 필터링 시스템에서 유사도 측정을 통해 불법 소프트웨어를 식별할 경우, 소프트웨어 분류를 활용하여 탐색 범위를 축소하면 평균 비교 횟수를 줄일 수 있다. 본 논문은 API 호출 정보와 기계학습을 통한 윈도우즈 실행파일 분류를 연구한다. 다양한 API 호출 정보 정제 방식과 기계학습 알고리즘을 적용하여 실행파일 분류 성능을 평가한다. 실험 결과, PolyKernel을 사용한 SVM (Support Vector Machine)이 가장 높은 성공률을 보였다. API 호출 정보는 바이너리 실행파일에서 추출할 수 있는 정보이며, 기계학습을 적용하여 변조 프로그램을 식별하고 실행파일의 빠른 분류가 가능하다. 그러므로 API 호출 정보와 기계학습에 기반한 소프트웨어 분류는 소프트웨어 필터링 시스템에 활용하기에 적당하다.

시큐어 소프트웨어 개발을 위한 위협 모델링 기법의 기술 동향

  • 이진호;이혁;강인혜
    • 정보보호학회지
    • /
    • 제25권1호
    • /
    • pp.32-38
    • /
    • 2015
  • 소프트웨어의 보안속성이 중요해짐에 따라 소프트웨어의 개발 단계에서 설계상의 보안약점이나 구현 단계에서의 보안약점을 제거하는 작업이 강조되고 있다. 시큐어 소프트웨어를 개발하기 위해 제안된 마이크로소프트사의 위협 모델링 기법은 마이크로소프트사가 자체적으로 개발한 시큐리티 소프트웨어 개발 생명 주기(MS SDL, Security Software Development Lifecycle) 전반에 걸쳐 하나의 방법론으로 적용되고 있으며, 다른 유사한 위협 모델 기법들도 연구되고 있다. 본 논문에서는 위협 모델링 기법들에 대해 살펴보고, MS 위협 모델링 기법을 기반으로 인터넷 웹사이트 개발에 적용하여 MS 위협 모델링 기법의 분석 결과를 살펴본다.

자카드 유사도 기법을 이용한 채용 매칭 멘토링 시스템 (Recruitment matching mentoring system using Jaccard Similarity)

  • 장승훈;최봉준
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.699-700
    • /
    • 2023
  • 최근 국내 기업에서는 블라인트 테스트나 포트폴리오와 같은 자료를 활용하여 채용하는 추세이다. 지원자마다 개인의 역량이 다를 뿐만 아니라 기업에서 요구하는 기술/경험, 지원 자격, 특정 기술에 대한 경험을 요구한다. 따라서 본 논문에서는 국내 기업의 채용 공고에 기재된 지원 자격, 우대 기술, 우대 사항 등의 데이터와 지원자의 개인 역량(기술 스택, 전공 역량, 진행 프로젝트 등) 데이터를 활용하여 키워드를 추출한다. 지원자와 기업이 입력한 데이터를 통해 추출한 키워드들을 두 개의 집합으로 나눈 뒤 각각의 키워드를 할당한다. 할당받은 집합들을 비교하여 지원자의 정보가 기업의 채용 조건에 얼마나 부합하는지 계산한 후, 해당확률을 지원자에게 제공하는 방식의 시스템이다.

  • PDF

글로벌 최적 솔루션을 위한 설명 가능한 심층 강화 학습 지식 증류 (Explainable Deep Reinforcement Learning Knowledge Distillation for Global Optimal Solutions)

  • 이봉준 ;조인휘
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.524-525
    • /
    • 2023
  • 설명 가능한 심층 강화 학습 지식 증류 방법(ERL-KD)이 제안하였다. 이 방법은 모든 하위 에이전트로부터 점수를 수집하며, 메인 에이전트는 주 교사 네트워크 역할을 하고 하위 에이전트는 보조 교사 네트워크 역할을 한다. 글로벌 최적 솔루션은 샤플리 값과 같은 해석 가능한 방법을 통해 얻어진다. 또한 유사도 제약이라는 개념을 도입하여 교사 네트워크와 학생 네트워크 간의 유사도를 조정함으로써 학생 네트워크가 자유롭게 탐색할 수 있도록 유도한다. 실험 결과, 학생 네트워크는 아타리 2600 환경에서 대규모 교사 네트워크와 비슷한 성능을 달성하는 것으로 나타났다.

진화탐색을 사용한 기능점수 예측 (FP measurement using Evolutionary Search)

  • 김미숙;권기태;강태원
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2003년도 봄 학술발표논문집 Vol.30 No.1 (B)
    • /
    • pp.49-51
    • /
    • 2003
  • 성공적인 소프트웨어 개발을 위해서는 프로젝트 계획 수립단계에서 정확한 예측 모델을 연구하는 것이 중요하다. 소프트웨어 개발의 중요성이 대두됨에 따라 현재에는 많은 기존의 프로젝트 데이터를 보관하게 되었다. 기존의 예측모델에서는 개발환경에 따라 서로 다른 형태의 모델을 만들어 개발비용을 예측하였다. 모델의 형태에 따른 신뢰도 또한 주요 이슈로 작용하였다. 이 논문에서는 이러한 많은 프로젝트 데이터와 현재 개발하고자 하는 프로젝트에 대하여 과거의 데이터 중 가장 유사한 최적의 프로젝트를 찾아내기 위해 FP(Function Point)를 이용하는 많은 프로젝트 데이터에 유전자 알고리즘을 적용하여 최적의 유사 모델을 찾아내는 방법에 대하여 제안하고자 한다.

  • PDF

입력 영역에 기초한 소프트웨어 신뢰성 성장 모델 (An Input Domain-Based Software Reliability Growth Model)

  • 박중양;서동우;김영순
    • 한국정보처리학회논문지
    • /
    • 제7권11호
    • /
    • pp.3384-3393
    • /
    • 2000
  • 소프트웨어를 테스팅하는 동안 얻어지는 고장 데이터를 분석하여 소프트웨어의 신뢰성이 성장하는 과정을 평가하기 위해 여러 가지 소프트웨어 신뢰성 성장 모델들이 개발되었다. 그러나 이들 신뢰성 성장 모델들은 소프트웨어 개발과 사용환경에 관한 여러 가지 가정에 기반하고 있기 때문에, 이 가정이 적합하지 않은 상황이나 결함이 드물게 발생되는 소프트웨어에 대해서는 적절하지 않다. 입력영역에 기초한 소프트웨어 신뢰성 모델은 일반적으로 이러한 가정을 요구하지 않는데 디버깅 전의 소프트웨어와 디버깅 후의 소프트웨어를 별개의 것으로 다루어 많은 테스트 입력을 요하는 단점이 있다. 본 논문에서는 이러한 가정이 요구되지 않고 디버깅 전과 후의 소프트웨어를 동시에 테스트하는 방법에 기반을 둔 입력 영역 기반 소프트웨어 성장모델을 제안하고 그 통계적 특성을 조사한다. 이 모델은 모든 데이터를 다 활용하기 때문에 기존 입력영역 소프트웨어 신뢰성 모델에 비해 적은 테스트 입력을 필요로 할 것으로 기대된다. 그리고 소프트웨어의 유지보수 단계에 적용하기 위해 개발된 유사한 방법들과 비교한다.

  • PDF

소프트웨어 개발비 감정을 위한 유스케이스 점수 추정 (Use Case Points Estimation for the Software Cost Appraisal)

  • 권기태
    • 한국소프트웨어감정평가학회 논문지
    • /
    • 제16권1호
    • /
    • pp.27-36
    • /
    • 2020
  • 소프트웨어 개발비 감정은 프로그램 완성도 감정과 함께 소프트웨어 공학 방법론을 적용하고 있다. 특히 소프트웨어 비용산정 기법을 적극적으로 준용해왔다. 다수의 감정 사례에서 소프트웨어 개발비 감정을 위해 소프트웨어 비용산정에 기반을 두는 "SW사업 대가산정 가이드"를 참조하여 감정이 이루어져 왔으나, 이러한 방법은 본질적인 한계를 가진다. 개발비 감정을 위한 "SW사업 대가산정 가이드" 자체의 문제점과 함께 소프트웨어 규모 산정의 기본이 되는 기능점수가 가지는 단점으로 인해 감정의 정확성과 일관성이 유지되기 어렵다. 본 연구에서는 규모추정의 정확성과 일관성 유지를 위한 방안으로 유스케이스 기반의 규모 추정 방안을 제시한다. 평가 대상 프로젝트는 개발비 감정 사례들과 유사한 유형의 소프트웨어공학 교과목의 프로젝트로 진행하였으며, 공수 추정 시에 감정 사례들의 상황과 유사하도록 제공되는 문서와 정보를 최소화하였다. 기능 점수 기반의 기존 소프트웨어 개발비 산정 방식과 유스케이스 기반으로 제안한 방안의 성능 평가를 실시한 결과, 기존 방식보다 정확도가 향상되었고 통계적으로 유의함이 입증되었다.