• 제목/요약/키워드: Similar Software Classification

검색결과 51건 처리시간 0.021초

키워드 군집화를 이용한 연구 논문 분류에 관한 연구 (A Study on Research Paper Classification Using Keyword Clustering)

  • 이윤수;;이종혁;길준민
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권12호
    • /
    • pp.477-484
    • /
    • 2018
  • 컴퓨터 기술의 발전으로 힘입어 수많은 논문이 출판되고 있으며, 새로운 분야들도 계속 생기면서 사용자들은 방대한 논문들 중 자신이 필요로 하는 논문을 검색하거나 분류하기에 많은 어려움을 겪고 있다. 사용자의 이러한 어려움을 완화하기 위해 본 논문에서는 유사 내용의 논문을 분류하고 이를 군집화하는 방법을 제한한다. 본 논문의 제안 방법은 TF-IDF를 이용하여 각 논문의 초록으로부터 주요 주제어를 추출하고, K-평균 클러스터링 알고리즘을 이용하여 추출한 TF-IDF 값을 근거로 논문들을 유사 내용의 논문으로 군집화한다. 제안 방법의 실효성을 검증하기 위해 실제 데이터인 FGCS 저널의 논문 데이터를 사용하였으며, 엘보우 기법을 적용하여 클러스터 개수를 도출하고 실루엣 기법을 이용하여 클러스터링 성능을 검증하였다.

교통정보 추론을 위한 비정형데이터 분석과 다중패턴저장 기법 (Unstructured Data Analysis and Multi-pattern Storage Technique for Traffic Information Inference)

  • 김용훈;김부일;정목동
    • 한국멀티미디어학회논문지
    • /
    • 제21권2호
    • /
    • pp.211-223
    • /
    • 2018
  • To understand the meaning of data is a common goal of research on unstructured data. Among these unstructured data, there are difficulties in analyzing the meaning of unstructured data related to corpus and sentences. In the existing researches, the researchers used LSA to select sentences with the most similar meaning to specific words of the sentences. However, it is problematic to examine many sentences continuously. In order to solve unstructured data classification problem, several search sites are available to classify the frequency of words and to serve to users. In this paper, we propose a method of classifying documents by using the frequency of similar words, and the frequency of non-relevant words to be applied as weights, and storing them in terms of a multi-pattern storage. We use Tensorflow's Softmax to the nearby sentences for machine learning, and utilize it for unstructured data analysis and the inference of traffic information.

국가연구시설장비의 유사도 판단기법에 관한 연구 (A Study on Similarity Calculation Method Between Research Infrastructure)

  • 김용주;김영찬
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제7권12호
    • /
    • pp.469-476
    • /
    • 2018
  • 연구개발과정에서의 필수요소인 연구장비의 공동활용 및 효율적인 구축을 위해 한국에서는 국가예산으로 구축된 장비정보를 필수적으로 등록하도록 하고 있다. 등록정보의 다양한 활용(중복성 검토, 성능예측, 대체장비추천)을 위해 본 연구에서는 현재 유사장비검색기법에 대해 분석하고 유사도 산출 방법을 제시하였다. 이를 통해 자연어 상태인 장비정보에서 키워드를 추출하여 LSA 기법을 적용하면 키워드간의 유사도산출 및 장비정보 간 유사도 분석이 가능함을 확인하였으며 향후 연구장비분류정보를 접목하여 적용할 경우 의미있는 유사도 산출 및 이를 활용한 다양한 서비스가 가능 할 것으로 예측된다.

엔트로피 시계열 데이터 추출과 순환 신경망을 이용한 IoT 악성코드 탐지와 패밀리 분류 (IoT Malware Detection and Family Classification Using Entropy Time Series Data Extraction and Recurrent Neural Networks)

  • 김영호;이현종;황두성
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제11권5호
    • /
    • pp.197-202
    • /
    • 2022
  • IoT (Internet of Things) 장치는 취약한 아이디/비밀번호 사용, 인증되지 않은 펌웨어 업데이트 등 많은 보안 취약점을 보여 악성코드의 공격 대상이 되고 있다. 그러나 CPU 구조의 다양성으로 인해 악성코드 분석 환경 설정과 특징 설계에 어려움이 있다. 본 논문에서는 CPU 구조와 독립된 악성코드의 특징 표현을 위해 실행 파일의 바이트 순서를 이용한 시계열 특징을 설계하고 순환 신경망을 통해 분석한다. 제안하는 특징은 바이트 순서의 부분 엔트로피 계산과 선형 보간을 통한 고정 길이의 시계열 패턴이다. 추출된 특징의 시계열 변화는 RNN과 LSTM으로 학습시켜 분석한다. 실험에서 IoT 악성코드 탐지는 높은 성능을 보였지만, 패밀리 분류는 비교적 성능이 낮았다. 악성코드 패밀리별 엔트로피 패턴을 시각화하여 비교했을 때 Tsunami와 Gafgyt 패밀리가 유사한 패턴을 나타내 분류 성능이 낮아진 것으로 분석되었다. 제안된 악성코드 특징의 데이터 간 시계열 변화 학습에 RNN보다 LSTM이 더 적합하다.

A Taxonomy of Workflow Architectures

  • Kim, Kwang-Hoon;Paik, Su-Ki
    • 한국데이타베이스학회:학술대회논문집
    • /
    • 한국데이타베이스학회 1998년도 국제 컨퍼런스: 국가경쟁력 향상을 위한 디지틀도서관 구축방안
    • /
    • pp.525-543
    • /
    • 1998
  • This paper proposes a conceptual taxonomy of architectures far workflow management systems. The systematic classification work is based on a framework for workflow architectures. The framework, consisting of generic-level, conceptual-level and implementation-level architectures, provides common architectural principles for designing a workflow management system. We define the taxonomy by considering the possibilities for centralization or distribution of data, control, and execution. That is, we take into account three criteria. How are the major components of a workflow model and system, like activities, roles, actors, and workcases, concretized in workflow architecture? Which of the components is represented as software modules of the workflow architecture? And how are they configured and operating in the architecture? The workflow components might be embodied, as active (processes or threads) modules or as passive (data) modules, in the software architecture of a workflow management system. One or combinations of the components might become software modules in the software architecture. Finally, they might be centralized or distributed. The distribution of the components should be broken into three: Vertically, Horizontally and Fully distributed. Through the combination of these aspects, we can conceptually generate about 64 software Architectures for a workflow management system. That is, it should be possible to comprehend and characterize all kinds of software architectures for workflow management systems including the current existing systems as well as future systems. We believe that this taxonomy is a significant contribution because it adds clarity, completeness, and "global perspective" to workflow architectural discussions. The vocabulary suggested here includes workflow levels and aspects, allowing very different architectures to be discussed, compared, and contrasted. Added clarity is obtained because similar architectures from different vendors that used different terminology and techniques can now be seen to be identical at the higher level. Much of the complexity can be removed by thinking of workflow systems. Therefore, it is used to categorize existing workflow architectures and suggest a plethora of new workflow architectures. Finally, the taxonomy can be used for sorting out gems and stones amongst the architectures possibly generated. Thus, it might be a guideline not only for characterizing the existing workflow management systems, but also for solving the long-term and short-term architectural research issues, such as dynamic changes in workflow, transactional workflow, dynamically evolving workflow, large-scale workflow, etc., that have been proposed in the literature.

  • PDF

A Taxonomy of Workflow Architectures

  • Kim, Kwang-Hoon;Paik, Su-Ki
    • 정보기술과데이타베이스저널
    • /
    • 제5권1호
    • /
    • pp.97-108
    • /
    • 1998
  • This paper proposes a conceptual taxonomy of architectures for workflow management systems. The systematic classification work is based on a framework for workflow architectures. The framework, consisting of generic-level, conceptual-level and implementation-level architectures, provides common architectural principles for designing a workflow management system. We define the taxonomy by considering the possibilities for centralization or distribution of data, control, and execution. That is, we take into account three criteria. How are the major components of a workflow model and system, like activities, roles, actors, and workcases, concretized in workflow architecture. Which of the components is represented as software modules of the workflow architecture\ulcorner And how are they configured and operating in the architecture\ulcorner The workflow components might be embodied, as active (processes or threads) modules or as passive (data) modules, in the software architecture of a workflow management system. One or combinations of the components might become software modules in the software architecture. Finally, they might be centralized or distributed. The distribution of the components should be broken into three: Vertically, Horizontally and Fully distributed. Through the combination of these aspects, we can conceptually generate about 64 software Architectures for a workflow management system. That is, it should be possible to comprehend and characterize all kinds of software architectures for workflow management systems including the current existing systems as well as future systems. We believe that this taxonomy is a significant contribution because it adds clarity, completeness, and global perspective to workflow architectural discussions. The vocabulary suggested here includes workflow levels and aspects, allowing very different architectures to be discussed, compared, and contrasted. Added clarity is obtained because similar architectures from different vendors that used different terminology and techniques can now be seen to be identical at the higher level. Much of the complexity can be removed by thinking of workflow systems. Therefore, it is used to categorize existing workflow architectures and suggest a plethora of new workflow architectures. Finally, the taxonomy can be used for sorting out gems and stones amongst the architectures possibly generated. Thus, it might be a guideline not only for characterizing the existing workflow management systems, but also for solving the long-term and short-term architectural research issues, such as dynamic changes in workflow, transactional workflow, dynamically evolving workflow, large-scale workflow, etc., that have been proposed in the literature.

  • PDF

스마트콘텐츠 현황분석을 통한 기본요소 추출 (Study on Basic Elements for Smart Content through the Market Status-quo)

  • 김경선;박주용;김이연
    • 한국과학예술포럼
    • /
    • 제21권
    • /
    • pp.31-43
    • /
    • 2015
  • ICT(Information and Communications Technologies : 정보통신기술)는 창조경제의 핵심이 되는 기술중 하나로 기존산업과 기업의 인프라를 연결하는 매개로 사용되어 기존 상품과 서비스를 고도화하고, 새로운 상품과 서비스를 만들어내고 있다. 이와 더불어 빅데이터, 모바일, 웨어러블 등 새로운 디바이스 부문까지 주목을 받으며 신시장 개척에 귀추가 주목되고 있다. 더 나아가 IoT(Internet of Things :사물인터넷)는 인간과 인간, 인간과 사물, 사물과 사물을 연결하며 ICT기반의 사회를 더욱 곤고히 만들어 주는 역할을 하고 있다. 이는 제조업 중심의 하드웨어 개발이 소프트웨어의 개발과 함께 동시다발적으로 융합되어야 한다는 의미로 볼 수 있다. 하드웨어와 소프트웨어의 융합에서 꼭 필요한 것이 OS인데, 선두주자 구글과 애플을 필두로 관련 기업에서는 소프트웨어의 중요성을 인지하고 소프트웨어 개발에 집중 착수하였다. 이에 현 보고서(한국산업기술평가관리원: 디자인전문기술개발사업) 진행을 위해 소프트웨어 시장현황을 조사한 결과, 소프트웨어 플랫폼을 기반으로 한 구글의 안드로이드(Android)와 애플의 iOS가 전 세계시장을 장악하고 있었으며, 후발주자는 새로운 패러다임을 제시하기 위해 Web기반 OS, 유사 OS 등 을 출시하여 다양한 경로에서 시장진입을 시도하고 있다. 이러한 사회의 변화는 OS를 기본으로 누구나 개발자가 될 수 있는 스마트콘텐츠 활용에 대한 연구 필요성이 대두되었으며 범용적으로 활용할 수 있는 스마트콘텐츠에 대한 정의가 필요하며 빠른 시장변화에 대처할 수 있는 시장분석이 필요하다. 이에 본 연구에서는 문헌조사 및 스마트분류체계에 따른 앱마켓(App Market)분석, 현 콘텐츠시장 트랜드 분석을 실시하였고 스마트콘텐츠의 범용적 정의와 앱마켓에서 나타난 애플리케이션의 현황과 콘텐츠 시장현황을 비교하여 공통요소 5가지의 흐름을 파악하였다. 분석을 통하여 스마트콘텐츠 시장은 독립적이지만 서로의 연결고리를 가진 형태로 하나의 유기체와 같은 형태로 발전할 것이라 예상하였으며 기존의 기술적 관점, 문화적 관점, 비즈니스적 관점, 소비자 관점에 사회적 관점을 포함한 다시점 관점에서의 분류체계와 개발이 이루어 져야 한다.

지도 경험을 활용한 다계층 퍼셉트론의 순차적 학습 방법 (Utilizing Experiences of Supervisor in Sequential Learning for Multilayer Perceptron)

  • 이재영;김황수
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권10호
    • /
    • pp.723-735
    • /
    • 2010
  • 학습 수준의 평가와 수준에 맞는 지식의 제공은 인간의 학습 과정에 많은 영향을 준다. 이것은 학습 순서가 중요하다는 것을 말하고 있으며, 기계 학습에서도 학습 순서를 고려할 필요가 있다. 본 연구는 학습 순서가 학습에 미치는 영향을 알아보기 위해, MLP의 학습에서 지도자의 경험을 이용하여 학습순서를 제어하는 방법을 제안한다. 지도 경험과 평가를 이용하여 MLP의 상태를 파악하고, 현 상태에서 학습 효율이 좋을 것으로 예상되는 학습 자료를 선택하여 학습을 시킨다. 지도자의 경험을 표현하고 활용하기 위해 CRF(Conditional Random Fields)를 이용하였다. 제안한 방법은 학습 자료를 선택한다는 점에서 능동 학습(Active Learning)과 유사하지만, 학습 순서를 제시하기 위한 자료의 선택이란 점에서 능동학습과는 차이가 있다. 분류 문제에 대하여 실험해 본 결과, 순서의 제어가 없는 학습의 경우에 비하여 학습 횟수의 측면에서 일반적으로 더 나은 학습 성능을 보여준다.

A Comparative Study of Item Difficulty Hierarchy of Self-Reported Activity Measure Versus Metabolic Equivalent of Tasks

  • Choi, Bong-Sam
    • 한국전문물리치료학회지
    • /
    • 제20권3호
    • /
    • pp.89-99
    • /
    • 2013
  • The purposes of this study were: 1) to show the item difficulty hierarchy of walking/moving construct of the International Classification of Functioning, Disability and Health-Activity Measure (ICF-AM), 2) to evaluate the item-level psychometrics for model fit, 3) to describe the relevant physical activity defined by level of activity intensity expressed as Metabolic Equivalent of Tasks (MET), and 4) to explore what extent the empirical activity hierarchy of the ICF-AM is linked to the conceptual model based on the level of energy expenditure described as MET. One hundred and eight participants with lower extremity impairments were examined for the present study. A newly created activity measure, the ICF-AM using an item response theory (IRT) model and computer adaptive testing (CAT) method, has a construct on walking/moving construct. Based on the ICF category of walking and moving, the instrument comprised items corresponding to: walking short distances, walking long distances, walking on different surfaces, walking around objects, climbing, and running. The item difficulty hierarchy was created using Winstep software for 20 items. The Rasch analyses (1-parameter IRT model) were performed on participants with lower extremity injuries who completed the paper and pencil version of walking/moving construct of the ICF-AM. The classification of physical activity can also be performed by the use of METs that is often preferred to determine the level of physical activity. The empirical item hierarchy of walking, climbing, running activities of the ICF-AM instrument was similar to the conceptual activity hierarchy based on the METs. The empirically derived item difficulty hierarchy of the ICF-AM may be useful in developing MET-based activity measure questionnaires. In addition to convenience of applying items to questionnaires, implications of the finding could lead to the use of CAT method without sacrificing the objectivity of physiologic measures.

Load Balancing in Cloud Computing Using Meta-Heuristic Algorithm

  • Fahim, Youssef;Rahhali, Hamza;Hanine, Mohamed;Benlahmar, El-Habib;Labriji, El-Houssine;Hanoune, Mostafa;Eddaoui, Ahmed
    • Journal of Information Processing Systems
    • /
    • 제14권3호
    • /
    • pp.569-589
    • /
    • 2018
  • Cloud computing, also known as "country as you go", is used to turn any computer into a dematerialized architecture in which users can access different services. In addition to the daily evolution of stakeholders' number and beneficiaries, the imbalance between the virtual machines of data centers in a cloud environment impacts the performance as it decreases the hardware resources and the software's profitability. Our axis of research is the load balancing between a data center's virtual machines. It is used for reducing the degree of load imbalance between those machines in order to solve the problems caused by this technological evolution and ensure a greater quality of service. Our article focuses on two main phases: the pre-classification of tasks, according to the requested resources; and the classification of tasks into levels ('odd levels' or 'even levels') in ascending order based on the meta-heuristic "Bat-algorithm". The task allocation is based on levels provided by the bat-algorithm and through our mathematical functions, and we will divide our system into a number of virtual machines with nearly equal performance. Otherwise, we suggest different classes of virtual machines, but the condition is that each class should contain machines with similar characteristics compared to the existing binary search scheme.