• Title/Summary/Keyword: 데이터 희소성

Search Result 89, Processing Time 0.023 seconds

A Comparative Study on Requirements Analysis Techniques using Natural Language Processing and Machine Learning

  • Cho, Byung-Sun;Lee, Seok-Won
    • Journal of the Korea Society of Computer and Information
    • /
    • v.25 no.7
    • /
    • pp.27-37
    • /
    • 2020
  • In this paper, we propose the methodology based on data-driven approach using Natural Language Processing and Machine Learning for classifying requirements into functional requirements and non-functional requirements. Through the analysis of the results of the requirements classification, we have learned that the trained models derived from requirements classification with data-preprocessing and classification algorithm based on the characteristics and information of existing requirements that used term weights based on TF and IDF outperformed the results that used stemming and stop words to classify the requirements into functional and non-functional requirements. This observation also shows that the term weight calculated without removal of the stemming and stop words influenced the results positively. Furthermore, we investigate an optimized method for the study of classifying software requirements into functional and non-functional requirements.

Using CRF (Conditional Random Fields) to Predict Phrase Breaks in Korean (CRF를 이용한 한국어 운율 경계 추정)

  • Kim, Seung-Won;Kim, Byeong-Chang;Jeong, Min-Woo;Lee, Gary Geun-Bae
    • Annual Conference on Human and Language Technology
    • /
    • 2005.10a
    • /
    • pp.134-138
    • /
    • 2005
  • 본 논문은 한국어 TTS(Text-To-Speech)에서 운율 경계를 추정하는 문제를 클래스 분류문제로 보고 CRF(Conditional Random Fields)를 적용하여 운율 경계를 추정하였다. 우리는 품사와 운율 경계로 구성된 말뭉치를 사용하여 품사, 어휘, 단어의 길이, 문장에서의 단어 위치와 같은 다양한 속성의 언어적 자질을 추출하여 CRF를 훈련시켰으며, 자질들을 서로 조합하여 최고의 성능을 보이는 자질 집합을 골랐다 또한 가우스 평활 (Gaussian Smoothing)을 적용하여 데이터의 희소성 문제를 줄였다. 실험 결과에서 본 방법이 기존의 방법보다 성능이 좋을 뿐만 아니라 운율 경계를 추정하기 위한 자질을 독립시켰기 때문에 다른 시스템과의 호환성도 높다는 것을 알 수 있었다.

  • PDF

Weight-based Career Quotient Management Service According to the Population Change (모집단 변화에 따른 가중치 기반 경력지수 관리 서비스)

  • Lee, SeungHyun;Woo, DaSeul;Hong, SongYi;Lee, Keon Myung
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2015.10a
    • /
    • pp.161-163
    • /
    • 2015
  • 기업의 인재 선발 형태가 변화함에 따라 학생들의 경력관리 필요성이 대두되어 대학별로 독자적인 경력관리서비스를 구축해 활용되고 있다. 대부분의 서비스는 사용자 입력 데이터만을 이용해 추가적인 요소 없이 통계정보를 제공한다. 본 논문에서는 가중치 기반 경력지수 관리 서비스를 소개한다. 가중치를 기반으로 사용자의 경력정보에 대한 점수를 계산해 경력지수를 산출하고 이를 통해 사용자는 경력의 희소성, 신뢰성과 같은 모집단의 특성을 반영한 경력관리가 가능하다.

Personalized Hybrid Outfit Recommendation Based on Image Dissimilarity (이미지 비유사도 기반의 개인화된 하이브리드 의류 추천 모델)

  • Jeong-Won Yang;Ji-Hye Baek;Hyon-Hee Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.05a
    • /
    • pp.459-460
    • /
    • 2023
  • 기존의 추천시스템은 상품간 혹은 사용자 간의 유사도를 기반으로 작동한다. 하지만 이는 사용자가 유사한 상품 추천 속에 갇히게 되는 필터 버블의 문제와 추천시스템의 고질적인 문제인 데이터 희소성 문제를 피할 수 없게 된다. 따라서 본 연구에서는 사용자의 취향과 체형 정보를 반영하여 사용자의 평점을 예측하는 협업 필터링 기반 딥러닝 추천과 상품간 비유사성을 고려하여 사용자의 평점을 예측하는 내용 기반 추천을 혼합한 하이브리드 추천 모델을 구축하여 기존 추천시스템의 문제점을 해결하였다. 모델의 성능평가를 위해 인터넷 의류 쇼핑몰을 대상으로 유사한 이미지를 활용한 하이브리드 추천 모델과 NDCG 값을 비교하였고 유사도가 낮은 이미지를 활용한 모델이 더 우수한 성능을 보였다. 이는 다른 제품과는 달리 소비자가 의류를 구매할 경우 이미 구매한 상품과 유사한 상품보다는 유사하지 않은 상품을 구매할 가능성이 크다는 것을 보여준다.

A Stepwise Rating Prediction Method for Recommender Systems (추천 시스템을 위한 단계적 평가치 예측 방안)

  • Lee, Soojung
    • The Journal of the Institute of Internet, Broadcasting and Communication
    • /
    • v.21 no.4
    • /
    • pp.183-188
    • /
    • 2021
  • Collaborative filtering based recommender systems are currently indispensable function of commercial systems in various fields, being a useful service by providing customized products that users will prefer. However, there is a high possibility that the prediction of preferrable products is inaccurate, when the user's rating data are insufficient. In order to overcome this drawback, this study suggests a stepwise method for prediction of product ratings. If the application conditions of the prediction method corresponding to each step are not satisfied, the method of the next step is applied. To evaluate the performance of the proposed method, experiments using a public dataset are conducted. As a result, our method significantly improves prediction and precision performance of collaborative filtering systems employing various conventional similarity measures and outperforms performance of the previous methods for solving rating data sparsity.

Bi-LSTM VAE based Intrusion Detection System for In-Vehicle CAN (Bi-LSTM VAE 기반 차량 CAN 침입 탐지 시스템)

  • Kim, Yong-Su;Kang, Hyo-Eun;Kim, Ho-Won
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2022.05a
    • /
    • pp.531-534
    • /
    • 2022
  • 승차 공유, 카풀, 렌터카의 이용률이 증가하면서 많은 사용자가 동일한 차량에 로컬 액세스 할 수 있는 시나리오가 더욱 보편화됨에 따라 차량 네트워크에 대한 공격 가능성이 커지고 있다. 차량용 CAN Bus Network에 대한 DoS(Denial of Service), Fuzzy Attack 및 Replay Attack과 같은 공격은 일부 ECU(Electronic Controller Unit) 비활성 및 작동 불능 상태를 유발한다. 에어백, 제동 시스템과 같은 필수 시스템이 작동 불가 상태가 되어 운전자에게 치명적인 결과를 초래할 수 있다. 차량 네트워크 침입 탐지를 위하여 많은 연구가 진행되고 있으나, 기존 화이트리스트를 이용한 탐지 방법은 새로운 유형의 공격이 발생하거나 희소성이 높은 공격일 때 탐지하기 어렵다. 본 논문에서는 인공신경망 기반의 CAN 버스 네트워크 침입 탐지 기법을 제안한다. 제안하는 침입 탐지 기법은 2단계로 나누어 진다. 1단계에서 정상 패킷 분포를 학습한 VAE 모형이 이상 탐지를 수행한다. 이상 패킷으로 판정될 경우, 2단계에서 인코더로부터 추출된 잠재변수와 VAE의 재구성 오차를 이용하여 공격 유형을 분류한다. 분류 결과의 신뢰점수(Confidence score)가 임계치보다 낮을 경우 학습하지 않은 공격으로 판단한다. 본 연구 결과물은 정보보호 연구·개발 데이터 첼린지 2019 대회의 차량 이상징후 탐지 트랙에서 제공하는 정상 및 3종의 차량 공격시도 패킷 데이터를 대상으로 성능을 평가하였다. 실험을 통해 자동차 제조사의 규칙이나 정책을 사전에 정의하지 않더라도 낮은 오탐율로 비정상 패킷을 탐지해 낼 수 있음을 확인할 수 있다.

Performance Evaluation of Negative Sampling Methods in a Hyperedge Prediction Task (하이퍼엣지 예측 작업에서 네거티브 샘플링 기술의 성능 분석)

  • Daeun Lee;Songkyung Yu;Yunyong Ko;Sang-Wook Kim
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2024.05a
    • /
    • pp.527-530
    • /
    • 2024
  • 하이퍼그래프(hypergraph)는 실세계의 여러 객체가 함께 형성하는 복잡한 그룹 관계를 하이퍼엣지(hyperedge)로 정보 손실 없이 모델링할 수 있는 새로운 데이터 구조이다. 하이퍼엣지 예측(hyperedge prediction task)이란 하이퍼그래프로 표현된 실세계 네트워크에서 아직 관찰되지 않은 그룹관계 혹은 미래에 발생할 가능성이 높은 관계를 예측하는 것으로, 단백질 상호작용 분석(PPI), 추천시스템, 소셜 네트워크 분석 등 다양한 응용 분야에서 활용된다. 그러나, 하이퍼엣지 예측은 심각한 데이터 희소성 문제로 정확한 예측이 어렵다는 근본적인 한계를 지닌다. 이러한 한계를 완화하기 위해 다양한 네거티브 샘플링(negative sampling) 기술이 활용될 수 있는데, 아직까지 각 샘플링 기술이 하이퍼엣지 예측 정확도에 미치는 효과에 대해 충분히 연구되지 않았다. 본 논문에서는 하이퍼엣지 예측에 활용되는 다양한 네거티브 샘플링 방법의 효과를 분석한다. 실험 결과를 통해, 네거티브 샘플링 기법과 포지티브와 네거티브 하이퍼엣지 수의 비율에 따른 정확도 변화 양상을 분석한다.

Collaborative Tag-Based Recommendation Methods Using the Principle of Latent Factor Models (잠재 요인 모델의 원리를 이용한 협업 태그 기반 추천 방법)

  • Kim, Hyoung-Do
    • The Journal of Society for e-Business Studies
    • /
    • v.14 no.4
    • /
    • pp.47-57
    • /
    • 2009
  • Collaborative tagging systems allow users to attach tags to diverse sharable contents in social networks. These tags provide usefulness in reusing the contents for all community members as well as their creators. Three-dimensional data composed of users, items, and tags are used in the collaborative tag-based recommendation. They are generally more voluminous and sparse than two-dimensional data composed of users and items. Therefore, there are many difficulties in applying existing collaborative filtering methods directly to them. Latent factor models, which are also successful in the area of collaborative filtering recently, discover latent features(factors) for explaining observed values and solve problems based on the features. However, establishing the models require much time and efforts. In order to apply the latent factor models to three-dimensional collaborative filtering data, we have to overcome the difficulty of establishing them. This paper proposes various methods for determining preferences of users to items via establishing an intuitive model by assuming tags used for items as latent factors to users and items respectively. They are compared using real data for concluding desirable directions.

  • PDF

Dilated convolution and gated linear unit based sound event detection and tagging algorithm using weak label (약한 레이블을 이용한 확장 합성곱 신경망과 게이트 선형 유닛 기반 음향 이벤트 검출 및 태깅 알고리즘)

  • Park, Chungho;Kim, Donghyun;Ko, Hanseok
    • The Journal of the Acoustical Society of Korea
    • /
    • v.39 no.5
    • /
    • pp.414-423
    • /
    • 2020
  • In this paper, we propose a Dilated Convolution Gate Linear Unit (DCGLU) to mitigate the lack of sparsity and small receptive field problems caused by the segmentation map extraction process in sound event detection with weak labels. In the advent of deep learning framework, segmentation map extraction approaches have shown improved performance in noisy environments. However, these methods are forced to maintain the size of the feature map to extract the segmentation map as the model would be constructed without a pooling operation. As a result, the performance of these methods is deteriorated with a lack of sparsity and a small receptive field. To mitigate these problems, we utilize GLU to control the flow of information and Dilated Convolutional Neural Networks (DCNNs) to increase the receptive field without additional learning parameters. For the performance evaluation, we employ a URBAN-SED and self-organized bird sound dataset. The relevant experiments show that our proposed DCGLU model outperforms over other baselines. In particular, our method is shown to exhibit robustness against nature sound noises with three Signal to Noise Ratio (SNR) levels (20 dB, 10 dB and 0 dB).

농업 정보화에 대한 인식 변화 빅데이터 연구: 코로나19 확산의 농어촌 정보화 인식 변화에 대한 영향을 중심으로

  • Lim, Seon Yeong;Lee, Jongtae
    • Agribusiness and Information Management
    • /
    • v.13 no.1
    • /
    • pp.41-56
    • /
    • 2021
  • This study aims to understand the IT savvy degree and the keyword changes on the informatization issues in rural areas during the pandemic status of COVID-19. In the analysis result, we could understand that the informatization policies in rural areas have focused on reducing negative influences on the issues of university entrance exams and higher-level education and economic vulnerabilities. According to the sentiment analysis results on the keywords related to the informatization policies in rural areas, the IT-savvy performance - the improvement of the digital divide and IT utilization capabilities in rural areas - was positively understood. The study is one of the earlier studies considering the relationship between the pandemic of COVID-19 and informatization in rural areas. But still there are limitations of collecting more meaningful data and basic level keywords analysis because of the negative pandemic diffusion of COVID-19.