• 제목/요약/키워드: Data Pattern

검색결과 8,403건 처리시간 0.033초

텍스트 스트리밍 데이터에서 텍스트 임베딩과 이상 패턴 탐지를 이용한 신규 주제 발생 탐지 (Emerging Topic Detection Using Text Embedding and Anomaly Pattern Detection in Text Streaming Data)

  • 최세목;박정희
    • 한국멀티미디어학회논문지
    • /
    • 제23권9호
    • /
    • pp.1181-1190
    • /
    • 2020
  • Detection of an anomaly pattern deviating normal data distribution in streaming data is an important technique in many application areas. In this paper, a method for detection of an newly emerging pattern in text streaming data which is an ordered sequence of texts is proposed based on text embedding and anomaly pattern detection. Using text embedding methods such as BOW(Bag Of Words), Word2Vec, and BERT, the detection performance of the proposed method is compared. Experimental results show that anomaly pattern detection using BERT embedding gave an average F1 value of 0.85 and the F1 value of 1 in three cases among five test cases.

발생 간격 기반 가중치 부여 기법을 활용한 데이터 스트림에서 가중치 순차패턴 탐색 (Finding Weighted Sequential Patterns over Data Streams via a Gap-based Weighting Approach)

  • 장중혁
    • 지능정보연구
    • /
    • 제16권3호
    • /
    • pp.55-75
    • /
    • 2010
  • 일반적인 순차패턴 마이닝에서는 분석 대상 데이터 집합에 포함되는 구성요소의 발생 순서만을 고려하며, 따라서 단순 순차패턴은 쉽게 찾을 수 있는 반면 실제 응용 분야에서 널리 활용될 수 있는 관심도가 큰 순차패턴을 탐색하는데 한계가 있다. 이러한 단점을 보완하기 위한 대표적인 연구 주제들 중의 하나가 가중치 순차패턴 탐색이다. 가중치 순차패턴 탐색에서는 관심도가 큰 순차패턴을 얻기 위해서 구성요소의 단순 발생 순서 뿐만 아니라 구성요소의 가중치를 추가로 고려한다. 본 논문에서는 발생 간격에 기반 한 순차패턴 가중치 부여 기법 및 이를 활용한 순차 데이터 스트림에 대한 가중치 순차패턴 탐색 방법을 제안한다. 발생 간격 기반 가중치는 사전에 정의된 별도의 가중치 정보를 필요로 하지 않으며 순차정보를 구성하는 구성요소들의 발생 간격으로부터 구해진다. 즉, 순차패턴의 가중치를 구하는데 있어서 구성요소의 발생순서와 더불어 이들의 발생 간격을 고려하며, 따라서 보다 관심도가 크고 유용한 순차패턴을 얻는데 도움이 된다. 한편, 근래 대부분의 컴퓨터 응용 분야에서는 한정적인 데이터 집합 형태가 아닌 데이터 스트림 형태로 정보를 발생시키고 있다. 이와 같은 데이터 생성 환경의 변화를 고려하여 본 논문에서는 순차 데이터 스트림을 마이닝 대상으로 고려하였다.

은닉 마코프 모델을 이용한 시계열 데이터의 의미기반 패턴 매칭 (Conceptual Pattern Matching of Time Series Data using Hidden Markov Model)

  • 조영희;전진호;이계성
    • 한국콘텐츠학회논문지
    • /
    • 제8권5호
    • /
    • pp.44-51
    • /
    • 2008
  • 시계열 데이터에서 패턴을 찾고 검색하는 문제는 여러 분야에서 오랫동안 관심을 가지고 연구되어 왔다. 본 논문은 시간의 흐름에 따라 값의 변화를 나타내는 시계열 형태의 주식 데이터에 적용할 수 있는 새로운 패턴 매칭 방법을 제안한다. 우선, 의미를 기반으로 패턴을 정의하고 정의된 패턴에 일치하는 데이터들을 추출하여 학습모델을 작성한다. 그리고 새로운 질의 시퀀스가 어떤 종류의 패턴과 일치하는가는 각 학습 모델과의 유사도를 측정하여 결정하게 된다. 학습 모델은 시계열을 잘 설명하는 것으로 알려진 은닉 마코프 모델을 사용하여 작성하였다. 실험 결과 은닉 마코프 모델의 특성을 사용하여 생성된 각 학습 모델은 주어진 의미를 잘 나타내는 패턴을 생성하였으며, 새로운 시퀀스가 주어졌을 때 일치하는 패턴에 따라서 시퀀스가 가진 의미를 파악할 수 있었다.

팬츠패턴의 설계요인 분석 - 밑위관련 항목을 중심으로 - (An Analysis on the Design Factors for Pants Pattern - Focused on Crotch Region -)

  • 문지현;전은경
    • 한국의류산업학회지
    • /
    • 제13권3호
    • /
    • pp.382-389
    • /
    • 2011
  • Pants is an item of clothes of which physical suitability for improvement of appearance and movement is greatly emphasized. The pattern design of pants is very important because the fitness of crotch region, which is difficult to measure, is structurally essential in pants. This study gives detailed pattern development data for the future pattern design by considering design factors related with crotch region of pants and by suggesting related data. For this study, we measured and analyzed the measuring size of each parts of pattern and the design methods related with crotch region selecting 20 textbooks used in universities and institutes of higher education. Through this study, crotch region of pants pattern related design data were obtained and this result could be a primary information in development and education of pants pattern.

점진적 가중화 맥시멀 대표 패턴 마이닝의 최신 기법 분석, 유아들의 물품 패턴 분석 시나리오 및 성능 분석 (Recent Technique Analysis, Infant Commodity Pattern Analysis Scenario and Performance Analysis of Incremental Weighted Maximal Representative Pattern Mining)

  • 윤은일;윤은미
    • 인터넷정보학회논문지
    • /
    • 제21권2호
    • /
    • pp.39-48
    • /
    • 2020
  • 데이터마이닝 기법들은 의미 있고 유용한 정보를 효율적으로 찾기 위해서 제안되어 왔다. 특별히, 빅 데이터 환경에서 데이터가 여러 응용들에서 축적되어짐에 따라, 관련된 패턴 마이닝 방법들이 제안되고 있다. 최근에는 파일이나 데이터베이스에 이미 저장되어 있는 정적 데이터를 분석하는 대신에 점진적으로 생성되는 동적 데이터를 마이닝 하는 것이 더 흥미 있는 연구영역으로 고려되고 있는데 동적데이터는 단지 한번만 스캔하여 읽을 수 있기 때문이다. 이와 같은 이유로, 어떻게 동적 데이터를 효율적으로 마이닝 하는지에 대한 연구들이 진행되고 있다. 더불어서, 마이닝 결과로 거대한 수의 패턴들이 생성되기 때문에, 맥시멀 패턴 마이닝과 같은 대표 패턴들을 마이닝하는 접근방법들도 제안되고 있다. 또 다른 이슈로, 실세계에서 더 의미있는 패턴들을 발견하기 위해, 가중화 패턴 마이닝에서 아이템들의 가중치가 사용되고 있다. 실제 상황에서 아이템의 이익이나 가격 등이 가중치로 사용 될 수 있다. 본 논문에서는 점진적으로 생성되는 데이터에 대한 가중화 맥시멀 패턴 마이닝, 맥시멀 대표 패턴 마이닝 그리고 점진적 패턴 마이닝 기법들에 대해 분석한다. 그리고 가중화 대표 패턴 마이닝을 적용하여서 유아들에게서 필요로 하는 물품 패턴들을 분석하기 위한 응용 시나리오를 제시한다. 추가로, 분석한 마이닝 알고리즘들에 대한 성능 평가를 수행한다. 결과적으로, 점진적 가중화 맥시멀 패턴 마이닝 기법이 점진적 가중화 패턴 마이닝과 가중화 패턴 마이닝 기법보다 좋은 성능을 가짐을 보인다.

3D 스캔 데이터를 활용한 밀착 패턴원형 개발 (Development of 2D Tight-fitting Pattern from 3D Scan Data)

  • 정연희;홍경희
    • 한국의류학회지
    • /
    • 제30권1호
    • /
    • pp.157-166
    • /
    • 2006
  • The human body, which is composed of concave and convex curvatures, makes it difficult to transfer into 2D patterns directly from 3D data. In previous studies. Jeong, et al.(2004) suggested the block method was fester and easier when dealing with the triangular patches of male's upper dress form. Although the block method is useful to make a pattern, the information(area, length, etc.) from a 2D pattern would be different depending on the direction of the block method. As a result horizontal and diagonal block methods were suggested as optimal methods for 2D tight-fitting patterns. These block methods were closer to the original area of the 3D scan data than the vertical block method. The total area of the 2D pattern obtained by the horizontal and diagonal block methods showed little differences. In case of the horizontal and diagonal block methods, the total error of the 2D pattern area ranged from $0.01\%\~0.25\%$. In comparing the length of the 2D pattern with that of the 3D scan data, the obtained 2D pattern was $0.1\~0.2cm$ shorter than the 3D scan data, which was within the acceptable range of errors in making clothes. 3D space distribution images between the body surface and the experimental clothing were also measured and $3\%$ enlargement of the original pattern was verified as the adequate adjustment.

시계열 데이터로부터의 경향성 기반 순차패턴 탐색 (Trend-based Sequential Pattern Discovery from Time-Series Data)

  • 오용생;이동하;남도원;이전영
    • 지능정보연구
    • /
    • 제7권1호
    • /
    • pp.27-45
    • /
    • 2001
  • 데이터마이닝에서 시계열 데이터로부터 순차패턴을 발견하는 연구는 사건이나 아이템이 주로 연구되어왔지만, 최근에는 설비의 상태를 알 수 있는 센서와 같은 수치 값의 형태를 가지는 분야에 관심을 가지게 되었다. 그러나 수치 형태의 데이터는 패턴을 만드는 동안 동일한 값을 가지는 경우가 거의 없기 때문에 기존의 사건이나 아이템 등으로 변환될 수 있는 패턴요소의 특징을 만드는 것이 가장 중요하다. 이러한 패턴요소를 발견하는 지금가지 방법은 이동 윈도우와 클러스터링을 사용하는 방법을 적용하였는데, 이러한 방법은 다양한 윈도우의 크기와 클러스터 값을 적용하여 반복적으로 작업을 하며, 찾아진 결과를 해석하는데도 많은 문제가 있다. 본 연구는 수치 값을 가진 데이터를 벡터의 형태로 만들어 패턴요소를 만드는 방법을 제시한다. 이렇게 만들어진 패턴요소는 전체 데이터를 사용하는 것 보다 이해되기 쉽고 보다 빠르게 순차패턴을 찾을 수 있다. 벡터로 변환된 패턴요소는 각도와 크기를 가지는데 우리는 이들 벡터들의 상호 연관성을 정의하고, 이들 연관성을 이용하여 순차패턴을 찾는 방법을 제시한다.

  • PDF

User Modeling Using User Preference and User Life Pattern Based on Personal Bio Data and SNS Data

  • Song, Hyejin;Lee, Kihoon;Moon, Nammee
    • Journal of Information Processing Systems
    • /
    • 제15권3호
    • /
    • pp.645-654
    • /
    • 2019
  • The purpose of this study was to collect and analyze personal bio data and social network services (SNS) data, derive user preference and user life pattern, and propose intuitive and precise user modeling. This study not only tried to conduct eye tracking experiments using various smart devices to be the ground of the recommendation system considering the attribute of smart devices, but also derived classification preference by analyzing eye tracking data of collected bio data and SNS data. In addition, this study intended to combine and analyze preference of the common classification of the two types of data, derive final preference by each smart device, and based on user life pattern extracted from final preference and collected bio data (amount of activity, sleep), draw the similarity between users using Pearson correlation coefficient. Through derivation of preference considering the attribute of smart devices, it could be found that users would be influenced by smart devices. With user modeling using user behavior pattern, eye tracking, and user preference, this study tried to contribute to the research on the recommendation system that should precisely reflect user tendency.

Light-weight Preservation of Access Pattern Privacy in Un-trusted Storage

  • Yang, Ka;Zhang, Jinsheng;Zhang, Wensheng;Qiao, Daji
    • IEIE Transactions on Smart Processing and Computing
    • /
    • 제2권5호
    • /
    • pp.282-296
    • /
    • 2013
  • With the emergence of cloud computing, more and more sensitive user data are outsourced to remote storage servers. The privacy of users' access pattern to the data should be protected to prevent un-trusted storage servers from inferring users' private information or launching stealthy attacks. Meanwhile, the privacy protection schemes should be efficient as cloud users often use thin client devices to access the data. In this paper, we propose a lightweight scheme to protect the privacy of data access pattern. Comparing with existing state-of-the-art solutions, our scheme incurs less communication and computational overhead, requires significantly less storage space at the user side, while consuming similar storage space at the server. Rigorous proofs and extensive evaluations have been conducted to show that the proposed scheme can hide the data access pattern effectively in the long run after a reasonable number of accesses have been made.

  • PDF

수용가 전력 소비 패턴을 고려한 배전용 변압기 과부하 판정기준 (Overload Criteria of Distribution Transformers Considering the Electric Consumption Patterns of Customers)

  • 윤상윤;김재철
    • 대한전기학회논문지:전력기술부문A
    • /
    • 제53권9호
    • /
    • pp.513-520
    • /
    • 2004
  • In the paper, we summarize the result of the experimental research for the overload criteria of domestic distribution transformers considering the electric consumption patterns of customers. For the basic characteristic data of distribution transformer overload, the actual experiments are accomplished. The field data of loads are surveyed from sample transformers for analyzing the consumption pattern of customer load. The load data acquisition devices are equipped, and the algorithm of load pattern classification is applied. In addition to this efforts, various load pattern data. in past are gathered. Then the representative load pattern of each customer type in domestic is extracted. The final results of overload criterions are presented as tabular form through the results of experiments and survey are combined. The field test of the experiment results is peformed using the special manufactured transformers, which can measure both the load and top-oil temperature of transformer. Through this, we verify that the results of field test are similar to the laboratory one and the Proposed overload criteria can be effectively applied to the real system.