• 제목/요약/키워드: Large tag data

검색결과 67건 처리시간 0.019초

연관규칙 마이닝을 활용한 뉴스기사 키워드의 연관성 탐사 (Discovering News Keyword Associations Using Association Rule Mining)

  • 김한준;장재영
    • 한국인터넷방송통신학회논문지
    • /
    • 제11권6호
    • /
    • pp.63-71
    • /
    • 2011
  • 현재 대부분의 웹포털 사이트는 인기도 또는 중요도가 높은 키워드를 제공하는 서비스가 제공되고 있는데, 구체적으로 태그 클라우드 형태와 연관 검색 서비스와 같은 사용자 친화형 서비스를 지원하고 있다. 하지만 일반적으로 뉴스기사는 날짜와 분야별로 기사들이 분류되어 있기에, 사용자는 카테고리별로 나누어진 기사를 읽을 수만 있을 뿐 그 기사와 연관된 다른 기사를 쉽게 찾아보지는 못한 실정이다. 또한 연관 검색어 서비스도 사용자가 검색한 입력내용을 기반으로 연관성 정도를 분석하기에 충분한 객관성을 보장하지 못하고 있다. 본 논문에서는 기존의 태그 클라우드 방식에서 좀 더 나아가 축적된 뉴스 기사로 부터 검색 키워드와 밀접히 연관된 키워드를 추출하여 제공하는 기사 검색 방식을 제안한다. 제안 기법은 기본적으로 연관규칙 마이닝을 이용하여 키워드 연관성을 추출하게 되며, 뉴스기사 특성을 반영하여 문장 내부에 존재하는 키워드에 한정하여 연관성을 추출한다. 연관된 키워드 집합을 이용하여 키워드와 가장 밀접한 기사를 검색할 뿐만 아니라, 연관 키워드간의 관계성을 보여줌으로써 뉴스 기사들 속에 숨겨진 연관정보의 탐색을 가능하게 한다.

의료서비스를 위한 키워드와 문서의 연관성 향상을 위한 LSTM모델 설계 (LSTM Model Design to Improve the Association of Keywords and Documents for Healthcare Services)

  • 김준겸;서진범;조영복
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2021년도 춘계학술대회
    • /
    • pp.75-77
    • /
    • 2021
  • 현재 다양한 검색엔진들이 사용되고 있다. 검색엔진은 메타태그 정보를 기본으로 크롤링, 색인생성, 검색 결과 출력의 3단계를 거치며, 사용자가 원하는 자료의 검색을 도와준다. 그러나 키워드를 기반으로 검색해서 얻은 방대한 문서가 관련이 없거나 적은 문서일 경우도 많다. 이러한 문제점 때문에 검색 결과에서 내용을 파악하여 정확도를 분류를 해야 하는 번거로운 일이 발생하게 된다. 다양한 검색엔진을 통해 추출된 결과의 경우 검색엔진의 인덱스는 주기적으로 업데이트 되지만 가중치에 대한 기준과 업데이트 주기는 검색엔진마다 다르고 검색 순위 산정 기준이 서로 다르기 때문에 동일한 키워드를 검색어로 입력하고도 서로 다른 검색 순위를 보여주는 단점을 가지고 있다 따라서 본 논문에서는 기존 검색엔진 대신 사용자가 입력한 키워드와 문서의 연관성을 추출하여 사용자가 찾고자 하는 키워드를 입력했을 때 키워드와 문서의 연관성을 향상 시킬 수 있는 LSTM모델을 설계하고자 한다.

  • PDF

머신러닝 오픈소스 플랫폼을 활용한 쇄파 예측 (Prediction of Wave Breaking Using Machine Learning Open Source Platform)

  • 이광호;김탁겸;김도삼
    • 한국해안·해양공학회논문집
    • /
    • 제32권4호
    • /
    • pp.262-272
    • /
    • 2020
  • 지금까지 연안에서 발생하는 쇄파에 대한 연구는 지속적으로 수행되었으며, 그에 따른 많은 실험자료가 축적되어 왔다. 또한, 다양한 실험자료로부터 공학적인 적용을 위한 쇄파 정보를 정량적으로 예측하기 위하여 회귀분석에 기반한 다양한 경험식이 제안되었다. 그러나 쇄파는 내재하고 있는 변동성이 있으므로 선형 회귀분석과 같은 선형적 통계접근 방법에는 한계가 있다. 본 연구에서는 쇄파파고 및 쇄파수심을 예측하기 위하여 기계학습 중 하나인 신경망을 사용하는 비선형 방법을 제안하였다. 신경망은 구글에서 배포하고 있는 머신러닝 오픈소스 플랫폼인 텐서플로(Tensorflow)를 이용하여 구축하였다. 신경망 모델은 수집된 실험자료를 무작위로 선택하여 학습하였으며, 학습에 이용하지 않은 자료를 사용하여 학습된 신경망을 평가하였다. 학습된 신경망에 의해 예측된 쇄파파고와 쇄파수심에 대한 예측결과는 기존의 경험식에 의한 계산결과에 비해 높은 예측성능을 보였으며, 이는 충분히 학습된 신경망은 쇄파파고 및 수심을 예측하기 위한 유용한 도구로 사용될 수 있음을 보여준다.

효율적인 데이터 종속 기반의 간접 분기 예측기 (Efficient Indirect Branch Predictor Based on Data Dependence)

  • 백경호;김은성
    • 전자공학회논문지CI
    • /
    • 제43권4호
    • /
    • pp.1-14
    • /
    • 2006
  • 간접 분기 명령은 현대적인 고성능 프로세서의 ILP를 제한하는 가장 심각한 장애 요인 중 하나이다. 다른 분기 명령들과는 다르게 간접 분기는 그 타켓 주소가 동적으로 다형태로 변하기 때문에 이를 예측하기 매우 어려우며, 투기적 실행 방식을 사용하는 대부분의 현대적인 고성능 프로세서에서는 예측이 잘못되는 경우에 많은 수행 사이클 지연이 일어나게 되어 프로세서의 성능이 크게 떨어지게 된다. 우리는 예측 정확도가 아주 뛰어난 새로운 개념의 간접 분기 예측 방식 즉, 간접 분기 명령과 이와 데이터 종속 관계를 가진 이 명령어 보다 훨씬 앞서 수행되는 명령어의 레지스터 내용을 결합시켜 간접 분기의 타켓을 예측해내는 방식을 제안하였다. 1K의 예측기를 사용하는 경우에 98.92%의 예측 정확도를 보이고, 8K의 크기를 사용하면 거의 완벽한 99.95%의 정확도를 보인다. 그러나 지금까지 제안된 모든 예측기가 그러하듯이 예상 타켓 주소와 함께 앨리어싱 문제를 완화시키기 위한 태그를 저장하기 위한 하드웨어 오버헤드가 크다는 단점을 안고 있다. 그러므로 본 논문에서는 예측 정확 도의 손실없이도 예측기의 하드웨어 오버헤드를 최소한으로 줄이는 방법을 제안한다. 실험 결과로써 태그 저장에 따른 하드웨어를 성능 손실 없이 약 60%를 줄일 수 있으며, 0.1%의 손실을 감수하면 약 80%까지 줄일 수 있다. 또한 부분 타켓 저장으로 인한 성능 손실 없이 타켓 주소 저장에 따른 하드웨어를 약 35% 절약할 수 있으며, 1.11%의 손실을 감수하면 약 45%까지 절약할 수 있다.

Copy Number Deletion Has Little Impact on Gene Expression Levels in Racehorses

  • Park, Kyung-Do;Kim, Hyeongmin;Hwang, Jae Yeon;Lee, Chang-Kyu;Do, Kyoung-Tag;Kim, Heui-Soo;Yang, Young-Mok;Kwon, Young-Jun;Kim, Jaemin;Kim, Hyeon Jeong;Song, Ki-Duk;Oh, Jae-Don;Kim, Heebal;Cho, Byung-Wook;Cho, Seoae;Lee, Hak-Kyo
    • Asian-Australasian Journal of Animal Sciences
    • /
    • 제27권9호
    • /
    • pp.1345-1354
    • /
    • 2014
  • Copy number variations (CNVs), important genetic factors for study of human diseases, may have as large of an effect on phenotype as do single nucleotide polymorphisms. Indeed, it is widely accepted that CNVs are associated with differential disease susceptibility. However, the relationships between CNVs and gene expression have not been characterized in the horse. In this study, we investigated the effects of copy number deletion in the blood and muscle transcriptomes of Thoroughbred racing horses. We identified a total of 1,246 CNVs of deletion polymorphisms using DNA re-sequencing data from 18 Thoroughbred racing horses. To discover the tendencies between CNV status and gene expression levels, we extracted CNVs of four Thoroughbred racing horses of which RNA sequencing was available. We found that 252 pairs of CNVs and genes were associated in the four horse samples. We did not observe a clear and consistent relationship between the deletion status of CNVs and gene expression levels before and after exercise in blood and muscle. However, we found some pairs of CNVs and associated genes that indicated relationships with gene expression levels: a positive relationship with genes responsible for membrane structure or cytoskeleton and a negative relationship with genes involved in disease. This study will lead to conceptual advances in understanding the relationship between CNVs and global gene expression in the horse.

폭소노미 사이트를 위한 랭킹 프레임워크 설계: 시맨틱 그래프기반 접근 (A Folksonomy Ranking Framework: A Semantic Graph-based Approach)

  • 박현정;노상규
    • Asia pacific journal of information systems
    • /
    • 제21권2호
    • /
    • pp.89-116
    • /
    • 2011
  • In collaborative tagging systems such as Delicious.com and Flickr.com, users assign keywords or tags to their uploaded resources, such as bookmarks and pictures, for their future use or sharing purposes. The collection of resources and tags generated by a user is called a personomy, and the collection of all personomies constitutes the folksonomy. The most significant need of the folksonomy users Is to efficiently find useful resources or experts on specific topics. An excellent ranking algorithm would assign higher ranking to more useful resources or experts. What resources are considered useful In a folksonomic system? Does a standard superior to frequency or freshness exist? The resource recommended by more users with mere expertise should be worthy of attention. This ranking paradigm can be implemented through a graph-based ranking algorithm. Two well-known representatives of such a paradigm are Page Rank by Google and HITS(Hypertext Induced Topic Selection) by Kleinberg. Both Page Rank and HITS assign a higher evaluation score to pages linked to more higher-scored pages. HITS differs from PageRank in that it utilizes two kinds of scores: authority and hub scores. The ranking objects of these pages are limited to Web pages, whereas the ranking objects of a folksonomic system are somewhat heterogeneous(i.e., users, resources, and tags). Therefore, uniform application of the voting notion of PageRank and HITS based on the links to a folksonomy would be unreasonable, In a folksonomic system, each link corresponding to a property can have an opposite direction, depending on whether the property is an active or a passive voice. The current research stems from the Idea that a graph-based ranking algorithm could be applied to the folksonomic system using the concept of mutual Interactions between entitles, rather than the voting notion of PageRank or HITS. The concept of mutual interactions, proposed for ranking the Semantic Web resources, enables the calculation of importance scores of various resources unaffected by link directions. The weights of a property representing the mutual interaction between classes are assigned depending on the relative significance of the property to the resource importance of each class. This class-oriented approach is based on the fact that, in the Semantic Web, there are many heterogeneous classes; thus, applying a different appraisal standard for each class is more reasonable. This is similar to the evaluation method of humans, where different items are assigned specific weights, which are then summed up to determine the weighted average. We can check for missing properties more easily with this approach than with other predicate-oriented approaches. A user of a tagging system usually assigns more than one tags to the same resource, and there can be more than one tags with the same subjectivity and objectivity. In the case that many users assign similar tags to the same resource, grading the users differently depending on the assignment order becomes necessary. This idea comes from the studies in psychology wherein expertise involves the ability to select the most relevant information for achieving a goal. An expert should be someone who not only has a large collection of documents annotated with a particular tag, but also tends to add documents of high quality to his/her collections. Such documents are identified by the number, as well as the expertise, of users who have the same documents in their collections. In other words, there is a relationship of mutual reinforcement between the expertise of a user and the quality of a document. In addition, there is a need to rank entities related more closely to a certain entity. Considering the property of social media that ensures the popularity of a topic is temporary, recent data should have more weight than old data. We propose a comprehensive folksonomy ranking framework in which all these considerations are dealt with and that can be easily customized to each folksonomy site for ranking purposes. To examine the validity of our ranking algorithm and show the mechanism of adjusting property, time, and expertise weights, we first use a dataset designed for analyzing the effect of each ranking factor independently. We then show the ranking results of a real folksonomy site, with the ranking factors combined. Because the ground truth of a given dataset is not known when it comes to ranking, we inject simulated data whose ranking results can be predicted into the real dataset and compare the ranking results of our algorithm with that of a previous HITS-based algorithm. Our semantic ranking algorithm based on the concept of mutual interaction seems to be preferable to the HITS-based algorithm as a flexible folksonomy ranking framework. Some concrete points of difference are as follows. First, with the time concept applied to the property weights, our algorithm shows superior performance in lowering the scores of older data and raising the scores of newer data. Second, applying the time concept to the expertise weights, as well as to the property weights, our algorithm controls the conflicting influence of expertise weights and enhances overall consistency of time-valued ranking. The expertise weights of the previous study can act as an obstacle to the time-valued ranking because the number of followers increases as time goes on. Third, many new properties and classes can be included in our framework. The previous HITS-based algorithm, based on the voting notion, loses ground in the situation where the domain consists of more than two classes, or where other important properties, such as "sent through twitter" or "registered as a friend," are added to the domain. Forth, there is a big difference in the calculation time and memory use between the two kinds of algorithms. While the matrix multiplication of two matrices, has to be executed twice for the previous HITS-based algorithm, this is unnecessary with our algorithm. In our ranking framework, various folksonomy ranking policies can be expressed with the ranking factors combined and our approach can work, even if the folksonomy site is not implemented with Semantic Web languages. Above all, the time weight proposed in this paper will be applicable to various domains, including social media, where time value is considered important.

가연성 액체 혼합물의 인화 위험성에 관한 연구 (A Study on Flammability Risk of Flammable Liquid Mixture)

  • 김주석;고재선
    • 한국재난정보학회 논문집
    • /
    • 제16권4호
    • /
    • pp.701-711
    • /
    • 2020
  • 연구목적: 본 연구에서는 두 물질의 혼합물(가연물+가연물)에서의 인화 위험성의 증가 또는 감소를 실험적으로 확인하고, 혼합물의 위험성을 제시하는 목적이 있기에 액체 혼합물의 인화 위험성을 실험적으로 확인하였다. 연구방법:인화점 실험방법 및 결과처리는 원유 및 석유 제품 인화점 시험 방법으로 사용되고 있는 테그밀폐식 시험방법인 KS M 2010-2008을 기준으로 실험하였다. 본 실험에 사용한 장비의 제조사는 일본의 TANAKA사에서 생산한 장비로 KS M 2010의 시험규격을 만족하는 시험장비로 인화점을 측정하였고, 점화원으로는 LP가스를, 냉각수로는 물을 사용하였다. 또한 인화점 측정시 냉각수의 온도는 약 2℃의 냉각수를 사용하여 실험을 진행하였다. 연구결과:실험결과로는 먼저 가연성+가연성 혼합물의 경우 두 물질의 인화점 차이가 크지 않으면 인화점의 변화가 거의 없었고, 두 물질의 인화점 차이가 낮으면 인화점이 높은 물질의 증가에 따라 인화점이 증가하는 경향을 보였으나, 톨루엔과 메탄올의 경우, 혼합물에서 인화점이 낮은 물질보다 더 낮은 인화점을 보였다. 또한 도료용 희석제의 경우, 혼합물로 이루어져서 그 물질의 인화점을 예상하기가 쉽지 않았지만 실험적으로 측정해 본 결과 -24℃~7℃사이로 측정되었다. 결론: 본 연구에서의 결과는 기존의 위험물안전관리법에서의 위험물 판정 기준에 대한 세부 내용의 실효성 확보 및 위험물 판정의 신뢰성 및 재현성 확보를 목적으로 인화성 혼합물에 대한 실험적 연구를 통해서 혼합물에 대한 위험성 판단 기준을 제시하였고, 향후 소방현장에서 단속되는 인화성 액체 대한 실험적 판정 기준에 대한 참고적인 자료를 제공할 수 있을 것이다. 또한 본 연구로 시험방법별 차이 실험에 대한 노하우를 축적한다면 위험물의 위험성 평가 연구에 있어 기초 자료이자 위험물 판정 관한 연구의 기반으로 활용될 수 있기를 기대한다.