• 제목/요약/키워드: Document Frequency

검색결과 298건 처리시간 0.028초

XML 문서에서의 엘리먼트 정보를 이용한 스키마 추출방법 (A Schema Extraction Method using Elements Information in XML Documents)

  • 김성림;윤용익
    • 정보처리학회논문지D
    • /
    • 제9D권3호
    • /
    • pp.381-388
    • /
    • 2002
  • 인터넷상에서 데이터를 표현하고 교환하는 새로운 표준으로 등장하는 XML 문서는 정해진 스키마를 가지고 있지 않다. XML 문서를 기존의 SQL이나 OQL에 바로 적용하기에는 부적합하여 이러한 XML 문서에 대해 스키마를 추출하는 방법과 질의어에 대한 연구가 활발히 진행되고 있다. 본 논문에서는 XML문서에 대해 엘리먼트 정보를 이용하여 스키마를 추출하고, 추출된 스키마를 바탕으로 데이터 빈도수에 따라 새로운 여러 단계의 스키마를 추출하는 방법을 제시하고 실험한다.

A Novel Text to Image Conversion Method Using Word2Vec and Generative Adversarial Networks

  • LIU, XINRUI;Joe, Inwhee
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.401-403
    • /
    • 2019
  • In this paper, we propose a generative adversarial networks (GAN) based text-to-image generating method. In many natural language processing tasks, which word expressions are determined by their term frequency -inverse document frequency scores. Word2Vec is a type of neural network model that, in the case of an unlabeled corpus, produces a vector that expresses semantics for words in the corpus and an image is generated by GAN training according to the obtained vector. Thanks to the understanding of the word we can generate higher and more realistic images. Our GAN structure is based on deep convolution neural networks and pixel recurrent neural networks. Comparing the generated image with the real image, we get about 88% similarity on the Oxford-102 flowers dataset.

카이 제곱 통계량과 지지벡터기계를 이용한 자동 스팸 메일 분류기 (An Automatic Spam e-mail Filter System Using χ2 Statistics and Support Vector Machines)

  • 이성욱
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국해양정보통신학회 2009년도 춘계학술대회
    • /
    • pp.592-595
    • /
    • 2009
  • 우리는 지지벡터기계를 이용하여 스팸 이메일을 자동으로 분류하는 시스템을 제안한다. 단어의 어휘 정보와 품사 태그 정보를 지지벡터기계의 자질로 사용한다. 우리는 카이 제곱 통계량을 이용하여 유용한 자질을 선택한 후 각각의 자질을 문서 빈도(TF)와 역문헌빈도(IDF) 값으로 표현하였다. 자질들을 이용하여 SVM을 학습한 후, SVM 분류기는 각각의 이메일의 스팸 유무를 결정한다. 실험 결과, 웹메일 시스템에서 수집한 이메일 데이터에 대해 약 82.7%의 정확률을 얻었다.

  • PDF

Determining Feature-Size for Text to Numeric Conversion based on BOW and TF-IDF

  • Alyamani, Hasan J.
    • International Journal of Computer Science & Network Security
    • /
    • 제22권1호
    • /
    • pp.283-287
    • /
    • 2022
  • Machine Learning is the most popular method used in data science. Growth of data is not only numeric data but also text data. Most of the algorithm of supervised and unsupervised machine learning algorithms use numeric data. Now it is required to convert text data into numeric. There are many techniques for this conversion. Researcher confuses which technique is best in what situation. Here in proposed work BOW (Bag-of-Words) and TF-IDF (Term-Frequency-Inverse-Document-Frequency) has been studied based on different features to determine best method. After experimental results on text data, TF-IDF and BOW both provide better performance at range from 100 to 150 number of features.

Analysis of Success Factors of Electric Scooter Sharing Service Using User Review Text Mining

  • Kyoung-ae Seo;Jung Seung Lee
    • Journal of Information Technology Applications and Management
    • /
    • 제30권2호
    • /
    • pp.19-30
    • /
    • 2023
  • This study aims to analyze service improvement and success factors of electric scooter sharing service companies by using text mining after collecting reviews of shared electric scooter service applications among various models of sharing economy. In this study, the factors of satisfaction and dissatisfaction of service users were identified using the term frequency inverse document frequency (TF-IDF) technique, and topics for each keyword were extracted using the Latent Dirichlet Allocation (LDA) Topic Modeling technique. According to the analysis results, the main topics were entertainment, safety, service area, application complaints, use complaints, convenience, and mobility. Using the analysis results of this study, employees and researchers of electric scooter sharing service companies will be able to contribute to the improvement and success of related services.

워드 임베딩 기반 연구 논문 분류 기법 (Research Paper Classification Scheme based on Word Embedding)

  • 비스와스 딥또;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.494-497
    • /
    • 2021
  • 텍스트 분류(text classification)는 원시 텍스트 데이터로부터 정보를 추출할 수 있는 기술에 기반하여 많은 양의 텍스트 데이터를 관심 영역으로 분류하는 것으로 최근에 각광을 받고 있다. 본 논문에서는 워드 임베딩(word embedding) 기법을 이용하여 특정 분야의 연구 논문을 분류하고 추천하는 기법을 제안한다. 워드 임베딩으로 CBOW(Continuous Bag-of-Word)와 Sg(Skip-gram)를 연구 논문의 분류에 적용하고 기존 방식인 TF-IDF(Term Frequency-Inverse Document Frequency)와 성능을 비교 분석한다. 성능 평가 결과는 워드 임베딩에 기반한 연구 논문 분류 기법이 TF-IDF에 기반한 연구 논문 분류 기법보다 좋은 성능을 가진다는 것을 나타낸다.

악성코드 탐지를 위한 동적 분석 데이터 전처리 기법 (Dynamic Analytic Data Preprocessing Techniques for Malware Detection)

  • 김해수;김미희
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.230-231
    • /
    • 2023
  • 악성코드를 탐지하는 기법 중 동적 분석데이터와 같은 시계열 데이터는 프로그램마다 호출되는 API의 수가 모두 다르다. 하지만 딥러닝 모델을 통해 분석할 때는 모델의 입력이 되는 데이터의 크기가 모두 같아야 한다. 이에 본 논문은 TF-IDF(Term Frequency-Inverse Document Frequency)와 슬라이딩 윈도우 기법을 이용해 프로그램의 동적 특성을 유지하면서 데이터의 길이를 일정하게 만들 수 있는 전처리 기법과 LSTM(Long Short-Term Memory) 모델을 통해 정확도(Accuracy) 95.89%, 재현율(Recall) 97.08%, 정밀도(Precision) 95.9%, F1-score 96.48%를 달성했다.

제목의 단어 가중치를 이용한 중등학교 공문서 자동분류시스템 (An Automatic Classification System of Official Documents in Middle Schools Using Term Weighting of Titles)

  • 강현희;진민
    • 정보교육학회논문지
    • /
    • 제7권2호
    • /
    • pp.219-226
    • /
    • 2003
  • 현재 일선 학교와 교육기관의 공문서 분류는 아직도 수작업으로 처리되고 있어 많은 시간이 소요된다. 이러한 문제점을 해결하기 위해 본 논문은 문서 제목의 단어 정보를 이용한 자동 문서 분류 방법을 제안한다. 먼저 기존 문서의 제목 단어 중에서 의미 있는 단어를 추출하여 각 단어에 대해 범주별로 역문헌 빈도(IDF) 가중치를 계산한 후 단어 가중치 사전을 구축한다. 문서의 분류 요구가 들어오면 구축된 단어 가중치 사전을 이용하여 문서 제목에 포함된 단어들의 범주별 가중치 합을 비교하여, 범주별 가중치 합이 최대인 범주로 문서를 분류한다. 실제 중등학교에서의 공문서를 대상으로 제안된 방법의 분류 성능을 평가하였다.

  • PDF

XML 문서저장에 관한 민군겸용 데이터베이스 관리체계의 성능비교 (Performance Comparison of Database Management Methods on XML Document Storage Functions for both Commerce and Military Applications)

  • 강석훈;이재윤;이말순
    • 안보군사학연구
    • /
    • 통권2호
    • /
    • pp.237-260
    • /
    • 2004
  • As the research work about XML based on the development of Internet and according to the information exchange standard is being carried out, the need of discovering new methods to store XML documents and manage them efficiently according to the frequency of large-capacity XML documents increases. Consequently, as a kind of back-end database system, XML storage systems such as RDBMS, OODBMS and Native XML DBMS etc. are coming forth in order to save XML documents. It is an urgent task to make comparisons among usage expense, function comparison storage, inquiry, and manage dimension for each DBMS. This paper makes an analysis and comparison of DTD-independent XML document access methods in RDBMS, OODBMS and Native XML DBMS for XML storage and management. After analyzing the advantages and disadvantages of each access method and comparing the function of typical commerce DBMS such as Oracle 8i, eXcelon and Tamino for finding the possibility of military applications, an another appropriate method to save XML documents is proposed as to find an implementation approach to save structural XML documents.

  • PDF

그룹웨어의 현황 분석 II (Groupware: Current Status Analysis II)

  • 김선욱;김봉진
    • 산업공학
    • /
    • 제11권2호
    • /
    • pp.211-225
    • /
    • 1998
  • As mentioned in Part I all groupware products have been categorized into three areas which include cooperation/document management systems(CMS), collaborative writing systems(CWS), and decision-making/meeting system(DMS). This study deals with a comparative analysis of the last two areas, which is added to the first. It turns out that DMS has a higher market share than CWS. However. since effective collaboration requires the functions inherent to these two systems. they should be integrated somehow. The systems' functions that have been implemented in response to design issues have been described. Each group of the functions has been divided into three parts which consist of basic function, quasi-basic function. and others. Such a decision has been made according to the frequency rate of the functions provided in the products. While the basic functions in CWS include collaboraive writing beyond restriction of time and place, group awareness. version control. and others, in DMS realtime collaboration. brainstorming. presentation. various task support. policy formation. document management, multimedia, subgroup communication. topic commenter, categorizer, screen capture and various rile transfer. The basic functions are merged into the integrated functional model which was proposed in Part I. Since the model is so flexible that it can partially include the quasi-functions in addition to the hasic functions. a large number of products may stem from the modification of the functional model.

  • PDF