• 제목/요약/키워드: document embedding

검색결과 59건 처리시간 0.027초

Estimation of the journal distance of Genomics & Informatics from other bioinformatics-driven journals, 2003-2018

  • Oh, Ji-Hye;Nam, Hee-Jo;Park, Hyun-Seok
    • Genomics & Informatics
    • /
    • 제19권4호
    • /
    • pp.51.1-51.8
    • /
    • 2021
  • This study explored the trends of Genomics & Informatics during the period of 2003-2018 in comparison with 11 other scholarly journals: BMC Bioinformatics, Algorithms for Molecular Biology: AMB, BMC Systems Biology, Journal of Computational Biology, Briefings in Bioinformatics, BMC Genomics, Nucleic Acids Research, American Journal of Human Genetics, Oncogenesis, Disease Markers, and Microarrays. In total, 22,423 research articles were reviewed. Content analysis was the main method employed in the current research. The results were interpreted using descriptive analysis, a clustering analysis, word embedding, and deep learning techniques. Trends are discussed for the 12 journals, both individually and collectively. This is an extension of our previous study (PMCID: PMC6808643).

워드 임베딩 기반 연구 논문 분류 기법 (Research Paper Classification Scheme based on Word Embedding)

  • 비스와스 딥또;길준민
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2021년도 추계학술발표대회
    • /
    • pp.494-497
    • /
    • 2021
  • 텍스트 분류(text classification)는 원시 텍스트 데이터로부터 정보를 추출할 수 있는 기술에 기반하여 많은 양의 텍스트 데이터를 관심 영역으로 분류하는 것으로 최근에 각광을 받고 있다. 본 논문에서는 워드 임베딩(word embedding) 기법을 이용하여 특정 분야의 연구 논문을 분류하고 추천하는 기법을 제안한다. 워드 임베딩으로 CBOW(Continuous Bag-of-Word)와 Sg(Skip-gram)를 연구 논문의 분류에 적용하고 기존 방식인 TF-IDF(Term Frequency-Inverse Document Frequency)와 성능을 비교 분석한다. 성능 평가 결과는 워드 임베딩에 기반한 연구 논문 분류 기법이 TF-IDF에 기반한 연구 논문 분류 기법보다 좋은 성능을 가진다는 것을 나타낸다.

조세심판 문서 검색 효율 향상 모델에 관한 연구 (A Study on the Improvement Model of Document Retrieval Efficiency of Tax Judgment)

  • 이후영;박구락;김동현
    • 한국융합학회논문지
    • /
    • 제10권6호
    • /
    • pp.41-47
    • /
    • 2019
  • 조세 심판에 대한 선결정례는 법원 판례의 경우 유사 심판례를 검색하여 파악하는 것이 매우 중요한 상황이다. 그러나 기존 심판문에 대한 검색은 사용자가 입력하는 키워드를 통하여 검색하는 방법을 사용하고 있으나, 정확한 키워드의 입력이 필요하며, 키워드를 모르는 경우 필요한 문서를 검색하는 것은 불가능하다. 또한 검색된 문서 중에는 내용이 다른 경우도 발생한다. 이에 본 논문에서는 정확한 심판례의 검색을 위하여 문서를 3차원 공간에 벡터화하고, 코사인 유사도를 계산하여, 거리상 가까운 문서를 검색하는 방법의 효율성을 향상시키기 위하여 심판례에서 사용되고 있는 단어들의 유사도를 분석한 후, 최빈값을 추출하여 본문의 텍스트에 삽입하는 방법으로 검색하고자 하는 문서의 코사인 유사도를 향상시키는 방안을 제안한다. 제안 모델을 통하여 조세와 관련된 심판례를 검색하고자 하는 사용자에게 신속하고, 정확한 검색을 제공할 수 있을 것으로 기대된다.

문서임베딩 기반 모바일 앱 분류 및 이를 이용한 마켓 분석 (Mobile App Clustering and Analyzing using Document Embedding)

  • 윤여찬;박수명;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.378-381
    • /
    • 2018
  • 스마트폰이 출시된 이후로 수많은 어플리케이션이 모바일로 출시되고 있다. 본 논문에서는 모바일 앱을 자동으로 분류하는 방법에 대하여 제안한다. 제안한 방법은 딥러닝 기반의 문서 임베딩 방법을 기반으로 효과적으로 앱을 분류한다. 본 논문에서는 또한 제안한 방법을 이용하여 독점도, 포화도, 인기순위를 기준으로 실제 마켓을 분석한다.

  • PDF

EmXJ : 유연한 임베딩을 위한 XML 처리기 구성 프레임워크 (EmXJ : A Framework of Configurable XML Processor for Flexible Embedding)

  • 정원호;강미연
    • 정보처리학회논문지A
    • /
    • 제9A권4호
    • /
    • pp.467-478
    • /
    • 2002
  • 유무선 인터넷의 발달로, 휴대폰, PDA, 홈패드, 스마트폰, 핸드헬드 PC 등, 다양한 형태의 자원제약을 가지는 개인용 혹은 상업용 임베디드 시스템들이 속속 등장하고 있으며, 이들로 임베딩되는 소프트웨어도, 과거 이들이 지녔던 주요 특성인 경직성(fixedness)보다도, 이제는 오히려 유연성(flexibility)을 요구하고 있다. 즉, 자원 제약 특성이 서로 다른 장치들로 유연하게 임베딩될 수 있는 특성을 요구하고 있다. 웹 상의 정보 표현을 위한 표준으로자리잡은 확장성 표기 언어인 XML을 위한 처리기는 각종 인터넷 단말에서의 자료 브라우징을 위해 필수적으로 임베딩 되어야할 소프트웨어이다. 본 논문에서는 서로 다른 기능과 자원 제약 특성을 가진 장치들에 따라 유연성 있는 임베딩을 위한 XML 처리기 구성 프레임워크인, EmXJ가 설계, 구현되며, 그 특성이 기존의 XML 처리기와 비교 분석된다.

OLE File Analysis and Malware Detection using Machine Learning

  • Choi, Hyeong Kyu;Kang, Ah Reum
    • 한국컴퓨터정보학회논문지
    • /
    • 제27권5호
    • /
    • pp.149-156
    • /
    • 2022
  • 최근 전 세계적으로 사용되는 Microsoft Office 파일에 악성코드를 삽입하는 문서형 악성코드 사례가 증가하고 있다. 문서형 악성코드는 문서 내에 악성코드를 인코딩하여 숨기는 경우가 많기 때문에 백신 프로그램을 쉽게 우회할 수 있다. 이러한 문서형 악성코드를 탐지하기 위해 먼저 Microsoft Office 파일의 형식인 OLE(Object Linking and Embedding) 파일의 구조를 분석했다. Microsoft Office에서 지원하는 기능인 VBA(Visual Basic for Applications) 매크로에 외부 프로그램을 실행시키는 쉘코드, 외부 URL에서 파일을 다운받는 URL 관련 코드 등 다수의 악성코드가 삽입된 것을 확인했다. 문서형 악성코드에서 반복적으로 등장하는 키워드 354개를 선정하였고, 각 키워드가 본문에 등장하는 횟수를 feature 로 정의했다. SVM, naïve Bayes, logistic regression, random forest 알고리즘으로 머신러닝을 수행하였으며, 각각 0.994, 0.659, 0.995, 0.998의 정확도를 보였다.

Impact of Word Embedding Methods on Performance of Sentiment Analysis with Machine Learning Techniques

  • Park, Hoyeon;Kim, Kyoung-jae
    • 한국컴퓨터정보학회논문지
    • /
    • 제25권8호
    • /
    • pp.181-188
    • /
    • 2020
  • 본 연구에서는 다양한 워드 임베딩 기법이 감성분석의 성과에 미치는 영향을 확인하기 위한 비교연구를 제안한다. 감성분석은 자연어 처리를 사용하여 텍스트 문서에서 주관적인 정보를 식별하고 추출하는 오피니언 마이닝 기법 중 하나이며, 상품평이나 댓글의 감성을 분류하는데 사용될 수 있다. 감성은 긍정적이거나 부정적인 것으로 분류될 수 있기 때문에 일반적인 분류문제 중 하나로 생각할 수 있으며, 이의 분류를 위해서는 텍스트를 컴퓨터가 인식할 수 있는 언어로 변환하여야 한다. 따라서 단어나 문서와 같은 텍스트를 자연어 처리에서 벡터로 변형하여 진행하는데 이를 워드 임베딩이라고 한다. 워드 임베딩 기법은 Bag of Words, TF-IDF, Word2Vec 등 다양한 기법이 사용되고 있는데 지금까지 감성분석에 적합한 워드 임베딩 기법에 대한 연구는 많이 진행되지 않았다. 본 연구에서는 영화 리뷰의 감성분석을 위해 다양한 워드 임베딩 기법 중 Bag of Words, TF-IDF, Word2Vec을 사용하여 그 성과를 비교 분석한다. 분석에 사용할 연구용 데이터 셋은 텍스트 마이닝에서 많이 활용되고 있는 IMDB 데이터 셋을 사용하였다. 분석 결과, TF-IDF와 Bag of Words의 성과가 Word2Vec보다 우수한 것으로 나타났으며 TF-IDF는 Bag of Words보다 성과가 우수하였으나 그 차이가 매우 크지는 않았다.

토픽모델링과 딥 러닝을 활용한 생의학 문헌 자동 분류 기법 연구 (A Study of Research on Methods of Automated Biomedical Document Classification using Topic Modeling and Deep Learning)

  • 육지희;송민
    • 정보관리학회지
    • /
    • 제35권2호
    • /
    • pp.63-88
    • /
    • 2018
  • 본 연구는 LDA 토픽 모델과 딥 러닝을 적용한 단어 임베딩 기반의 Doc2Vec 기법을 활용하여 자질을 선정하고 자질집합의 크기와 종류 및 분류 알고리즘에 따른 분류 성능의 차이를 평가하였다. 또한 자질집합의 적절한 크기를 확인하고 문헌의 위치에 따라 종류를 다르게 구성하여 분류에 이용할 때 높은 성능을 나타내는 자질집합이 무엇인지 확인하였다. 마지막으로 딥 러닝을 활용한 실험에서는 학습 횟수와 문맥 추론 정보의 유무에 따른 분류 성능을 비교하였다. 실험문헌집단은 PMC에서 제공하는 생의학 학술문헌을 수집하고 질병 범주 체계에 따라 구분하여 Disease-35083을 구축하였다. 연구를 통하여 가장 높은 성능을 나타낸 자질집합의 종류와 크기를 확인하고 학습 시간에 효율성을 나타냄으로써 자질로의 확장 가능성을 가지는 자질집합을 제시하였다. 또한 딥 러닝과 기존 방법 간의 차이점을 비교하고 분류 환경에 따라 적합한 방법을 제안하였다.

Doc2Vec과 Word2Vec을 활용한 Convolutional Neural Network 기반 한국어 신문 기사 분류 (Categorization of Korean News Articles Based on Convolutional Neural Network Using Doc2Vec and Word2Vec)

  • 김도우;구명완
    • 정보과학회 논문지
    • /
    • 제44권7호
    • /
    • pp.742-747
    • /
    • 2017
  • 본 논문에서는 문장의 분류에 있어 성능이 입증된 word2vec을 활용한 Convolutional Neural Network(CNN) 모델을 기반으로 하여 문서 분류에 적용 시 성능을 향상시키기 위해 doc2vec을 함께 CNN에 적용하고 기반 모델의 구조를 개선한 문서 분류 방안을 제안한다. 먼저 토큰화 방법을 선정하기 위한 초보적인 실험을 통하여, 어절 단위, 형태소 분석, Word Piece Model(WPM) 적용의 3가지 방법 중 WPM이 분류율 79.5%를 산출하여 문서 분류에 유용함을 실증적으로 확인하였다. 다음으로 WPM을 활용하여 생성한 단어 및 문서의 벡터 표현을 기반 모델과 제안 모델에 입력하여 범주 10개의 한국어 신문 기사 분류에 적용한 실험을 수행하였다. 실험 결과, 제안 모델이 분류율 89.88%를 산출하여 기반 모델의 분류율 86.89%보다 2.99% 향상되고 22.80%의 개선 효과를 보였다. 본 연구를 통하여, doc2vec이 동일한 범주에 속한 문서들에 대하여 유사한 문서 벡터 표현을 생성하기 때문에 문서의 분류에 doc2vec을 함께 활용하는 것이 효과적임을 검증하였다.

리뷰에서의 고객의견의 다층적 지식표현 (Multilayer Knowledge Representation of Customer's Opinion in Reviews)

  • ;원광복;옥철영
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2018년도 제30회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.652-657
    • /
    • 2018
  • With the rapid development of e-commerce, many customers can now express their opinion on various kinds of product at discussion groups, merchant sites, social networks, etc. Discerning a consensus opinion about a product sold online is difficult due to more and more reviews become available on the internet. Opinion Mining, also known as Sentiment analysis, is the task of automatically detecting and understanding the sentimental expressions about a product from customer textual reviews. Recently, researchers have proposed various approaches for evaluation in sentiment mining by applying several techniques for document, sentence and aspect level. Aspect-based sentiment analysis is getting widely interesting of researchers; however, more complex algorithms are needed to address this issue precisely with larger corpora. This paper introduces an approach of knowledge representation for the task of analyzing product aspect rating. We focus on how to form the nature of sentiment representation from textual opinion by utilizing the representation learning methods which include word embedding and compositional vector models. Our experiment is performed on a dataset of reviews from electronic domain and the obtained result show that the proposed system achieved outstanding methods in previous studies.

  • PDF