• Title/Summary/Keyword: 텍스트 수집

Search Result 691, Processing Time 0.025 seconds

Efficient Document Classification for Web Document Collection (웹 문서 수집을 위한 효율적인 문서 분류)

  • Lee, Jung-Hun;Cheon, Suh-Hyun;Kim, Sun-Hee
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2006.10b
    • /
    • pp.397-401
    • /
    • 2006
  • 최근 다양한 형식의 웹 문서에서 사용자가 원하는 정보만을 검색 하기위해 웹 문서를 주제별로 분류하여 수집하고, 관리하는 것은 필수적인 요소이다. 즉, 정확하고 빠른 정보 검색을 위한 웹 문서 수집은 문서 형식에 따라 분류되어 수집 되어야 한다. 따라서 웹 환경에서 문서를 구성하는 형식을 텍스트나 이미지 데이터로 구분하고 그 형식에 맞는 분류기법을 사용한다면 정확한 정보 검색이 이루어 질수 있다. 본 논문에서는 텍스트와 URL을 이용한 주제 중심의 하이브리드 웹 문서 분류 방법을 제안한다. 텍스트와 URL을 이용한 분류 방법은 텍스트 형식은 주제 중심의 문서 분류방식을 사용하며, 텍스트 정보의 효용성이 낮은 경우 URL의 주제 분포도를 이용하여 분류하며 수집한다. 이를 통해 여러 가지 형식의 웹 문서가 분류 가능하며, 주제에 따른 문서 분류의 정확도가 높아진다.

  • PDF

A Bloom filter-based Sentiment-aware Web Crawling Algorithm (블룸 필터를 이용한 감성 웹 문서 크롤링 알고리즘)

  • Na, Chul-Won;On, Byung-Won
    • Annual Conference on Human and Language Technology
    • /
    • 2018.10a
    • /
    • pp.69-74
    • /
    • 2018
  • 최근 빅 데이터와 인공지능의 발달과 함께 감성 분석에 대한 연구가 활발해지고 있다. 더불어 감성 분석을 위한 긍/부정 어휘가 풍부한 텍스트 문서들에 대한 수집의 필요성도 높아지고 있다. 본 논문은 긍/부정어휘가 풍부한 텍스트 문서들을 수집하는 기존의 수집 방법에 대한 문제점에 대하여 해결방안을 제시한다. 기존의 수집 방법으로 일단 모든 URL들을 저장하고 필터링 과정을 거쳐 긍/부정 어휘가 풍부한 텍스트 문서들을 수집하고자 한다면 불필요한 텍스트 문서 저장과 필터링 과정에서 메모리와 시간을 낭비하게 된다. 기존의 수집 방법에 블룸 필터라는 자료구조를 적용시켜 메모리와 시간을 낭비하게 되는 문제점을 해결하고자 한다.

  • PDF

Information Gathering Agent System using XML (이동에이전트를 이용한 XML 정보의 수집 및 분류)

  • 서효정;방대욱
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 1999.10b
    • /
    • pp.131-133
    • /
    • 1999
  • 요즘처럼 웹을 이용하여 저오 검색시 너무나 많은 양의 정보를 수집, 정리, 관리해야 하는 문제에 직면하게 되었다. 또한 인터넷상에는 기존의 텍스트 자료 이외에도 이미지, 사운드, 데이터 베이스 등 우리가 원하는 여러 유형의 자료가 존재한다. 하지만 웹상에서는 텍스트만을 위주로 자료를 검색, 수집, 분류를 한다. 이러한 문제점을 해결하기 위해 XML를 이용하여 정보의 종류에 관계없이 수집할 수 있다. 이 논문에서는 이동 에이전트를 이용한 정보 검색 모형을 제시하고 이때 이동에이전트가 정보의 표현방법으로 XML를 사용한다. 또한 XML의 계층적인 특성을 활용하여 XML 문서의 분류, 병합을 할 수 있다. 따라서 수집된 정보의 정리된 형태로 쉽게 얻을 수 있다.

  • PDF

MPEG-7 Based Web Image Indexing and Searching (MPEG-7 기반 웹 이미지 색인 및 검색)

  • Lim, Jae-Hyoung;Kim, Mun-Churl;Kim, Jin-Woong;Hyun, Soon-J.
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2000.10b
    • /
    • pp.1285-1288
    • /
    • 2000
  • 인터넷의 양적 질적 성장을 통해 인터넷상에 존재하는 웹 문서의 숫자는 엄청난 속도로 증가하여 왔다. 이러한 방대한 웹 문서를 대상으로 한 검색 방법은, 지금까지 일반적으로 텍스트 기반의 방법이 주류를 이루어 왔다. 그러나 웹 문서는 멀티미디어 형태로 존재하며 텍스트, 이미지, 동영상, 컴퓨터 그래픽 둥 다양한 미디어들로 구성되어 있다. 본 논문에서는 인터넷에 존재하는 웹 문서를 대상으로 내용 기반 이미지 검색방법을 제시한다. 내용기반 웹 이미지 검색 시스템은 웹 상의 텍스트 기반의 기존 상용 검색엔진을 이용하여 주요 검색어에 대한 이미지를 수집하는 웹 이미지 수집기와 수집된 이미지에 대해 MPEG-7 비주얼 기술자를 이용하여 데이터베이스에 색인하는 데이터베이스 불리기(population), 그리고 내용 기반 이미지 검색엔진으로 구성된다. 사용자는 장르, 주제 및 주요단어에 의해 분류되어 데이터베이스에 색인된 웹 이미지를 대상으로 검색이 가능하다. 이는 웹 문서를 직접 대상으로 한 특정 단어에 대한 내용 기반 이미지 검색이 가능하며 검색이 데이터베이스를 대상으로 이루어지기 때문에 빠른 검색 속도를 얻을 수 있으며, 또한 기존 웹에서 제공되는 텍스트 기반의 상용 검색엔진을 이용하여 주요단어에 대한 웹 이미지를 수집하여 색인하기 때문에 별도의 텍스트 검색엔진 구현을 필요로 하지 않는다.

  • PDF

HTML Text Extraction Using Frequency Analysis (빈도 분석을 이용한 HTML 텍스트 추출)

  • Kim, Jin-Hwan;Kim, Eun-Gyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.9
    • /
    • pp.1135-1143
    • /
    • 2021
  • Recently, text collection using a web crawler for big data analysis has been frequently performed. However, in order to collect only the necessary text from a web page that is complexly composed of numerous tags and texts, there is a cumbersome requirement to specify HTML tags and style attributes that contain the text required for big data analysis in the web crawler. In this paper, we proposed a method of extracting text using the frequency of text appearing in web pages without specifying HTML tags and style attributes. In the proposed method, the text was extracted from the DOM tree of all collected web pages, the frequency of appearance of the text was analyzed, and the main text was extracted by excluding the text with high frequency of appearance. Through this study, the superiority of the proposed method was verified.

An Android based Contextphone to aware Human Emotion (인간의 감정을 인지하는 안드로이드 기반 컨텍스트폰)

  • Ryu, Yunji;Kim, Sangwook
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2010.04a
    • /
    • pp.558-561
    • /
    • 2010
  • 컨텍스트폰은 사용자의 주변 상황을 실시간으로 수집하고 시각화하는 휴대전화이며 인간의 여섯 번째 감각 도구로써 신체의 일부가 되고 있다. 이에 따라 사용자에 특화된 상황 인지 기능을 지원하는 모바일 플랫폼 기술이 많이 연구되고 있다. 하지만 모바일 기기간의 상호작용이 아니라 사용자간의 소셜 인터랙션을 지원하는 모바일 플랫폼 연구는 미비하며 감정 등의 고수준 정보는 지원하지 않는다. 따라서 본 논문에서는 감정을 포함한 다양한 정보들을 지원하는 컨텍스트폰 플랫폼을 이용하여 사용자간의 감정을 공유 할 수 있는 컨텍스트폰에 대해 기술한다. 또한 사용자의 감정을 인식하기 위해 컨텍스트폰 플랫폼은 휴대전화 카메라를 이용하여 사용자의 얼굴이미지를 수집하고 감정인식기로 전달한다. 감정인식기는 사용자의 얼굴을 특징추출하여 패턴인식에 적용되는 분류분석 알고리즘을 통해 사용자의 감정을 알아내고 컨텍스트 서버를 매개체로 사용자간 감정을 전달하며 모바일 화면에 시각화한다.

SNS Analysis Related to Presidential Election Using Text Mining (텍스트 마이닝을 활용한 대선 관련 SNS 분석)

  • Kwon, Young-Woo;Jung, Deok-Gil
    • Proceedings of the Korean Institute of Information and Commucation Sciences Conference
    • /
    • 2017.05a
    • /
    • pp.361-363
    • /
    • 2017
  • 최근 소셜 미디어의 이용률이 폭발적으로 증가함에 따라, 방대한 데이터가 네트워크로 쏟아져 나오고 있다. 이들 데이터는 기존의 정형 데이터뿐만 아니라 이미지, 동영상 등의 비정형 데이터가 있으며, 이들을 포괄하여 빅데이터라고 불린다. 이러한 빅데이터는 오피니언 마이닝, 테스트 마이닝 등의 기술적인 분석 기법과 빅데이터 요약 및 효과적인 표현방법에 대한 시각화 기법에 대하여 활발한 연구가 이루어지고 있다. 이 논문은 인기 있는 사회연결망 서비스인 Twitter의 트윗을 수집하고, 빅데이터 분석 기법인 텍스트 마이닝을 활용하여 2017년 대선에 대하여 분석하였다. 또한 분석된 자료의 효과적인 전달을 위해 워드 클라우드 진행하였다. 이 논문을 위하여 인기 있는 SNS인 Twitter의 최근 7일간 트윗(tweet)을 수집하고 분석하였다.

  • PDF

Text Corpus Construction for Language Model (대어휘 음성인식 언어모델링을 위한 텍스트 코퍼스 구축)

  • Kim Jeong-se;Yoon Aesun;Kwon Hyuk-Chul
    • Proceedings of the Acoustical Society of Korea Conference
    • /
    • spring
    • /
    • pp.155-158
    • /
    • 2002
  • 본 논문은 음성정보연구센터에서 추진하고 있는 대용량 텍스트 코퍼스 구축에 관하여 기술한다. 총 3 년 동안 약 3 억$\~$5 억 어절 수집을 목표로 하고 있으며, 주 목적은 대어휘 음성인식용 언어모델링을 위한 통계정보 추출용으로 활용할 예정이다. 1 차년도인 2002 년에 수집할 텍스트의 양은 약 6 천만 어절로 주요 일간지와 방송뉴스를 대상으로 하고 있다. 이 중 2 천만 어절은 띄어쓰기, 철자오류 수정 등을 수동으로 수행하고, 나머지 어절은 자동 검증 툴을 사용하여 오류를 수정하고자 한다. 본 논문에서는 공동 이용 가능한 텍스트 코퍼스의 구축 방안과 구축 시의 고려해야 할 사항들을 제시하고자 한다.

  • PDF

Text Data Analysis Model Based on Web Application (웹 애플리케이션 기반의 텍스트 데이터 분석 모델)

  • Jin, Go-Whan
    • The Journal of the Korea Contents Association
    • /
    • v.21 no.11
    • /
    • pp.785-792
    • /
    • 2021
  • Since the Fourth Industrial Revolution, various changes have occurred in society as a whole due to advance in technologies such as artificial intelligence and big data. The amount of data that can be collect in the process of applying important technologies tends to increase rapidly. Especially in academia, existing generated literature data is analyzed in order to grasp research trends, and analysis of these literature organizes the research flow and organizes some research methodologies and themes, or by grasping the subjects that are currently being talked about in academia, we are making a lot of contributions to setting the direction of future research. However, it is difficult to access whether data collection is necessary for the analysis of document data without the expertise of ordinary programs. In this paper, propose a text mining-based topic modeling Web application model. Even if you lack specialized knowledge about data analysis methods through the proposed model, you can perform various tasks such as collecting, storing, and text-analyzing research papers, and researchers can analyze previous research and research trends. It is expect that the time and effort required for data analysis can be reduce order to understand.

HTML Text Extraction Using Tag Path and Text Appearance Frequency (태그 경로 및 텍스트 출현 빈도를 이용한 HTML 본문 추출)

  • Kim, Jin-Hwan;Kim, Eun-Gyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.12
    • /
    • pp.1709-1715
    • /
    • 2021
  • In order to accurately extract the necessary text from the web page, the method of specifying the tag and style attributes where the main contents exist to the web crawler has a problem in that the logic for extracting the main contents. This method needs to be modified whenever the web page configuration is changed. In order to solve this problem, the method of extracting the text by analyzing the frequency of appearance of the text proposed in the previous study had a limitation in that the performance deviation was large depending on the collection channel of the web page. Therefore, in this paper, we proposed a method of extracting texts with high accuracy from various collection channels by analyzing not only the frequency of appearance of text but also parent tag paths of text nodes extracted from the DOM tree of web pages.