• Title/Summary/Keyword: 웹 크롤링

Search Result 114, Processing Time 0.083 seconds

Analysis of Research Trends in Elementary Information Education According to Changes in Curriculum (교육과정 변화에 따른 초등 정보교육 연구 동향 분석)

  • Lee, Youngho
    • Journal of The Korean Association of Information Education
    • /
    • v.25 no.3
    • /
    • pp.537-545
    • /
    • 2021
  • Contents related to computers in the curriculum have been presented from the 5th curriculum released in 1987. The practical education curriculum of the 2015 revised curriculum is composed of software-related content from the existing ICT-related contents. Related research needs to be preceded in order to revise the curriculum according to the times and social needs. Research on elementary school information education is mainly conducted by the Korean Society for Information Education. Therefore, in this study, based on the thesis of the Society for Information Education, the research trends of the society were analyzed by a period of change in the curriculum. Research Results The research of the society shows a change in research trends similar to the change in the curriculum. And it can be seen that the research of society precedes the change in the curriculum.

Web Crawling and PageRank Calculation for Community-Limited Search (커뮤니티 제한 검색을 위한 웹 크롤링 및 PageRank 계산)

  • Kim Gye-Jeong;Kim Min-Soo;Kim Yi-Reun;Whang Kyu-Young
    • Proceedings of the Korean Information Science Society Conference
    • /
    • 2005.07b
    • /
    • pp.1-3
    • /
    • 2005
  • 최근 웹 검색 분야에서는 검색 질을 높이기 위한 기법들이 많이 연구되어 왔으며, 대표적인 연구로는 제한 검색, focused crawling, 웹 클러스터링 등이 있다. 그러나 제한 검색은 검색 범위를 의미적으로 관련된 사이트들로 제한할 수 없으며, focused crawling은 질의 시점에 클러스터링하기 때문에 질의 처리 시간이 오래 걸리고, 웹 클러스터링은 많은 웹 페이지들을 대상으로 클러스터링하기 위한 오버헤드가 크다. 본 논문에서는 검색 범위를 특정 커뮤니티로 제한하여 검색 하는 커뮤니티 제한 검색과 커뮤니티를 구하는 방법으로 cluster crawler를 제안하여 이러한 문제점을 해결한다. 또한, 커뮤니티를 이용하여 PageRank를 2단계로 계산하는 방법을 제안한다. 제안된 방법은 첫 번째 과정에서 커뮤니티 단위로 지역적으로 PageRank를 계산한 후, 두 번째 과정에서 이를 바탕으로 전역적으로 PageRank론 계산한다. 제안된 방법은 Wang에 의해 제안된 방법에 비해 PageRank 근사치의 오차를 $59\%$ 정도로 줄일 수 있다.

  • PDF

'GANerate', A Mass Image Creation and TradingPlatform based on User Input using GAN (GAN을 활용한 사용자 입력 기반의 대량 이미지 생성 및 거래 플랫폼 'GANerate')

  • Choi-Pil Hwa;Han-Jong Won;Choi-Yeon A;Park-Jeong Min;Sang-Oh Yoo
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2023.11a
    • /
    • pp.922-923
    • /
    • 2023
  • 인터넷에는 많은 이미지 데이터가 존재하지만, 대규모 이미지를 효과적으로 수집하는 것은 어려운 실정이다. 본 논문은 GAN을 통해 사용자가 지정한 개수만큼 원하는 이미지를 생성하는 웹 플랫폼을 제안한다. 기존의 단일 이미지다운, 크롤링, 웹 스크래핑을 통한 이미지 데이터 수집 방법보다 다량 이미지 데이터를 안전하게 수집할 수 있을 것으로 기대된다.

A Web application vulnerability scoring framework by categorizing vulnerabilities according to privilege acquisition (취약점의 권한 획득 정도에 따른 웹 애플리케이션 취약성 수치화 프레임워크)

  • Cho, Sung-Young;Yoo, Su-Yeon;Jeon, Sang-Hun;Lim, Chae-Ho;Kim, Se-Hun
    • Journal of the Korea Institute of Information Security & Cryptology
    • /
    • v.22 no.3
    • /
    • pp.601-613
    • /
    • 2012
  • It is required to design and implement secure web applications to provide safe web services. For this reason, there are several scoring frameworks to measure vulnerabilities in web applications. However, these frameworks do not classify according to seriousness of vulnerability because these frameworks simply accumulate score of individual factors in a vulnerability. We rate and score vulnerabilities according to probability of privilege acquisition so that we can prioritize vulnerabilities found in web applications. Also, our proposed framework provides a method to score all web applications provided by an organization so that which web applications is the worst secure and should be treated first. Our scoring framework is applied to the data which lists vulnerabilities in web applications found by a web scanner based on crawling, and we show the importance of categorizing vulnerabilities according to privilege acquisition.

HTML Text Extraction Using Frequency Analysis (빈도 분석을 이용한 HTML 텍스트 추출)

  • Kim, Jin-Hwan;Kim, Eun-Gyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.9
    • /
    • pp.1135-1143
    • /
    • 2021
  • Recently, text collection using a web crawler for big data analysis has been frequently performed. However, in order to collect only the necessary text from a web page that is complexly composed of numerous tags and texts, there is a cumbersome requirement to specify HTML tags and style attributes that contain the text required for big data analysis in the web crawler. In this paper, we proposed a method of extracting text using the frequency of text appearing in web pages without specifying HTML tags and style attributes. In the proposed method, the text was extracted from the DOM tree of all collected web pages, the frequency of appearance of the text was analyzed, and the main text was extracted by excluding the text with high frequency of appearance. Through this study, the superiority of the proposed method was verified.

HTML Text Extraction Using Tag Path and Text Appearance Frequency (태그 경로 및 텍스트 출현 빈도를 이용한 HTML 본문 추출)

  • Kim, Jin-Hwan;Kim, Eun-Gyung
    • Journal of the Korea Institute of Information and Communication Engineering
    • /
    • v.25 no.12
    • /
    • pp.1709-1715
    • /
    • 2021
  • In order to accurately extract the necessary text from the web page, the method of specifying the tag and style attributes where the main contents exist to the web crawler has a problem in that the logic for extracting the main contents. This method needs to be modified whenever the web page configuration is changed. In order to solve this problem, the method of extracting the text by analyzing the frequency of appearance of the text proposed in the previous study had a limitation in that the performance deviation was large depending on the collection channel of the web page. Therefore, in this paper, we proposed a method of extracting texts with high accuracy from various collection channels by analyzing not only the frequency of appearance of text but also parent tag paths of text nodes extracted from the DOM tree of web pages.

Enterprise Representative Keyword Database Construction from National R&D Information Collection (국가R&D정보를 활용한 기업 대표 키워드 DB 구축 방법)

  • Han, Heejun;Kim, Byeongjeong;Choi, Heeseok;Kim, Jaesoo
    • Proceedings of the Korea Contents Association Conference
    • /
    • 2014.11a
    • /
    • pp.279-280
    • /
    • 2014
  • 기업이 원하는 R&D정보를 추출하기 위해서는 R&D정보 검색에 활용할 질의어가 있어야 한다. 먼저 구축되어야 한다. 기업마다 관심있는 제품과 기술 키워드가 각각 다르다. 기업에 적합한 R&D정보를 생성하기 위해 질어어로 사용될 기업을 대표하는 키워드 군을 생성하고자 한다. 본 논문에서는 2002년부터 기업이 수행한 국가 R&D과제정보와 과제에서 도출된 논문, 특허, 연구보고서 등 성과정보로 부터 기업을 대표하는 키워드를 추출하고 이를 웹에서 크롤링한 기업정보와 비교하여 기업 대표 키워드 데이터베이스를 구축하는 방안에 대해 논한다.

  • PDF

A Rights Management Information Updating Technique Using Image Feature Points (이미지 특징점을 활용한 권리관리정보 갱신 기법)

  • Hong, Deok-Gi;Kim, Il-Hwan;Kim, Youngmo;Kim, Seok-Yoon
    • Proceedings of the Korean Society of Computer Information Conference
    • /
    • 2018.07a
    • /
    • pp.463-465
    • /
    • 2018
  • 공유저작물을 이용하는데 있어서 권리관리정보(RMI, Rights Management information)를 제대로 파악하지 못하거나 제대로 된 정보를 제공 받지 못하는 경우 이용자들은 저작권분쟁에 휘말릴 수 있다. 이러한 이유로 공유저작물을 제공하는 사이트에서는 공유저작물에 대한 정확하고 최신의 RMI 정보를 제공하기 위하여 통합하여 관리하고 최신의 정보로 갱신해야 한다. 하지만 동일한 권리를 가진 이미지는 다양한 이미지 포맷과 사이즈 변경에 따라 다른 형태로 유통되기 때문에 이에 대한 갱신처리가 중요하다. 본 논문에서는 이미지 특징점 기술을 활용하여 권리관리정보에 대한 중복데이터 문제를 해결할 수 있는 기법을 제시한다.

  • PDF

Implementation of a Neologism Chatbot System Using Watson Assistant (Watson Assistant를 이용한 신조어 챗봇 시스템 구현)

  • Ko, Jun Hee;Nam, Yun Han;Park, Hyeon Jong;Choi, Seong Jin;Baek, Se In;Lee, Yong Kyu
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.13-16
    • /
    • 2018
  • 인공지능의 중요성과 가치가 대두됨에 따라 이를 활용하여 다양한 챗봇들이 개발되고 있다. 그러나 신조어를 의미를 제공하는 챗봇 시스템의 연구가 부족하다. 본 논문에서는 Watson Assistant를 활용하여 신조어의 의미를 제공하는 신조어 챗봇 시스템을 구현하고자 한다. Watson Assistant는 자연어 형식으로 된 질문에 응답하는 것을 지원하는 API다. 웹 크롤링을 통해 신조어 데이터를 수집 및 저장하고, Watson Assistant를 활용하여 사용자의 의도를 파악하여 신조어의 의미를 추출한다. 제안한 시스템을 통해 현실 세계에서 끊임없이 양산되는 신조어의 의미를 빠르게 파악할 것이라고 기대한다.

Designing an automated system to grasp the reliability of online educators through review analysis (리뷰분석을 통한 온라인교육자 신뢰도 파악 자동화 시스템 설계)

  • Lee, Ki-Hoon;Moon, Nammee
    • Proceedings of the Korea Information Processing Society Conference
    • /
    • 2018.10a
    • /
    • pp.596-598
    • /
    • 2018
  • 본 논문은 온라인 교육매칭 플랫폼의 교육자에 대한 신뢰도 파악을 위한 리뷰분석 자동화 시스템을 설계한 논문이다. 웹 크롤링을 통해 비정형 데이터인 교육자에 대한 리뷰를 수집 및 파싱을 통해 데이터 베이스화 한다. 수집한 리뷰 데이터와 SO-PMI를 이용해 온라인 교육자 신뢰도 파악을 위한 맞춤형 감성사전을 구축하고자 한다. 구축한 감성사전을 이용해 리뷰를 수치화해 교육자와 피교육자 매칭 시신뢰성 향상에 도움을 주고자 한다.