• 제목/요약/키워드: 웹크롤링기술

검색결과 35건 처리시간 0.024초

다크웹 아동 음란물 추적을 위한 연관규칙 기반 키워드 수집체계 (Keyword Collection System based on Association Rules to Track Pornography of Children on Dark Webs)

  • 김진경;김지연;김창훈
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2023년도 제68차 하계학술대회논문집 31권2호
    • /
    • pp.207-208
    • /
    • 2023
  • 다크웹을 통한 마약, 금융거래, 해킹 등 사이버 범죄가 증가하면서 다크웹 상의 범죄 추적을 위한 사이버 수사 필요성이 증대되고 있다. Tor와 같은 다크웹 접속 브라우저는 강력한 익명성을 제공하기 때문에 주로 다크웹 운영상의 취약점 분석, 악성코드를 활용한 함정수사 기법이 실효성 높은 다크웹 수사 기술로 간주된다. 그러나 사이트 개설 및 폐쇄가 빈번하게 발생하는 다크웹의 특성상 최신 범죄 정보를 수집하기 위해서는 방대한 다크웹 정보를 실시간 수집하고, 능동적으로 검색 키워드를 확장할 수 있는 고도화된 크롤러 기술 개발이 필요하다. 본 논문은 다양한 다크웹 사이트 중, 아동 음란물 사이트를 크롤링을 통해 수집하고, 수집된 텍스트의 연관 분석을 통해 검색 키워드를 확장하는 수집 체계를 제안한다.

  • PDF

사회적 핵심 이슈 키워드 정보를 활용한 채팅 프로그램 개발 (Development of chatting program using social issue keyword information)

  • 윤경섭;정원혁
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2020년도 제62차 하계학술대회논문집 28권2호
    • /
    • pp.307-310
    • /
    • 2020
  • 본 논문에서 이슈 키워드 추출을 위해 텍스트 마이닝(Text Mining) 기술을 요구한다. 사회적 이슈 키워드를 추출하기 위해 키워드 수집 모델이 되는 사이트에서 크롤링(crawling)을 수행한 뒤, 형태소 단위 의미있는 단어를 수집하기 위해 형태소 분석(morphological analysis)을 수행한다. 한국어 형태소 분석을 위해 파이썬의 코엔엘파이(KoNLPy) 패키지를 활용한다. 형태소 분석을 통해 나뉘어진 단어에서 통계를 내어 이슈 키워드 추출한다. 이슈 키워드를 뒷받침할 연관 단어를 분석하기 위해 단어 임베딩(Word Embedding)을 수행한다. 단어 임베딩 수행을 위해 Word2Vec 모델 중 Skip-Gram 방법론을 적용하여 연관 단어를 분석하도록 개발하였다. 웹 소켓(Web Socket) 통신을 통한 채팅 프로그램의 상단에 분석한 이슈 키워드와 연관 단어를 출력하도록 개발하였다.

  • PDF

건설현장 영상 분석을 위한 웹 크롤링 기반 학습 데이터베이스 구축 자동화 (Automated Training Database Development through Image Web Crawling for Construction Site Monitoring)

  • 황정빈;김진우;지석호;서준오
    • 대한토목학회논문집
    • /
    • 제39권6호
    • /
    • pp.887-892
    • /
    • 2019
  • 건설현장 영상 자동 모니터링을 목적으로 많은 연구자들이 영상분석기술을 활발히 개발하고 있다. 높은 성능의 영상분석기술을 개발하기 위해서는 다량의 고품질 학습용 이미지 데이터베이스(Database, DB)를 구축해야 한다. 하지만 기존의 학습 DB 구축 방법은 사람이 건설현장을 직접 방문하여 카메라를 설치하고 각각의 목적에 알맞은 영상을 수집하여 DB를 직접 구축하고 있기 때문에 이에 많은 비용과 시간이 요구된다. 뿐만 아니라 이 같은 사람 의존적인 방식은 건설현장의 다양한 특성을 모두 반영한 DB를 구축하는 것에 한계가 있다. 이러한 한계를 극복하기 위해서 본 연구는 웹 크롤링(Web Crawling) 기법을 활용하여 건설현장 영상분석을 위한 학습 이미지 DB를 자동으로 구축하는 프레임워크를 제안한다. 프레임워크 검증을 위해 건설공종과 건설장비에 대한 학습 DB를 구축하여 영상분석모델을 학습 및 평가하는 실험을 진행하였다. 그 결과, 건설현장 모니터링을 위한 학습용 이미지 DB를 자동으로 구축할 수 있었을 뿐만 아니라 이를 토대로 개발한 영상분석모델이 건설공종과 건설장비를 성공적으로 분류하는 것을 확인하였다. 결과적으로 기존의 방식보다 학습 DB를 구축하는 데 필요한 시간과 비용을 최소화할 수 있었다.

Movielens 데이터를 이용한 영화 추천 시스템 개발 (A Movie Recommendation System Using Movielens Data)

  • 박윤기;정현철;홍지원;김상욱
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2011년도 추계학술발표대회
    • /
    • pp.1226-1228
    • /
    • 2011
  • 본 논문에서는 영화를 즐기는 이용자들에게 영화를 추천하는 추천 시스템 개발에 대해 논한다. 본 논문에서는 유저 기반 협업 필터링 기술을 적용한 영화 추천 웹 서비스를 개발하였고, 웹 크롤링 기술을 이용하여 추천된 영화의 상세한 정보를 제공할 수 있도록 하였다. 유저 스터디를 수행한 결과 이 영화 추천 시스템을 이용한 사용자들의 만족도는 대체로 높았다.

개발자 채용 시장의 기술 동향 분석 시각화 서비스 (Technology Trends Analysis Visualization Service for Developer Job Market)

  • 이노아;김윤기
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2024년도 춘계학술발표대회
    • /
    • pp.538-539
    • /
    • 2024
  • 개발자 채용 시장은 기술 요구 사항이 시시각각 변화하는 동적인 환경이다. 구직자는 빠른 변화로 새롭게 생겨나는 기술 스택 및 채용 트렌드를 한눈에 파악하기 힘들다. 본 논문에서는 개발자 채용 시장에서 요구되는 기술 동향을 시각화하여 효율적으로 파악할 수 있도록 하는 새로운 서비스를 제안한다. 이 서비스는 웹 크롤링 기술을 활용해 채용 공고에서 요구되는 구인 요구사항을 수집하고 분석한다. 분석 결과는 기술 빈도, 지역별, 학력별 및 경력별로 제공되며, 사용자가 선택한 유형의 기술 동향 분석 결과를 시각화하여 제공한다. 이를 통해 개발자는 채용 시장에서 요구되는 기술을 식별하고 학습할 기술을 선정하는 과정을 간소화할 수 있다. 이러한 접근 방식은 효율적인 채용 시장 기술 동향 분석에 도움을 주고, 나아가 교육 기관이 채용 시장에서 요구되는 기술을 정확히 파악하여 교육 커리큘럼에 활용할 수 있을 것이라 기대한다.

객체 인식 정확도 개선을 위한 이미지 초해상도 기술 (Image Super-Resolution for Improving Object Recognition Accuracy)

  • 이성진;김태준;이충헌;유석봉
    • 한국정보통신학회논문지
    • /
    • 제25권6호
    • /
    • pp.774-784
    • /
    • 2021
  • 객체 검출 및 인식 과정은 컴퓨터비전 분야에서 매우 중요한 과업으로써, 관련 연구가 활발하게 진행되고 있다. 그러나 실제 객체 인식 과정에서는 학습된 이미지 데이터와 테스트 이미지 데이터간 해상도 차이로 인하여 인식기의 정확도 성능이 저하되는 문제가 종종 발생한다. 이를 해결하기 위해 본 논문에서는 객체 인식 정확도 향상을 위한 이미지 초해상도 기법을 제안하여 객체 인식 및 초해상도 통합 프레임워크를 설계하고 개발하였다. 세부적으로는 11,231장의 차량 번호판 훈련용 이미지를 웹 크롤링, 인조데이터 생성 등을 통해 자체적으로 구축하고, 이를 활용하여 이미지 좌우 반전에 강인하도록 목적함수를 정의하여 이미지 초해상도 인공 신경망을 훈련시켰다. 제안 방법의 성능을 검증하기 위해 훈련된 이미지 초해상도 및 번호 인식기 1,999장의 테스트 이미지에 실험하였고, 이를 통해 제안한 초해상도 기법이 문자 인식 정확도 개선 효과가 있음을 확인하였다.

다크웹 환경에서 산업기술 유출 탐지 시스템 (Industrial Technology Leak Detection System on the Dark Web)

  • 공영재;장항배
    • 스마트미디어저널
    • /
    • 제11권10호
    • /
    • pp.46-53
    • /
    • 2022
  • 오늘날 4차 산업 혁명과 대규모 R&D 지원으로 인해 국내 기업은 세계 기술력 수준의 산업기술을 보유하기 시작하였으며 중요한 자산으로 변모하였다. 국가는 기업의 중요한 산업기술을 보호하고자 국가핵심기술로 지정하였으며, 특히 원자력, 조선, 반도체와 같은 기술이 유출될 경우 해당 기업뿐만 아니라 국가 차원에서도 심각한 경쟁력 손실로 이어질 수 있다. 매년 내부자 유출, 랜섬웨어 그룹의 해킹공격, 산업스파이에 산업기술 탈취 시도가 증가하고 있으며, 탈취된 산업기술은 다크웹 환경에서의 은밀하게 거래가 이루어진다. 본 논문에서는 다크웹 환경에서 은밀하게 이루어지는 산업기술 유출을 탐지하는 시스템을 제안한다. 제안된 모델은 먼저 OSINT 환경에서 수집한 정보를 이용하여 다크웹 크롤링을 통한 데이터베이스를 구축한다. 이후 KeyBERT 모델을 이용한 산업기술 유출 키워드를 추출한 후 다크웹 환경에서의 산업기술 유출 징후를 정량적 수치로 제안한다. 마지막으로 식별된 다크웹 환경에서의 산업기술 유출 사이트를 기반으로 PageRank 알고리즘 통한 2차 유출 가능성을 탐지한다. 제안된 모델을 통해 27,317개의 중복 없는 다크웹 사이트를 수집하였으며, 100개의 원자력 특허에서 총 15,028개의 원자력 관련 키워드를 추출하였다. 가장 높은 원자력 유출 다크웹 사이트를 기반으로 2차 유출을 탐지한 결과 12개의 다크웹 사이트를 식별하였다.

국가R&D정보를 활용한 기업 대표 키워드 DB 구축 방법 (Enterprise Representative Keyword Database Construction from National R&D Information Collection)

  • 한희준;김병정;최희석;김재수
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2014년도 추계 종합학술대회 논문집
    • /
    • pp.279-280
    • /
    • 2014
  • 기업이 원하는 R&D정보를 추출하기 위해서는 R&D정보 검색에 활용할 질의어가 있어야 한다. 먼저 구축되어야 한다. 기업마다 관심있는 제품과 기술 키워드가 각각 다르다. 기업에 적합한 R&D정보를 생성하기 위해 질어어로 사용될 기업을 대표하는 키워드 군을 생성하고자 한다. 본 논문에서는 2002년부터 기업이 수행한 국가 R&D과제정보와 과제에서 도출된 논문, 특허, 연구보고서 등 성과정보로 부터 기업을 대표하는 키워드를 추출하고 이를 웹에서 크롤링한 기업정보와 비교하여 기업 대표 키워드 데이터베이스를 구축하는 방안에 대해 논한다.

  • PDF

이미지 특징점을 활용한 권리관리정보 갱신 기법 (A Rights Management Information Updating Technique Using Image Feature Points)

  • 홍덕기;김일환;김영모;김석윤
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2018년도 제58차 하계학술대회논문집 26권2호
    • /
    • pp.463-465
    • /
    • 2018
  • 공유저작물을 이용하는데 있어서 권리관리정보(RMI, Rights Management information)를 제대로 파악하지 못하거나 제대로 된 정보를 제공 받지 못하는 경우 이용자들은 저작권분쟁에 휘말릴 수 있다. 이러한 이유로 공유저작물을 제공하는 사이트에서는 공유저작물에 대한 정확하고 최신의 RMI 정보를 제공하기 위하여 통합하여 관리하고 최신의 정보로 갱신해야 한다. 하지만 동일한 권리를 가진 이미지는 다양한 이미지 포맷과 사이즈 변경에 따라 다른 형태로 유통되기 때문에 이에 대한 갱신처리가 중요하다. 본 논문에서는 이미지 특징점 기술을 활용하여 권리관리정보에 대한 중복데이터 문제를 해결할 수 있는 기법을 제시한다.

  • PDF

온라인 커뮤니티상에 나타난 여성혐오 현상 분석 (Analyzing the phenomenon of misogyny in online community)

  • 이지현;우지영
    • 한국컴퓨터정보학회:학술대회논문집
    • /
    • 한국컴퓨터정보학회 2019년도 제60차 하계학술대회논문집 27권2호
    • /
    • pp.27-28
    • /
    • 2019
  • 본 논문에서는 한국 사회에 특유의 폭력성과 선정성으로 인해 큰 충격을 주고 있는 인터넷 커뮤니티 사이트 '일간 베스트' 글에 나타난 욕설과 여성 혐오에 대해 분석하고자 한다. 데이터는 일베 게시판에 올라온 게시글 2,000개를 웹 크롤링하여 수집하였으며, 수집한 게시글에 게임 내 금칙어 리스트와 여성 지칭어 사전을 기반으로 욕설 여부와 여성 지칭어를 태깅하였다. 태깅하여 분석한 결과 여성 지칭어를 사용한 게시글에는 욕설을 사용하는 글이 전체의 60.52%로 많았으며 욕설을 사용하지 않은 게시글에도 범행, 살해, 김치녀 등의 부정적인 단어가 많은 것을 볼 수 있었다.

  • PDF