• 제목/요약/키워드: 문자열 탐색

검색결과 37건 처리시간 0.023초

반 전역 정렬을 이용한 온라인 게임 변형 욕설 필터링 시스템 (The Online Game Coined Profanity Filtering System by using Semi-Global Alignment)

  • 윤태진;조환규
    • 한국콘텐츠학회논문지
    • /
    • 제9권12호
    • /
    • pp.113-120
    • /
    • 2009
  • 온라인 게임에서의 언어폭력 문제는 매우 심각하지만 그에 대한 효과적인 정책이나 기술적인 방법은 부족한 상황이다. 온라인 게임 서비스 업체에서는 금칙어 리스트를 작성하여 Swear Filter를 이용한 고정된 형식의 문자열 검색 방식을 통해 문제를 해결하려고 하고 있으나 사용자들은 다양한 방법으로 욕설을 조합 또는 변형시켜 기존의 필터링을 회피하고 있다. 특히 한글은 욕설의 변형이 매우 쉬운 특성을 가지고 있다. 본 논문에는 한글에 기초한 변형 욕설을 효율적으로 탐색하여 걸러내는 알고리즘을 제시한다. 이 알고리즘의 주된 특징은 변형 욕설의 표준형 변환과 자소단위의 반 전체 정렬(semi-global alignment), 이다. 실험 결과 저자들이 다양한 인터넷 게임 환경에서 직접 수집한 다종의 욕설 단어들에 대하여 약 90%의 우수한 필터링 성능을 보였다.

대용량 웹 로그 마이닝 및 공격탐지를 위한 B-트리 인덱스 벡터 기반 고속 검색 기법 (High-Speed Search Mechanism based on B-Tree Index Vector for Huge Web Log Mining and Web Attack Detection)

  • 이형우;김태수
    • 한국멀티미디어학회논문지
    • /
    • 제11권11호
    • /
    • pp.1601-1614
    • /
    • 2008
  • 최근 대부분의 인터넷 환경이 쳅 기반 시스템으로 발전하면서 웹 서비스 사용자 수는 꾸준히 증가하고 있다. 따라서 일반 사용자가 대형 포털 사이트 웹 서버 접속시 생성되는 로그 정보를 분석하여 웹 서버에 대한 공격을 탐지하거나 웹 마이닝 기술과 접목하기 위해서는 대용량의 웹 로그 정보에 대한 효율적인 분석 기법이 필요하다. 기존 웹 로그 전처리 기법은 로그 문자열의 순차적인 탐색을 수행하므로 대용량의 웹 로그 고속화 처리에 적합하지 않다. 본 연구에서는 대용량 웹 로그 정보에 대해 B-트리 인덱싱 벡터 구조를 이용하여 필드별 분류 및 고속 검색 알고리즘을 개발하였다 이를 통해 효율적으로 대용량 로고로부터 효율적인 세션 분석 기능과 개선된 검색 성능을 제공할 수 있었으며 웹 서버에 대한 공격 탐지에도 활용할 수 있었다.

  • PDF

인간과 감정적 상호작용을 위한 '감정 엔진' (Engine of computational Emotion model for emotional interaction with human)

  • 이연곤
    • 감성과학
    • /
    • 제15권4호
    • /
    • pp.503-516
    • /
    • 2012
  • 지금까지 로봇 및 소프트웨어 에이전트들을 살펴보면, 감정 모델이 내부에 종속적으로 존재하기 때문에 감정모델만을 별도로 분리해 새로운 시스템에 재활용하기란 쉽지 않다. 따라서 어떤 로봇 및 에이전트와 연동될 수 있는 Engine of computational Emotion model (이하 EE로 표시한다)을 소개한다. 이 EE는 어떤 입력 정보에도 치중되지 않고, 어떤 로봇 및 에이전트의 내부와도 연동되도록 독립적으로 감정을 담당하기 위해, 입력 단계인 인식과 출력 단계인 표현을 배제하고, 순수하게 감정의 생성 및 처리를 담당하는 중간 단계인 감정 발생만을 분리하여, '입력단 및 출력단과 독립적인 소프트웨어 형태, 즉 엔진(Engine)'으로 존재한다. 이 EE는 어떤 입력단 및 출력단과 상호작용이 가능하며, 자체 감정뿐 아니라 상대방의 감정을 사용하며, 성격을 활용하여 종합적인 감정을 산출해낸다. 또한 이 EE는 로봇 및 에이전트의 내부에 라이브러리 형태로 존재하거나, 별도의 시스템으로 존재하여 통신할 수 있는 구조로 활용될 수 있다. 감정은 Joy(기쁨), Surprise(놀람), Disgust(혐오), Fear(공포), Sadness(슬픔), Anger(분노)의 기본 감정을 사용하며, 문자열과 계수를 쌍으로 갖는 정보를 EE는 입력 인터페이스를 통해 입력 신호로 받고, 출력 인터페이스를 통해 출력 신호로 내보낸다. EE는 내부에 감정마다 감정경험의 연결 목록을 가지고 있으며, 이의 계수의 쌍으로 구성된 정보를 감정의 생성 및 처리하기 위한 감정상태 목록으로 사용한다. 이 감정경험 목록은 '인간이 실생활에서 경험하는 다양한 감정에 대한 이해를 도모'하는 감정표현어휘로 구성되어 있다. EE는 인간의 감정을 탐색하여 적절한 반응을 나타내주는 상호작용 제품에 이용 가능할 것이다. 본 연구는 제품이 '인간을 공감하고 있음'을 인간이 느낄 수 있도록 유도하는 시스템을 만들고자 함이므로, HRI(인간-로봇 상호작용)나 HCI(인간-컴퓨터 상호작용)와 관련 제품이 효율적인 감정적 공감 서비스를 제공하는데 도움이 될 수 있을 것으로 기대한다.

  • PDF

이미지로부터 계층적 문자열 추출에 관한 연구 (Hierarchical Text Extraction and Localization on Images)

  • 전병민;전우경
    • 한국산학기술학회논문지
    • /
    • 제19권1호
    • /
    • pp.609-614
    • /
    • 2018
  • 인터넷 기술의 급격한 성장으로 우리들은 언제 어디에서나 다양한 장치를 이용하여 온라인에 접속할 수 있으며, 실시간, 대용량의 영상 및 사진들이 인터넷상에 올려지고 있다. 이러한 영상들의 대부분은 영상에 관련된, 영상을 인식할 수 있는 간단한 주석을 갖는다. 그럼에도 아직도 주석이 없는 단일 영상이나 잘못된 주석이나 태그 정보 때문에 우리가 원하는 영상을 찾는데 문제점이 있어 이러한 문제해결을 위해서는 영상의 올바른 정보를 태깅하는 것이 필수적이다. 대부분의 태그는 문서나 주석의 형태를 가지므로 주석이나 문서의 정보가 올바르지 않으면 원하는 영상을 찾는데 많은 어려움이 따른다. 그리하여 더 나은 영상 탐색 결과와 올바른 영상 주석을 위해서 작가에 의한 주석뿐만 아니라 올바른 영상분석 또한 아주 중요하다. 영상 특징을 추출하는 것은 신뢰성 있는 영상 주석을 위해 필수 불가결한 요소이다. 따라서 본 논문에서는 다양한 불특정 영상으로 부터 계층적 텍스트 추출 방법을 사용하여 신뢰성 있는 영상 주석을 얻는다. 다양한 영상으로 부터 영상이나 사진 속에 포함된 텍스트 정보를 추출하는 방법을 제안하였으며, 실험결과 제안한 텍스트 추출기법이 대부분의 영상으로부터 정확하게 텍스트 특징을 추출하는 결과를 보여주었고, 성능 평가 결과 최소 0.04부터 최대 0.52의 높은 평가결과를 보여주었다. 또한 정확도 측면에서도 다른 기법들 보다 최소 18.1%부터 최대 37.9%의 높은 정확도를 보여주었다.

스트링 B-트리를 이용한 게놈 서열 분석 시스템 (An Analysis System for Whole Genomic Sequence Using String B-Tree)

  • 최정현;조환규
    • 정보처리학회논문지A
    • /
    • 제8A권4호
    • /
    • pp.509-516
    • /
    • 2001
  • 생명 과학의 발전과 많은 게놈(genome) 프로젝트의 결과로 여러 종의 게놈 서열이 밝혀지고 있다. 생물체의 서열을 분석하는 방법은 전역정렬(global alignment), 지역정렬(local alignment) 등 여러 가지 방법이 있는데, 그 중 하나가 k-mer 분석이다. k-mer는 유전자의 염기 서열내의 길이가 k인 연속된 염기 서열로서 k-mer 분석은 염기서열이 가진 k-mer들의 빈도 분포나 대칭성 등을 탐색하는 것이다. 그런데 게놈의 염기 서열은 대용량 텍스트이고 k가 클 때 기존의 온메모리 알고리즘으로는 처리가 불가능하므로 효율적인 자료구조와 알고리즘이 필요하다. 스트링 B-트리는 패턴 일치(pattern matching)에 적합하고 외부 메모리를 지원하는 좋은 자료구조이다. 본 논문에서는 스트링 B-트리(string B-tree)를 k-mer 분석에 효율적인 구조로 개선하여, C. elegans 외의 30개의 게놈 서열에 대해 분석한다. k-mer들의 빈도 분포와 대칭성을 보여주기 위해 CGR(Chaotic Game Representation)을 이용한 가시화 시스템을 제시한다. 게놈 서열과 매우 유사한 서열 상의 어떤 부분을 시그니쳐(signature)라 하고, 높은 유사도를 가지는 최소 길이의 시그니쳐를 찾는 알고리즘을 제시한다.

  • PDF

웹/모바일-어플리케이션 접속 지표와 TCS 교통량의 상관관계 연구 (Exploring the Temporal Relationship Between Traffic Information Web/Mobile Application Access and Actual Traffic Volume on Expressways)

  • 류인곤;이재영;최기주;김정화;안순욱
    • 대한교통학회지
    • /
    • 제34권1호
    • /
    • pp.1-14
    • /
    • 2016
  • 최근 스마트폰의 빠른 보급으로 누구나 언제 어디서든 자유로운 네트워크 접속이 가능해졌다. 이는 통행 전은 물론 통행 중 교통정보 검색이 매우 편리해졌음을 의미한다. 고속도로 교통정보 탐색 행태의 기반이 되는 상관성 분석을 위하여, 웹과 모바일-앱의 접속 지표에 대한 정상성 여부를 검증하고, TCS 교통량과의 상관관계를 실증적으로 분석하는 것이 본 연구의 목적이다. 그 결과 첫째, 시간대별 웹/모바일-앱의 접속 지표에 대한 ADF-검정, PP-검정 결과, 로그변환이나 차분변환 없이도 시계열의 정상성 조건을 만족하는 것으로 나타났다. 둘째, 고속도로 진출입 교통량과의 피어슨 상관계수를 검토한 결과, 웹/모바일-앱의 모든 접속 지표는 뚜렷한 양적 상관관계를 보였다. 단, 트럭의 TCS 진입 교통량은 상관관계가 거의 없는 것으로 나타났다. 셋째, 시계열 변수 사이에 존재하는 발생시간의 시차 관계(동행성, 선행성, 후행성)를 규명하기 위해 교차분석을 수행한 결과, 모바일 이용자는 모든 웹 접속 지표보다 선행하고 있었으며, 모바일 실행횟수는 모든 웹 접속 지표와 동행함을 발견하였다. 넷째, 고속도로의 진입 교통량에 선행하는 웹/모바일-앱 접속 지표는 존재하지 않았으며, 웹 페이지뷰/방문자/신규방문자/재방문자, 모바일 실행횟수는 오히려 고속도로 진입 총 교통량과 비교시 1시간의 후행 시차에서 상관관계가 가장 높게 나타났다. 향후 분석의 공간적 범위와 시간적 범위를 세분화하고 교통정보 이용자의 위치정보를 활용할 수 있다면, 경로 전환 시점/비율과 같은 개별 통행행태까지도 예측할 수 있게 될 것으로 판단된다.

뉴럴 텐서 네트워크 기반 주식 개별종목 지식개체명 추출 방법에 관한 연구 (A Study on Knowledge Entity Extraction Method for Individual Stocks Based on Neural Tensor Network)

  • 양윤석;이현준;오경주
    • 지능정보연구
    • /
    • 제25권2호
    • /
    • pp.25-38
    • /
    • 2019
  • 정보화 시대의 넘쳐나는 콘텐츠들 속에서 사용자의 관심과 요구에 맞는 양질의 정보를 선별해내는 과정은 세대를 거듭할수록 더욱 중요해지고 있다. 정보의 홍수 속에서 사용자의 정보 요구를 단순한 문자열로 인식하지 않고, 의미적으로 파악하여 검색결과에 사용자 의도를 더 정확하게 반영하고자 하는 노력이 이루어지고 있다. 구글이나 마이크로소프트와 같은 대형 IT 기업들도 시멘틱 기술을 기반으로 사용자에게 만족도와 편의성을 제공하는 검색엔진 및 지식기반기술의 개발에 집중하고 있다. 특히 금융 분야는 끊임없이 방대한 새로운 정보가 발생하며 초기의 정보일수록 큰 가치를 지녀 텍스트 데이터 분석과 관련된 연구의 효용성과 발전 가능성이 기대되는 분야 중 하나이다. 따라서, 본 연구는 주식 관련 정보검색의 시멘틱 성능을 향상시키기 위해 주식 개별종목을 대상으로 뉴럴 텐서 네트워크를 활용한 지식 개체명 추출과 이에 대한 성능평가를 시도하고자 한다. 뉴럴 텐서 네트워크 관련 기존 주요 연구들이 추론을 통해 지식 개체명들 사이의 관계 탐색을 주로 목표로 하였다면, 본 연구는 주식 개별종목과 관련이 있는 지식 개체명 자체의 추출을 주목적으로 한다. 기존 관련 연구의 문제점들을 해결하고 모형의 실효성과 현실성을 높이기 위한 다양한 데이터 처리 방법이 모형설계 과정에서 적용되며, 객관적인 성능 평가를 위한 실증 분석 결과와 분석 내용을 제시한다. 2017년 5월 30일부터 2018년 5월 21일 사이에 발생한 전문가 리포트를 대상으로 실증 분석을 진행한 결과, 제시된 모형을 통해 추출된 개체명들은 개별종목이 이름을 약 69% 정확도로 예측하였다. 이러한 결과는 본 연구에서 제시하는 모형의 활용 가능성을 보여주고 있으며, 후속 연구와 모형 개선을 통한 성과의 제고가 가능하다는 것을 의미한다. 마지막으로 종목명 예측 테스트를 통해 본 연구에서 제시한 학습 방법이 새로운 텍스트 정보를 의미적으로 접근하여 관련주식 종목과 매칭시키는 목적으로 사용될 수 있는 가능성을 확인하였다.