• 제목/요약/키워드: 단어 식별

검색결과 71건 처리시간 0.024초

인과관계 정보 구성 체계를 활용한 디지털 증거 식별/분류 연구 (Digital Evidence Identification/Classification Study Using Causal Information Organization System)

  • 정종진;박종빈;김경원;이지현
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.236-239
    • /
    • 2023
  • 본 논문에서는 디지털증거 분석을 위해 확보한 증거파일 들로부터 범죄 정황에 해당하는 단어 및 어휘를 추출하여 해당 범죄를 인과관계 분석을 하기 위해 핵심 단서와 원인을 효과적으로 파악하기 위해 필요한 인과정보를 제안한다. 이 정보들은 개체명 인식 및 분류를 할 수 있도록 구성되어 범죄 관계인, 관계인간 관계, 범죄 수법과 범죄관련 정보를 추출하고 유형화하여, 향후 해당 범죄에 대한 인과 분석 기법을 활용한 범죄 예방 분석과 수사에 기여할 수 있도록 도움을 준다.

글자 단위 텍스트 인식 기반의 이미지 내 한글 글꼴 분류 시스템 개발 (Development of a Korean Font Classification System for Images Based on Syllable-Level Text Recognition)

  • 유사라;김윤주;송지효;이기용
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.718-721
    • /
    • 2023
  • 이미지 내 글꼴을 파악하는 것은 디자인 자료 제작, 저작권 확인 등 다양한 곳에서 중요한 문제이다. 하지만 이미지 내 한글 글꼴을 자동으로 식별하는 시스템은 아직 존재하지 않으며, 수동으로 한글 글꼴을 파악하는 것은 시간과 정확도 측면에서 매우 비효율적이다. 따라서 본 논문에서는 이미지 내 한글 글꼴을 자동으로 인식하는 시스템을 개발한다. 본 논문에서 개발한 시스템은 크게 두 가지 기법을 사용한다: (1) 한글의 기하학적인 특성을 활용하여 글자 단위로 텍스트를 인식하며, (2) 단어가 아닌 글자 단위로 글꼴을 분류하고 각 글자에 대한 글꼴 분류 결과를 종합하여 최종적인 글꼴 분류 결과를 얻는다. 10가지 한글 글꼴이 나타나는 직접 제작한 이미지를 사용하여 시스템의 성능을 평가한 결과 제안 방법은 비교 방법에 비해 더욱 정확히 한글 글꼴을 분류함을 확인하였다.

웹 문서의 정보블럭 식별을 통한 효과적인 사용자 프로파일 생성방법 (An Effective User-Profile Generation Method based on Identification of Informative Blocks in Web Document)

  • 류상현;이승화;정민철;이은석
    • 한국정보과학회:학술대회논문집
    • /
    • 한국정보과학회 2007년도 가을 학술발표논문집 Vol.34 No.2 (C)
    • /
    • pp.253-257
    • /
    • 2007
  • 최근 웹 상에 정보가 폭발적으로 증가함에 따라, 사용자의 취향에 맞는 정보를 선별하여 제공하는 추천 시스템에 대한 연구가 활발히 진행되고 있다. 추천시스템은 사용자의 관심정보를 기술한 사용자 프로파일을 기반으로 동작하기 때문에 정확한 사용자 프로파일의 생성은 매우 중요하다. 사용자의 암시적인 행동정보를 기반으로 취향을 분석하는 대표적인 연구로 사용자가 이용한 웹 문서를 분석하는 방법이 있다. 이는 사용자가 이용하는 웹 문서에 빈번하게 등장하는 단어를 기반으로 사용자의 프로파일을 생성하는 것이다. 그러나 최근 웹 문서는 사용자 취향과 관련 없는 많은 구성요소들(로고, 저작권정보 등)을 포함하고 있다. 따라서 이러한 내용들을 모두 포함하여 웹 문서를 분석한다면 생성되는 프로파일의 정확도는 낮아질 것이다. 따라서 본 논문에서는 사용자 기기에서 사용자의 웹 문서 이용내역을 분석하고, 동일한 사이트로부터 얻어진 문서들에서 반복적으로 등장하는 블록을 제거한 후, 정보블럭을 식별하여 사용자의 관심단어를 추출하는 새로운 프로파일 생성방법을 제안한다. 이를 통해 보다 정확하고 빠른 프로파일 생성이 가능해진다. 본 논문에서는 제안방법의 평가를 위해, 최근 구매활동이 있었던 사용자들이 이용한 웹 문서 데이터를 수집하였으며, TF-IDF 방법과 제안방법을 이용하여 사용자 프로파일을 각각 추출하였다. 그리고 생성된 사용자 프로파일과 구매데이터와의 연관성을 비교하였으며, 보다 정확한 프로파일이 추출되는 결과와 프로파일 분석시간이 단축되는 결과를 통해 제안방법의 유효성을 입증하였다.)으로 높은 점수를 보였으며 내장첨가량에 따른 관능특성에서는 온쌀죽은 내장 $2{\sim}5%$ 첨가, 반쌀죽은 내장 $3{\sim}5%$ 첨가구에서 유의적(p<0.05)으로 높은 점수를 보였으나 쌀가루죽은 내장 $1{\sim}2%$ 첨가구에서 유의적(p<0.05)으로 낮은 점수를 보였다. 이상의 연구 결과를 통해 온쌀은 2%, 반쌀은 3%, 쌀가루는 4%의 내장을 첨가하여 제조한 전복죽이 이화학적, 물성적 및 관능적으로 우수한 것으로 나타났다.n)방법의 결과와 비교하였다.다. 유비스크립트에서는 모바일 코드의 개념을 통해서 앞서 언급한 유비쿼터스 컴퓨팅 환경에서의 문제점을 해결하고자 하였다. 모바일 코드에서는 프로그램 코드가 네트워크를 통해서 컴퓨터를 이동하면서 수행되는 개념인데, 이는 물리적으로 떨어져있으면서 네트워크로 연결되어 있는 다양한 컴퓨팅 장치가 서로 연동하기 위한 모델에 가장 적합하다. 이는 기본적으로 배포(deploy)라는 단계가 필요 없게 되고, 새로운 버전의 프로그램이 작성될지라도 런타임에 코드가 직접 이동하게 되므로 버전 관리의 문제도 해결된다. 게다가 원격 함수를 매번 호출하지 않고 한번 이동된 코드가 원격지에서 모두 수행을 하게 되므로 성능향상에도 도움이 된다. 장소 객체(Place Object)와 원격 스코프(Remote Scope)는 앞서 설명한 특징을 직접적으로 지원하는 언어 요소이다. 장소 객체는 모바일 코드가 이동해서 수행될 계산 환경(computational environment

  • PDF

작성자 분석 기반의 공격 메일 탐지를 위한 분류 모델 (A Classification Model for Attack Mail Detection based on the Authorship Analysis)

  • 홍성삼;신건윤;한명묵
    • 인터넷정보학회논문지
    • /
    • 제18권6호
    • /
    • pp.35-46
    • /
    • 2017
  • 최근 사이버보안에서 악성코드를 이용한 공격은 메일에 악성코드를 첨부하여 이를 사용자가 실행하도록 유도하여 공격을 수행하는 형태가 늘어나고 있다. 특히 문서형태의 파일을 첨부하여 사용자가 쉽게 실행하게 되어 위험하다. 저자 분석은 NLP(Neutral Language Process) 및 텍스트 마이닝 분야에서 연구되어지고 있는 분야이며, 특정 언어로 이루어진 텍스트 문장, 글, 문서를 분석하여 작성한 저자를 분석하는 방법들은 연구하는 분야이다. 공격 메일의 경우 일정 공격자에 의해 작성되어지기 때문에 메일 내용 및 첨부된 문서 파일을 분석하여 해당 저자를 식별하면 정상메일과 더욱 구별된 특징들을 발견할 수 있으며, 탐지 정확도를 향상시킬 수 있다. 본 논문에서는 기존의 기계학습 기반의 스팸메일 탐지 모델에서 사용되는 특징들과 문서의 저자 분석에 사용되는 특징들로부터 공격메일을 분류 및 탐지를 할 수 있는 feature vector 및 이에 적합한 IADA2(Intelligent Attack mail Detection based on Authorship Analysis)탐지 모델을 제안하였다. 단순히 단어 기반의 특징들로 탐지하던 스팸메일 탐지 모델들을 개선하고, n-gram을 적용하여 단어의 시퀀스 특성을 반영한 특징을 추출하였다. 실험결과, 특징의 조합과 특징선택 기법, 적합한 모델들에 따라 성능이 개선됨을 검증할 수 있었으며, 제안하는 모델의 성능의 우수성과 개선 가능성을 확인할 수 있었다.

국내 인지행동치료 연구의 지식구조: 동시출현단어 분석 (Knowledge Structure of Cognitive Behavioral Therapy Studies in Korea: Co-word Analysis)

  • 김도희;김현진;안다혜
    • 디지털융복합연구
    • /
    • 제17권12호
    • /
    • pp.509-521
    • /
    • 2019
  • 본 연구는 인지행동치료(Cognitve Behavioral Therapy: CBT)분야 학술지에서 나타난 키워드의 출현패턴을 조사하여 국내 CBT 연구의 지식구조를 규명하는 데에 목적이 있다. 국내·외에서 수행된 CBT 연구를 비교하고자 '인지행동치료'에서 출판된 논문 234편(2008-2019)과 'Cognitive Therapy and Research'에서 출판된 논문 2,316편(1977-2019)이 수집되었다. 자료는 NetMiner 4.3 프로그램으로 분석되었으며 동시출현단어 분석은 코사인 유사도 행렬을 산출하고, 네트워크를 시각화하는 절차로 수행되었다. 본 연구의 결과로 국내 CBT연구자들의 주요 관심사가 식별되었고, 국내 CBT 지식구조는 9개의 연구영역으로 범주화되었다: '척도 타당화', '완벽주의와 속박감', '조현병 환자의 인지, 정서, 관계적 특성', '경계선 성격장애와 우울/양극성 장애 환자의 인지적 특성과 치료', '적응과 심리적 건강', '사회불안장애 환자의 인지적 특성과 치료', '우울의 원인과 공존이환', '수용전념치료', '폭식 장애 환자의 이해와 치료'. 본 연구는 지난 11년 동안 국내 CBT 분야에서 축적된 지식을 점검하였다는 데에 의의가 있으며 국내 CBT 연구의 향후 발전과제로 임상적 실천 표준을 제고하기 위한 연구가 필요하다고 제안한다.

텍스트 마이닝을 활용한 OTT 서비스 플랫폼별 사용자 반응 비교 연구 (Comparative Study of User Reactions in OTT Service Platforms Using Text Mining)

  • 권순찬;김지은;장백철
    • 인터넷정보학회논문지
    • /
    • 제25권3호
    • /
    • pp.43-54
    • /
    • 2024
  • 본 연구는 텍스트 마이닝 기법을 활용하여 다양한 OTT(Over-The-Top) 서비스 플랫폼에 대한 사용자 반응을 비교한다. 연구의 주요 목표는 OTT 서비스 플랫폼의 사용자 만족도를 파악하여 보다 효과적인 리뷰 전략을 수립하는 데 기여하는 것이다. 본 연구에서 다루는 주요 질문에는 다양한 OTT 서비스에 대한 사용자 리뷰에서 두드러진 토픽과 키워드를 식별하고 플랫폼별 사용자 반응을 이해하는 것이 포함된다. 이를 위해 긍정, 부정 리뷰에서 중요 단어를 추출하기 위해 Tf-idf를, 복잡한 사용자 리뷰를 보다 정교하고 포괄적으로 분석하기 위해 고급 토픽 모델링 기법인 BERTopic을 사용한다. Tf-idf 분석한 결과, 앱에 대한 긍정 리뷰는 콘텐츠와 관련된 단어들의 수치가 높았으며 부정 리뷰에서는 앱 사용 과정에서 발생할 수 있는 문제점에 관한 단어 수치가 높게 기록되었다. BERTopic을 활용한 토픽 모델링에서는 콘텐츠의 속성과 연관 지어 콘텐츠의 다양성, 앱 성능 요소, 결제, 호환성에 관한 키워드를 도출하였으며, 플랫폼 별로 두각을 보이는 속성이 다르다는 점도 확인하였다. 본 연구 결과는 사용자 행동과 선호도에 대한 중요한 인사이트를 제공하며, 이를 통해 OTT 서비스 제공업체는 사용자 경험과 만족도를 개선하는 데 활용할 수 있다. 또한, 연구자들은 사용자 리뷰 텍스트 분석에서 딥러닝 모델을 활용한 연구의 아이디어를 얻을 수 있을 것이라 기대한다.

DTW를 이용한 향상된 문맥 제시형 화자인식 (An Enhanced Text-Prompt Speaker Recognition Using DTW)

  • 신유식;서광석;김종교
    • 한국음향학회지
    • /
    • 제18권1호
    • /
    • pp.86-91
    • /
    • 1999
  • 본 연구에서는 문맥 종속 또는 문맥 독립형 화자 인식에서의 단점을 개선하는 방법으로 문맥 제시형 화자 인식 실험을 수행하였다. 화자 인식 알고리즘으로는 개선된 Dynamic Time Warping(DTW)을 사용하였고 실시간 처리를 위하여 전체 계산량을 증가시키지 않는 아주 간단한 끝점검출알고리즘을 사용하였으며, 여러 가지 다양한 특징 파라미터를 이용하여 인식실험을 행한 결과 weighted cepstrum을 이용했을 때 가장 좋은 인식성능을 얻을 수 있었다. 실험결과 세 개의 단어를 제시하였을 경우 화자식별오류는 0.02%를 보였고, 화자확인은 문턱값을 적절히 정했을 때 사용자 거부율 1.89%, 사칭자 허용률 0.77%, 총 확인 오류0.97%를 보였다.

  • PDF

기술 키워드 네트워크와 인지지도 분석을 통한 무인항공기 비행체산업의 유망기술 도출 연구 (Technology Keyword Network and Cognitive Map Analysis: to prospect promising technology of UAV(Unmanned Aerial Vehicle) airframe industry)

  • 주성현;하성호;박상현
    • 한국산업정보학회논문지
    • /
    • 제21권5호
    • /
    • pp.55-72
    • /
    • 2016
  • 본 연구는 국내 무인항공기산업과 같은 신성장동력산업의 국제적 기술 경쟁력 확보와 시장성 확보 및 산업성장이 가능한 미래유망 기술을 도출하는 방법론을 제시하는 것이다. 이에 본 연구는 KrKwic, Excel, NetMiner등의 분석 툴을 활용하여 무인항공기산업 분야의 특허데이터를 대상으로 동시출현 단어를 활용한 소셜네트워크분석과 하위그룹분석, 인지지도분석 방법을 제시하였다. 그 결과, '비행조정 기술', '피아식별 기술' 등은 향후 유망한 기술로 선정하여 집중 투자할 필요성이 큰 기술이라 볼 수 있었다.

클러스터링을 고려한 다차원척도법의 개선: 군집 지향 척도법 (Improved Multidimensional Scaling Techniques Considering Cluster Analysis: Cluster-oriented Scaling)

  • 이재윤
    • 정보관리학회지
    • /
    • 제29권2호
    • /
    • pp.45-70
    • /
    • 2012
  • 개체들 사이의 관계를 저차원 공간에 매핑하는 다차원척도법을 수행하기 위한 다양한 방법과 알고리즘이 개발되어왔다. 그러나 PROXSCAL이나 ALSCAL과 같은 기존의 기법들은 50개 이상의 개체를 포함하는 데이터 집합을 대상으로 개체 간의 관계와 군집 구조를 시각화하는데 있어서 효과적이지 못한 것으로 나타났다. 이 연구에서 제안하는 군집 지향 척도법 CLUSCAL(CLUster-oriented SCALing)은 기존 방법과 달리 입력되는 데이터의 군집 구조를 고려하도록 고안되었다. 50명의 저자동시인용 데이터와 85개 단어의 동시출현 데이터에 대해서 적용해본 결과 제안한 CLUSCAL 기법은 군집 구조를 잘 식별할 수 있는 MDS 지도를 생성하는 유용한 기법임이 확인되었다.

Continual learning을 이용한 한국어 상호참조해결의 도메인 적응 (Domain adaptation of Korean coreference resolution using continual learning)

  • 최요한;조경빈;이창기;류지희;임준호
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.320-323
    • /
    • 2022
  • 상호참조해결은 문서에서 명사, 대명사, 명사구 등의 멘션 후보를 식별하고 동일한 개체를 의미하는 멘션들을 찾아 그룹화하는 태스크이다. 딥러닝 기반의 한국어 상호참조해결 연구들에서는 BERT를 이용하여 단어의 문맥 표현을 얻은 후 멘션 탐지와 상호참조해결을 동시에 수행하는 End-to-End 모델이 주로 연구가 되었으며, 최근에는 스팬 표현을 사용하지 않고 시작과 끝 표현식을 통해 상호참조해결을 빠르게 수행하는 Start-to-End 방식의 한국어 상호참조해결 모델이 연구되었다. 최근에 한국어 상호참조해결을 위해 구축된 ETRI 데이터셋은 WIKI, QA, CONVERSATION 등 다양한 도메인으로 이루어져 있으며, 신규 도메인의 데이터가 추가될 경우 신규 데이터가 추가된 전체 학습데이터로 모델을 다시 학습해야 하며, 이때 많은 시간이 걸리는 문제가 있다. 본 논문에서는 이러한 상호참조해결 모델의 도메인 적응에 Continual learning을 적용해 각기 다른 도메인의 데이터로 모델을 학습 시킬 때 이전에 학습했던 정보를 망각하는 Catastrophic forgetting 현상을 억제할 수 있음을 보인다. 또한, Continual learning의 성능 향상을 위해 2가지 Transfer Techniques을 함께 적용한 실험을 진행한다. 실험 결과, 본 논문에서 제안한 모델이 베이스라인 모델보다 개발 셋에서 3.6%p, 테스트 셋에서 2.1%p의 성능 향상을 보였다.

  • PDF