• 제목/요약/키워드: word extraction

검색결과 231건 처리시간 0.032초

비정형 Security Intelligence Report의 정형 정보 자동 추출 (An Automatically Extracting Formal Information from Unstructured Security Intelligence Report)

  • 허윤아;이찬희;김경민;조재춘;임희석
    • 디지털융복합연구
    • /
    • 제17권11호
    • /
    • pp.233-240
    • /
    • 2019
  • 사이버 공격을 예측하고 대응하기 위해서 수많은 보안 기업 회사에서는 공격기법의 특성, 수법 유형을 빠르게 파악하고, 이에 대한 Security Intelligence Report(SIR)들을 배포한다. 하지만 각 기업에서 배포하는 SIR들은 방대하며, 형식이 맞춰져 있지 않다. 본 논문은 대량의 비정형한 SIR들에서 정보를 추출하는데 소요되는 시간을 줄이고 효율적으로 파악하기 위해 SIR들에 대해 정형화하고 주요 정보를 추출하기 위해 5가지 분석기술이 적용된 프레임워크를 제안한다. SIR들의 데이터는 정답 라벨이 없기 때문에 비지도 학습방식을 통해 키워드 추출, 토픽 모델링, 문서 요약, 유사문서 검색 총 4가지 분석기술을 제안한다. 마지막으로 SIR들에서 위협 정보 추출하기 위해 데이터를 구축하였으며, 개체명 인식 기술에 적용하여 IP, Domain/URL, Hash, Malware에 속하는 단어를 인식하고 그 단어가 어떤 유형에 속하는지 판단하는 분석기술을 포함한 총 5가지 분석기술이 적용된 프레임워크를 제안한다.

Improvement of recommendation system using attribute-based opinion mining of online customer reviews

  • Misun Lee;Hyunchul Ahn
    • 한국컴퓨터정보학회논문지
    • /
    • 제28권12호
    • /
    • pp.259-266
    • /
    • 2023
  • 본 논문에서는 속성기반 오피니언 마이닝(ABOM)을 적용한 협업 필터링의 정확도 성능을 개선할 수 있는 알고리즘을 제안한다. 실험을 위해 국내 스마트폰 사용자의 스마트폰 앱에 대한 총 1,227건의 온라인 소비자 리뷰 데이터가 분석에 사용되었다. KKMA(꼬꼬마)분석기를 이용하여 형태소 분석 및 KOSAC를 사용하여 감성어 분석 후 LDA 토픽 모델링을 사용하여 속성 추출한 가중치 값을 부여한 리뷰별로 토픽 모델링 결과를 이용하여 협업필터링의 평점과 감성스코어의 평점을 합산한 평균값 정확도 오차를 계산한 통계모형 성능 평가인 MAE, MAPE, RMSE를 사용하였다. 실험을 통해 추천 알고리즘 중 전통적인 협업필터링과 LDA 속성 추출과 감성분석을 결합한 속성기반 오피니언 마이닝(Aspect-Based Opinion Mining, ABOM) 기법을 결합하여 온라인 고객의 앱 평점(APP_Score) 대한 정확도를 예측하였다. 분석 결과 전통적인 협업필터링을 구현한 평점의 정확도 보다 속성기반 오피니언 마이닝 CF를 적용한 평점의 예측 정확도가 더 우수한 것으로 나타났다.

디지털 텍스트의 음절을 이용한 운율 정보 시각화에 관한 연구 (A Study on Rhythm Information Visualization Using Syllable of Digital Text)

  • 박선희;이재중;박진완
    • 한국콘텐츠학회:학술대회논문집
    • /
    • 한국콘텐츠학회 2009년도 춘계 종합학술대회 논문집
    • /
    • pp.120-126
    • /
    • 2009
  • 정보화 시대가 빠르게 성장하면서 디지털 텍스트의 양도 증가하고 있다. 이에 따라 수많은 디지털 텍스트를 파악하기 위한 시각화 사례가 증가하고 있다. 기존의 디지털 텍스트 시각화 디자인은 스태밍 알고리즘(stemming algorithm)의 도입과 단어 빈도수를 추출하여 주제어를 형상화하여 텍스트의 의미를 부각시키고 문장과 문장을 연결해주는 것에 치중하고 있다. 이에 디지털 텍스트의 정서적인 느낌을 시각화할 수 있는 운율을 표현하는 것에 있어서 미흡했던 부분이 사실이다. 운율을 보다 효과적으로 표현할 수 있는 음운단위로는 음절을 들 수 있다. 문장에서 음절은 단어나 구, 문장의 발음에 가장 기본적인 발음 단위가 된다. 이를 기본으로 강세, 성조, 운율 요소들의 길이 등이 음절에 기반을 두고 있다. 음절을 정의하는 것과 가장 밀접한 연관이 있는 공명도(sonority)는 발화할 때 폐의 공기 흐름과 운동 에너지(Kinetic energy)를 공명도로 명시되는 음향에너지(acoustic energy)로 표현한 것이다. 본 연구는 이러한 관점에서 디지털 텍스트의 속성인 음절을 기반으로 음운론적 정의와 특성을 살펴보고 운율을 다이어그램을 통해 시각화하기 위한 방법을 연구한다. 실험을 통해 디지털 텍스트를 발음기호로 변환한 후, 모든 언어속의 리듬에서 출발된 음절의 공명도를 사용하고 디지털 텍스트를 음절화하여 운율 정보를 이미지로 시각화한다. 운율 정보를 시각화함으로써 디지털 텍스트의 음절 정보를 알 수 있고, 디지털 텍스트의 정서를 다이어그램을 통해 체계적인 공식에 의하여 사용자의 이해를 돕도록 표현한다. 이에 해당 텍스트의 운율을 보다 쉽게 파악하도록 설계하여 디지털 정보 시각화를 구현하는데 그 목적을 두고 있다.

  • PDF

Word2Vec 기반의 의미적 유사도를 고려한 웹사이트 키워드 선택 기법 (Web Site Keyword Selection Method by Considering Semantic Similarity Based on Word2Vec)

  • 이동훈;김관호
    • 한국전자거래학회지
    • /
    • 제23권2호
    • /
    • pp.83-96
    • /
    • 2018
  • 문서를 대표하는 키워드를 추출하는 것은 문서의 정보를 빠르게 전달할 수 있을 뿐만 아니라 문서의 검색, 분류, 추천시스템 등의 자동화서비스에 유용하게 사용 될 수 있어 매우 중요하다. 그러나 웹사이트 문서에서 출현하는 단어의 빈도수, 단어의 동시출현관계를 통한 그래프 알고리즘 등의 기반으로 키워드를 추출할 경우 웹페이지 구조상 잠재적으로 주제와 관련이 없는 다양한 단어를 포함하고 있는 문제점과 한국어 형태소 분석의 정확성이 떨어지는 형태소 분석기 성능의 한계점 때문에 의미적인 키워드를 추출하는데 어려움이 존재한다. 따라서 본 논문에서는 의미적 단어 위주로 구축된 후보키워드들의 집합과 의미적 유사도 기반의 후보 키워드를 선택하는 방법으로써 의미적 키워드를 추출하지 못하는 문제점과 형태소 분석의 정확성이 떨어지는 문제점을 해결하고 일관성 없는 키워드를 제거하는 필터링 과정을 통해 최종 의미적 키워드를 추출하는 기법을 제안한다. 실 중소기업 웹페이지를 통한 실험 결과, 본 연구에서 제안한 기법의 성능이 통계적 유사도 기반의 키워드 선택기법보다 34.52% 향상된 것을 확인하였다. 따라서 단어 간의 의미적 유사성을 고려하고 일관성 없는 키워드를 제거함으로써 문서에서 키워드를 추출하는 성능을 향상시켰음을 확인하였다.

대화형 에이전트 인식오류 및 신조어 탐지를 위한 알고리즘 개발: 한글 음절 분리 기반의 단어 유사도 활용 (Developing a New Algorithm for Conversational Agent to Detect Recognition Error and Neologism Meaning: Utilizing Korean Syllable-based Word Similarity)

  • 이정원;임일
    • 지능정보연구
    • /
    • 제29권3호
    • /
    • pp.267-286
    • /
    • 2023
  • 인공지능 스피커로 대표되는 대화형 에이전트는 사람-컴퓨터 간 대화형이기 때문에 대화 상황에서 오류가 발생하는 경우가 잦다. 에이전트 사용자의 발화 기록에서 인식오류는 사용자의 발화를 제대로 인식하지 못하는 미인식오류 유형과 발화를 인식하여 서비스를 제공하였으나 사용자가 의도한 바와 다르게 인식된 오인식오류 유형으로 나뉜다. 이 중 오인식오류의 경우, 서비스가 제공된 것으로 기록되기 때문에 이에 대한 오류 탐지가 별도로 필요하다. 본 연구에서는 텍스트 마이닝 기법 중에서도 단어와 문서를 벡터로 바꿔주는 단어 임베딩과 문서 임베딩을 이용하여 단순 사용된 단어 기반의 유사도 산출이 아닌 단어의 분리 방식을 다양하게 적용함으로써 연속 발화 쌍의 유사도를 기반으로 새로운 오인식오류 및 신조어 탐지 방법을 탐구하였다. 연구 방법으로는 실제 사용자 발화 기록을 활용하여 오인식오류의 패턴을 모델 학습 및 생성 시 적용하여 탐지 모델을 구현하였다. 그 결과, 오인식오류의 가장 큰 원인인 등록되지 않은 신조어 사용을 탐지할 수 있는 패턴 방식으로 다양한 단어 분리 방식 중 초성 추출 방식이 가장 좋은 결과를 보임을 확인하였다. 본 연구는 크게 두 개의 함의를 가진다. 첫째, 인식오류로 기록되지 않아 탐지가 어려운 오인식오류에 대하여 다양한 방식 별 비교를 통해 최적의 방식을 찾았다. 둘째, 이를 실제 신조어 탐지 적용이 필요한 대화형 에이전트나 음성 인식 서비스에 적용한다면 음성 인식 단계에서부터 발생하는 오류의 패턴도 구체화할 수 있으며, 오류로 분류되지 않더라도 사용자가 원하는 결과에 맞는 서비스가 제공될 수 있음을 보였다.

그래프 구조를 이용한 카테고리 구조로부터 상하위 관계 추출 (Graph-based ISA/instanceOf Relation Extraction from Category Structure)

  • 최동현;최기선
    • 한국정보과학회논문지:소프트웨어및응용
    • /
    • 제37권6호
    • /
    • pp.464-469
    • /
    • 2010
  • 상하위 관계 자동 추출은 분류체계를 자동 구축하는 데 있어서 핵심적인 내용이며, 이렇게 자동으로 구축된 분류 체계는 정보 추출과 같은 여러 가지 분야에 있어서 중요하게 사용된다. 본 논문에서는 카테고리 구조로부터 상하위 관계를 추출하는 방식에 대하여 제안한다. 본 논문에서는 판별하고자 하는 카테고리 구조뿐만이 아닌, 그와 관련된 다른 카테고리 구조까지 고려하여 카테고리 이름에 나타난 토큰들간의 수식 그래프를 구축한 후, 그래프 분석 알고리즘을 통하여 각 카테고리 구조가 상하위 관계일 가능성에 대한 점수를 매긴다. 실험 결과, 본 알고리즘은 기존의 연구로 상하위 관계임을 판별할 수 없었던 일부 카테고리 구조에 대하여 성공적으로 상하위 관계인지를 판별하였다.

지역이미지 감성어휘 추출을 통한 효과적인 지방자치단체 홍보영상제작에 관한 연구 (The Study of making Visual Media for Public Relations by the Extraction of Emotional vocabulary from City Images)

  • 원강식;조동민
    • 디지털융복합연구
    • /
    • 제10권10호
    • /
    • pp.475-482
    • /
    • 2012
  • 지방자치시대에 모든 지방자치단체들은 본인들의 지방정부를 좋은 이미지로 알려 관광이나 경제통상에 이득이 되도록 노력하고 있기 때문에 지역이미지가 조각된 홍보영상은 중요하고 필요하다. 따라서 본 연구는 지역이미지와 시정홍보영상 이미지간의 관계를 알아보고 효과적인 시정홍보영상제작을 위한 기초자료를 제공하고자 한다. 평소 지역에 대해 가지고 있는 이미지를 감성어휘로 추출하여 시정홍보영상 이미지에도 동일한 감성어휘가 들어가 있는지와 홍보영상이미지에서의 이미지 어휘에 대한 평균값이 상승 혹은 하락을 하였는지를 조사하여 지역이미지가 긍정적으로 투영된 시정홍보영상 이미지 제작을 해야 한다는 것을 알 수 있었다.

Improved Disparity Map Computation on Stereoscopic Streaming Video with Multi-core Parallel Implementation

  • Kim, Cheong Ghil;Choi, Yong Soo
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제9권2호
    • /
    • pp.728-741
    • /
    • 2015
  • Stereo vision has become an important technical issue in the field of 3D imaging, machine vision, robotics, image analysis, and so on. The depth map extraction from stereo video is a key technology of stereoscopic 3D video requiring stereo correspondence algorithms. This is the matching process of the similarity measure for each disparity value, followed by an aggregation and optimization step. Since it requires a lot of computational power, there are significant speed-performance advantages when exploiting parallel processing available on processors. In this situation, multi-core CPU may allow many parallel programming technologies to be realized in users computing devices. This paper proposes parallel implementations for calculating disparity map using a shared memory programming and exploiting the streaming SIMD extension technology. By doing so, we can take advantage both of the hardware and software features of multi-core processor. For the performance evaluation, we implemented a parallel SAD algorithm with OpenMP and SSE2. Their processing speeds are compared with non parallel version on stereoscopic streaming video. The experimental results show that both technologies have a significant effect on the performance and achieve great improvements on processing speed.

사용자 프로파일을 이용한 웹 기반 비디오 학습 평가 시스템의 구현 (Implementation of Web Based Video Learning Evaluation System Using User Profiles)

  • 신성윤;강일고;이양원
    • 한국컴퓨터정보학회논문지
    • /
    • 제10권6호
    • /
    • pp.137-152
    • /
    • 2005
  • 본 논문에서는 사용자 프로파일을 기반으로 한 정보 필터링을 사용하여 개개인의 학생들에게 맞는 효율적인 웹 기반 비디오 학습 평가 시스템을 제시한다. 비디오 기반 문제들이 주어지면, 키 프레임들은 위치, 크기, 그리고 컬러 정보를 기반으로 추출되고, 문제 출제 구간은 시간 윈도우와 그레이-레벨 히스토그램의 차이에 의해 추출된다 게다가, 카테고리-기반 시스템과 키워드 기반 시스템을 합성하여 문제 출제가 효율적인 평가를 확실해 하도록 주어진다. 따라서 학생들은 관심 영역을 유지하면서 부족한 영역을 보충함으로서 학업 성취도를 향상시킬 수 있다.

  • PDF

문단 가중치 분석 기반 본문 영역 선정 알고리즘 (Keyword Weight based Paragraph Extraction Algorithm)

  • 이종원;유성종;김도안;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2018년도 춘계학술대회
    • /
    • pp.462-463
    • /
    • 2018
  • 기존의 문서 분석 시스템들은 형태소 분석기나 TF-IDF 기법을 통해 단어 위주의 분석을 진행하였다. 이러한 시스템들은 키워드들의 가중치를 계산하여 주요 키워드를 도출할 수 있는 장점이 있다. 이에 반해 문서의 내용을 분석하기에는 구조적인 한계로 인해 부적합한 실정이다. 이를 해결하기 위해 본 논문에서 제안하는 알고리즘은 문서 내에 있는 문단들의 가중치를 계산한 뒤 문단들을 영역별로 분할한다. 그리고 분할된 영역별로 중요도를 계산하여 해당 문서 내에 가장 중요한 문단들이 있는 영역을 사용자에게 알려준다. 이를 통해 사용자는 기존의 문서 분석 시스템들을 사용할 때보다 문서를 분석하기에 적합한 서비스를 제공받을 것으로 사료된다.

  • PDF