• 제목/요약/키워드: 텍스트형

검색결과 427건 처리시간 0.023초

은닉형 Vault 안티포렌식 앱 탐색을 위한 XML 기반 특징점 추출 방법론 연구 (A Study on the Feature Point Extraction Methodology based on XML for Searching Hidden Vault Anti-Forensics Apps)

  • 김대규;김창수
    • 인터넷정보학회논문지
    • /
    • 제23권2호
    • /
    • pp.61-70
    • /
    • 2022
  • 스마트폰 앱을 사용하는 일반 사용자들은 개인이 소유하고 있는 사진, 동영상 등 개인정보를 보호하기 위해 Vault 앱을 많이 사용하고 있다. 그러나 범죄자들은 불법 영상들을 은닉하기 위해 Vault 앱 기능을 안티포렌식 용도로 악용하는 사례가 증가하고 있다. 이러한 앱들은 구글 플레이에 정상적으로 등록된 매우 많은 앱들 중 하나이다. 본 연구는 범죄자들이 이용하고 있는 Vault 앱들을 탐색하기 위해 XML 기반의 핵심어 빈도 분석을 통해 특징점을 추출하는 방법론을 제안하며, 특징점 추출을 위해서는 텍스트마이닝 기법을 적용한다. 본 연구에서는 은닉형 Vault 안티포렌식 앱과 비은닉형 Vault 앱 각각 15개를 대상으로 앱에 포함된 strings.xml 파일을 활용하여 XML 구문을 비교 분석하였다. 은닉형 Vault 안티포렌식 앱에서는 불용어처리를 1차, 2차 거듭할수록 더 많은 은닉 관련 단어가 높은 빈도로 발견된다. 본 연구는 공학 기술적인 관점에서 APK 파일을 정적 분석하는 대부분의 기존 방식과는 다르게 인문사회학적인 관점에서 접근하여 안티포렌식 앱을 분류해내는 특징점을 찾아내었다는 것에 의의가 있다. 결론적으로 XML 구문 분석을 통해 텍스트마이닝 기법을 적용하면 은닉형 Vault 안티포렌식 앱을 탐색하기 위한 기초 자료로 활용할 수 있다.

텍스트 마이닝 통합 애플리케이션 개발: KoALA (Application Development for Text Mining: KoALA)

  • 전병진;최윤진;김희웅
    • 경영정보학연구
    • /
    • 제21권2호
    • /
    • pp.117-137
    • /
    • 2019
  • 빅데이터 시대를 맞아 다양한 도메인에서 수없이 많은 데이터들이 생산되면서 데이터 사이언스가 대중화 되었고, 데이터의 힘이 곧 경쟁력인 시대가 되었다. 특히 전 세계 데이터의 80% 이상을 차지하는 비정형 데이터에 대한 관심이 부각되고 있다. 소셜 미디어의 발전과 더불어 비정형 데이터의 대부분은 텍스트 데이터의 형태로 발생하고 있으며, 마케팅, 금융, 유통 등 다양한 분야에서 중요한 역할을 하고 있다. 하지만 이러한 소셜 미디어를 활용한 텍스트 마이닝은 수치형 데이터를 활용한 데이터 마이닝 분야에 비해 접근이 어렵고 복잡해 기대에 비해 그 활용도가 높지 못한 실정이다. 이에 본 연구는 프로그래밍 언어나 고사양 하드웨어나 솔루션에 의존하지 않고, 쉽고 간편한 소셜 미디어 텍스트 마이닝을 위한 통합 애플리케이션으로 Korean Natural Language Application(KoALA)을 개발하고자 한다. KoALA는 소셜 미디어 텍스트 마이닝에 특화된 애플리케이션으로, 한글, 영문을 가리지 않고 분석 가능한 통합 애플리케이션이다. 데이터 수집에서 전처리, 분석, 그리고 시각화에 이르는 전 과정을 처리해준다. 본 논문에서는 디자인 사이언스(design science) 방법론을 활용해 KoALA 애플리케이션을 디자인, 구현, 적용하는 과정에 대해서 다룬다. 마지막으로 블록체인 비즈니스 관련 사례를 들어 KoALA의 실제 활용방안에 대해서 다룬다. 본 논문을 통해 소셜 미디어 텍스트 마이닝의 대중화와 다양한 도메인에서 텍스트 마이닝의 실무적, 학술적 활용을 기대해 본다.

소셜미디어 및 면접 영상 분석 기반 온라인 채용지원시스템 프로토타입 설계 및 구현 (Prototype Design and Development of Online Recruitment System Based on Social Media and Video Interview Analysis)

  • 조진형;강환수;유우창;박규태
    • 디지털융복합연구
    • /
    • 제19권3호
    • /
    • pp.203-209
    • /
    • 2021
  • 본 연구에서는 구직자의 채용지원 서류에 대한 진정성 검증 및 잠재 직무역량과 성향에 대한 정보여과 기능을 기반으로 효과적인 원격 채용 및 적정한 업무배치 의사결정을 지원할 수 있는 온라인 채용지원시스템 프로토타입 설계 및 구현 사례를 제안하고자 하였다. 이를 위해 구직자의 공개된 소셜미디어 정보에 대해 다차원적으로 자동 크롤링 및 분석하는 기능을 접목하여 구직자의 성향과 직무역량 정보를 도출하고, 텍스트마이닝 기법을 적용하여 채용지원 서류에 표현된 텍스트 정보 및 면접 영상 정보에 대한 지능적인 분석기능이 포함된 시스템 모델을 제안하였다. 제안하는 채용지원시스템의 효용성 검증을 위하여 프로토타입을 기반으로 주요 성능지표인 텍스트마이닝 정확도 및 면접 음성문자변환 기능 인식률 등에 대한 성능평가 실험을 진행하고 결과를 분석하였다. 제안하는 시스템은 효율적인 맞춤형 채용지원 기능이 가능하도록 지능형 웹/앱 개발에 필요한 요소기술을 융합하여 설계하였으며, 도출된 설계 사양 및 프로토타입 개발 결과를 바탕으로 상용화 구현이 된다면 인재 채용시장에서 필요한 지능형 온라인 채용시스템 기술로 확대 활용이 기대될 수 있다.

생성형 대규모 언어 모델과 프롬프트 엔지니어링을 통한 한국어 텍스트 기반 정보 추출 데이터셋 구축 방법 (A Study on Dataset Generation Method for Korean Language Information Extraction from Generative Large Language Model and Prompt Engineering)

  • 정영상;지승현;권다롱새
    • 정보처리학회논문지:소프트웨어 및 데이터공학
    • /
    • 제12권11호
    • /
    • pp.481-492
    • /
    • 2023
  • 본 연구는 생성형 대규모 언어 모델을 활용하여 텍스트에서 정보를 추출하기 위한 한글 데이터셋 구축 방법을 탐구한다. 현대 사회에서는 혼합된 정보가 빠르게 유포되며, 이를 효과적으로 분류하고 추출하는 것은 의사결정 과정에 중요하다. 그러나 이에 대한 학습용 한국어 데이터셋은 아직 부족하다. 이를 극복하기 위해, 본 연구는 생성형 대규모 언어 모델을 사용하여 텍스트 기반 제로샷 학습(zero-shot learning)을 이용한 정보 추출을 시도하며, 이를 통해 목적에 맞는 한국어 데이터셋을 구축한다. 본 연구에서는 시스템-지침-소스입력-출력형식의 프롬프트 엔지니어링을 통해 언어 모델이 원하는 결과를 출력하도록 지시하며, 입력 문장을 통해 언어 모델의 In-Context Learning 특성을 활용하여 데이터셋을 구축한다. 생성된 데이터셋을 기존 데이터셋과 비교하여 본 연구 방법론을 검증하며, 관계 정보 추출 작업의 경우 KLUE-RoBERTa-large 모델 대비 25.47% 더 높은 성능을 달성했다. 이 연구 결과는 한국어 텍스트에서 지식 요소를 추출하는 가능성을 제시함으로써 인공지능 연구에 도움을 줄 것으로 기대된다. 더욱이, 이 방법론은 다양한 분야나 목적에 맞게 활용될 수 있어, 다양한 한국어 데이터셋 구축에 잠재력을 가진다고 볼 수 있다.

데이터분석을 이용한 서술형 강의평가 연구 (A Study on the Data Analysis of the Written Comments in Lecture Evaluation)

  • 최정웅;안동규
    • 디지털융복합연구
    • /
    • 제14권11호
    • /
    • pp.101-106
    • /
    • 2016
  • 대학 교육현장에서 강의와 관련한 수많은 비정형화된 데이터가 생산되고 있는데 그중 관심 있게 볼 부분은 학생들의 서술형 강의평가이며, 본 논문에서는 대학에서 시행하는 서술형 강의평가를 활용하여 분석하였다. 분석방법으로 먼저 학기가 끝난 후 수행된 강의평가에서 동일학과 유사과목을 강의했던 교수자 2인을 선택하고 학생들이 평가한 서술형 강의평가 내용에서 기존 문헌연구를 통해 얻은 학습자 상호작용과 관련한 키워드를 추출하고 이를 코사인유사도 분석을 이용해 상호작용 점수를 도출한 후 기존의 5점척도 강의평가 점수와 비교하였다. 분석을 위해 텍스트 마이닝 기법을 활용하였으며 분석결과 수업에서 필요한 학습자 상호작용은 주로 흥미, 기회, 열정, 재미, 참여, 유익, 친절 등으로 나타났다. 기존의 5점 척도 강의평가 점수와 새롭게 도출한 서술형 강의평가 점수를 비교했을 때 유사한 것으로 나타났으며 특히, 상호작용이 높을수록 더 높은 점수가 나타났다. 본 연구에서는 상호작용점수라는 새로운 지표를 만들었고 이에 대한 가능성을 확인하였다. 향후 학과단위 또는 학교단위의 데이터분석을 통해 정성적, 정량적 강의평가 지표를 개발함으로써 기존의 평가방식을 개선할 필요가 있다.

수행을 위한 쓰기 과제의 구성요소를 기반으로 한 통합형 한국어교재 분석 (Analysis of Integrated Korean Textbooks Based on the Components of Writing Tasks for Performance)

  • 박은하
    • 한국콘텐츠학회논문지
    • /
    • 제19권4호
    • /
    • pp.197-206
    • /
    • 2019
  • 본 연구는 일반 목적의 한국어교육에서 쓰기 능력을 배양하기 위해 제시되는 쓰기 과제가 학습자들이 성공적으로 수행할 수 있도록 구성되어 있는지를 통합형 한국어교재를 분석함으로써 논의하고자 하였다. 우선, 선행 연구에서 언급한 쓰기 과제의 개념 및 구성요소를 바탕으로 쓰기 과제의 구성요소를 정립하고 이 설정한 쓰기 과제의 구성요소를 가지고 연구 대상인 통합형 한국어교재를 분석하였다. 분석 결과, 쓰기과제의 유형에서 '자유 작문'과 '모방해서 쓰기'가 가장 높은 분포를 보였고 교재에서 공통적으로 다루는 주제는 21개 정도였다. 지시 내용의 대다수가 한 두 문장의 지시문으로 지시사항을 진술하는데 대부분이 주제 및 장르만을 제공하고 있으며 글의 목적, 형식, 분량, 시간 등은 제시되어 있지 않았다. 읽기 텍스트의 유형은 정보 전달의 목적을 가지는 설명문의 텍스트가 가장 많았고 평가 준거와 기타 요소에서 채점 기준과 시간은 전혀 제시되지 않고 있었다. 고급수준의 쓰기 과제에서는 글의 분량, 형식 등이 그나마 제시되는 편이나 초급과 중급에서는 이것조차 거의 나타나지 않았다. 이처럼 통합형 한국어교재에는 쓰기 과제의 구성요소가 고루 갖추어지지 않은 채 학습자들에게 제시되고 있음을 알 수 있었다.

'과학동아' 지구과학 기사의 언어적 특성으로 본 과학 잡지의 과학 대중화 기제 (Science Popularizing Mechanism of a Science Magazine in terms of the Linguistic Features of Earth Science Articles in 'Science Donga')

  • 함석진;맹승호;김찬종
    • 한국지구과학회지
    • /
    • 제31권1호
    • /
    • pp.51-62
    • /
    • 2010
  • 과학 잡지가 과학자와 일반인 사이의 접점 역할을 수행하며 과학의 대중화에 기여할 수 있게 해 주는 기제를 과학 잡지 텍스트의 언어적 특성에서 찾기 위하여 과학 동아에 수록된 지구과학 관련 기사 12편을 선정하였다. 선정된 과학 잡지 텍스트의 언어적 특성을 규명하기 위하여 레지스터 분석을 실시하였다. 연구 결과, 1) 기자가 쓴 글은 과학자의 사유와 대화를 표현하는 인식적 술어와 발화적 술어의 비율이 높았다. 2) 기자의 글에는 문장의 주체가 사람으로 드러나는 비율이 높지만 과학자의 글에는 사람은 거의 드러나지 않으며 주체가 생략된 경우도 많았다. 3) 과학자의 글은 대부분 평서형 서법을 사용하지만, 기자가 쓴 글에서는 의문형과 청유형 서법, 생략 등의 비평서형 문장이 많았다. 4) 문장 속에 포함된 절의 밀도는 기자의 글이나 과학자의 글 모두 비슷하였다. 5) 정보의 구조 또한, 기자의 글은 단순한 정보의 발전 형태를 띠었고, 과학자의 글은 그에 비해 다소 복잡한 정보 구조를 나타내었다. 과학 잡지 텍스트의 언어적 특징을 통해 과학 잡지는 기자의 글을 통해 어려운 과학 내용을 쉽고 친숙한 텍스트로 제시함으로써 과학의 대중화에 기여할 뿐 아니라, 과학자가 쓴 순화된 과학 텍스트를 통해 일반인들을 과학의 언어라는 과학의 문화에 친숙하게 함으로써 과학의 대중화에 기여하게 됨을 밝혀 내었다.

'미술'과 '언어' 활동 융합형의 아동 발달지원 교육 프레임워크 개발을 위한 탐색적 연구: 텍스트 마이닝을 중심으로 (An exploratory study for the development of a education framework for supporting children's development in the convergence of "art activity" and "language activity": Focused on Text mining method)

  • 박윤미;김시정
    • 한국융합학회논문지
    • /
    • 제12권3호
    • /
    • pp.297-304
    • /
    • 2021
  • 이 연구는 학령기 아동의 발달지원을 위하여 기존의 미술 치료 및 교육에서 시행되어 온 시각적 사고 중심의 접근에 더하여, 언어 교육 및 치료적 접근을 융합하고자 한 것이다. 이에 언어와 미술의 서로 다른 영역의 융합 가능 영역을 탐색하기 위하여 텍스트 마이닝 기법을 적용하였다. 이에 따라 이 연구는 기초 연구, 예비 DB구축, 텍스트 선별, DB 전 처리 및 확정, 불용어 처리, 텍스트 마이닝 분석 및 융합 가능 역 도출'의 절차에 따라 연구를 진행하였다. 연구 결과, 미술 치료 및 교육과 언어 치료 및 교육 분야에서 나타나는 문헌상의 각 군집을 연계하여 의사소통 및 학습 기능, 문제해결 및 감각 기관, 예술 및 지능, 정보와 의사소통, 가정 및 장애, 주제와 개념화 및 또래, 통합과 재구성 및 태도 등과 관련된 융합역을 도출할 수 있었다. 결론적으로 본 연구를 통하여 향후 미술과 언어의 활동 중심 융합형 프로그램을 설계할 수 있는 프레임워크를 마련하고 아동발달 지원을 위한 총체적 접근을 시도하였다는 점에서 연구의 의의가 있다.

상호대화형 오디오비주얼 서비스의 표준화 현황과 전망 (Scope and Status of Audio Visual Interactive Services Standardization)

  • 현동환;이부호
    • 전자통신동향분석
    • /
    • 제9권3호
    • /
    • pp.97-102
    • /
    • 1994
  • 상호대화형 오디오비주얼 서비스는 텍스트, 도형, 사진, 오디오, 비디오 등과 같은 다양한 형태의 표현 요소로 구성되는 입출력 정보를 사용자의 단말이나 워크스테이션에 제공하는 서비스이다. 이러한 기능의 범위는 간단한 검색에서부터 상호대화적인 문의, 구성요소들의 재배치, 그들 요소들의 수정등의 서비스를 사용자에게 제공 할 수 있다. 이와 관련하여 ITU-T SG8/Q.11에서는 AVI 서비스를 위해 요구되는, 시스템, 데이터 교환형식, 그리고 프로토콜과 같은 일련의 기술적 사항을 표준화하는 작업을 하고 있다. 본고에서는 AVI 서비스의 기술적인 사항에 대하여 논하고, 현재 진행되고 있는 표준화 동향에 대하여 알아본다.

SIP기반 영상통화에서 지능형AR 융합 연구 (A Study for Supporting a Intelligent AR in a SIP-based Video Communication)

  • 장성봉
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2019년도 춘계학술발표대회
    • /
    • pp.7-8
    • /
    • 2019
  • 본 논문에서는 SIP프로토콜에 기반한 영상통화에서 지능형 AR기법을 지원하기 위한 방법에 대해서 서술 한다. 기존의 영상통화에서는 주위에 사물을 실시간 촬영하여, 바로 보낼수 있는 기능이 없었다. 휴대폰에서 AR기능은 주로 위치 서비스에 기반한 길찾기나 건물 내부의 모습을 자동으로 보여주는 용도로 많이 사용되었다. 본 연구에서는 지능형 AR을 이용하여 SIP기반 휴대폰 영상통화 도중 상대방에서 필요한 텍스트나 이미지를 자동으로 전달할 수 있는 방법을 제시함으로써, 사용자 휴대폰의 편의성을 높이고자 한다.