• 제목/요약/키워드: Sentence Compression

검색결과 19건 처리시간 0.025초

An Efficient Machine Learning-based Text Summarization in the Malayalam Language

  • P Haroon, Rosna;Gafur M, Abdul;Nisha U, Barakkath
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권6호
    • /
    • pp.1778-1799
    • /
    • 2022
  • Automatic text summarization is a procedure that packs enormous content into a more limited book that incorporates significant data. Malayalam is one of the toughest languages utilized in certain areas of India, most normally in Kerala and in Lakshadweep. Natural language processing in the Malayalam language is relatively low due to the complexity of the language as well as the scarcity of available resources. In this paper, a way is proposed to deal with the text summarization process in Malayalam documents by training a model based on the Support Vector Machine classification algorithm. Different features of the text are taken into account for training the machine so that the system can output the most important data from the input text. The classifier can classify the most important, important, average, and least significant sentences into separate classes and based on this, the machine will be able to create a summary of the input document. The user can select a compression ratio so that the system will output that much fraction of the summary. The model performance is measured by using different genres of Malayalam documents as well as documents from the same domain. The model is evaluated by considering content evaluation measures precision, recall, F score, and relative utility. Obtained precision and recall value shows that the model is trustable and found to be more relevant compared to the other summarizers.

저성능 자원에서 멀티 에이전트 운영을 위한 의도 분류 모델 경량화 (Compressing intent classification model for multi-agent in low-resource devices)

  • 윤용선;강진범
    • 지능정보연구
    • /
    • 제28권3호
    • /
    • pp.45-55
    • /
    • 2022
  • 최근 자연어 처리 분야에서 대규모 사전학습 언어모델(Large-scale pretrained language model, LPLM)이 발전함에 따라 이를 미세조정(Fine-tuning)한 의도 분류 모델의 성능도 개선되었다. 하지만 실시간 응답을 요하는 대화 시스템에서 대규모 모델을 미세조정하는 방법은 많은 운영 비용을 필요로 한다. 이를 해결하기 위해 본 연구는 저성능 자원에서도 멀티에이전트 운영이 가능한 의도 분류 모델 경량화 방법을 제안한다. 제안 방법은 경량화된 문장 인코더를 학습하는 과제 독립적(Task-agnostic) 단계와 경량화된 문장 인코더에 어답터(Adapter)를 부착하여 의도 분류 모델을 학습하는 과제 특화적(Task-specific) 단계로 구성된다. 다양한 도메인의 의도 분류 데이터셋으로 진행한 실험을 통해 제안 방법의 효과성을 입증하였다.

한국어 의문사 작용역을 나타내는 운율 단서: 경북 방언을 중심으로 (A prosodic cue representing scopes of wh-phrases in Korean: Focusing on North Gyeongsang Korean)

  • 윤원희;김기태;박선우
    • 말소리와 음성과학
    • /
    • 제12권3호
    • /
    • pp.41-53
    • /
    • 2020
  • 내포절의 의문사 어구는 모문의 작용역일 경우 의문사 섬 제약을 위배하게 되는 통사 구조를 갖게 된다. 그러나 의문사 억양으로 발화될 경우 이러한 제약을 벗어날 수 있는 것으로 알려져 있다. 동남 방언의 경우 모문의 의문문 종결 어미에 따라 모문의 작용역을 갖는 의문문으로 발화되어 고 평탄조나 저 평탄조의 운율 특징을 갖으며, 내포문의 작용역을 갖는 문장의 억양과 다른 패턴을 보인다. 모문의 작용역 문장 발화에서 고 평탄조의 의문사 억양일 경우, 내포문 보문소의 F0가 내포문 작용역에서의 동일 요소보다 높고, 저 평탄조일 경우 의문사의 F0 정점이 내포문 작용역에서보다 높음과 동시에 모문 동사의 F0 정점은 낮은 것으로 보고되었다. 이 연구에서는 이전 연구에서 주장한 운율 특징이 경북 방언에서도 동일하게 작동하는지 살펴보고, 모문의 작용역일 경우 의문사 억양의 종류에 따라 두 가지 운율 단서를 분리하여 내포문 작용역 문장과 비교하는 이전 연구와 달리, 의문사 억양의 종류와 관계없이 모문의 작용역인 문장들과 내포문 작용역인 문장들을 구분하는 새로운 하나의 단서를 제시하였다. 고 평탄조나 저 평탄조일 경우라 하더라도 내포문 동사의 F0 정점과 내포문 보문소의 F0 값의 차이는 큰 변화가 없는 반면, 내포문 작용역일 경우 이 값은 큰 차이를 보이게 된다. 또한 모문 동사의 F0 정점과 모문 종결 어미의 F0의 차이도 저 평탄조와 고 평탄조에서 사이에 큰 차이가 나타나지 않으나 내포문 작용역의 문장 발화에서는 그 값이 크게 나타난다. 결과적으로 작용역에 따른 운율 특징의 차이는 내포 동사와 모문 동사에서 F0 정점과, 내포 동사와 함께하는 보문소, 그리고 모문 동사와 연결된 종결 어미의 F0 값의 차이로 일관되게 설명할 수 있다.

신문 기사의 언어 사용 양상: 코퍼스언어학적 접근 (Aspects of Language Use in Newspaper Articles: A Corpus Linguistic Perspective)

  • 송경화;강범모
    • 인지과학
    • /
    • 제17권4호
    • /
    • pp.255-269
    • /
    • 2006
  • 본 연구는 신문 기사에 대한 실증적 언어 분석을 목적으로 한다. <21세기 세종계획>에 의해 구축된 대용량의 신문 기사 말뭉치를 형태, 어절, 절, 문장 등의 단위로 계량화하여 분석하였다. 신문 기사를 표제, 전문, 본문의 세 구성 성분으로 나누고 표제의 표시성과 압축성의 실현 양상, 전문과 표제의 연관성, 본문의 문장 구조와 일반명사 구성 비율 등을 살펴보았다. 이 연구를 통하여 기존의 비계량적 연구 방법들과 차별화 된 실증적 연구로서 신문 이론을 검증하고, 신문 기사의 새로운 언어 현상을 발견할 수 있었다. 신문 기사와 같은 텍스트는 인간의 인지적 언어 처리의 결과이며 동시에 인지적 언어 형성에 영향을 미칠 것이다.

  • PDF

도합유사도를 이용한 한국어 문서요약 시스템 (A Korean Text Summarization System Using Aggregate Similarity)

  • 김재훈;김준홍
    • 인지과학
    • /
    • 제12권1_2호
    • /
    • pp.35-42
    • /
    • 2001
  • 본 논문에서 문서는 문서관계도라고 하는 가중치 그래프로 표현된다. 노드는 문서의 구성요소인 문장을 명사벡터로 표현하고, 링크는 노드들 간의 의미적인 관계를 표현하며 의미적 유사도를 가중치로 가지고 있다. 한 노드의 인접한 노드를 사이의 유사도 합을 도합유사도라고 하며, 이를 문서에서 문장의 중요도로 간주한다. 본 논문에서는도합유사도를 이용한 한국어 문서요약 시스템을 기술한다. 실험에 사용된 평가용 요약문서는 정보처리관련 분야에서 수집된 논문 100편과 KORDIC에서 구축한 신문기사 105건을 이용하였다. 문서요약 시스템에 의해서 생상된 요약문서와 크기가 본문의 20%이고 평가용 요약문서가 논문(서론과 결론)일 경우, 재현율과 정확률은 각각 46.6%와 76.9%를 보였으며, 또한 평가용 요약문서가 신문기사일 경우, 재현율과 정확률은 각각 30.5%과 42.3%를 보였다.

  • PDF

트랜스미디어 시대에서 에디큐레이션의 의미에 대한 연구 - 출판 및 만화 콘텐츠를 중심으로 - (Study on the meaning of Edi-curation in Trans-media era - Based on the comic(webtoon) and publishing content -)

  • 박세현
    • 만화애니메이션 연구
    • /
    • 통권44호
    • /
    • pp.235-261
    • /
    • 2016
  • 인터넷 및 디지털 미디어의 환경에서 미디어 수용자는 동일 콘텐츠를 다양한 플랫폼으로 이용하고 있다. 이처럼 여러 장르의 콘텐츠가 디지털 미디어의 기반에서 융합, 조합, 변형, 분화, 복제 등의 과정을 거치면서 새로운 콘텐츠의 형태로 전환되는 것을 트랜스미디어라고 한다. 트랜스미디어 시대에서 성공하는 콘텐츠를 만들기 위해서는 에디큐레이션의 작업이 필요하다. 에디큐레이션은 큐레이터의 큐레이션 작업에 편집과 의미를 부가하는 작업 행위이다. 그런 점에서 이 논문은 트랜스미디어 시대에서 출판 및 만화 콘텐츠의 에디큐레이션에 대한 정의와 의미를 분석했다. 에디큐레이션은 디지털 미디어 환경에서 콘텐츠의 생산자가 곧 소비자며, 소비자가 곧 생산자인 프로컨슈머/프로듀저를 유도하는 역할을 담당하는 프로세스다. 디지털 플랫폼과 디바이스의 다양화, 디지털 1인(혹은 SNS) 미디어의 등장 등은 출판 및 만화 콘텐츠에도 다양한 방식의 에디큐레이션을 요구한다. 미디어 생산자(혹은 수용자)의 의도에 따라 콘텐츠는 복제, 짜깁기, 분해, 해체, 하이퍼텍스트, 압축, 재구성 등의 과정을 거쳐서 새로운 콘텐츠로 탄생한다. 이처럼 에디큐레이션의 작업을 거친 출판 및 만화 콘텐츠는 미디어 생산자의 작업 방식은 물론, 미디어 수용자의 콘텐츠 독법에도 영향을 미친다는 점에서, 트랜스미디어 시대의 에디큐레이션은 중요한 의미를 지닌다. 출판 콘텐츠에서 에디큐레이션 작업은 챕터나 단락의 논리성 파괴, 구어체의 문장, 카드 뉴스의 활용, 동영상 및 미디어 콘텐츠의 변형 등이 있으며, 만화 콘텐츠에서는 칸의 파괴, 말풍선, 의성어, 의태어의 다양한 변형 등을 들 수 있다.

H.264/AVC에서 효율적인 움직임 벡터와 모드 정보의 압축 (Efficient Coding of Motion Vector and Mode Information for H.264/AVC)

  • 이동식;김영모
    • 한국멀티미디어학회논문지
    • /
    • 제11권10호
    • /
    • pp.1359-1365
    • /
    • 2008
  • H.264에서 채택하고 있는 기술들로 인해 H.264의 헤더는 이전 표준안들에 비해 전체 비트 열에서 더 많은 비율을 차지하기 때문에, H.264의 헤더를 압축하기 위한 새로운 기술이 필요하다. H.264에서는 구문요소를 일원화하여 부호화하는데, 부호화할 요소들의 발생 분포를 고려하지 않고 기존의 Exp-Golomb방식을 이용하기 때문에 가변 길이 부호화 관점에서 매우 비효율적이다. 헤더의 대부분을 매크로 블록 타입과 움직임 벡터 차이간이 차지하고 있으며, 본 논문에서 분석한 H.264의 헤더에서의 중복은 다음과 같은 세 가지이다. 매크로 블록 타입에서 자주 발생하는 부호와 그렇지 않는 부호가 있으며, 매크로 블록 모드가 8일 때, 네 개의 서브 매크로 블록 타입들이 모두 전송된다. 그리고 마지막으로 움직임 벡터 차이 값에서 같은 값(특히 '0')들이 발생한다. 본 논문에서는 타입 코드와 쿼드트리를 사용하는 알고리즘을 제안하고 있으며 헤더에서의 반복되는 정보를 이 두 가지 구조들을 가지고 표현한다. 타입 코드는 발생하는 매크로 블록의 모양을 나타내며, 쿼드트리는 움직임 추정 나무 구조를 나타낸다. 실험의 결과에서 제안하는 알고리즘이 JM12.4에 비해 최대 32.51% 비트율 감소를 보여준다.

  • PDF

수술후 자연발생 경추간판탈출에 의한 척수병증: 증례보고 및 문헌고찰 (Acute postoperative myelopathy caused by spontaneous developed cervical disc herniation: Case report & literature review)

  • 이정우;이근형;이주환
    • 한국산학기술학회논문지
    • /
    • 제20권10호
    • /
    • pp.303-308
    • /
    • 2019
  • 65세 남자환자에서 전신마취하 관절경 어깨 수술후 갑자기 발생한 사지 마비 증례를 보고하고자 한다. 환자는 술 후 급격한 사지 마비 증상을 보였으며 마취 관리상 특별한 문제는 없었다. 환자의 수술시 자세와 관련하여 마취 유도시에 기관삽관을 위한 과도한 경추 신전은 시행되지 않았으며 수술중 자세에서도 경추부의 과도한 회전이나 신전 또한 진행되지 않았다. 그러나 수술이 종료된 후 근이완의 완전한 회복과 의식 및 자발호흡은 확인되었으나 사지 마비 증상 및 배뇨장애 증상을 보였다. 신속히 시행한 경추부 자기공명 영상에서 경추간판에 의한 척수 신경 압박 소견 보이는 척추성 경추증 증상을 보였다. 환자는 21일간의 고농도 스테로이드 정주 요법을 포함한 보존적 치료 후에 감각 및 운동신경의 완전한 회복을 보이고 다른 신경학적 이상 소견은 보이지 않은 채로 퇴원하였다. 외상과 관련 없이 사지 마비로 나타나는 수술후 척추성 경추증의 발생은 흔하지 않다. 본 증례를 통해 수술후 발생한 비외상성 척추성 경추증 발생에 대해 타 증례 보고와 비교 분석하여 고찰해 보고자 한다. 임상 의사는 60세 이상의 노년층에서의 수술후 사지 마비에 대해 척추성 경추증의 원인 기여에 대해서도 고려하기를 권고한다.

쇼핑몰 이미지 저작권보호를 위한 영상 워터마킹 (Image Watermarking for Copyright Protection of Images on Shopping Mall)

  • 배경율
    • 지능정보연구
    • /
    • 제19권4호
    • /
    • pp.147-157
    • /
    • 2013
  • 디지털 환경의 도래와 언제 어디서나 접근할 수 있는 고속 네트워크의 도입으로 디지털 콘텐츠의 자유로운 유통과 이용이 가능해졌다. 이러한 환경은 역설적으로 다양한 저작권 침해를 불러 일으키고 있으며, 온라인 쇼핑몰에서 사용하는 상품 이미지의 도용이 빈번하게 발생하고 있다. 인터넷 쇼핑몰에 올라오는 상품 이미지와 관련해서는 저작물성에 대한 시비가 많이 일어나고 있다. 2001년 대법원 판결에 의하면 햄 광고를 위하여 촬영한 사진은 단순히 제품의 모습을 전달하는 사물의 복제에 불과할 뿐 창작적인 표현이 아니라고 적시하였다. 다만 촬영자의 손해액에 대해서는 인정함으로써 광고사진 촬영에 소요되는 통상적인 비용을 손해액으로 산정하게 하였다. 상품 사진 이외의 실내사진이라 하여도 '한정된 공간에서 촬영되어 누가 찍어도 동일한 사진'이 나올 수 밖에 없는 경우에는 창작성을 인정하지 않고 있다. 2003년 서울지방법원의 판례는 쇼핑몰에 사용된 사진에서 피사체의 선정, 구도의 설정, 빛의 방향과 양의 조절, 카메라 각도의 설정, 셔터의 속도, 셔터찬스의 포착 기타 촬영방법, 현상 및 인화 등의 과정에서 촬영자의 개성과 창조성이 인정되면 저작권법에 의하여 보호되는 저작물에 해당한다고 선고하여 손해를 인정하였다. 결국 쇼핑몰 이미지도 저작권법상의 보호를 받기 위해서는 단순한 제품의 상태를 전달하는 것이 아니라 촬영자의 개성과 창조성이 인정될 수 있는 노력이 필요하다는 것이며, 이에 따라 쇼핑몰 이미지를 제작하는 비용이 상승하고 저작권보호의 필요성은 더욱 높아지게 되었다. 온라인 쇼핑몰의 상품 이미지는 풍경사진이나 인물사진과 같은 일반 영상과 달리 매우 독특한 구성을 갖고 있으며, 따라서 일반 영상을 위한 이미지 워터마킹 기술로는 워터마킹 기술의 요구사항을 만족시킬 수 없다. 쇼핑몰에서 주로 사용되는 상품 이미지들은 배경이 흰색이거나 검은색, 또는 계조(gradient)색상으로 이루어져 있어서 워터마크를 삽입할 수 있는 공간으로 활용이 어렵고, 약간의 변화에도 민감하게 느껴지는 영역이다. 본 연구에서는 쇼핑몰에 사용되는 이미지의 특성을 분석하고 이에 적합한 이미지 워터마킹 기술을 제안하였다. 제안된 이미지 워터마킹 기술은 상품 이미지를 작은 블록으로 분할하고, 해당 블록에 대해서 DCT 양자화 처리를 함으로써 워터마크 정보를 삽입할 수 있도록 하였다. 균일한 DCT 계수 양자화 값의 처리는 시각적으로 영상에 블록화 현상을 불러오기 때문에 제안한 알고리즘에서는 블록의 경계 면에 붙어있는 영상 값에 대해서는 양자화 값의 분배를 작게 하고, 경계 면에서 멀리 떨어져있는 영상 값에 대해서는 양자화 값의 분배를 크게 함으로써 영상의 객관적 품질뿐 아니라 시각적으로 느끼는 주관적 품질도 향상 시켰다. 제안한 알고리즘에 의해서 워터마크가 삽입된 쇼핑몰 이미지의 PSNR(Peak Signal to Noise Ratio)은 40.7~48.5[dB]로 매우 우수한 품질을 보였으며, 일반 쇼핑몰 이미지에서 많이 사용되는 JPEG 압축은 QF가 70 이상인 경우에는 BER이 0이 나왔다.