• 제목/요약/키워드: 문장 압축

검색결과 27건 처리시간 0.023초

키워드 가중치 기반 문단 추출 알고리즘 (Keyword Weight based Paragraph Extraction Algorithm)

  • 이종원;주상웅;이현주;정회경
    • 한국정보통신학회:학술대회논문집
    • /
    • 한국정보통신학회 2017년도 추계학술대회
    • /
    • pp.504-505
    • /
    • 2017
  • 기존의 형태소 분석기는 문서 내에 사용된 단어들을 분류한다. 이를 기반으로 문장과 문단을 추출하는 시스템이 개발되고 있으나 해당 문서를 압축하여 주요 문단을 추출하는 시스템은 매우 미흡한 실정이다. 본 논문에서 제안하는 알고리즘은 문서 내에 사용된 키워드들의 가중치를 계산하고 키워드를 포함한 문단들을 추출한다. 이는 해당 문서를 모두 읽지 않고 키워드가 포함된 문단들을 읽음으로써 문서를 이해하는 시간을 줄일 수 있다. 또한 검색에 사용된 키워드의 개수에 따라 추출되는 문단의 수가 다름으로 사용자는 기존 시스템에 비해 다양한 패턴의 검색이 가능하다.

  • PDF

양방향 LSTM을 적용한 단어의미 중의성 해소 감정분석 (Emotion Analysis Using a Bidirectional LSTM for Word Sense Disambiguation)

  • 기호연;신경식
    • 한국빅데이터학회지
    • /
    • 제5권1호
    • /
    • pp.197-208
    • /
    • 2020
  • 어휘적 중의성이란 동음이의어, 다의어와 같이 단어를 2개 이상의 의미로 해석할 수 있는 경우를 의미하며, 감정을 나타내는 어휘에서도 어휘적 중의성을 띄는 경우가 다수 존재한다. 이러한 어휘들은 인간의 심리를 투영한다는 점에서 구체적이고, 풍부한 맥락을 전달하는 특징이 있다. 본 연구에서는 양방향 LSTM을 적용하여 중의성을 해소한 감정 분류 모델을 제안한다. 주변 문맥의 정보를 충분히 반영한다면, 어휘적 중의성 문제를 해결하고, 문장이 나타내려는 감정을 하나로 압축할 수 있다는 가정을 기반으로 한다. 양방향 LSTM은 문맥 정보를 필요로 하는 자연어 처리 연구 분야에서 자주 활용되는 알고리즘으로 본 연구에서도 문맥을 학습하기 위해 활용하고자 한다. GloVe 임베딩을 본 연구 모델의 임베딩 층으로 사용했으며, LSTM, RNN 알고리즘을 적용한 모델과 비교하여 본 연구 모델의 성능을 확인하였다. 이러한 프레임워크는 SNS 사용자들의 감정을 소비 욕구로 연결시킬 수 있는 마케팅 등 다양한 분야에 기여할 수 있을 것이다.

임베디드 리눅스 기반의 사용자 영상인식시스템 구현 (The Implementation of User Image Recognition based on Embedded Linux)

  • 박창희;강진석;고석만;김장형
    • 한국정보통신학회논문지
    • /
    • 제11권2호
    • /
    • pp.239-247
    • /
    • 2007
  • 본 논문에서는 CIS(CMOS Image Sensor)와 GPS 모듈이 장착된 임베디드 시스템에 리눅스를 포팅하여, 리눅스 커널 상에 카메라와 GPS 모듈을 인식시켜 GPS 모듈로부터 GGA(Global positioning system fix data)문장을 획득하고 위치 정보를 CIS로부터 정지영상을 얻을 때 수신되는 위치 정보를 정지영상에 포함하는 것을 목적으로 한다. 임베디드 시스템을 위한 하드웨어를 구성하고 카메라 설치가 가능한 보드를 장착해서 리눅스 부트로더와 커 널을 포팅 한 후 CIS(CMOS Image Sensor) 제어 디바이스 드라이버와 GPS 모듈 디바이스 드라이버를 커널에 작동 가능하게 구현한다. GPS 모듈로부터 현재 위치의 위도와 경도 값을 문자열 형태로 획득하고, CIS로부터 초당 17 프레임의 영상을 획득하여, 한 프레임을 정지 영상으로 저장한다. 정지 영상에 위치 정보를 추가시켜 JPEG 압축을 하고 결과를 얻어 오는 임베디드 영상처리 시스템을 구현하였다.

문서의 감정 분류를 위한 주목 방법 기반의 딥러닝 인코더 (An Attention Method-based Deep Learning Encoder for the Sentiment Classification of Documents)

  • 권순재;김주애;강상우;서정연
    • 정보과학회 컴퓨팅의 실제 논문지
    • /
    • 제23권4호
    • /
    • pp.268-273
    • /
    • 2017
  • 최근 감정 분류 분야에서 딥러닝 인코더 기반의 접근 방법이 활발히 적용되고 있다. 딥러닝 인코더 기반의 접근 방법은 가변 길이 문장을 고정 길이 문서 벡터로 압축하여 표현한다. 하지만 딥러닝 인코더에 흔히 사용되는 구조인 장 단기 기억망(Long Short-Term Memory network) 딥러닝 인코더는 문서가 길어지는 경우, 문서 벡터 표현의 품질이 저하된다고 알려져 있다. 본 논문에서는 효과적인 감정 문서의 분류를 위해, 장 단기 기억망의 출력을 중요도에 따라 가중합하여 문서 벡터 표현을 생성하는 주목방법 기반의 딥러닝 인코더를 사용하는 것을 제안한다. 또한, 주목 방법 기반의 딥러닝 인코더를 문서의 감정 분류 영역에 맞게 수정하는 방법을 제안한다. 제안하는 방법은 윈도우 주목 방법(Window Attention Method)을 적용한 단계와 주목 가중치 재조정(Weight Adjustment) 단계로 구성된다. 윈도우 주목 방법은 한 단어 이상으로 구성된 감정 자질을 효과적으로 인식하기 위해, 윈도우 단위로 가중치를 학습한다. 주목 가중치 재조정에서는 학습된 가중치를 평활화(Smoothing) 한다, 실험 결과, 본 논문에서 제안하는 방법은 정확도 기준으로 89.67%의 성능을 나타내어 장 단기 기억망 인코더보다 높은 성능을 보였다.

트랜스미디어 시대에서 에디큐레이션의 의미에 대한 연구 - 출판 및 만화 콘텐츠를 중심으로 - (Study on the meaning of Edi-curation in Trans-media era - Based on the comic(webtoon) and publishing content -)

  • 박세현
    • 만화애니메이션 연구
    • /
    • 통권44호
    • /
    • pp.235-261
    • /
    • 2016
  • 인터넷 및 디지털 미디어의 환경에서 미디어 수용자는 동일 콘텐츠를 다양한 플랫폼으로 이용하고 있다. 이처럼 여러 장르의 콘텐츠가 디지털 미디어의 기반에서 융합, 조합, 변형, 분화, 복제 등의 과정을 거치면서 새로운 콘텐츠의 형태로 전환되는 것을 트랜스미디어라고 한다. 트랜스미디어 시대에서 성공하는 콘텐츠를 만들기 위해서는 에디큐레이션의 작업이 필요하다. 에디큐레이션은 큐레이터의 큐레이션 작업에 편집과 의미를 부가하는 작업 행위이다. 그런 점에서 이 논문은 트랜스미디어 시대에서 출판 및 만화 콘텐츠의 에디큐레이션에 대한 정의와 의미를 분석했다. 에디큐레이션은 디지털 미디어 환경에서 콘텐츠의 생산자가 곧 소비자며, 소비자가 곧 생산자인 프로컨슈머/프로듀저를 유도하는 역할을 담당하는 프로세스다. 디지털 플랫폼과 디바이스의 다양화, 디지털 1인(혹은 SNS) 미디어의 등장 등은 출판 및 만화 콘텐츠에도 다양한 방식의 에디큐레이션을 요구한다. 미디어 생산자(혹은 수용자)의 의도에 따라 콘텐츠는 복제, 짜깁기, 분해, 해체, 하이퍼텍스트, 압축, 재구성 등의 과정을 거쳐서 새로운 콘텐츠로 탄생한다. 이처럼 에디큐레이션의 작업을 거친 출판 및 만화 콘텐츠는 미디어 생산자의 작업 방식은 물론, 미디어 수용자의 콘텐츠 독법에도 영향을 미친다는 점에서, 트랜스미디어 시대의 에디큐레이션은 중요한 의미를 지닌다. 출판 콘텐츠에서 에디큐레이션 작업은 챕터나 단락의 논리성 파괴, 구어체의 문장, 카드 뉴스의 활용, 동영상 및 미디어 콘텐츠의 변형 등이 있으며, 만화 콘텐츠에서는 칸의 파괴, 말풍선, 의성어, 의태어의 다양한 변형 등을 들 수 있다.

8kbps에 있어서 ACFBD-MPC에 관한 연구 (A Study on ACFBD-MPC in 8kbps)

  • 이시우
    • 한국산학기술학회논문지
    • /
    • 제17권7호
    • /
    • pp.49-53
    • /
    • 2016
  • 최근 무선네트워크의 효율을 높이기 위하여 신호압축 방식의 사용이 증가되고 있다. 특히, MPC 시스템은 비트율을 줄이기 위하여 피치추출 방법과 유성음과 무성음의 음원을 사용하였다. 일반적으로, 유성음원과 무성음원을 사용하는 MPC 시스템에 있어서, 같은 프레임 안에 모음과 무성자음이 있는 경우에 재생 음성파형에 일그러짐이 나타난다. 이것은 대표구간의 멀티펄스를 피치구간마다 복원하는 과정에서 재생 음성파형이 정규화 되는 것이 원인으로 작용한다. 본 논문에서는 재생 음성파형의 일그러짐을 제어하기 위하여 피치구간 마다 멀티펄스의 진폭을 보정하고, 특정 주파수를 이용하는 ACFBD-MPC(Amplitude Compensation Frequency Band Division-Multi Pulse Coding)를 제안하였다. 실험은 남자와 여자음성에서 각각 16개의 문장을 사용하였으며, 음성신호는 10kHz 12bit로 A/D 변환하였다. 또한 8kbps의 부호화 조건에서 ACFBD-MPC 시스템을 구현하고, ACFBD-MPC의 SNR를 평가하였다. 그 결과 ACFBD-MPC의 남자 음성에서 14.2dB, 여자 음성에서 13.6dB 임을 확인할 수 있었으며, ACFBD-MPC가 기존의 MPC에 비하여 남자음성에서 1dB, 여자음성에서 0.9dB 개선되는 것을 알 수 있었다. 이 방법은 셀룰러폰이나 스마트폰과 같이 낮은 비트율의 음원을 사용하여 음성신호를 부호화하는 방식에 활용할 수 있을 것으로 기대된다.

불온한 공감 - 존재의 사유, 너머 - (Sympathy in Unrest: Beyond Jonjae's Philosophy)

  • 김경호
    • 한국철학논집
    • /
    • 제52호
    • /
    • pp.9-35
    • /
    • 2017
  • 이 글은 시대와 불화하고 자신과도 쉽사리 타협하지 못해 격동했던 존재 기대승의 삶과 철학을 '불온함'과 '공감'이라는 두 개념을 중심으로 탐문한다. 전통시대를 살았던 기대승이라는 한 인물의 철학적 삶-정치를 탐문하는 것은 자칫 계몽적인 논조로 경도될 위험성을 내포하는 것도 사실이다. 이 같은 선입견을 배제하면서 기대승을 탐문하기 위해 불안으로부터 비판적 저항을 포괄하는 불온성의 개념을 설정하고, 불온함의 감성적 지평에서 존재의 감정과 행위의 타당성을 판단하는 마음의 작용을 포착하기 위해 공감(sympathy) 개념을 제안한다. 방법론적으로 이 글은 동아시아의 유교 문화적 전통에서 근대 이전 시기에도 통용되어 왔던 '불온성'이라는 개념과 근대적인 '공감' 개념을 결합하여 기대승에 대한 횡단적 독해의 가능성을 제기한다. 기대승의 삶-정치에 대한 횡단적 사유는 그가 살았던 당대적 삶의 지평뿐만 아니라 '지금- 여기'에서 벌어지고 있는 삶-정치의 부각되거나 은폐된 지층들과 그 '사이영역'을 탐색하는데 유의미한 시사점을 제공하기 때문이다. 이 논의는 궁극적으로 '지금-여기'를 반성적으로 성찰하기 위해 전통시대의 기대승을 호출하는 것이다. 이 글은 사태의 발생과 분기를 통해 사건이 구조화되는 과정을 더듬어 물어가면서 그 의미를 감성의 철학적 지평에서 재해석하는 방식을 취한다. 탐문의 여정은 기대승 스스로 사용했던 '구차투안'과 빙월당(氷月堂)'의 근거가 되는 '수월빙호'이라는 두 낱말을 축으로 진행된다. 맑은 물속에 담긴 달과 차디찬 얼음 항아리의 은유는 '구차하게 안일함을 찾는 삶의 태도'와 대비된다는 점에서 기대승이 마주했던 삶의 현실과 지향적 태도를 살펴보는 매개이기도 하다. 감성철학적 층위에서 기대승의 삶-정치를 탐문하는 것은 기존의 연구에서 확인하기 어려웠던 기대승의 사유 너머에 존재하는 감성적 궤적들을 드러내 보인다. 이 글을 통해서 드러난 기대승의 특징은 그가 뜻이 높고 일에 과감하였으며, 선악의 호오가 분명하여 감정 조절에 익숙하지 않았고, 직설적이어서 말을 순화할 줄도 몰랐다는 점이다. 이 같은 불온한 성향으로 인해 기대승은 문장과 학술이 뛰어난 인재였음에도 구시대의 늙은 신료들이나 고위 대신들과 정치적으로 충돌하여 기피의 존재가 되었다. 구차하지 않고 선도(善道)를 지키며 살겠다고 하는 기대승의 의취는 죽음이 임박한 시기에 말했던 기(幾) 세(勢) 사(死) 세 글자로 압축된다.