• 제목/요약/키워드: 단어길이

검색결과 147건 처리시간 0.021초

`사실오도$\cdot$잘못된 정보`가 오해 부른다 - 농약, 수많은 인공물질중 독성시험 선도하는 안전물질 독성은 그것의 '유무 아닌 강약'에 대한 비교

  • 복전수부
    • 농약정보
    • /
    • 제20권5호통권152호
    • /
    • pp.24-27
    • /
    • 1999
  • 필자는 대략 30년 전부터 전국 각지의 각종 단체에 초대되어 $\ulcorner$농약$\lrcorner$에 관하여 여러 가지 이야기를 해오면서 다양한 질문에 답하고 비판도 받았다. 그리고 너무나도 무책임한 때로는 의분(義憤)을 금할 길이 없을 정도의 정보누적에 의해 $\ulcorner$농약$\lrcorner$이라는 단어가 사람의 건강에서 자연생태계에 이르기까지 $\ulcorner$위험한 물질$\lrcorner$의 대명사가 되어 가는 것을 가슴아프게 생각해 왔다. 이는 분명 전문가가 아닌 어설픈 지식을 가지고 진보적 지식인인 양 하는 사람들과 너무나도 일방적인, 때로는 감정적인 보도자세에 의한 것이라 여겨진다. 어쨌든 쉽게 농약을 의심하는 풍조가 있지만 그로 인하여 간과 할 지도 모른다는 사실이 심히 염려스럽다. 이같은 사례와 함께 농약의 올바른 모습을 2회에 걸쳐 정리해 보고자 한다.

  • PDF

가중치를 이용한 효과적인 항공 단문 군집 방법 (DOCST: Document frequency Oriented Clustering for Short Texts)

  • 김주영;이지민;안순홍;이훈석
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2018년도 춘계학술발표대회
    • /
    • pp.331-334
    • /
    • 2018
  • 비정형 데이터의 대표적인 형태 중 하나인 텍스트 데이터 기계학습은 다양한 산업군에서 활용되고 있다. NOTAM 은 하루에 수 천개씩 생성되는 항공전문으로써 현재는 사람의 수작업으로 분석하고 있다. 기계학습을 통해 업무 효율성을 기대할 수 있는 반면, 축약어가 혼재된 단문이라는 데이터의 특성상 일반적인 분석에 어려움이 있다. 본 연구에서는, 데이터의 크기가 크지 않고, 축약어가 혼재되어 있으며, 문장의 길이가 매우 짧은 문서들을 군집화하는 방법을 제안한다. 주제를 기준으로 문서를 분류하는 LDA 와, 단어를 k 차원의 벡터공간에 표현하는 Word2Vec 를 활용하여 잡음이 포함된 단문 데이터에서도 효율적으로 문서를 군집화 할 수 있다.

오픈 도메인 질의응답을 위한 질문-구절의 밀집 벡터 표현 연구 (A Study on the Dense Vector Representation of Query-Passage for Open Domain Question Answering)

  • 정민지;이새벽;김영준;허철훈;이충희
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2022년도 제34회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.115-121
    • /
    • 2022
  • 질문에 답하기 위해 관련 구절을 검색하는 기술은 오픈 도메인 질의응답의 검색 단계를 위해 필요하다. 전통적인 방법은 정보 검색 기법인 빈도-역문서 빈도(TF-IDF) 기반으로 희소한 벡터 표현을 활용하여 구절을 검색한다. 하지만 희소 벡터 표현은 벡터 길이가 길 뿐만 아니라, 질문에 나오지 않는 단어나 토큰을 검색하지 못한다는 취약점을 가진다. 밀집 벡터 표현 연구는 이러한 취약점을 개선하고 있으며 대부분의 연구가 영어 데이터셋을 학습한 것이다. 따라서, 본 연구는 한국어 데이터셋을 학습한 밀집 벡터 표현을 연구하고 여러 가지 부정 샘플(negative sample) 추출 방법을 도입하여 전이 학습한 모델 성능을 비교 분석한다. 또한, 대화 응답 선택 태스크에서 밀집 검색에 활용한 순위 재지정 상호작용 레이어를 추가한 실험을 진행하고 비교 분석한다. 밀집 벡터 표현 모델을 학습하는 것이 도전적인 과제인만큼 향후에도 다양한 시도가 필요할 것으로 보인다.

  • PDF

SVM을 이용한 디렉토리 기반 기술정보 문서 자동 분류시스템 설계 (Design of Automatic Document Classifier for IT documents based on SVM)

  • 강윤희;박용범
    • 전기전자학회논문지
    • /
    • 제8권2호
    • /
    • pp.186-194
    • /
    • 2004
  • 인터넷 상의 정보가 급증하여 필요한 정보를 찾고 관련된 정보를 조직화하는데 많은 시간이 소요된다. 따라서 정보접근 부하를 줄일 수 있는 자동적인 문서 분류의 중요성과 필요성이 증가하고 있다. 본 논문에서는 웹 문서의 자동 분류 시스템의 설계와 구현을 기술한다. 디렉터리 내의 학습 문서 집합을 기반으로 구성된 대표 단어 집합을 이용하여 문서 분류 모델을 학습하기 위해 SVM을 사용하였다. 본 시스템에서는 정보통신 웹 디렉터리 내의 문서로부터 추출된 단어 집합을 기반으로 SVM을 학습 시킨 후 신규 문서에 대해 문서 분류를 수행한다. 또한 TFiDF를 기반으로 특성을 표현하기 위해 벡터공간 모델을 사용하였고 학습 데이터는 가중치를 갖는 특성 집합으로 표현되어진 긍정 및 부정 집합으로 구성하였다. 실험에서는 문서분류의 결과 및 벡터길이의 관련성을 보인다.

  • PDF

새로운 시간축 정규화 방법을 이용한 한국어 고립단어 인식기 (Korean isolated word recognizer using new time alignment method of speech signal)

  • 남명우;박규홍;노승용
    • 대한전자공학회논문지SP
    • /
    • 제38권5호
    • /
    • pp.567-575
    • /
    • 2001
  • 본 논문에서는 음성신호의 발성길이와 상관없이 일정한 크기의 파라미터를 얻을 수 있는 새로운 방법을 제안하였다. 음성인식기의 성능은 음성신호에서 추출된 파라미터간의 유사도(패턴간의 거리)를 어떻게 비교하는지에 따라 결정된다. 그러나 화자에 따른 음성신호의 변이나 발성속도의 차이는 음성신호에서 일정한 크기의 파라미터 추출을 어렵게 한다. 제안한 방법은 음성신호에서 얻어진 파라미터를 스펙토그램의 형태로 표현한 뒤 2차원 DCT(Discrete Cosine Transform)를 이용해 일정한 크기의 파라미터로 정규화시키는 방법이다. 제안한 방법의 유효성을 입증하기 위해 청각세포를 모델링한 32개의 대역통과 필터로부터 얻어진 음성신호의 파라미터를 2차원 DCT 방법으로 가공한 후, 신경 회로망의 입력으로 사용하였다. 또한 기존 방법과의 인식률 비교를 위해 기존의 정규화된 입력을 구하는 방법 중 하나를 선택하여 비교 실험을 수행하였다. 실험결과 제안한 방법은 기존 방법에 비해 화자종속 및 화자독립 고립단어 인식에서 더 높은 인식률과 빠른 인식속도를 얻을 수 있었다.

  • PDF

반도체 광스위치 모듈의 제작 및 특성연구 (Fabrication of semiconductor optical switch module using laser welding technique)

  • 강승구
    • 한국광학회지
    • /
    • 제10권1호
    • /
    • pp.73-79
    • /
    • 1999
  • 1$\times$2, 1$\times$4 및 4$\times$4 LD-gate형 반도체 광스위치 모듈을 제작하였다. 스위치 소자와 광섬유와의 광결합을 위해서 테이퍼드 광섬유를 어레어로 제작하여 사용하였으며 30핀 버터플라이형 패키지로 완성하였다. 광 부푼 정렬 및 고정에서는 레이저 용접법 및 햄머링 공정을 이용하여 최초의 광정렬 값에서 평균 82%까지 복원하였다. 완성된 모듈에 대한 평가를 위해 전송 실험을 수행하였는데 1$\times$2 스위치 모듈이 삽입되었을 때 223-1의 단어길이를 갖는2.5Gbps 광신호에 대해서 전송패널티가 약0.5dB~2dB로 나타났으며, 광섬유의 분산특성에 의하여 발생하는 전송 패널티에 대해서는 50km 및 90km 광섬유에 대해서 각각 0.6dB 및 0.7dB의 작은 패널티가 발생하였다. 1$\times$4 및 4$\times$4 스위치 모듈을 이용한 전송특성 평가에서도 모두 -30dB 이하의 수신감도를 갖는 우수한 결과를 보였다.

  • PDF

복잡도를 개선한 Digital Down Converter 시스템 (Digital Down Converter System improving the computational complexity)

  • 문기탁;홍무현;이정석;김경석
    • 한국인터넷방송통신학회논문지
    • /
    • 제10권3호
    • /
    • pp.11-17
    • /
    • 2010
  • 다중 규격, 다중 대역, 다중 서비스 시스템간의 유연한 인터페이스를 보장하기 위한 SDR(Software Defined Radio)기술의 구현을 위해서는 안정성 및 저전력, 저연산량의 DDC(Digital Down Conversion)기술이 필수적이다. DDC 기술은 디지털 채널 필터로 이루어진다. 이 때 일반적인 디지털 필터는 유한어장으로 인하여 오버플로우나 반올림 오차에 취약한 단점이 있다. 이에 본 논문에서는 이러한 단점을 보완하는 DDC 구조를 제안하였다. 그 방법으로 WDF(Wave Digital Filter)를 이용한 구조는 그 구조상 반올림 오차에 의한 잡음에 강하다. 따라서 필터계수의 단어길이가 짧을 경우 유용하게 사용된다. 또한 IIR기반의 필터이기 때문에 FIR기반의 필터보다 탭수가 줄어들므로 연산량이 줄어든다. 제안한 DDC구조에 사용된 CIC(Cascaded Integrator Comb) 필터, WDF, IFOP(Interpolated Fourth-Order Polynomials)에 대하여 분석하였으며, 모의실험을 통하여 결과를 확인하였다.

자율 학습을 이용한 선형 정렬 말뭉치 구축 (Construction of Linearly Aliened Corpus Using Unsupervised Learning)

  • 이공주;김재훈
    • 정보처리학회논문지B
    • /
    • 제11B권3호
    • /
    • pp.387-394
    • /
    • 2004
  • 본 논문에서는 자을 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축하는 방법을 제안한다. 기존의 자율 선형 정렬 알고리즘을 이용하여 선형 정렬 말뭉치를 구축할 경우, 두 문자열의 길이가 서로 다르면 정렬된 두 문자열(입력열과 출력열)에 모두 공백문자가 나타난다. 이 방법을 그대로 사용하면 정렬 말뭉치의 구축은 용이하나 정렬된 말뭉치를 이용하는 응용 시스템에서는 탐색 공간이 기하급수적으로 늘어날 뿐 아니라 구축된 정렬 말뭉치는 다양한 기계학습 방법에 두루 사용될 수 없다는 문제가 있다. 본 논문에서는 이들 문제를 최소화하기 위해서 입력열에는 공백문자가 나타나지 않도록 기존의 자을 선형 정렬 알고리즘을 수정하였다. 이 알고리즘을 이용해서 한영 음차 표기 및 복원, 영어 단어의 발음 생성, 영어 발음의 단어 생성, 한국어 형태소 분리 및 복원을 위한 정렬 말뭉치를 구축하였으며, 간단한 실험을 통해, 그들의 실용성을 입증해 보였다.

이독성을 통한 초등학교 5, 6학년 영어 교과서 읽기 지문의 연계성 분석 (Analysis of the Continuity of Reading Passages in the 5th and 6th Grade Elementary School English Textbooks Based on Readability)

  • 장한결;이제영
    • 한국콘텐츠학회논문지
    • /
    • 제22권6호
    • /
    • pp.116-124
    • /
    • 2022
  • 본 연구의 목적은 초등학교 5, 6학년 영어 교과서에 수록된 읽기 지문의 이독성을 분석하여 학년 간 수직적 연계성과 출판사 간 수평적 연계성을 살펴보는 것이다. 이를 위해 10종의 교과서에 수록된 읽기 지문을 코퍼스로 구축한 후, Coh-Metrix를 통해 각 교과서에 수록된 읽기 지문의 이독성을 분석하였다. 또한 일원배치 분산분석을 통해 산출된 이독성에 학년 간, 출판사 간에 통계적으로 유의한 수준의 차이가 있는지 살펴보았다. 이를 통해 얻어진 결과는 다음과 같다. 첫째, 동일 학년 내 읽기 지문의 출판사간 난이도 차이를 분석하여 수평적 연계성을 살펴본 결과 RDL2 지수에서 5학년 교과서간에 유의한 차이가 있었다. 둘째, 출판사 내에서의 학년 간 수직적 연계성을 분석한 결과 FRE와 FKGL 기준으로 교과서 A의 난이도가 5학년에 비해 6학년에서 높았으며, 이는 통계적으로 유의한 수준의 차이였다. 반면 RDL2를 기준으로 했을 경우 교과서 B의 난이도가 5학년에 비해 6학년에서 더 낮아지는 결과를 보았다. 이러한 결과는 FRE와 FKGL은 문장 길이와 단어 길이 중심으로 이독성을 산출하는 반면, RDL2는 내용어 중복, 단어 빈도 수, 문장의 통사적 유사성 등을 기초로 하고 있기 때문으로 보인다.

문서 확장을 이용한 표제어 검색시스템 (Headword Finding System Using Document Expansion)

  • 김재훈;김형철
    • 정보관리연구
    • /
    • 제42권4호
    • /
    • pp.137-154
    • /
    • 2011
  • 표제어 검색시스템은 뜻풀이를 질의로 간주하는 정보검색 시스템이다. 이러한 시스템을 구축하기 위한 가장 간단한 방법으로 사전의 표제어 뜻풀이(사전 뜻풀이)를 문서로 간주하는 정보검색 시스템을 구축하는 것이다. 이 문서의 길이가 너무 짧아 사용자 질의(사용자 뜻풀이)에 대한 적절한 표제어를 검색하기 어렵다. 이 문제를 완화하기 위해서 본 논문에서는 정보검색에서 사용되는 질의 확장 개념을 문서 확장에 적용한다. 본 논문에서는 문서 확장 방법으로는 뜻풀이 확장과 유의어 확장을 사용한다. 뜻풀이 확장은 주어진 단어의 사전 뜻풀이에 속하는 단어의 뜻풀이를 문서에 포함시키는 방법이고, 유의어 확장은 무자질 군집화 알고리즘을 통해서 유의어를 찾고, 찾아진 유의어를 문서에 포함시키는 방법이다. 제안된 표제어 검색시스템은 사전 뜻풀이 그 자체를 입력으로 할 때, 16-포함률이 거의 100%에 달하였다. 또한 사용자 뜻풀이를 입력으로 할 때, 20-포함률이 66.9%였다. 사용자 뜻풀이가 단어의 의미를 충분히 전달할 수 없는 것으로 관찰되었으며 앞으로 정확하고 객관적인 평가를 위해서 평가 집합에 대한 연구가 추가적으로 필요한 실정이다.