• 제목/요약/키워드: Word segmentation

검색결과 135건 처리시간 0.024초

전화망을 위한 어구 종속 화자 확인 시스템 (Text-dependent Speaker Verification System Over Telephone Lines)

  • 김유진;정재호
    • 대한전자공학회:학술대회논문집
    • /
    • 대한전자공학회 1999년도 추계종합학술대회 논문집
    • /
    • pp.663-667
    • /
    • 1999
  • In this paper, we review the conventional speaker verification algorithm and present the text-dependent speaker verification system for application over telephone lines and its result of experiments. We apply blind-segmentation algorithm which segments speech into sub-word unit without linguistic information to the speaker verification system for training speaker model effectively with limited enrollment data. And the World-mode] that is created from PBW DB for score normalization is used. The experiments are presented in implemented system using database, which were constructed to simulate field test, and are shown 3.3% EER.

  • PDF

다구간 등분할법과 퍼지추론을 이용한 단어인식 (Word Recognition Using Multi-section Equi-segmentation and Fuzzy Inference)

  • 최승호;최갑석
    • 한국음향학회지
    • /
    • 제12권4호
    • /
    • pp.47-56
    • /
    • 1993
  • 본 논문은 다구간 등분할법과 퍼지추론으로 단어인식을 행하는 패턴매칭법을 제안한다. 패턴매칭시 발생되는 시간변동은 발성순서에 따라 등간격으로 다구간 분할함으로써 해결하고, 주파수변동은 구간의 차수별로 정해진 퍼지관계로부터 패턴간의 퍼지추론이 행해짐으로써 흡수한다. 추론에 사용된 삼각형 맴버쉽 함수의 중심값과 변동폭은 패턴의 평균값과 분산값으로 대응되도록 작성한다. 20대 남성 2인이 발성한 데이터를 사용하여, 제안된 방법으로 DDD지역명 28개를 구간수와 변동폭을 달리하여 인식실험한 결과, 8구간과 4배의 변동폭을 가질 때 92%의 인식을 얻었다.

  • PDF

5~6세 아동의 철자표상이 말소리분절 과제 수행에 미치는 영향 (Effects of the Orthographic Representation on Speech Sound Segmentation in Children Aged 5-6 Years)

  • 맹현수;하지완
    • 디지털융복합연구
    • /
    • 제14권6호
    • /
    • pp.499-511
    • /
    • 2016
  • 음운인식은 구어의 기본 단위인 말소리를 지각하고 조작하는 능력으로, 이것은 이후 문자습득에 영향을 주는 것으로 알려져 있다. 그러나 몇몇 연구에서는 문자의 기본 단위인 철자에 대한 지식이 반대로 음운인식에 영향을 준다고 주장한다. 본 연구에서는 5, 6세 아동을 대상으로 철자표상 과제와 말소리분절 과제를 실시한 후, 두 과제 수행력 간 상관관계, 철자표상 상위집단과 하위집단 간 말소리분절 과제의 정반응 점수, 그리고 오류유형을 비교 분석하였다. 그 결과 철자표상 과제와 말소리분절 과제 수행력은 자소-음소 일치 단어에서는 양의 상관, 불일치 단어에서는 음의 상관을 보였다. 자소-음소 일치 단어의 경우 두 집단 간 말소리분절 수행력에 차이가 없었지만, 자소-음소 불일치 단어의 경우 하위집단이 상위집단보다 말소리분절 수행력이 유의하게 좋았다. 두 집단 모두에서 가장 많이 나타난 오류는 철자화 오류였고, 이러한 경향은 상위집단에서 두드러졌다. 본 연구는 철자를 배우기 시작한 직후부터는 아동들이 말소리분절 과제 수행에 철자지식을 활용하고 있음을 시사한다.

호텔예식 서비스품질과 만족간의 관계 및 구전의도의 조절효과 연구 (Research of the Relationship between the Hotel Wedding Service Qualities and Customer Satisfaction, and the Word-of-Mouth Intention as a Moderating Variable)

  • 송영석;김연선
    • 한국콘텐츠학회논문지
    • /
    • 제12권7호
    • /
    • pp.406-414
    • /
    • 2012
  • 호텔예식 서비스품질이 고객만족에 미치는 인과관계 및 호텔예식 서비스품질에 대한 구전의도의 영향관계를 실증분석하여 이에 따른 경쟁력있는 호텔예식 마케팅 전략 방안을 모색하고자 한다. 이에 특급호텔예식 참석고객을 대상으로 서울지역 특급호텔 12곳에 각 30부씩 배부하여 회수된 335부 중에서 불성실한 20부를 제외하고 315부를 실증분석에 이용하였다. 본 연구결과를 통해서 다음과 같은 결론을 제시할 수 있다. 첫째, 호텔예식 서비스품질은 고객만족에 유의한 영향을 미치며 둘째, 호텔예식 구전의도는 호텔예식 서비스품질과 고객만족과의 관계에서 중요한 조절 역할을 미치는 것으로 나타났다. 향후 본 연구의 결과와 한계점을 충분히 고려하여 표본의 세분화와 예식서비스 상품과 관련하여 지속적인 연구가 진행되어야 할 것이다.

문서 영상 내 테이블 영역에서의 단어 추출 (Word Extraction from Table Regions in Document Images)

  • 정창부;김수형
    • 정보처리학회논문지B
    • /
    • 제12B권4호
    • /
    • pp.369-378
    • /
    • 2005
  • 문서 영상은 문서 구조 분석을 통하여 텍스트, 그림, 테이블 등의 세부 영역으로 분할 및 분류되는데, 테이블 영역에 있는 단어는 다른 영역의 단어보다 의미가 있기 때문에 주제어 검색과 같은 응용 분야에서 중요한 역할을 한다. 본 논문에서는 문서 영상의 테이블 영역에 존재하는 문자 성분을 단어단위로 추출하는 방법을 제안한다. 테이블 영역에서의 단어 추출은 실질적으로 테이블을 구성하는 셀 영역에서 단어를 추출하는 것이기 때문에 정확한 셀 추출 과정이 필요하다. 셀 추출은 연결 요소를 분석하여 테이블 프레임을 찾아내고, 교차점 검출은 전체가 아닌 테이블 프레임에 대해서만 수행한다. 잘못 검출된 교차점은 이웃하는 교차점과의 관계를 이용하여 수정하고, 최종 교차점 정보를 이용하여 셀을 추출한다. 추출된 셀 내부에 있는 텍스트 영역은 셀 추출 과정에서 분석한 문자성분의 연결 요소 정보를 재사용하여 결정하고, 결정된 텍스트 영역은 투영 프로파일을 분석하여 문자연로 분리된다. 마지막으로 분리된 문자열에 대하여 갭 군집화와 특수 기호 검출을 수행함으로써 단어 분리를 수행한다. 제안 방법의 성능 평가를 위하여 한글 논문 영상으로부터 추출한 총 In개의 테이블 영상에 대해 실험한 결과, $99.16\%$의 단어 추출 성공률을 얻을 수 있었다.

Hot Keyword Extraction of Sci-tech Periodicals Based on the Improved BERT Model

  • Liu, Bing;Lv, Zhijun;Zhu, Nan;Chang, Dongyu;Lu, Mengxin
    • KSII Transactions on Internet and Information Systems (TIIS)
    • /
    • 제16권6호
    • /
    • pp.1800-1817
    • /
    • 2022
  • With the development of the economy and the improvement of living standards, the hot issues in the subject area have become the main research direction, and the mining of the hot issues in the subject currently has problems such as a large amount of data and a complex algorithm structure. Therefore, in response to this problem, this study proposes a method for extracting hot keywords in scientific journals based on the improved BERT model.It can also provide reference for researchers,and the research method improves the overall similarity measure of the ensemble,introducing compound keyword word density, combining word segmentation, word sense set distance, and density clustering to construct an improved BERT framework, establish a composite keyword heat analysis model based on I-BERT framework.Taking the 14420 articles published in 21 kinds of social science management periodicals collected by CNKI(China National Knowledge Infrastructure) in 2017-2019 as the experimental data, the superiority of the proposed method is verified by the data of word spacing, class spacing, extraction accuracy and recall of hot keywords. In the experimental process of this research, it can be found that the method proposed in this paper has a higher accuracy than other methods in extracting hot keywords, which can ensure the timeliness and accuracy of scientific journals in capturing hot topics in the discipline, and finally pass Use information technology to master popular key words.

쇼핑정보원 활용에 따른 해외여행자 시장세분화 및 세분시장 특성 연구 (Tourism Market Segmentation Based on Shopping Information Sources)

  • 전양진
    • 한국의상디자인학회지
    • /
    • 제19권2호
    • /
    • pp.117-128
    • /
    • 2017
  • This study confirmed the types of shopping information sources during travel abroad, and developed a profile of tourists in terms of demographics, travel, and shopping behavior. Shopping information sources and characteristics of shopping products were identified first. Thereafter, travelers were segmented by their information-seeking behavior. An online survey method was used to get data from Korean vacationers in their 20s-50s, while factor analysis, cluster analysis, ${\chi}^2$ test and ANOVA were applied to analyze data. The results were as follows. First, the shopping information sources of overseas tourists were composed of four factors including sources from travel agents/media, information from travel books and local sources, and word-of-mouth sources. Also, four factors in product types and four product attributes were identified. Second, tourists were clustered into two groups, active and passive shopping information seekers, based on shopping source behavior. Third, two groups differed in terms of demographics, showing an older age and higher income for active shopping source seekers. Active shopping information users tended to join package trips with family members, and they were more satisfied with the trip. With regard to shopping, active shopping source seekers spent more money for shopping and preferred all kinds of shopping goods with an emphasis on travel shopping. In conclusion, shopping information sources seemed to be a meaningful tool for segmenting tourists. Rich, older, family tourists would be an major target market for local retailers.

  • PDF

자소 클래스 인식에 의한 off-line 필기체 한글 문자 분할 (Consonant-Vowel Classification Based Segmentation Technique for Handwritten Off-Line Hangul)

  • 황순자;김문현
    • 한국정보처리학회논문지
    • /
    • 제3권4호
    • /
    • pp.1002-1013
    • /
    • 1996
  • 문자 분할은 필기체 문서 서식의 자동 인식 과정에서 중요한 부분이다. 본 연구는 off-line 필기체 한글로부터 문자를 분할하기 위한 방법을 제안한다. 제안한 방법은 한글의 구조적 특성에 기반을 두고 있다. 먼저 투영에 의하여 입력 단어로 부터 분할 을 위한 특징과 연결 화소, 획을 추출한다. 두 번째 단계에서 획의 모양과 위치, 획과 획과의 관계를 이용하여 한글의 기본 자소 클래스 영역을 찾는다. 세 번째 단계는 분할 과정으로 WRC(While Run Column)다음에 초성이나 수평 모음이 오는 경우 이 WRC에서 수직으로 분할하며, 분할된 세그먼트의 길이가 임계값 이상아면 자소 클래 스와 문자의 칼럼에 대한 특징을 이용하여 예상 분할 영역을 찾고, 이 영역에 있는 획을 따라 요철 형태로 분할한다.

  • PDF

동적 프로그래밍을 이용한 OCR에서의 띄어쓰기 교정 (Using Dynamic Programming for Word Segmentation in OCR)

  • 박호민;김창현;노경목;천민아;김재훈
    • 한국어정보학회:학술대회논문집
    • /
    • 한국어정보학회 2016년도 제28회 한글및한국어정보처리학술대회
    • /
    • pp.243-245
    • /
    • 2016
  • 광학 문자 인식(OCR)을 통해 문서의 글자를 인식할 때 띄어쓰기 오류가 발생한다. 본 논문에서는 이를 해결하기 위해 OCR의 후처리 과정으로 동적 프로그래밍을 이용한 분절(Segmentation) 방식의 띄어쓰기 오류 교정 시스템을 제안한다. 제안하는 시스템의 띄어쓰기 오류 교정 과정은 다음과 같다. 첫째, 띄어쓰기 오류가 있다고 분류된 어절 내의 공백을 모두 제거한다. 둘째, 공백이 제거된 문자열을 동적 프로그래밍을 이용한 분절로 입력 문자열에 대하여 가능한 모든 띄어쓰기 후보들을 찾는다. 셋째, 뉴스 기사 말뭉치와 그 말뭉치에 기반을 둔 띄어쓰기 확률 모델을 참조하여 각 후보의 띄어쓰기 확률을 계산한다. 마지막으로 띄어쓰기 후보들 중 확률이 가장 높은 후보를 교정 결과로 제시한다. 본 논문에서 제안하는 시스템을 이용하여 OCR의 띄어쓰기 오류를 해결할 수 있었다. 향후 띄어쓰기 오류 교정에 필요한 언어 규칙 등을 시스템에 추가한 띄어쓰기 교정시스템을 통하여 OCR의 최종적인 인식률을 향상에 대해 연구할 예정이다.

  • PDF

모바일 수화 인식 시스템의 개선에 관한 연구 (Betterment of Mobile Sign Language Recognition System)

  • 박광현
    • 전자공학회논문지SC
    • /
    • 제43권4호
    • /
    • pp.1-10
    • /
    • 2006
  • 본 논문에서는 수화를 의사소통 수단으로 사용하는 청각 장애인이 일반인과 일상 대화를 할 수 있도록 도와주는 모바일 수화 인식 시스템을 다룬다. 개발된 시스템은 모자에 부착된 카메라와 손목에 착용한 가속도 센서를 통해 사용자의 수화 동작을 관찰하는데, 모바일 환경에서 실제 적용할 수 있도록 조명 변화에 둔감하고 실시간 처리가 가능하도록 개발하였다. 이를 위해 조명 변화에 강인한 손 영역 분할 방법을 제안하고 추출된 손 영역 정보를 히든 마르코프 모델의 입력으로 사용하여 연속적인 수화에 대해 99.07%의 단어 정확도를 얻었다.