• 제목/요약/키워드: 유사 키워드

검색결과 311건 처리시간 0.031초

KFREB: 생성형 한국어 대규모 언어 모델의 검색 기반 생성 평가 데이터셋 (KFREB: Korean Fictional Retrieval-based Evaluation Benchmark for Generative Large Language Models)

  • 이정섭;손준영;이태민;박찬준;강명훈;박정배;임희석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 2023년도 제35회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.9-13
    • /
    • 2023
  • 본 논문에서는 대규모 언어모델의 검색 기반 답변 생성능력을 평가하는 새로운 한국어 벤치마크, KFREB(Korean Fictional Retrieval Evaluation Benchmark)를 제안한다. KFREB는 모델이 사전학습 되지 않은 허구의 정보를 바탕으로 검색 기반 답변 생성 능력을 평가함으로써, 기존의 대규모 언어모델이 사전학습에서 보았던 사실을 반영하여 생성하는 답변이 실제 검색 기반 답변 시스템에서의 능력을 제대로 평가할 수 없다는 문제를 해결하고자 한다. 제안된 KFREB는 검색기반 대규모 언어모델의 실제 서비스 케이스를 고려하여 장문 문서, 두 개의 정답을 포함한 골드 문서, 한 개의 골드 문서와 유사 방해 문서 키워드 유무, 그리고 문서 간 상호 참조를 요구하는 상호참조 멀티홉 리즈닝 경우 등에 대한 평가 케이스를 제공하며, 이를 통해 대규모 언어모델의 적절한 선택과 실제 서비스 활용에 대한 인사이트를 제공할 수 있을 것이다.

  • PDF

ICLAL: 인 컨텍스트 러닝 기반 오디오-언어 멀티 모달 딥러닝 모델 (ICLAL: In-Context Learning-Based Audio-Language Multi-Modal Deep Learning Models)

  • 박준영;여진영 ;이고은 ;최창환;최상일
    • 한국정보처리학회:학술대회논문집
    • /
    • 한국정보처리학회 2023년도 추계학술발표대회
    • /
    • pp.514-517
    • /
    • 2023
  • 본 연구는 인 컨택스트 러닝 (In-Context Learning)을 오디오-언어 작업에 적용하기 위한 멀티모달 (Multi-Modal) 딥러닝 모델을 다룬다. 해당 모델을 통해 학습 단계에서 오디오와 텍스트의 소통 가능한 형태의 표현 (Representation)을 학습하고 여러가지 오디오-텍스트 작업을 수행할 수 있는 멀티모달 딥러닝 모델을 개발하는 것이 본 연구의 목적이다. 모델은 오디오 인코더와 언어 인코더가 연결된 구조를 가지고 있으며, 언어 모델은 6.7B, 30B 의 파라미터 수를 가진 자동회귀 (Autoregressive) 대형 언어 모델 (Large Language Model)을 사용한다 오디오 인코더는 자기지도학습 (Self-Supervised Learning)을 기반으로 사전학습 된 오디오 특징 추출 모델이다. 언어모델이 상대적으로 대용량이기 언어모델의 파라미터를 고정하고 오디오 인코더의 파라미터만 업데이트하는 프로즌 (Frozen) 방법으로 학습한다. 학습을 위한 과제는 음성인식 (Automatic Speech Recognition)과 요약 (Abstractive Summarization) 이다. 학습을 마친 후 질의응답 (Question Answering) 작업으로 테스트를 진행했다. 그 결과, 정답 문장을 생성하기 위해서는 추가적인 학습이 필요한 것으로 보였으나, 음성인식으로 사전학습 한 모델의 경우 정답과 유사한 키워드를 사용하는 문법적으로 올바른 문장을 생성함을 확인했다.

인터넷 게시판 질문 분류를 위한 인터랙티브 접근방법에 관한 연구 (An Interactive Approach to Categorize Questions on the Internet BBSs)

  • Jae-Kwang Lee;Seong-Ho Noh;Ok-Hyun Ryou
    • 한국전자거래학회지
    • /
    • 제8권3호
    • /
    • pp.177-195
    • /
    • 2003
  • 전통적인 고객지원방법에서는 콜 센터와 서비스 센터가 고객의 질문과 요구 사항을 접수하고 응대하는 기능을 담당해왔다. 최근 인터넷의 급속한 확산에 따라 전화, 우편, 방문 등의 전통적인 고객과의 의사소통수단이 전자우편과 인터넷 게시판과 같은 웹기반의 고객지원시스템으로 전환되고 있다. 인터넷 게시판은 기본적으로 고객의 질문에 관리자가 응답하는 시스템이므로 고객이 응답을 받는데 시간이 걸리는 제약이 있다. 이러한 시간적 제약을 해결하기 위하여 고객이 인터넷을 통하여 고객지원시스템에 접속하여 미리 구축된 지식 데이터베이스로부터 원격에서 질문에 대한 응답을 받을 수 있도록 공통적인 질문과 응답을 FAQ와 같은 형태를 제공한다. 그리고, 인터넷 게시판에 다양한 내용과 형태의 질문이 혼재되어 사용됨으로써 응답과 관리상의 어려움이 많다. 따라서 질문들을 체계적으로 분류하여 FAQ를 만들고, 인터넷 게시판의 관리작업을 지원하기 위한 도구의 필요성이 대두되고 있다. 본 연구에서는 키워드와 키워드들간의 친밀도를 이용하여 벡터형태로 표현한 질문들간의 유사 도를 계산하여 질문들을 클러스터링 하는 방법을 제안한다. 제안한 방법은 기본적으로 자동으로 질문들을 분류하지만, 내용이 애매모호한 질문의 경우 사용자가 상호작용을 통하여 사용자의 판단을 받아들일 수 있도록 개발되었다. 그리고, 제안한 방법의 성능을 평가하기 위하여 프로토타입 시스템을 개발하고 제한된 상황하에서 실험을 수행하였다.

  • PDF

허밍 질의 처리 시스템의 성능 향상을 위한 효율적인 빈번 멜로디 인덱싱 방법 (An Efficient Frequent Melody Indexing Method to Improve Performance of Query-By-Humming System)

  • 유진희;박상현
    • 한국정보과학회논문지:데이타베이스
    • /
    • 제34권4호
    • /
    • pp.283-303
    • /
    • 2007
  • 최근 방대한 양의 음악데이타를 효율적으로 저장하고 검색하기 위한 방법의 필요성이 증대되고 있다. 현재 음악 데이타 검색에서 가장 일반적으로 쓰이는 방법은 텍스트 기반의 검색 방법이다. 그러나 이러한 방법은 사용자가 키워드를 기억하지 못할 경우 검색이 어려울 뿐만 아니라 키워드와 정확하게 일치하는 정보만 검색해 주기 때문에 유사한 내용을 가진 정보를 검색하기에 부적절하다. 이러한 문제점을 해결하기 위해 본 논문에서는 내용 기반 인덱싱 방법(Content-Based Indexing Method)을 사용하여 사용자가 부정확한 멜로디(Humming)로 질의하였을 경우라도 원하는 음악을 효율적으로 찾아주는 허밍 질의처리 시스템(Query-By-Humming System)을 설계한다. 이를 위해 방대한 음악 데이타베이스에서 한 음악을 대표하는 의미 있는 멜로디를 추출하여 인덱싱하는 방법을 제안한다. 본 논문에서는 이러한 의미 있는 멜로디를 사용자가 자주 질의할 가능성이 높은 멜로디로서 하나의 음악에서 여러 번 나타나는 반면 멜로디와 긴 쉼표 후에 시작되는 쉼표 단위 멜로디로 정의한다. 실험을 통해 사용자들이 이들 멜로디를 자주 질의한다는 가정을 증명하였다. 본 논문은 성능 향상을 위한 3가지 방법을 제안한다. 첫 번째는 검색속도를 높이기 위해 인덱스에 저장할 멜로디를 문자열 형태로 변환한다. 이때 사용되는 문자 변환 방법은 허밍에 포함된 에러를 허용한 방법으로써 검색 결과의 정확도를 높일 수 있다. 두 번째는 사용자가 자주 질의할 가능성이 높은 의미 있는 멜로디를 인덱싱 하여 검색 속도를 높이고자 한다. 이를 위해 신뢰도가 높은 의미 있는 멜로디를 생성하는 빈번 멜로디 추출 알고리즘과 쉼표 단위 멜로디 추출 방법을 제안한다. 세 번째로는 정확도를 향상시키기 위한 3단계 검색 방법을 제안한다. 이는 데이타베이스 접근을 최소화하여 정확한 검색 결과를 얻기 위하여 제안되었다. 또한 기존 허밍 질의 처리 시스템의 대표적인 인덱싱 방법으로 제안되었던 N-gram 방법과의 성능 비교를 통해 본 논문이 제안하는 방법의 성능이 보다 더 향상되었음을 검증하였다.

검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델 (A Term Cluster Query Expansion Model Based on Classification Information of Retrieval Documents)

  • 강현수;강현규;박세영;이용석
    • 한국정보과학회 언어공학연구회:학술대회논문집(한글 및 한국어 정보처리)
    • /
    • 한국정보과학회언어공학연구회 1999년도 제11회 한글 및 한국어 정보처리 학술대회
    • /
    • pp.7-12
    • /
    • 1999
  • 정보 검색 시스템은 사용자 질의의 키워드들과 문서들의 유사성(similarity)을 기준으로 관련 문서들을 순서화하여 사용자에게 제공한다. 그렇지만 인터넷 검색에 사용되는 질의는 일반적으로 짧기 때문에 보다 유용한 질의를 만들고자 하는 노력이 지금까지 계속되고 있다. 그러나 키워드에 포함된 정보가 제한적이기 때문에 이에 대한 보완책으로 사용자의 적합성 피드백을 이용하는 방법을 널리 사용하고 있다. 본 논문에서는 일반적인 적합성 피드백의 가장 큰 단점인 빈번한 사용자 참여는 지양하고, 시스템에 기반한 적합성 피드백에서 배제한 사용자 참여를 유도하는 검색 문서의 분류 정보에 기반한 용어 클러스터 질의 확장 모델(Term Cluster Query Expansion Model)을 제안한다. 이 방법은 검색 시스템에 의해 검색된 상위 n개의 문서에 대하여 분류기를 이용하여 각각의 문서에 분류 정보를 부여하고, 문서에 부여된 분류 정보를 이용하여 분류 정보의 수(m)만큼으로 문서들을 그룹을 짓는다. 적합성 피드백 알고리즘을 이용하여 m개의 그룹으로부터 각각의 용어 클러스터(Term Cluster)를 생성한다. 이 클러스터가 사용자에게 문서 대신에 피드백의 자료로 제공된다. 실험 결과, 적합성 알고리즘 중 Rocchio방법을 이용할 때 초기 질의보다 나은 성능을 보였지만, 다른 연구에서 보여준 성능 향상은 나타내지 못했다. 그 이유는 분류기의 오류와 문서의 특성상 한 영역으로 규정짓기 어려운 문서가 존재하기 때문이다. 그러나 검색하고자 하는 사용자의 관심 분야나 찾고자 하는 성향이 다르더라도 시스템에 종속되지 않고 유연하게 대처하며 검색 성능(retrieval effectiveness)을 향상시킬 수 있다.사용되고 있어 적응에 문제점을 가지기도 하였다. 본 연구에서는 그 동안 계속되어 온 한글과 한잔의 사용에 관한 논쟁을 언어심리학적인 연구 방법을 통해 조사하였다. 즉, 글을 읽는 속도, 글의 의미를 얼마나 정확하게 이해했는지, 어느 것이 더 기억에 오래 남는지를 측정하여 어느 쪽의 입장이 옮은 지를 판단하는 것이다. 실험 결과는 문장을 읽는 시간에서는 한글 전용문인 경우에 월등히 빨랐다. 그러나. 내용에 대한 기억 검사에서는 국한 혼용 조건에서 더 우수하였다. 반면에, 이해력 검사에서는 천장 효과(Ceiling effect)로 두 조건간에 차이가 없었다. 따라서, 본 실험 결과에 따르면, 글의 읽기 속도가 중요한 문서에서는 한글 전용이 좋은 반면에 글의 내용 기억이 강조되는 경우에는 한자를 혼용하는 것이 더 효율적이다.이 높은 활성을 보였다. 7. 이상을 종합하여 볼 때 고구마 끝순에는 페놀화합물이 다량 함유되어 있어 높은 항산화 활성을 가지며, 아질산염소거능 및 ACE저해활성과 같은 생리적 효과도 높아 기능성 채소로 이용하기에 충분한 가치가 있다고 판단된다.등의 관련 질환의 예방, 치료용 의약품 개발과 기능성 식품에 효과적으로 이용될 수 있음을 시사한다.tall fescue 23%, Kentucky bluegrass 6%, perennial ryegrass 8%) 및 white clover 23%를 유지하였다. 이상의 결과를 종합할 때, 초종과 파종비율에 따른 혼파초지의 건물수량과 사료가치의 차이를 확인할 수 있었으며, 레드 클로버 + 혼파 초지가 건물수량과 사료가치를 높이는데 효과적이었다.\ell}$ 이었으며 , yeast extract 첨가(添加)하여 배양시(培養時)는 yeast extract

  • PDF

텍스트 마이닝을 활용한 미국 노년 소비자와 애완용 로봇 간 상호작용에 대한 분석: Joy For All Companion Pets에 대한 아마존 리뷰를 중심으로 (Text-Mining Analysis on the Interaction between the American Consumers Aged over 60 and Companion Pets Robots: Focused on Amazon Reviews for Joy For All Companion Pets)

  • 정예은;이유림;정재은
    • 디지털융복합연구
    • /
    • 제19권10호
    • /
    • pp.469-489
    • /
    • 2021
  • 본 연구는 정서 지원 애완용 로봇에 대한 소비자의 담론을 살펴보고 키워드를 통해 해당 제품에 대한 노년 소비자의 반응을 파악하고자 아마존 사이트 내 하즈브로(Hasbro)의 Companion Pets 제품 사용에 대한 미국 소비자들의 리뷰를 수집하고, R을 이용하여 단어 빈도분석, 토픽모델링 LDA 분석을 실시하였다. 첫째, 키워드 빈도분석 결과 애완용 로봇의 형태가 실제 동물과 유사한지에 대한 관심이 높은 것으로 나타났다. 둘째, 토픽모델링 결과 5개의 토픽으로 인지, 감정, 행동적 반응이 도출되었으며 이는 긍정 및 부정으로 크게 분류되었다. 셋째, 소비자와 애완용 로봇의 상호작용에 영향을 미치는 사용자, 제품 및 환경적 특성이 확인되었다. 애완용 로봇은 반려동물을 키우기 어려운 사람들이 이를 대체하기 위하여 사용하고, 인지적 어려움이 있는 노년 소비자와 신체적 어려움이 있는 소비자가 이를 이용하는 것으로 나타났다. 본 연구는 코로나19와 같은 팬데믹 상황에서 정서 지원 기능을 수행하는 애완용 로봇에 대하여 이해하고, 소비자의 효용을 극대화하는 서비스를 제공하는데 도움을 줄 것으로 기대한다.

셀슈머(Sell-sumer)로 진화한 인플루언서의 새로운 유형과 소셜미디어에서의 세일즈 전략 (Sell-sumer: The New Typology of Influencers and Sales Strategy in Social Media)

  • 신하진;김수림;홍만의;황봄님;양희동
    • 지식경영연구
    • /
    • 제22권4호
    • /
    • pp.217-235
    • /
    • 2021
  • 전 세계 인구의 49%가 소셜미디어 플랫폼을 사용하면서 소셜미디어 내에서의 소통과 콘텐츠 공유가 그 어느때보다 활발해지고 있다. 이러한 환경 속에서 1인미디어 시장이 빠른 속도로 성장하고 여론을 형성하면서 셀슈머(Sell-summer)라는 새로운 트렌드가 등장했다. 본 연구는 인플루언서의 상업적/비상업적 키워드의 주제 집중도와 상업적 포스팅의 비율이 매출에 미치는 영향 분석하여 제품 카테고리별 인플루언서의 새로운 유형을 정의하였다. 이는 소셜미디어 내에서 활동하는 인플루언서가 셀슈머로 변모하며 구사하는 새로운 세일즈 전략에 도움이 될 것으로 희망한다. 본 연구의 방법은 파이썬 환경에서 인플루언서의 상업적/비상업적 포스팅으로 분류하고, 이를 KoNLPy를 이용하여 텍스트 마이닝 한 후 FastText 기반 단어 간의 유사도를 계산하였다. 그 결과, 인플루언서의 상업적 포스팅의 키워드 주제 집중도가 높을수록(narrow) 매출이 높아진다는 것을 확인하였다. 또한, 군집분석을 통해 제품 카테고리별 인플루언서 유형을 4가지로 분류하고 매출에 따른 집단 간의 차이가 유의함을 확인하였다. 즉, 본 연구의 시사점은 소셜미디어에서 활동하는 인플루언서들과 이를 마케팅 도구로 활용하고자 하는 마케터들에게 소셜미디어 세일즈 전략의 실증적인 해법을 제시할 수 있을 것이다.

텍스트 마이닝과 빅카인즈를 활용한 노인장기요양기관 부당청구 동향 분석 (Trend Analysis of Fraudulent Claims by Long Term Care Institutions for the Elderly using Text Mining and BIGKinds)

  • 윤기혁
    • 사물인터넷융복합논문지
    • /
    • 제8권2호
    • /
    • pp.13-24
    • /
    • 2022
  • 본 연구는 우리나라에서 매년 증가하고 있는 노인장기요양기관의 부당청구 맥락과 부당청구 예방을 위한 대책들이 어떠한지를 탐색하기 위해서 언론기사를 활용한 텍스트 마이닝 분석을 실시하였다. 기사는 뉴스 빅테이터 분석 시스템인 빅카인즈에서 수집하였고, 수집기간은 노인장기요양보험이 시행된 2008년 7월부터 2022년 2월 28일까지로 약 15년간이다. 이 기간 동안 '노인요양+부당청구', '장기요양+부당청구', 등의 키워드로 총 2,627개의 기사가 수집되었고, 이중 중복된 기사를 제외한 총 946개가 선정되었다. 본 연구의 텍스트마이닝 분석결과로 첫째, 모든 구간(2008.7.1-2022.2.28)에서 가장 높은 빈도로 언급된 상위 10위 키워드는 노인장기요양기관, 부당청구, 국민건강보험공단, 노인장기요양보험, 장기요양급여(비용), 노인요양시설, 보건복지부, 노인, 신고, 포상금(지급)의 순으로 나타났다. 둘째, N-gram 분석결과 장기요양급여(비용)과 부당청구, 부당청구와 노인장기요양기관, 허위와 부당청구, 신고와 포상금(지급), 노인장기요양기관과 신고 등의 순으로 나타났다. 셋째, TF-IDF 분석은 빈도분석의 결과와 유사하게 나타났지만, 신고, 포상금(지급), 증가 등은 순위가 상승하였다. 상기 분석결과를 바탕으로 노인장기요양기관 부당청구 예방을 위한 방향성을 제시하였다.

내용기반 이미지 검색에 있어 이미지 속성정보를 활용한 검색 효율성 향상 (A Study on Increasing the Efficiency of Image Search Using Image Attribute in the area of content-Based Image Retrieval)

  • 모영일;이철규
    • 한국시뮬레이션학회논문지
    • /
    • 제18권2호
    • /
    • pp.39-48
    • /
    • 2009
  • 본 연구는 내용 기반 이미지 검색 관련한 기존의 이미지 검색 방식에 관한 고찰을 통하여 이미지 검색의 한계점을 살펴보고, 보다 효율적인 내용기반의 이미지 검색을 위한 사용자용 인터페이스와 이미지 속성 활용 방법에 대하여 제안 하고자 한다. 현재 이미지 검색에 관련된 대부분의 연구들은 내용기반을 위주로 연구가 진행되고 있으며, 대표적으로는 이미지의 색상, 질감, 모양, 전체적인 이미지 형태를 기준으로 검색을 시도하고 있다. 하지만 여러 가지 기술적 한계로 인하여 만족할 만한 검색결과를 얻지 못하고 있다. 이에 본 연구에서는 내용기반 이미지 검색과 종래의 키워드 검색 방식을 적용한 새로운 검색방식을 제안하였다. 이는 이미지 내에 텍스트로 속성을 부여하는 방법과, 이미지 내의 속성정보들을 키워드화 하여 검색에 활용함으로써 이미지를 빠르게 검색하는 방법에 대한 것이다. 또한 인터넷상에서의 질의어 생성을 위한 사용자 인터페이스용 시뮬레이션과 이미지 속성을 기반으로 한 검색 시스템개발 시 활용할 수 있는 분야로 인터넷 쇼핑몰의 의류상품 검색을 중심으로 설명 하였다. 본 연구로 인해 인터넷 쇼핑몰에서 새로운 구매유형이 추가될 수 있고, 유사 이미지 검색 분야의 발전에 기여할 것이다.

AI를 활용한 메타데이터 추출 및 웹서비스용 메타데이터 고도화 연구 (Metadata extraction using AI and advanced metadata research for web services)

  • 박성환
    • 문화기술의 융합
    • /
    • 제10권2호
    • /
    • pp.499-503
    • /
    • 2024
  • 방송 프로그램은 자체 방송 송출 외에도 인터넷 다시 보기, OTT, IPTV 서비스 등 다양한 매체에 제공되고 있다. 이 경우 콘텐츠 특성을 잘 나타내는 검색용 키워드 제공은 필수적이다. 방송사에서는 제작 단계, 아카이브 단계 등에서 주요 키워드를 수동으로 입력하는 방법을 주로 사용한다. 이 방식은 양적으로는 핵심 메타데이터 확보에 부족하고, 내용 면에서도 타 매체 서비스에서 콘텐츠 추천과 검색에 한계를 드러낸다. 본 연구는 EBS에서 개발한 DTV 자막방송 서버를 통해 사전 아카이빙 된 폐쇄형 자막 데이터를 활용하여 다수의 메타데이터를 확보하는 방법을 구현했다. 먼저 구글의 자연어 처리 AI 기술을 적용하여 핵심 메타데이터를 자동으로 추출하였다. 다음 단계는 핵심 연구 내용으로 우선순위와 콘텐츠 특성을 반영하여 핵심 메타데이터를 찾는 방법을 제안한다. 차별화된 메타데이터 가중치를 구하는 기술로는 TF-IDF 계산법을 응용하여 중요도를 분류했다. 실험 결과 성공적인 가중치 데이터를 얻었다. 이 연구로 확보한 문자열 메타데이터는 추후 문자열 유사도 측정 연구와 결합하면 타 매체에 제공하는 콘텐츠 서비스에서 정교한 콘텐츠 추천용 메타데이터를 확보하는 기반이 된다.