DPO: Reward Model없이 사람선호를 학습할 수 있을까?| NeurIPS 2023 | 이승현 Published 2024-05-17 Download video MP4 360p Download video MP4 720p Recommendations 21:49 LLAMA2: 오픈소스 위한 LLM 레시피 - Pre-training | Meta 2023 | 김보섭 41:53 [Paper Review] Investment Strategy using Interpretable Deep Reinforcement Attention Networks 46:34 교육실습 연구수업 40:14 LLM 학습 데이터가 고갈될까? | ArXiv 2022 | 이인규 37:12 PR-453: Direct Preference Optimization 1:01:36 Fine-Grained Human Feedback으로 LLM을 더 잘 학습 할 수 있는가? | NeurIPS 2023 | 김강민 46:03 LLM 역사를 함께 거꾸로 읽어보시죠 ! | 강재욱 21:33 [TW-TechReview-005] LLM 평가지표 ㅣ 한승규 38:43 인공지능, 딥러닝을 알고싶다면 이 영상을 보세요 (보이저엑스 남세동 대표) [인공지능 시리즈 1/3] 06:30 이 영상 하나면 '인공지능', '머신러닝', '딥러닝' 이해가 됩니다ㅣ서울대 AI박사 6분 개념정리 36:49 LLAMA2: 오픈소스 위한 LLM 레시피 - Fine-Tuning | Meta 2023 | 김보섭 37:26 PR-476: A General Theoretical Paradigm to Understand Learning from Human Preferences (IPO) 1:01:57 무궁무진한 AI 어디까지 알고 있니? f. 한빛미디어 박태웅 의장 [심층 인터뷰] 3:21:57 Houdini Algorithmic Live #111 - Field-based Anisotropic Remeshing 07:25 구글, 페이스북 출신 개발자가 코딩 반대하는 이유 41:12 논문 리뷰 시스템을 AI가 대체할 수 있을까? | Antropic 2022 | 조원익 09:47 공부를 꼭 해야 할까? | 공부에 관한 뇌과학 33:56 😎ChatGPT 핵심기술 RLHF 코드리뷰 feat ChatLLaMA😎 16:55 자연어 처리 트랜스포머 1강(Embedding, Positional Encoding) 1:19:02 [Open DMQA Seminar] RLHF-Preference-based Reinforcement Learning